Classification of South Jakarta Language Sentence Structure (Indonesian-English Code Mixing)
DOI:
https://doi.org/10.59890/ijarss.v3i9.65Keywords:
Code-Mixing, South Jakarta Language, Classification, Support Vector Machine, Random ForestAbstract
Twitter can present a variety of information that makes various users from various parts of the world always update on what is being discussed (tweet). Various information is presented in various ways and delivery, one of which is by using the South Jakarta language style mix which is a code mix that mixes various vocabularies using both Indonesian and English in their conversations so that they are considered current for young people in Indonesia. Based on this phenomenon, sentence classification is made using the Support Vector Machine and Random Forest algorithm methods to classify the types of code mixing, namely alternation, insertion, and congruent lexicalization. Attributes on the data were Tag and Tag + Text. Text weighting is used with unigram, bigram, and trigram. The evaluation of the research used 10-fold cross validation for training data and confusion matrix for test data. The best data test results on Tag data obtained by Support Vector Machine using bigram obtained an accuracy value of 97.33%, while the best data test results on Tag + Text data obtained by Random Forest algorithm using unigram obtained an accuracy value of 92%.
References
Alimin, A. A., & Ramaniyar, E. (2020). Sosiolinguistik dalam Pengajaran Bahasa: Studi Kasus Pendekatan Dwi Bahasa di Sekolah Dasar Kelas Rendah. Putra Prabowo Perkasa.
Alves, D., Thakkar, G., & Tadić, M. (2025). UNER: Universal Named-Entity Recognition Framework. Event Analytics across Languages and Communities, 3-15. https://doi.org/10.1007/978-3-031-64451-1_1
Anugrah, R. R. (2023). Penerapan Cosine Similarity dan Pembobotan Tf-Idf untuk Klasifikasi Pengaduan Masyarakat Berbasis Web (Studi Kasus : Bagwassidik Ditreskrimum Polda Kalbar). Coding: Jurnal Komputer dan Aplikasi, 11(1), 100-109. https://doi.org/10.26418/coding.v11i1.55598
Azmi, U. (2023). Analisis Perbandingan Klasifikasi dan Penerapan Teknik SMOTE Dalam Imbalanced Data Pada Credit Card Default. Jurnal Sains Dan Seni ITS (e-Journal), 12(2), D127-D134. https://doi.org/10.12962/j23373520.v12i2.
Dahniar, A., & Sulistyawati, R. (2023). Analisis Campur Kode Pada Tiktok Podcast Kesel Aje Dan Dampaknya Terhadap Eksistensi Berbahasa Anak Milenial: Kajian Sosiolinguistik. ENGGANG: Jurnal Pendidikan, Bahasa, Sastra, Seni, Dan Budaya, 3(2), 55–65. https://doi.org/10.37304/enggang.v3i2.8988
Fadhilah, P. N., & Indriyanti, A. D. (2023). Analisis Sentimen terhadap Opini Publik Mengenai Childfree dalam Pernikahan pada Twitter Menggunakan K-Nearest Neighbor (K-NN). Journal of Informatics and Computer Science (JINACS), 5(1), 58-62. https://doi.org/10.26740/jinacs.v5n01.p58-62
Ganiadi, M., Asyamsi, M. R., Tamirullah, M., & Sugana, M. T. B. D., (2023). Peran Pendidikan Non Formal terhadap Perkembangan Bahasa Indonesia. Jurnal Ilmu Pendidikan Muhammadiyah Kramat Jati, 4(1), 9–13. https://doi.org/10.55943/jipmukjt.v4i1.45
Girnanfa, F. A., & Susilo, A. (2022). Studi Dramaturgi Pengelolaan Kesan Melalui Twitter Sebagai Sarana Eksistensi Diri Mahasiswa di Jakarta. Journal of New Media and Communication, 1(1), 58–73. https://doi.org/10.55985/jnmc.v1i1.2
Hassanah, I. N, Faisal, S., & Siregar, A. M. (2023). Perbandingan Algoritma Support Vector Machine dengan Decision Tree pada Aplikasi Ruang Guru. Kumpulan Jurnal Ilmu Komputer (KLIK), 10(1), 39-50. https://dx.doi.org/10.20527/klik.v10i1.602
Husin, N. (2023). Komparasi Algoritma Random Forest, Naïve Bayes, dan Bert Untuk Multi-Class Classification Pada Artikel Cable News Network (CNN). Jurnal Esensi Infokom : Jurnal Esensi Sistem Informasi dan Sistem Komputer, 7(1), 75-84. https://doi.org/10.55886/infokom.v7i1.608
Indriyanto, J. (2021). Algoritma K-Nearest Neighbor untuk Prediksi Nasabah Asuransi. Penerbit NEM.
Komputer, W. (2013). The Best Encryption Tools. Elex Media Komputindo.
Melansari, N., B, A. W., Adu, B., & Narni, N. (2022). Code Mixing Used by the Teacher in Teaching English at SMP Negeri 14 Baubau. International Journal of Education, Language, Literature, Arts, Culture, and Social Humanities, 1(1), 14–28. https://doi.org/10.59024/ijellacush.v1i1.22
Mulyani. (2020). Praktik Penelitian Linguistik. Deepublish.
Natalie, C., Mawardi, V. C., & Sitorus, M. D. L. (2023). Optical Character Recognition Menggunakan Uipath dan Pencocokan Data Sertifikat dengan Algoritma Levenshtein Distance. Jurnal Serina Sains, Teknik dan Kedokteran, 1(1), 18-26. https://doi.org/10.24912/jsstk.v1i1.22747
Naufal, M. F., Arifin, T., & Wirjawan, H. (2023). Analisis Perbandingan Tingkat Performa Algoritma SVM, Random Forest, dan Naïve Bayes untuk Klasifikasi Cyberbullying pada Media Sosial. Jurasik (Jurnal Riset Sistem Informasi dan Teknik Informatika), 8(1), 82-90. http://dx.doi.org/10.30645/jurasik.v8i1.544
Perangin-Angin, D. M., Manggala, S. A., Fitriati, A., Putranti, A., Rosiandani, N. L. P., Puri, A. D., & Pukan, E. O. (2023). Menjawab Kebutuhan Pekerja Migran Indonesia Berketerampilan Bahasa Inggris sebagai Bahasa Global. Abdimas Altruis: Jurnal Pengabdian Kepada Masyarakat, 6(1), 37-43. https://doi.org/10.24071/aa.v6i1.5082
Prasasti, W. P. (2020). Tuturan Bahasa Indonesia Masyrakat Etnik Keturunan Arab di Bangil. JURNAL SATWIKA, 4(2), 140-149. https://doi/org/10.22219/SATWIKA.Vol4.No2.140-149
Puspita, I. D., Kasih, B. H., & Wiedaningtyas, R. P. (2022). Fenomena Bahasa Jaksel Terhadap Penggunaan Bahasa Indonesia di Kalangan Pengguna Twitter dan Instagram. Prosiding Seminar Nasional Ilmu Ilmu Sosial (SNIIS), 1, 663-673.
Razaq, M. T., Nurjanah, D., & Nurrahmi, H. (2023). Analisis Sentimen Review Film Menggunakan Naive Bayes Classifier Dengan Fitur TF-IDF. e-Proceeding of Engineering, 10(2), 1698-1712. Retrieved from https://openlibrarypublications.telkomuniversity.ac.id/index.php/engineering/article/view/19997/
Rismayani, W. S., Sihotang, J. I., Aisa, S., Gunawan, H., Tamsir, N., Masturoh, S., Radiyah, U., Gustiana, Z., Harlina, S., Muslihi, M. T. (2023). Data Warehouse dan Data Mining. Yayasan Kita Menulis.
Rofiqi, L., & Akbar, M. (2024). Analisis Sentimen Terkait RUU Perampasan Aset dengan Support Vector Machine. JEKIN-Jurnal Teknik Informatika, 4(3), 529-538. https://doi.org/10.58794/jekin.v4i3.824
Rohman, A. (2021). Prediksi Penyakit Jantung Menggunakan Algoritma C4.5 Berbasis Adaboost. Penerbit Lakeisha.
Sari, S. N., Faisal, M. R., Kartini, D., Budiman, I., Saragih, T. H., & Muliadi, M. (2023). Perbandingan Ekstraksi Fitur dengan Pembobotan Supervised dan Unsupervised pada Algoritma Random Forest untuk Pemantauan Laporan Penderita COVID-19 di Twitter. Jurnal Komputasi, 11(1), 34-42. http://dx.doi.org/10.23960%2Fkomputasi.v11i1.6650
Sarosa, M., Muna, N., Kusumawardani, M., Suyono, A., & Aziz, Y. M., (2022). Pemrograman Python dalam Contoh dan Penerapan. Media Nusa Creative.
Sengar, N., Singh, A., & Yadav, V. (2021). Classification of Documents Using Bidirectional Long Short-Term Memory Recurrent Neural Network. Advances in Intelligent Systems and Computing, 1325, 149-156. https://doi.org/10.1007/978-981-33-6912-2_14
Setiana, E., Marwondo, Daanestiara, V. R., & Wiyanudin (2023). Analisis Sentimen Pelaksanaan Kuliah Online Menggunakan Algoritma Support Vector Machine. Nuansa Informatika, 17(2), 66–70. https://doi.org/10.25134/ilkom.v17i2.11
Setiawan, Y. (2023). Fenomena Penggunaan Bahasa Jaksel (Code-switching Language) dalam Komunikasi Interpersonal Siswa di SMA Negeri 11 Medan. KESKAP: Jurnal Kesejahteraan Sosial, Komunikasi dan Administrasi Publik, 2(1), 24-34. https://doi.org/10.30596/keskap.v2i1.14483
Statista. (2024, April 29). Leading countries based on number of X (formerly Twitter) users as of April 2024. https://www.statista.com/statistics/242606/number-of-active-twitter-users-in-selected-countries/
Sukaesih, D. P. K. E., Khairasyani, I., Listiani, S., Rachmadani, N. O., Sakiinah, A. N., Hanjani, S. S., Ainni., P. N., & Santoso, G. (2023). Sumpah Pemuda Sebagai Persatuan Bangsa Untuk Membangun Negara Yang Berdikari. Jurnal Pendidikan Transformatif, 2(2), 360–370. https://doi.org/10.9000/jpt.v2i2.359
Vindua, R., & Zailani, A. U. (2023). Analisis Sentimen Pemilu Indonesia Tahun 2024 dari Media Sosial Twitter Menggunakan Python. JURIKOM (Jurnal Riset Komputer), 10(2), 479-487. https://doi.org/10.30865/jurikom.v10i2.5945
Werdiningsih, I., Nuqoba, B., & Muhammadun (2020). Data Mining Menggunakan Android, Weka, dan SPSS. Airlangga University Press.
Wibowo, A., & Syahputra, H. (2022). Sistem Deteksi Konten Negatif pada Teks Website Menggunakan Metode Random Forest. Journal of Informatics and Data Science, 1(2). https://doi.org/10.24114/j-ids.v1i2.42737
Wicaksono, B., Nursanti, S., & Utamidewi, W. (2022). Motif dan Makna Penggunaan Bahasa “Jaksel” di Kalangan Mahasiswa Pengguna Bahasa “Jaksel” dalam Kehidupan Sehari-hari. Jurnal Ilmiah Wahana Pendidikan, 8(21), 388-396. https://doi.org/10.5281/zenodo.7275347
Zaqi, A. M., Raihan, M., Mahesa, S. F., & Santoso, G. (2023). Dampak Positif Sumpah Pemuda pada Organisasi Besar di Indonesia. Jurnal Pendidikan Transformatif, 2(2), 194–202. https://doi.org/10.9000/jpt.v2i2.309
Downloads
Published
Issue
Section
License
Copyright (c) 2025 Ari Yoko Saputra, Arif Bijaksana Putra Negara, Hafiz Muhardi

This work is licensed under a Creative Commons Attribution 4.0 International License.
















