Ujaran kebencian (hate speech) dan bahasa kasar (abusive language) merupakan suatu tindakan negatif yang seringkali terjadi di lingkungan kita. Terlebih lagi dengan adanya teknologi yang semakin maju dan serba on-line, siapa saja bisa melakukan penyebaran ujaran kebencian maupun bahasa kasar melalui media sosial.
Howdy Sysinfo? Kali ini saya akan berbagi pengalaman hasil dari tugas akhir strata-1 saya pada tahun 2022, namun baru sempat saya put up di tahun 2024, semoga bermanfaat.
Latar Belakang Masalah
Media sosial merupakan sebuah media daring yang digunakan satu sama lain yang para penggunanya bisa dengan mudah berpartisipasi, berkomunikasi, berbagi, dan menciptakan berbagai konten tanpa dibatasi oleh ruang dan waktu. Selain memiliki fungsi yang dapat memudahkan berbagai urusan media sosial juga tidak terlepas dari hal-hal negatif yang dapat mempengaruhi pola pikir dan juga pola hidup si pengguna media sosial. Berdasarkan laporan We Are Social, jumlah pengguna aktif media sosial di Indonesia sebanyak 191 juta orang pada Januari 2022. Jumlah itu telah meningkat 12,35% dibandingkan pada tahun sebelumnya yang sebanyak 170 juta orang.
Melihat trennya, jumlah pengguna media sosial di Indonesia terus meningkat setiap tahunnya. Walau demikian, pertumbuhannya mengalami fluktuasi sejak tahun 2014–2022. Kenaikan jumlah pengguna media sosial tertinggi mencapai 34,2% pada tahun 2017. Hanya saja, kenaikan tersebut melambat hingga sebesar 6,3% pada tahun lalu. Angkanya baru meningkat lagi pada tahun 2022. Adapun, Whatsapp menjadi media sosial yang paling banyak digunakan masyarakat Indonesia. Persentasenya tercatat mencapai 88,7%. Setelahnya ada Instagram dan Fb dengan persentase masing-masing sebesar 84,8% dan 81,3%. Sementara, proporsi pengguna TikTok dan Telegram berturut-turut sebesar 63,1% dan 62,8%.
Ujaran kebencian (hate speech) merupakan perbuatan yang dilakukan oleh individu maupun kelompok dengan tujuan ingin menjatuhkan individu atau kelompok lainnya. Provokasi, fitnah, dan hinaan adalah bentuk dari ujaran kebencian. Ujaran kebencian dalam ruang lingkup sosial media sering terjadi dengan konteks atau aspek ras, warna kulit, jenis kelamin, agama, dan sebagainya (Fauzi & Yuniarti, 2018).
Bahasa kasar (abusive language) sering diungkapkan karena kekesalan, emosi, kecewa, atas sebuah peristiwa yang terjadi dengan individu atau kelompok tertentu. Dalam sosial media bahasa kasar sering di implementasikan pada hal-hal yang tergolong ke dalam konteks SARA (suku, agama, ras, dan antar golongan). Kata-kata kasar dalam bahasa Indonesia biasanya diucapkan atau dituliskan untuk menyerang pihak tertentu, mengungkapkan kekesalan, kekecewaan, atau meluapkan emosi terhadap peristiwa tertentu (Hidayatullah dkk., 2019).
Identifikasi Masalah
Berdasarkan masalah yang terdapat pada latar belakang, maka penulis akan melakukan analisa dan perancangan arsitektur mannequin terhadap metode Logistic Regression dalam mengklasifikasi multilabel ujaran kebencian dan bahasa kasar pada twitter bahasa Indonesia dengan menggunakan teknik Randomized Search CV dan Multioutput Classifier untuk menangani klasifikasi multilabel.
Perumusan Masalah
Rumusan masalah yang akan dibahas dalam penelitian ini yaitu bagaimana cara membangun arsitektur mannequin klasifikasi multilabel ujaran kebencian dan bahasa kasar pada twitter bahasa Indonesia dengan menggunakan algoritma Logistic Regression sebagai classifier, melihat performa dari algortima Logistic Regression dalam mengklasifikasi multilabel menggunakan metode evaluasi mannequin akurasi, serta menggunakan teknik randomized search cv dan multioutput classifier dalam proses mannequin choice dan hyperparameter tuning.
Ruang Lingkup
Ruang lingkup masalah dalam penelitian ini, diantaranya:
- Knowledge yang diproses sebanyak 13169 tweet (Ibrohim & Budi, 2019).
- Label yang diproses yaitu hate speech dan abusive.
- Algoritma klasifikasi yang digunakan adalah Logistic Regression.
- Metode characteristic choice yang digunakan adalah Time period Frequency-Inverse Doc Frequency.
- Output yang dihasilkan dari penelitian ini adalah klasifikasi multilabel ujaran kebencian dan bahasa kasar pada twitter bahasa Indonesia.
Tujuan Penelitian
Beberapa tujuan yang ingin dicapai dalam penelitian ini, diantaranya: