Analisis Sentimen Jaringan Sosial dengan Studi Komparatif tentang Teknik berbasis Ansambel – Survei Literatur

September 1, 2023 Ahmad Haidar

Analisis Sentimen (SA) digunakan secara luas untuk mengekstrak opini, emosi, dan sentimen orang terhadap merek, bisnis, tempat, atau produk tertentu. Berbagai teknik dan pendekatan juga diperkenalkan untuk mengklasifikasikan sentimen seiring meningkatnya permintaan untuk SA. Setelah memeriksa banyak literatur tentang klasifikasi sentimen, kami menyimpulkan bahwa ada lima pendekatan utama dalam SA.

Pertama, pendekatan berbasis leksikon menggunakan daftar yang dihasilkan secara manual atau otomatis dari berbagai istilah dengan polaritas positif, negatif, atau netral. Pendekatan ini menghitung orientasi semantik dari frasa dan kata dalam kalimat dan dokumen untuk mengungkapkan sentimen.

Kedua, pendekatan machine learning sangat populer dalam SA. Banyak peneliti lebih memilih pendekatan ini karena eksekusi yang cepat dan hasil yang dapat diandalkan. Dalam konteks ini, berbagai algoritma seperti Naïve Bayes, K-Neighbors, Linear Regression, dan Support Vector Machine sering digunakan.

Ketiga, pendekatan berbasis graf memilih nodus dan simpul berdasarkan fitur (ulasan dan tweet) yang tersedia dalam bahan masukan. Ada berbagai model berbasis graf yang dapat digunakan, seperti Enterprise Graphs, Hyper-graph, Hashtag Graphs, N-Gram Graph, dan Co-Occurrence Graph.

Keempat, pendekatan ensemble menggabungkan beberapa ‘weak learners’ untuk membentuk ‘powerful learner’. Beberapa algoritma ensemble termasuk Random-Forest, Extra-Tree, Meta-Estimator, Ada-Boost, Gradient-Boosting, Light-GBM, Cat-Boost, dan Extreme Gradient-Boost.

Kelima, pendekatan Hybrid adalah pendekatan yang paling efektif yang memperkaya kemampuan model klasifikasi sentimen dengan mengintegrasikan machine learning dan pendekatan berbasis leksikon atau kombinasi dari beberapa algoritma machine learning. Pendekatan ini merupakan ide baru yang diperkenalkan oleh peneliti untuk membangun model yang lebih kuat dan efektif.

Dalam ringkasan ini, kami membagi semua penelitian sebelumnya menjadi dua bagian: Analisis Sentimen (SA)—yang mempelajari informasi subjektif dalam teks, dan Klasifikasi Sentimen (SC)—yang mengidentifikasi opini dari teks dan memberikan label tertentu kepada mereka.

Pendekatan Berbasis Leksikon

Dalam pendekatan ini, frasa dan opini diterapkan tanpa memerlukan pengetahuan awal mengenai label. Di sini, sekelompok frasa dianggap sebagai leksikon opini yang mencakup kata-kata positif dan negatif. Leksikon opini menentukan orientasi dari istilah yang tersedia dalam kumpulan data teks. Pendekatan berbasis leksikon ini dibagi menjadi dua bagian; Pendekatan Berbasis Kamus—menilai sentimen berdasarkan frasa yang ada dalam leksikon, dan Pendekatan Berbasis Korpus—menggali konteks yang ada dalam teks. Tabel 1 menampilkan daftar penelitian berbasis leksikon dari tahun 2011 hingga 2022.

Pendekatan Berbasis Machine Learning

Machine learning adalah pendekatan yang paling menjanjikan untuk Analisis Sentimen (SA). Umumnya, SA berbasis machine learning memberikan tingkat akurasi yang lebih tinggi dibandingkan dengan pendekatan berbasis leksikon. Metode ini menawarkan berbagai teknik rekayasa fitur yang mengekstrak fitur kritis dari kumpulan data dan meningkatkan efisiensi SA. Berbagai algoritma terarah (supervised) dan tak terarah (unsupervised) tersedia untuk klasifikasi sentimen. Pendekatan terarah bekerja pada kumpulan data yang sudah dilabeli dan menggunakan fungsi pemetaan untuk memetakan label masukan dengan label keluaran. Sebaliknya, pembelajaran tak terarah memahami pola dari data yang belum dilabeli menggunakan kluster. Tabel 2 menunjukkan beberapa penelitian populer yang terkait dengan SA berbasis machine learning dari tahun 2011 hingga 2022.

Pendekatan Berbasis Graf

Pendekatan berbasis graf menghubungkan kata-kata yang saling berhubungan dalam ulasan teks untuk menghitung sentimen dan opini orang. Di sini, verteks dan node sesuai dengan fitur yang tersedia dalam ulasan. Berbagai metode dan algoritma berbasis graf telah diterapkan dalam dekade terakhir untuk menyelesaikan masalah SA. Tabel 3 memvisualisasikan berbagai penelitian yang telah dilakukan di bidang SA menggunakan metode berbasis graf.

Pendekatan Ensemble

Pembelajaran ensemble adalah proses menggabungkan beberapa model pembelajaran secara strategis untuk membentuk model cerdas. Pendekatan ini meningkatkan masalah klasifikasi dengan mengurangi seleksi yang buruk atau tidak tepat. Ensemble memiliki kapabilitas dan pengetahuan dari berbagai model pembelajaran, yang meningkatkan akurasi klasifikasi dan mengurangi kesalahan dalam prediksi. Keputusan berdasarkan pembelajaran yang beragam membuat pembelajaran ensemble lebih akurat dan dapat dipercaya dibandingkan pembelajaran tunggal. Tabel 4 menampilkan pekerjaan penelitian yang telah dilakukan dalam SA menggunakan pendekatan ensemble dari tahun 2011 hingga 2022.

Pendekatan Hybrid

Pendekatan hybrid memanfaatkan kemampuan dari berbagai pendekatan seperti berbasis aturan, berbasis leksikon, pembelajaran mesin, atau berbasis deep learning. Pendekatan ini meningkatkan efisiensi model SA dengan hasil yang optimal. Ini adalah ide yang muncul dalam pikiran peneliti untuk mengembangkan pendekatan terbaik untuk tugas tertentu. Pembelajaran hybrid dikategorikan menjadi pembelajaran semi-supervised, pembelajaran multi-instance, dan pembelajaran self-supervised. Pembelajaran semi-supervised dilatih dengan sedikit label yang sudah ditentukan sebelumnya dan mengklasifikasikan sejumlah besar teks tanpa label. Pembelajaran multi-instance tidak mengandung label individu; sebaliknya, ia menerima tas berlabel, dan setiap tas memiliki berbagai instansi, yang secara eksplisit memperlakukan masalah dengan pengetahuan pelatihan yang tidak lengkap. Pembelajaran self-supervised menghasilkan label sendiri dan memanfaatkan algoritma supervised untuk memecahkan masalah yang unsupervised. Model hybrid menunjukkan peningkatan signifikan dalam klasifikasi dibandingkan dengan metode lain. Tabel 5 menampilkan pekerjaan yang terkait dengan SA hybrid.

Analisis Literatur yang Ekstensif

Bagian ini menyajikan analisis mendalam tentang karya sastra yang telah dilakukan di bidang SA (Sentiment Analysis). Berbagai grafik dan tabel telah digunakan untuk membahas algoritma, set data, pendekatan, dan platform yang paling populer terkait dengan SA. SA telah digunakan dalam berbagai aplikasi kehidupan nyata. Oleh karena itu, peneliti memberikan wawasan lebih dalam ke dalamnya. Karenanya, bagian ini berfokus pada berbagai poin penting yang diperlukan untuk penelitian lebih lanjut di area ini.

1. Pertumbuhan dalam Publikasi SA

Bagian ini menunjukkan pertumbuhan dalam jumlah publikasi mengenai SA (Sentiment Analysis). Seperti yang ditunjukkan pada Gambar 3, jumlah publikasi terkait SA sangat sedikit pada tahun-tahun awal (2010, 2011, dan 2013). Seiring dengan meningkatnya permintaan platform sosial, publikasi yang terkait dengan SA juga mulai bermunculan sejak tahun 2014. Pada tahun 2016, 2017, dan 2019, banyak peneliti telah mengusulkan penelitian yang baik terkait SA menggunakan teknik machine learning, ensemble learning, dan teknik hibrida.

2. Platform Publikasi untuk SA

Terdapat total 92 dokumen dari tahun 2010 hingga 2022. Kami menemukan 48 jurnal berbeda untuk publikasi SA. Publikasi yang sering muncul lebih dari satu kali dalam koleksi kami dilaporkan pada Tabel 6. Berbagai konferensi juga telah dijadwalkan untuk publikasi SA. Jurnal “Elsevier” dan “Springer” adalah dua tempat yang paling umum untuk publikasi SA. Di mana Elsevier, Springer, dan ACM adalah tiga penerbit populer yang dipilih oleh peneliti untuk penelitian SA yang otentik. Selain itu, telah terlihat bahwa beberapa platform terbuka untuk penelitian terkait SA.

3. Kumpulan Data Populer untuk SA

Sebuah kumpulan data acuan memainkan peran penting dalam penelitian yang baik. Gambar 4 menyajikan kumpulan data acuan yang digunakan oleh peneliti untuk SA. Peneliti telah menggunakan beberapa sumber, yaitu ulasan film, ulasan produk, postingan Facebook, dan tweet untuk SA. Telah terlihat dalam grafik bahwa peneliti lebih sering menggunakan ulasan produk untuk eksperimen mereka. Kedua, Twitter memperoleh popularitas lebih di antara peneliti untuk eksperimen terkait SA. Beberapa peneliti juga menghasilkan kumpulan data mereka sendiri untuk klasifikasi sentimen. Sedangkan peneliti juga mempertimbangkan ulasan film, ulasan medis, dan ulasan hotel untuk eksperimen terkait SA.

4. Teknik yang Lebih Disukai untuk SA

Bagian ini memberikan pengetahuan tentang metode yang lebih sering diimplementasikan untuk masalah terkait SA. Selain itu, kami mengeksplorasi teknik yang lebih populer terkait pendekatan berbasis leksikon, berbasis pembelajaran mesin, berbasis ensemble, berbasis graf, dan berbasis hibrida untuk aplikasi SA.

Tabel 7 menampilkan algoritma pembelajaran mesin yang sering digunakan oleh peneliti untuk proses SA, di mana SVM berada di posisi teratas dalam daftar. NB juga digunakan secara konsisten oleh peneliti, tetapi SVM menghasilkan hasil yang paling mencolok untuk klasifikasi sentimen.

Tabel 8 menunjukkan frekuensi teknik berbasis ensemble yang digunakan untuk SA. Teramati bahwa bagging dan boosting adalah teknik yang lebih umum digunakan oleh peneliti untuk pembelajaran sentimen ensemble. Konsep voting mayoritas juga sering diimplementasikan oleh peneliti dalam kombinasi berbagai pembelajar tunggal.

Tabel 9 menyajikan teknik berbasis graf untuk SA. Ada banyak variasi dalam memilih metode berbasis graf untuk SA, tetapi word-graph dan co-occurrence graph digunakan oleh dua peneliti dalam N set=10.

SA hibrida sangat diminati. Jadi, kami juga meninjau berbagai makalah terkait SA hibrida dan mengkategorikan pekerjaan hibrida menjadi lima kategori signifikan yang disajikan dalam Tabel 10. Kami menemukan bahwa dalam sebagian besar pekerjaan hibrida, peneliti menerapkan kombinasi pendekatan leksikon dan pendekatan pembelajaran mesin karena telah diterapkan tujuh kali dalam N set=19. Sedangkan pembelajaran mesin telah digunakan secara individual lima kali, dan kombinasi pembelajaran mesin dan pendekatan berbasis aturan telah digunakan empat kali dalam pekerjaan sebelumnya (N set=19). Kombinasi pembelajaran mesin dengan genetik dan deep learning ditemukan sangat jarang.

Sumber

https://link.springer.com/article/10.1007/s10462-023-10472-w