Survei tentang metode analisis sentimen, penerapan, dan tantangan – Metodologi
Tiga pendekatan yang paling banyak digunakan untuk Analisis Sentimen meliputi Pendekatan Berbasis Lexicon, Pendekatan Pembelajaran Mesin, dan Pendekatan Hibrid.
Selain itu, para peneliti terus mencoba mencari cara yang lebih baik untuk menyelesaikan tugas dengan akurasi yang lebih baik dan biaya komputasi yang lebih rendah.
Gambaran umum berbagai metode yang digunakan dalam Analisis Sentimen seperti ditunjukkan pada Gambar 4 . Metode Umum tentang tugas Pengumpulan Data, Pemilihan Fitur, dan Analisis Sentimen ditunjukkan pada Gambar. 2 yang memahami keseluruhan skenario tugas analisis sentimen dan alur kerja metode secara keseluruhan.
Gambar 2
Gambar 4
Pendekatan berbasis leksikon
Leksikon adalah kumpulan token di mana setiap token diberi skor yang telah ditentukan sebelumnya yang menunjukkan sifat netral, positif, dan negatif dari teks (Kiritchenko et al. 2014 ). Skor diberikan ke token berdasarkan polaritas seperti + 1, 0, − 1 untuk positif, netral, negatif atau skor dapat diberikan berdasarkan intensitas polaritas dan nilainya berkisar dari [+ 1, − 1] di mana + 1 mewakili sangat positif, dan − 1mewakili sangat negatif.
Dalam Pendekatan Berbasis Lexicon, untuk ulasan atau teks tertentu, dilakukan agregasi skor setiap token, yaitu skor positif, negatif, netral dijumlahkan secara terpisah. Pada tahap akhir, polaritas keseluruhan diberikan pada teks berdasarkan nilai tertinggi dari skor individu. Dengan demikian, dokumen pertama-tama dibagi menjadi token-token kata tunggal, kemudian polaritas setiap token dihitung dan pada akhirnya diagregasi.Teknik berbasis leksikon sangat layak untuk analisis sentimen pada tingkat kalimat dan fitur. Karena tidak diperlukan data pelatihan, teknik ini mungkin disebut teknik tanpa pengawasan.
Di sisi lain, kelemahan utama dari teknik ini adalah ketergantungan domain, karena kata-kata dapat memiliki beberapa arti dan pengertian, dan oleh karena itu kata positif di satu domain mungkin negatif di domain lain. Misalnya, jika ada kata “kecil” dan kalimat “Layar TV terlalu kecil” dan “Kamera ini sangat kecil”, kata “kecil” pada kalimat pertama adalah negatif, karena orang pada umumnya lebih menyukai layar besar, sedangkan pada kalimat pertama kalimat kedua positif, seolah-olah kameranya kecil maka akan mudah dibawa.
Masalah ini dapat diatasi dengan mengembangkan leksikon sentimen khusus domain atau dengan mengadaptasi kosakata yang sudah ada.Keuntungan pendekatan berbasis leksikon adalah tidak memerlukan data pelatihan apa pun dan dianggap sebagai pendekatan tanpa pengawasan oleh beberapa ahli (Yan-Yan et al.
2010 ). Kelemahan utama pendekatan berbasis leksikon adalah pendekatan ini sangat berorientasi pada domain dan kata-kata yang berkaitan dengan satu domain tidak dapat digunakan di domain lain (Moreo et al. 2012).Misalnya, pertimbangkan kata besar yang mungkin positif atau negatif berdasarkan domain penggunaannya. Dalam “antrian untuk menonton film sangat besar” kata tersebut dapat dianggap positif, sedangkan dalam “ada kelambatan yang sangat besar dalam jaringan” kata tersebut dapat dianggap negatif. Oleh karena itu, polaritas harus ditetapkan pada kata-kata dengan hati-hati, dengan mempertimbangkan domainnya. Ada dua pendekatan utama yang digunakan dalam Pendekatan Berbasis Leksikon: Pendekatan Berbasis Korpus dan Pendekatan Statistik yang dijelaskan di bawah ini, Analisis Komparatif Metode Klasifikasi Berbasis Leksikon serta Keuntungan dan Kerugian individualnya ditunjukkan pada Tabel 3 .
Tabel 3 Ringkasan analisis metode klasifikasi berbasis Lexicon serta kelebihan dan kekurangannya
Teknik | Keuntungan | Kerugian |
---|---|---|
Berbasis kamus | Data terlatih tidak diperlukanMemberikan hasil yang baik untuk domain dengan band yang lebih sedikitAkses cepat ke kosakata arti kata | Istilah opini dengan orientasi konten tertentuTidak mampu menemukan istilah opini dengan domain berorientasi konten tertentu yang tidak termasuk dalam leksikon |
Berbasis korpus | Kapasitas untuk mengidentifikasi ekspresi pendapat dengan orientasi konten tertentu. Jika domainnya berbeda, memberikan hasil yang lebih unggul | Karena cakupan leksikon yang luas, kinerjanya bervariasiKesulitan dalam menyediakan teks-teks substansial dan juga mampu mencakup seluruh istilah teks berarti bahwa teks-teks tersebut tidak dapat digunakan secara individual |
Pendekatan berbasis korpus
Pendekatan ini menggunakan pola semantik dan sintaksis untuk memastikan emosi kalimat. Pendekatan ini dimulai dengan serangkaian istilah sentimen dan orientasinya yang telah ditentukan sebelumnya, lalu menyelidiki pola sintaksis atau serupa untuk menemukan token sentimen dan orientasinya dalam korpus besar. Ini adalah metode khusus situasi yang memerlukan sejumlah besar data berlabel untuk dilatih. Namun, ini membantu dalam menyelesaikan masalah kata-kata opini dengan orientasi yang bergantung pada konteks.
Dalam karya Park dan Kim ( 2016 ) menggunakan metode berbasis korpus untuk analisis sentimen. Mereka menggunakan batasan dan penghubung linguistik untuk menemukan sentimen dari sebuah token baru. Misalnya, tanda-tanda di kedua sisi konjungsi korelatif seperti “DAN” cenderung memiliki orientasi yang sama sedangkan kata-kata seperti “ATAU”, tetapi menunjukkan perubahan opini atau tanda-tanda pada orientasi yang berlawanan. Meskipun gagasan ini dikenal sebagai Konsistensi Sentimen, dalam praktiknya, hal ini tidak begitu konsisten.
Jadi, mereka membuat grafik yang berisi token di simpul dan kata terkait di tepinya, setelah itu model log linier digunakan untuk mengidentifikasi apakah dua kata sifat yang digabungkan memiliki orientasi yang sama atau berlawanan dan kemudian dikelompokkan menjadi sekumpulan kata positif atau negatif.
Pendekatan berbasis korpus memiliki jenis pendekatan sebagai berikut: Pendekatan Statistik dan Pendekatan Semantik seperti yang dijelaskan di bawah ini.
Pendekatan Statistik Kata-kata benih opini atau pola kejadian bersama dapat ditemukan dengan menggunakan pendekatan statistik.
Gagasan kasar di balik pendekatan ini adalah jika teks tersebut lebih banyak muncul dalam teks positif daripada teks negatif, maka kemungkinan besar teks tersebut positif atau sebaliknya. Premis utama dari pendekatan ini adalah jika token sentimen serupa sering diamati di lingkungan yang sama, kemungkinan besar token tersebut akan memiliki orientasi yang sama.
Akibatnya, orientasi token baru ditentukan oleh frekuensi kemunculannya bersama token lain yang terdeteksi dalam konteks serupa.
Dalam pendekatan Turney dan Littman ( 2003 ) untuk menghitung informasi timbal balik dapat digunakan untuk menghitung frekuensi kemunculan token secara bersamaan.
Pendekatan statistik banyak digunakan dalam beberapa aplikasi analisis sentimen. Salah satu penerapannya adalah mendeteksi ulasan yang dimanipulasi dengan menjalankan uji statistik keacakan yang dikenal sebagai tes pelatihan.
Dalam karya Hu et al. ( 2012 ) mengharapkan ulasan yang ditulis oleh pelanggan memiliki gaya penulisan acak karena latar belakang pelanggan yang acak.
Mereka menggunakan kumpulan data ulasan buku dari amazon.com untuk mengonfirmasi hasil mereka, namun ditemukan bahwa hampir 10,3 persen produk menjadi sasaran manipulasi ulasan online.
LSA adalah teknik statistik lain untuk menganalisis hubungan antara makalah dan token yang dirujuk dalam dokumen untuk menghasilkan pola penting yang menghubungkan ke dokumen dan frasa.
Dalam karya Cao dkk. ( 2011 ) menggunakan LSA untuk menemukan kualitas semantik dari ulasan untuk menyelidiki pengaruh berbagai fitur. Mereka menggunakan kumpulan data umpan balik pengguna program dari situs web CNETdownload.com.
Tujuan utama mereka adalah untuk mencari tahu mengapa hanya sedikit ulasan yang mendapat penilaian bermanfaat, sementara hanya sedikit ulasan yang mendapat penilaian bermanfaat. Mereka menentukan berbagai faktor yang mungkin memengaruhi pola pemungutan suara yang bermanfaat untuk ulasan.
Pendekatan Semantik Dalam pendekatan ini, skor kesamaan dihitung antara token yang digunakan untuk Analisis Sentimen. Wordnet biasanya digunakan untuk tugas ini.
Antonim dan sinonim dapat dengan mudah ditemukan menggunakan pendekatan ini karena kata-kata yang mirip memiliki skor positif atau nilai lebih tinggi.
Dalam Maks dan Vossen ( 2012 ) dikemukakan bahwa pendekatan semantik dapat digunakan dalam berbagai aplikasi untuk membangun model leksikon yang dapat digunakan untuk mendeskripsikan kata sifat, kata kerja, dan kata benda untuk digunakan dalam Analisis Sentimen.
Mereka menguraikan, gambaran mendalam mengenai relasi subjektivitas antar tokoh dalam sebuah pernyataan yang menyampaikan sikap-sikap berbeda pada masing-masing tokoh. subjektivitas ditandai dengan pengetahuan yang berkaitan dengan identitas dan orientasi pemegang sikap.
Dalam karya Bordes dkk. ( 2014), Bhaskar dkk. ( 2015 ), Rao dan Ravichandran ( 2009 ) mengerjakan kumpulan data WordNet dalam pekerjaan mereka. Mereka menetapkan bahwa subjektivitas penonton dan subjektivitas aktor dapat dibedakan dalam beberapa kasus (Hershcovich dan Donatelli 2021 ).
Metode berbasis kamus
Pendekatan berbasis kamus terdiri dari daftar kumpulan kata opini yang telah ditentukan sebelumnya yang dikumpulkan secara manual (Chetviorkin dan Loukachevitch 2012 ; Kaity dan Balakrishnan 2020 ).
Asumsi utama di balik pendekatan ini adalah bahwa sinonim memiliki polaritas yang sama dengan kata dasarnya, sedangkan antonim memiliki polaritas yang berlawanan. Korpora besar seperti tesaurus atau wordnet dicari antonim dan sinonimnya, setelah itu ditambahkan ke grup atau daftar benih yang telah disiapkan sebelumnya. Pada tahap pertama, kumpulan kata awal dikumpulkan secara manual beserta orientasinya. Nanti daftarnya diperluas dengan melihat antonim dan sinonim dalam sumber leksikal yang tersedia (Singh et al. 2017 ; Ho et al. 2014).
Kemudian kata-kata tersebut ditambahkan secara berulang ke dalam daftar, dan daftar diperluas. Evaluasi atau koreksi manual dapat dilakukan pada tahap terakhir untuk memastikan kualitasnya. Stefano dan Andrea menciptakan SentiWordNet tiga arah di Baccianella dkk. ( 2010 ) dengan bantuan anotasi otomatis synset WordNet . Tesaurus sumber daya terkenal lainnya dibuat berdasarkan kamus online.
Dalam karya Park dan Kim ( 2016 ) menyarankan strategi berbasis aturan untuk memberi label pada kalimat dan kata sentimen dalam iklan kontekstual menggunakan pendekatan berbasis kamus. Pendekatan ini hanya dapat dilakukan untuk kamus berukuran kecil. Kerugian lain dari semua pendekatan berbasis leksikon (Hajek et al. 20203’S3′�), termasuk pendekatan berbasis kamus, adalah menemukan kata-kata opini yang spesifik untuk setiap domain karena polaritasnya mungkin berbeda-beda. Langkah Prosedur Umum pada kategori Lexicon Unsupervised learning ditunjukkan pada Gambar 6 .
Ringkasan Analisis Metode Klasifikasi Berbasis Leksikon beserta Kelebihan dan Kekurangannya ditunjukkan pada Tabel 3 dan Ringkasan Analisis Metode Clustering serta Kelebihan dan Kekurangannya ditunjukkan pada Tabel 2 .
Tabel 2 Keuntungan dan kerugian pendekatan pengelompokan analisis sentimen
Teknik | Keuntungan | Kerugian |
---|---|---|
K-berarti | Karena fakta bahwa algoritme ini menyelesaikan kompleksitas dalam waktu linier, algoritme ini sangat cocok untuk kumpulan data yang sangat besar | Jika ada ambiguitas, itu tidak cukup akurat |
Algoritme tidak diharuskan mengetahui kelas suatu dokumen terlebih dahulu. Tidak memerlukan pelatihanAlgoritme tidak diharuskan mengetahui kelas suatu dokumen terlebih dahuluTidak memerlukan pelatihanArtinya, tidak ada campur tangan manusiaPersyaratan memori minimal | Masalah dengan teknik ini adalah itumereka peka terhadap lokasi pusat awal dan membuat asumsi bahwa jumlah cluster diketahuiMetode ini mengatasi anomali dan noise, serta cluster non-cembung | |
Pendekatan berbiaya rendah, efisien, dan sangat nyaman untuk analisis sentimen | ||
C-berarti kabur | Itu selalu menyatu | Hal ini rentan terhadap asumsi awal dan dapat berakhir pada tingkat minimum lokalWaktu komputasinya lama |
Algoritma aglomeratif | Jangan bergantung pada jumlah cluster atau pusat gravitasi | Algoritma hierarki mempunyai tingkat kompleksitas waktu yang tinggi. Meskipun memiliki sifat pengelompokan yang unggul, biayanya yang tinggi membatasi penggunaannya dalam aplikasi data berskala besar |
Algoritma yang memecah belah | Jangan bergantung pada jumlah cluster atau pusatnyaSederhana untuk diterapkan dan, dalam beberapa situasi, memberikan hasil terbaik | Algoritma tidak akan pernah bisa menghapus tindakan sebelumnyaTidak ada penurunan target yang dicapai secara langsung. Terkadang, hal ini bisa menjadi tantangan untuk dilakukanTentukan jumlah cluster yang benar menggunakan dendogram |
- Alat Berbasis Metode Lexicon Ringkasan Analisis alat metode Berbasis Lexicon dan Kamus yang tersedia seperti yang dijelaskan di bawah ini
- Kamus yang telah ditentukan sebelumnya Memanfaatkan daftar kata positif dan negatif yang telah ditentukan sebelumnya untuk menentukan polaritas teks berdasarkan frekuensi representasi setiap kategori.Catatan kaki3 .
- SentiWordNet SentiWordNet memberikan skor sentimen numerik pada synset WordNet yang positif atau negatif.Catatan kaki4
- Kamus Sentimen Bing Liu Kamus memiliki 4783 kata positif dan negatif yang bermanfaat.Catatan kaki5
- SentiStrength Kecuali diubah oleh aturan klasifikasi tambahan apa pun, teks dikategorikan berdasarkan skor positif atau negatif tertinggi untuk setiap kata penyusunnya.Catatan kaki6
- Identifikasi Opini Opinion Finder mengenali pernyataan subjektif secara otomatis dan menyoroti beberapa karakteristik subjektivitasnya, seperti sumber (pemegang) subjektivitas dan istilah-istilah yang disertakan dalam frasa yang menunjukkan pandangan positif atau negatif.Catatan kaki7
- Kamus Sentimen Universitas Nasional Taiwan berisi 2812 kata Positif dan 8276 kata negatif.Catatan kaki8
- WordNet-Affect WordNet-Affect adalah ekstensi WordNet Domains yang mencakup subset synsets yang sesuai untuk mewakili gagasan afektif yang terkait dengan kata-kata emosional.Catatan kaki9
- Norma Afektif untuk Kata Bahasa Inggris Norma Afektif untuk Kata Bahasa Inggris adalah kumpulan peringkat emosional normatif untuk sejumlah besar kata bahasa Inggris. Kumpulan materi linguistik ini telah dinilai berdasarkan tingkat kenikmatan, gairah, dan dominasinya guna menetapkan dasar bagi penelitian masa depan mengenai sentimen dan perhatian.Catatan kaki10
- LingPipe dapat bekerja pada berbagai aktivitas, seperti mengidentifikasi topik, mengidentifikasi entitas bernama, mengurai dan mengindeks dokumen, penambangan teks basis data, segmentasi kata, analisis sentimen, dan identifikasi bahasa.Catatan kaki11
- Apache OpenNLP menyediakan dukungan untuk parsing kalimat, tokenisasi, penandaan part-of-speech, segmentasi, chunking, ekstraksi entitas bernama, pengenalan bahasa, dan resolusi coreference.Catatan kaki12
- Kamus Sentimen Lexicon Bahasa yang digunakan dalam politik.Catatan kaki13
Gambar 6