Survei tentang metode analisis sentimen, penerapan, dan tantangan – Pendekatan lain
Analisis sentimen berbasis aspek (ABSA)
ASBA adalah bagian analisis sentimen yang berharga dan berkembang pesat yang menjadi terkenal dalam beberapa tahun terakhir. Tiga fase penting menyusun analisis sentimen tingkat aspek: deteksi aspek, polaritas atau kategorisasi sentimen, dan agregasi.
Deteksi aspek merupakan tahapan penting dalam analisis Sentimen berbasis Aspek, yang dilanjutkan dengan penghitungan sentimen. Aspek ditambang baik dengan menggunakan aspek implisit yang telah ditentukan sebelumnya atau dapat ditambang secara eksplisit (Rana dan Cheah 2016).
Teknik pembelajaran mesin, bersama dengan teknik NLP, digunakan untuk menggali aspek dari sebuah kalimat. Analisis sentimen tingkat aspek paling populer di kalangan ulasan produk atau ulasan hotel, karena pendekatan ini akan membantu mereka mengidentifikasi berbagai aspek yang menjadi fokus penulis ulasan dan membantu mereka memperbaiki aspek-aspek yang memiliki sentimen negatif (Tran et al. 2019).
Hal ini berguna baik bagi konsumen maupun produsen. Misalnya, untuk kumpulan data ulasan hotel, aspek implisit dapat didefinisikan sebagai A= selera, layanan, nilai, lain-lain.
Misalnya saja review R = “makanannya enak, tapi pelayanannya lambat”, review ini terdiri dari dua aspek yaitu makanan dan pelayanan, yaitu A = rasa, pelayanan dan sentimen yang sesuai dengan kata mengagumkan dan lambat yaitu S = mengagumkan, lambat yang tergolong P = positif, negatif yang bila dijumlahkan bersifat netral. Jika kita mempertimbangkan skor sentimen berdasarkan positif atau negatifnya, polaritas gabungannya mungkin berbeda.
Analisis sentimen tingkat aspek memiliki banyak tantangan karena mengidentifikasi aspek individual (implisit atau eksplisit) dan mengklasifikasikannya sesuai pengertian merupakan tantangan untuk menambang aspek (Tubishat dkk. 2018),
Oleh karena itu, algoritme kompleks seperti LSTM, Bi-LSTM, atau model terlatih seperti BERT, GPT-2 dapat digunakan untuk menyelesaikan tugas tersebut. Para peneliti menghindari vanilla RNN karena menghadapi banyak masalah seperti hilangnya dan meledaknya penurunan gradien.
Terlihat bahwa baru-baru ini model berbasis perhatian digunakan dalam deteksi aspek. Langkah selanjutnya setelah deteksi aspek adalah penetapan polaritas pada aspek yang ditambang tersebut.
Ada beberapa pendekatan untuk melakukan tugas tersebut, algoritma pembelajaran mesin dapat digunakan untuk menyelesaikan tugas, atau pendekatan berbasis kamus dapat digunakan.
Menetapkan polaritas pada aspek tersebut, skor agregasi dapat dihitung untuk menemukan polaritas kalimat secara keseluruhan. Voting keras atau lunak digunakan untuk menentukan sentimen kalimat secara keseluruhan. Sentimen konsumen dinilai berdasarkan konten kualitatif, peringkat kuantitatif,2021c , d ).
Pembelajaran transfer
Pembelajaran transfer adalah salah satu teknik kemajuan dalam AI, di mana model yang telah dilatih sebelumnya dapat menggunakan pengetahuan yang diperolehnya untuk ditransfer ke model baru. Pembelajaran transfer menggunakan kesamaan data, distribusi, dan tugas. Model baru ini secara langsung menggunakan fitur-fitur yang dipelajari sebelumnya tanpa memerlukan data pelatihan eksplisit apa pun. Data pelatihan dapat digunakan untuk menyempurnakan model ke tugas baru. Teknik ini dapat digunakan untuk mentransfer pengetahuan dari satu domain ke domain lainnya.
Metodologi ini telah berkembang sebagai teknik pembelajaran transfer karena dapat menghasilkan akurasi dan hasil yang tinggi serta memerlukan waktu pelatihan yang jauh lebih sedikit dibandingkan melatih model baru dari awal (Celik et al. 2020 ) .
Pembelajaran transfer sering digunakan dalam analisis sentimen untuk mengklasifikasikan sentimen dari satu bidang ke bidang lainnya.
Dalam Meng dkk. (2019 ) mengembangkan pendekatan pembelajaran transfer berbasis CNN berlapis-lapis. Mereka menggunakan bobot dan bias lapisan konvolusional dan penggabungan dari model yang telah dilatih sebelumnya ke model. Mereka menggunakan fitur dari model terlatih dan bobot lapisan yang terhubung sepenuhnya yang telah disesuaikan. Pendekatan ini dapat memberikan hasil yang baik ketika kumpulan data berlabel besar tidak ada dan tidak ada kesamaan dalam tugas yang diselesaikan oleh model.
Dalam karya Bartusiak dkk. ( 2015), menerapkan Transfer Learning untuk mengusulkan tantangan analisis sentimen. Mereka menggunakan teknik ini untuk mengevaluasi sentimen pada tingkat dokumen dalam bahasa Polandia. Mereka menggunakan N-gram dan Bi-gram untuk mengkodekan kata dan frasa yang kompleks.
Mereka menggunakan dua kumpulan data berbeda dari dua domain berbeda untuk memberikan bukti bahwa pengetahuan yang diperoleh dari model pelatihan yang menuntut kumpulan data dari satu domain dapat digunakan untuk kumpulan data dari domain lain. Analisis Sentimen dengan menggunakan Metode Deep learning dan Machine Learning seperti terlihat pada Tabel 6 .
Referensi | metode | Hanya. | Himpunan data | Tugas | Hasil |
---|---|---|---|---|---|
Qiu dkk. ( 2010 ) | Berbasis Aturan | Bahasa inggris | automotvieforums.com | pada | Ingatan = 0,375 |
Ya ( 2011 ) | Model Markov, SVM, NB | Bahasa inggris | IMDb | SC | SVM = 76,68, NB = 75,05 |
Fan dan Chang ( 2011 ) | Chi-kuadrat, SVM | Bahasa inggris | ebay.com, wikipedia.com, epinions.com | pada | Chi (cocok) Pos = 74,8 Neg = 57,6 Uni-gram Pos = 59,1 Neg = 67,4 |
Rui dkk. ( 2013 ) | NB, SVM, berbasis aturan | Bahasa inggris | convinceme.net | SC | |
Moraes dkk. ( 2013b ) | NB, JST, SVM | Bahasa inggris | amazon.com | SC | Presisi: Ingat NB = 0,98:0,65 JST = 0,86:0,85 SVM = 0,83:0,85 |
Socher dkk. ( 2013 ) | RNTN dan RNN | Bahasa inggris | Bank pohon sentimen | SC | |
Lakkaraju dkk. ( 2014 ) | Model sentimen multi aspek gabungan + RNTN | Bahasa inggris | Ulasan Bir dan ulasan kamera | SC | Bir = 77,04, Kamera = 81,02 |
Vateekul dan Koomsubha ( 2016 ) | LSTM dan CNN Dinamis | Bahasa inggris | SLC | LSTM-75.30, DCNN-75.35 | |
Poria dkk. ( 2016 ) | CNN Sementara, RNN | Inggris Spanyol | Kumpulan data YouTube MOUD | SC DAN EC multimodal | CNN,RNN = 96,55 |
Zhao dkk. ( 2017 ) | CNN LSTM | Bahasa inggris | ulasan amazon tentang kamera digital, ponsel dan laptop | SLC | CNN-87.7, LSTM-87.9 |
Dragoni dan Petrucci ( 2017 ) | RNN | Bahasa inggris | Kumpulan data Dranziera | SC | Kumpulan data Dranziera = 0,81 |
Chen dkk. ( 2017 ) | CNN fusi mendalam | Bahasa inggris | VSO : Flickr Images MVSO-EN: kumpulan data mencakup konsep yang berkaitan dengan emosi yang diungkapkan | Multi-modal SC | VSO = 84,7, MVSO-EN = 73,7 |
Wu dan Chi ( 2017 ) | LSTM-RNN kuadrat | Bahasa inggris | Bank pohon sentimen Stanford (SST) dan kumpulan data SAKIT | SLC | SST-86.6(biner) SAKIT-87.28 |
Uysal dan Murphey ( 2017 ) | CNN,LSTM, CNN+LSTM | Bahasa inggris | IMDb, Sentimen 140, Sembilan ulasan sentimen publik, kumpulan data multi domain amazon | Tingkat dokumen SC | S140-71.5 Sembilan-77.1 IMDB-89.1 Amazon-85.4 |
Yuan dkk. ( 2018 ) | Bi-LSTM dengan mekanisme perhatian | Bahasa inggris | kumpulan data sentimen multi-domain amazon dan sanders twitter | SC multi-domain | amazon = 87,69, sander = 86,32 |
Zhang dkk. ( 2018 ) | Jaringan Memori Dinamis | Bahasa inggris | semester 2014, semester 2016 | SC | DMN = 0,84 |
Rao dkk. ( 2018 ) | LSTM | Bahasa inggris | Yelp 2014, 2015, IMDb | Tingkat dokumen SC | Yelp2014-63.9 Yelp2015-63.8, IMDb-44.3 |
Naseem dkk. ( 2020 ) | Penyematan Kontekstual Cerdas Mendalam | Bahasa inggris | Kumpulan Data Maskapai Penerbangan | pada | kumpulan data maskapai = 0,95 |
Basiri dkk. ( 2021 ) | Model Dalam CNN-RNN Dua Arah (ABCDM) berbasis perhatian | Sentimen140, Maskapai Penerbangan, kumpulan data Kindle, ulasan film | pada | (ABCDM) Kumpulan data Kindle = 0,93, Maskapai Penerbangan = 0,92, ulasan film = 0,90, Sentiment140 = 0,81 |
Pada tahun 2018, Peneliti Bahasa AI Google membuat model baru untuk NLP yang disebut BERT menjadi sumber terbuka. Ini memiliki terobosan dan telah menggemparkan industri pembelajaran mendalam karena kinerjanya.
Dalam karya Han dkk. ( 2021 ) Jaringan transformator merevolusi bidang NLP dan menggantikan penggunaan LSTM dan Bi-LSTM. Keuntungan utamanya adalah Transformer tidak mengalami masalah gradien menghilang atau meledak karena tidak menggunakan pengulangan sama sekali, dan juga lebih cepat dan lebih murah untuk dilatih.
BERT merupakan perpanjangan dari model Transformers yang diusulkan (Vaswani et al. 2017) di makalah “Hanya perhatian yang Anda perlukan”. BERT menggunakan transformator, sebuah mekanisme perhatian yang mempelajari hubungan kontekstual antara kata atau subkata dalam teks tertentu. Masukan dalam model ini berisi kata embeddings dan posisi embeddings, tidak seperti transformator, tetapi juga memiliki vektor tambahan yang mewakili kalimat yang dimilikinya untuk menangani dua kalimat atau lebih sekaligus. BERT terdiri dari trafo berbasis encoder; bagian encoder mirip dengan encoder transformator. BERT memiliki dua model, BERT basis dengan 12 encoder yang ditumpuk dengan 110 juta parameter dan BERT model besar dengan 24 encoder yang ditumpuk dengan 330 juta parameter.
Model BERT dilatih dalam dua tahap pra-pelatihan dan penyempurnaan. Ini adalah keuntungan utama model karena penyesuaian kumpulan data dapat dilakukan sesuai tugas. Seperti analisis sentimen (Singh et al.2021a ), deteksi aspek (Li et al. 2019b ), deteksi spam (Yaseen et al. 2021 ), model Transformer untuk deteksi emosi berbasis teks (Acheampong et al. 2021 ), dampak virus corona (singh2021sentiment). Satu kalimat atau sepasang kalimat dapat direpresentasikan sebagai rangkaian token yang berurutan menggunakan arsitektur BERT khusus tugas (Gao dkk. 2019 ).
Dalam karya Sun dkk. ( 2019 ) mentransformasikan ABSA menjadi masalah klasifikasi pasangan kalimat, seperti menjawab pertanyaan dan inferensi bahasa alami, dengan menyusun kalimat bantu dari aspek tersebut. Model terlatih BERT telah disempurnakan.