Data MiningData Science

Survei tentang metode analisis sentimen, penerapan, dan tantangan – Pendekatan lain

Analisis sentimen berbasis aspek (ABSA)

ASBA adalah bagian analisis sentimen yang berharga dan berkembang pesat yang menjadi terkenal dalam beberapa tahun terakhir. Tiga fase penting menyusun analisis sentimen tingkat aspek: deteksi aspek, polaritas atau kategorisasi sentimen, dan agregasi. 

Deteksi aspek merupakan tahapan penting dalam analisis Sentimen berbasis Aspek, yang dilanjutkan dengan penghitungan sentimen. Aspek ditambang baik dengan menggunakan aspek implisit yang telah ditentukan sebelumnya atau dapat ditambang secara eksplisit (Rana dan Cheah 2016). 

Teknik pembelajaran mesin, bersama dengan teknik NLP, digunakan untuk menggali aspek dari sebuah kalimat. Analisis sentimen tingkat aspek paling populer di kalangan ulasan produk atau ulasan hotel, karena pendekatan ini akan membantu mereka mengidentifikasi berbagai aspek yang menjadi fokus penulis ulasan dan membantu mereka memperbaiki aspek-aspek yang memiliki sentimen negatif (Tran et al. 2019). 

Hal ini berguna baik bagi konsumen maupun produsen. Misalnya, untuk kumpulan data ulasan hotel, aspek implisit dapat didefinisikan sebagai A= selera, layanan, nilai, lain-lain. 

Misalnya saja review R = “makanannya enak, tapi pelayanannya lambat”, review ini terdiri dari dua aspek yaitu makanan dan pelayanan, yaitu A = rasa, pelayanan dan sentimen yang sesuai dengan kata mengagumkan dan lambat yaitu S = mengagumkan, lambat yang tergolong P = positif, negatif yang bila dijumlahkan bersifat netral. Jika kita mempertimbangkan skor sentimen berdasarkan positif atau negatifnya, polaritas gabungannya mungkin berbeda.

Analisis sentimen tingkat aspek memiliki banyak tantangan karena mengidentifikasi aspek individual (implisit atau eksplisit) dan mengklasifikasikannya sesuai pengertian merupakan tantangan untuk menambang aspek (Tubishat dkk. 2018),

Oleh karena itu, algoritme kompleks seperti LSTM, Bi-LSTM, atau model terlatih seperti BERT, GPT-2 dapat digunakan untuk menyelesaikan tugas tersebut. Para peneliti menghindari vanilla RNN karena menghadapi banyak masalah seperti hilangnya dan meledaknya penurunan gradien. 

Terlihat bahwa baru-baru ini model berbasis perhatian digunakan dalam deteksi aspek. Langkah selanjutnya setelah deteksi aspek adalah penetapan polaritas pada aspek yang ditambang tersebut. 

Ada beberapa pendekatan untuk melakukan tugas tersebut, algoritma pembelajaran mesin dapat digunakan untuk menyelesaikan tugas, atau pendekatan berbasis kamus dapat digunakan. 

Menetapkan polaritas pada aspek tersebut, skor agregasi dapat dihitung untuk menemukan polaritas kalimat secara keseluruhan. Voting keras atau lunak digunakan untuk menentukan sentimen kalimat secara keseluruhan. Sentimen konsumen dinilai berdasarkan konten kualitatif, peringkat kuantitatif,2021c , d ).

Pembelajaran transfer

Pembelajaran transfer adalah salah satu teknik kemajuan dalam AI, di mana model yang telah dilatih sebelumnya dapat menggunakan pengetahuan yang diperolehnya untuk ditransfer ke model baru. Pembelajaran transfer menggunakan kesamaan data, distribusi, dan tugas. Model baru ini secara langsung menggunakan fitur-fitur yang dipelajari sebelumnya tanpa memerlukan data pelatihan eksplisit apa pun. Data pelatihan dapat digunakan untuk menyempurnakan model ke tugas baru. Teknik ini dapat digunakan untuk mentransfer pengetahuan dari satu domain ke domain lainnya. 

Metodologi ini telah berkembang sebagai teknik pembelajaran transfer karena dapat menghasilkan akurasi dan hasil yang tinggi serta memerlukan waktu pelatihan yang jauh lebih sedikit dibandingkan melatih model baru dari awal (Celik et al. 2020 ) . 

Pembelajaran transfer sering digunakan dalam analisis sentimen untuk mengklasifikasikan sentimen dari satu bidang ke bidang lainnya. 

Dalam Meng dkk. (2019 ) mengembangkan pendekatan pembelajaran transfer berbasis CNN berlapis-lapis. Mereka menggunakan bobot dan bias lapisan konvolusional dan penggabungan dari model yang telah dilatih sebelumnya ke model. Mereka menggunakan fitur dari model terlatih dan bobot lapisan yang terhubung sepenuhnya yang telah disesuaikan. Pendekatan ini dapat memberikan hasil yang baik ketika kumpulan data berlabel besar tidak ada dan tidak ada kesamaan dalam tugas yang diselesaikan oleh model. 

Dalam karya Bartusiak dkk. ( 2015), menerapkan Transfer Learning untuk mengusulkan tantangan analisis sentimen. Mereka menggunakan teknik ini untuk mengevaluasi sentimen pada tingkat dokumen dalam bahasa Polandia. Mereka menggunakan N-gram dan Bi-gram untuk mengkodekan kata dan frasa yang kompleks. 

Mereka menggunakan dua kumpulan data berbeda dari dua domain berbeda untuk memberikan bukti bahwa pengetahuan yang diperoleh dari model pelatihan yang menuntut kumpulan data dari satu domain dapat digunakan untuk kumpulan data dari domain lain. Analisis Sentimen dengan menggunakan Metode Deep learning dan Machine Learning seperti terlihat pada Tabel 6 .

ReferensimetodeHanya.Himpunan dataTugasHasil
Qiu dkk. ( 2010 )Berbasis AturanBahasa inggrisautomotvieforums.compadaIngatan = 0,375
Ya ( 2011 )Model Markov, SVM, NBBahasa inggrisIMDbSCSVM = 76,68, NB = 75,05
Fan dan Chang ( 2011 )Chi-kuadrat, SVMBahasa inggrisebay.com, wikipedia.com, epinions.compadaChi (cocok) Pos = 74,8 Neg = 57,6 Uni-gram Pos = 59,1 Neg = 67,4
Rui dkk. ( 2013 )NB, SVM, berbasis aturanBahasa inggrisconvinceme.netSC 
Moraes dkk. ( 2013b )NB, JST, SVMBahasa inggrisamazon.comSCPresisi: Ingat NB = 0,98:0,65 JST = 0,86:0,85 SVM = 0,83:0,85
Socher dkk. ( 2013 )RNTN dan RNNBahasa inggrisBank pohon sentimenSC 
Lakkaraju dkk. ( 2014 )Model sentimen multi aspek gabungan + RNTNBahasa inggrisUlasan Bir dan ulasan kameraSCBir = 77,04, Kamera = 81,02
Vateekul dan Koomsubha ( 2016 )LSTM dan CNN DinamisBahasa inggristwitterSLCLSTM-75.30, DCNN-75.35
Poria dkk. ( 2016 )CNN Sementara, RNNInggris SpanyolKumpulan data YouTube MOUDSC DAN EC multimodalCNN,RNN = 96,55
Zhao dkk. ( 2017 )CNN LSTMBahasa inggrisulasan amazon tentang kamera digital, ponsel dan laptopSLCCNN-87.7, LSTM-87.9
Dragoni dan Petrucci ( 2017 )RNNBahasa inggrisKumpulan data DranzieraSCKumpulan data Dranziera = 0,81
Chen dkk. ( 2017 )CNN fusi mendalamBahasa inggrisVSO : Flickr Images MVSO-EN: kumpulan data mencakup konsep yang berkaitan dengan emosi yang diungkapkanMulti-modal SCVSO = 84,7, MVSO-EN = 73,7
Wu dan Chi ( 2017 )LSTM-RNN kuadratBahasa inggrisBank pohon sentimen Stanford (SST) dan kumpulan data SAKITSLCSST-86.6(biner) SAKIT-87.28
Uysal dan Murphey ( 2017 )CNN,LSTM, CNN+LSTMBahasa inggrisIMDb, Sentimen 140, Sembilan ulasan sentimen publik, kumpulan data multi domain amazonTingkat dokumen SCS140-71.5 Sembilan-77.1 IMDB-89.1 Amazon-85.4
Yuan dkk. ( 2018 )Bi-LSTM dengan mekanisme perhatianBahasa inggriskumpulan data sentimen multi-domain amazon dan sanders twitterSC multi-domainamazon = 87,69, sander = 86,32
Zhang dkk. ( 2018 )Jaringan Memori DinamisBahasa inggrissemester 2014, semester 2016SCDMN = 0,84
Rao dkk. ( 2018 )LSTMBahasa inggrisYelp 2014, 2015, IMDbTingkat dokumen SCYelp2014-63.9 Yelp2015-63.8, IMDb-44.3
Naseem dkk. ( 2020 )Penyematan Kontekstual Cerdas MendalamBahasa inggrisKumpulan Data Maskapai Penerbanganpadakumpulan data maskapai = 0,95
Basiri dkk. ( 2021 )Model Dalam CNN-RNN Dua Arah (ABCDM) berbasis perhatian Sentimen140, Maskapai Penerbangan, kumpulan data Kindle, ulasan filmpada(ABCDM) Kumpulan data Kindle = 0,93, Maskapai Penerbangan = 0,92, ulasan film = 0,90, Sentiment140 = 0,81
tabel 6

Pada tahun 2018, Peneliti Bahasa AI Google membuat model baru untuk NLP yang disebut BERT menjadi sumber terbuka. Ini memiliki terobosan dan telah menggemparkan industri pembelajaran mendalam karena kinerjanya. 

Dalam karya Han dkk. ( 2021 ) Jaringan transformator merevolusi bidang NLP dan menggantikan penggunaan LSTM dan Bi-LSTM. Keuntungan utamanya adalah Transformer tidak mengalami masalah gradien menghilang atau meledak karena tidak menggunakan pengulangan sama sekali, dan juga lebih cepat dan lebih murah untuk dilatih. 

BERT merupakan perpanjangan dari model Transformers yang diusulkan (Vaswani et al. 2017) di makalah “Hanya perhatian yang Anda perlukan”. BERT menggunakan transformator, sebuah mekanisme perhatian yang mempelajari hubungan kontekstual antara kata atau subkata dalam teks tertentu. Masukan dalam model ini berisi kata embeddings dan posisi embeddings, tidak seperti transformator, tetapi juga memiliki vektor tambahan yang mewakili kalimat yang dimilikinya untuk menangani dua kalimat atau lebih sekaligus. BERT terdiri dari trafo berbasis encoder; bagian encoder mirip dengan encoder transformator. BERT memiliki dua model, BERT basis dengan 12 encoder yang ditumpuk dengan 110 juta parameter dan BERT model besar dengan 24 encoder yang ditumpuk dengan 330 juta parameter. 

Model BERT dilatih dalam dua tahap pra-pelatihan dan penyempurnaan. Ini adalah keuntungan utama model karena penyesuaian kumpulan data dapat dilakukan sesuai tugas. Seperti analisis sentimen (Singh et al.2021a ), deteksi aspek (Li et al. 2019b ), deteksi spam (Yaseen et al. 2021 ), model Transformer untuk deteksi emosi berbasis teks (Acheampong et al. 2021 ), dampak virus corona (singh2021sentiment). Satu kalimat atau sepasang kalimat dapat direpresentasikan sebagai rangkaian token yang berurutan menggunakan arsitektur BERT khusus tugas (Gao dkk. 2019 ). 

Dalam karya Sun dkk. ( 2019 ) mentransformasikan ABSA menjadi masalah klasifikasi pasangan kalimat, seperti menjawab pertanyaan dan inferensi bahasa alami, dengan menyusun kalimat bantu dari aspek tersebut. Model terlatih BERT telah disempurnakan.

Sumber

https://link.springer.com/article/10.1007/s10462-022-10144-1

Leave a Reply

Your email address will not be published. Required fields are marked *