Data MiningData Science

Survei tentang metode analisis sentimen, penerapan, dan tantangan – Jaringan saraf

Neural Network- Dalam karya Van de Camp dan Van den Bosch ( 2012 ) menyajikan penggunaan jaringan Neural dan SVM dalam hubungan yang mendukung. Mereka menggunakan teks biografi untuk mengkonfirmasi hasil mereka. Mereka berhasil menandai hubungan antara dua individu sebagai netral, positif, atau negatif. 

Mereka menyimpulkan bahwa SVM dan Jaringan Neural satu lapis telah menunjukkan hasil yang lebih baik. 

Dalam karya Moraes dkk. ( 2013a ) menyajikan analisis empiris komparatif antara SVM dan ANN dalam analisis sentimen tingkat dokumen. Motif dari perbandingan ini adalah bahwa SVM banyak digunakan sebagai algoritma untuk penambangan opini karena telah menunjukkan kemampuannya dalam mendapatkan akurasi. ANN, meski memiliki potensi bagus, namun kurang mendapat perhatian. 

Dalam Moraes dkk. ( 2013b) mereka membahas semua aspek yang terkait dengan ANN dan SVM, termasuk persyaratannya, keakuratannya, dan konteks lain di mana setiap model dapat memberikan kinerja terbaik. Mereka juga telah menerapkan kerangka evaluasi yang konsisten menggunakan peserta terkenal dalam metode yang diawasi untuk memilih fitur dan bobot dalam model BoW ortodoks. 

Menurut Medhat dkk. ( 2014 ), Ravi dan Ravi ( 2015 ) ANN memiliki keunggulan dibandingkan SVM dalam sebagian besar kasus, kecuali dalam beberapa kasus di mana terdapat ketidakseimbangan data. Mereka menggunakan review produk Buku, GPS, dan kamera dari amazon.comdan Ulasan film sampai pada kesimpulan ini. 

Mereka juga menunjukkan potensi masalah dan kelemahan masing-masing model. Kerugian penting dari setiap model adalah biaya komputasi yang dikeluarkan dalam pelatihan oleh ANN dan biaya komputasi model SVM saat run time.

RNN tradisional (Liu et al. 2016 ) digunakan untuk berbagai tugas NLP karena mereka menggunakan informasi langkah waktu sebelumnya untuk memprediksi langkah waktu saat ini, yang memastikan penggunaan informasi sebelumnya dan bertindak sebagai memori karena mengingat beberapa informasi tentang suatu urutan . 

Pencapaian atau keuntungan paling signifikan dari RNN adalah ia menggunakan informasi sebelumnya, sehingga mengingat informasi sebelumnya, yang bertindak sebagai memori. Kerugian utama dari RNN tradisional adalah ia mengalami penurunan gradien yang menghilang dan meledak, yang berarti ia tidak dapat mengingat hubungan jangka panjang dalam rangkaian tersebut. Dalam kasus Bi-LSTM (Plank dkk. 2016) menggunakan informasi langkah waktu sebelumnya bersama dengan informasi langkah waktu berikutnya untuk memprediksi langkah waktu saat ini, dengan meneruskan urutan baik ke depan maupun ke belakang. Pembelajaran mendalam telah mengidentifikasi cara-cara baru untuk meniru potensi khusus manusia, misalnya pembelajaran berbasis contoh. 

Meskipun metode pembelajaran bottom-up ini berhasil untuk klasifikasi gambar dan pengenalan objek, namun tidak efektif untuk NLP (Cambria et al. 2020 ). Mereka memadukan pembelajaran top-down dan bottom-up dalam pekerjaan mereka menggunakan serangkaian alat AI simbolik dan subsimbolik dan menerapkannya pada tantangan menarik dalam deteksi polaritas teks.

RNN (Donkers et al. 2017 ) telah terbukti meningkatkan hasil ketika dilatih dengan data dan komputasi yang memadai. Varian RNN (Pham dan Le-Hong 2017 ) seperti LSTM (Bandara et al. 2020 ), GRU (Cheng et al. 2020 ), Bi-LSTM (Abid et al. 2019 ; Cho dan Lee 2019 ) telah digunakan secara luas dalam Analisis sentimen dan tugas NLP terkait (Abid et al. 2019 ; Khan et al. 2016 ). 

Model perhatian diperkenalkan baru-baru ini, yang memberikan model keunggulan dibandingkan model lainnya. Teknik pembelajaran transfer terkini menggunakan BERT (Devlin et al. 2018 ) dan GPT (Ethayarajh 2019) menarik perhatian para peneliti karena model tersebut telah dilatih pada korpus besar selama berhari-hari pada GPU kelas atas dan komputer Super. 

Bobot dapat disesuaikan menggunakan set data pelatihan untuk mendapatkan hasil yang akurat. Teknik berbasis pembelajaran mendalam menjadi sangat populer karena kinerjanya yang luar biasa belakangan ini. 

Dalam karya Yadav dan Vishwakarma ( 2020 ) dan Wadawadagi dan Pagi ( 2020 ) memberikan penilaian mendetail tentang teknik pembelajaran mendalam umum yang banyak digunakan dalam analisis sentimen. Untuk mendeteksi intensitas sentimen dan emosi, dikembangkan model stacked-ensemble berdasarkan deep learning (Akhtar et al. 2020). Untuk menangkap dependensi jangka panjang dan fitur lokal dengan lebih baik, mereka menggunakan penyematan kata GloVe, GRU dua arah, LSTM dua arah, mekanisme perhatian, dan CNN. Penulis (Basiri dkk. 2021 ) menyarankan model analisis sentimen berdasarkan perhatian (CNN-RNN). 

Dalam karya Alhumoud dan Al Wazrah ( 2021 ) melakukan tinjauan sistematis literatur untuk mengidentifikasi, mengkategorikan, dan mengevaluasi karya-karya canggih yang memanfaatkan RNN untuk analisis sentimen Arab.

Pada tahun 2017, para peneliti di tim Google Brain, Google Research, dan Universitas Toronto mengemukakan konsep Transformers dalam makalah mereka (Vaswani dkk. 2017) “Hanya perhatian yang Anda butuhkan,” yang merevolusi aplikasi NLP. 

Model ini adalah tumpukan model encoder-decoder yang terdiri dari lapisan perhatian mandiri, lapisan perhatian multi-kepala, serta lapisan normalisasi dan umpan maju. Masukannya berupa penyematan kata beserta vektor posisi, yang menentukan posisi vektor dan masukan dapat diberikan secara paralel, tidak seperti model lain yang menggunakan masukan serial atau berurutan. 

Di bagian encoder, Perhatian mandiri dihitung untuk setiap token dengan bantuan nilai kunci dan vektor kueri. Hal ini dilakukan beberapa kali dan ditumpuk satu sama lain, membentuk lapisan perhatian multi-kepala yang diteruskan ke lapisan feed-forward (Kitaev dan Klein 2018 ).

 Ada enam lapisan encoder dan enam decoder yang ada dalam model. Masukan ke decoder dari encoder adalah dua vektorK dan V. _ Lapisan decoder mempunyai tiga lapisan yaitu lapisan perhatian diri, kemudian lapisan normalisasi yang sama dengan lapisan encoder, yang kedua adalah lapisan encoder-decoder perhatian. Output self-attention dan input dari encoder digunakan untuk menghasilkan vektor output yang diikuti jaringan feed forward bersama dengan lapisan linier dan SoftMax (Juraska dan Walker 2021 ). Ada beberapa koneksi lewati atau sisa yang ada di encoder dan decoder untuk hasil yang lebih baik.

Terdapat berbagai metode analisis sentimen menggunakan pembelajaran mesin dan pembelajaran mendalam yang digunakan oleh penulis ditunjukkan pada Tabel 6 . kami menggunakan beberapa istilah pada Tabel 6 karena SA menunjukkan Analisis Sentimen, SC menunjukkan Klasifikasi Sentimen. 

Kategorisasi metode individual menjadi Metode Supervised Learning, Metode Unsupervised Learning, Metode Semi-supervised Learning, Analisis Sentimen Berorientasi Domain Berbasis Leksikon dan Berbasis Kamus beserta kelebihan dan kekurangannya disajikan pada Tabel 5 .

TeknikKeuntunganKerugian
Metode pembelajaran yang diawasiDengan kemampuan menilai berbagai topik, Efektivitas dalam mengidentifikasi masalah subjektivitasPelatihan yang ditunjuk mendokumentasikan kemampuan mengungkapkan hal subjektif yang menuntut kerja manusia dan pengetahuan linguistikData berlabel diperlukan
Metode pembelajaran tanpa pengawasanTidak memerlukan banyak usaha manusiaData berlabel tidak diperlukanKapasitasnya untuk melakukan hal tersebut belum sepenuhnya terbentuk
Metode pembelajaran semi-supervisiHasil produktif dengan adanya ambiguitasJika sampel yang tidak berlabel menimbulkan gangguan, pengklasifikasi akan mengalami kesulitan
Analisis Sentimen Berorientasi Domain Berbasis Kamus Berbasis LeksikonSertakan sistem klasifikasi dua tingkat yang mencakup opini positif dan negatifKlasifikasikan sentimen pada skala tertentuMenghilangkan kalimat obyektif dari dokumen dapat membantu meningkatkan efektivitas analisis sentimenAbaikan keragaman dan kedalaman perasaan manusia, serta kategori, aspek, dan rincian yang lebih emosionalTergantung pada Teknik
Tabel 5

ReferensimetodeHanya.Himpunan dataTugasHasil
Qiu dkk. ( 2010 )Berbasis AturanBahasa inggrisautomotvieforums.compadaIngatan = 0,375
Ya ( 2011 )Model Markov, SVM, NBBahasa inggrisIMDbSCSVM = 76,68, NB = 75,05
Fan dan Chang ( 2011 )Chi-kuadrat, SVMBahasa inggrisebay.com, wikipedia.com, epinions.compadaChi (cocok) Pos = 74,8 Neg = 57,6 Uni-gram Pos = 59,1 Neg = 67,4
Rui dkk. ( 2013 )NB, SVM, berbasis aturanBahasa inggrisconvinceme.netSC 
Moraes dkk. ( 2013b )NB, JST, SVMBahasa inggrisamazon.comSCPresisi: Ingat NB = 0,98:0,65 JST = 0,86:0,85 SVM = 0,83:0,85
Socher dkk. ( 2013 )RNTN dan RNNBahasa inggrisBank pohon sentimenSC 
Lakkaraju dkk. ( 2014 )Model sentimen multi aspek gabungan + RNTNBahasa inggrisUlasan Bir dan ulasan kameraSCBir = 77,04, Kamera = 81,02
Vateekul dan Koomsubha ( 2016 )LSTM dan CNN DinamisBahasa inggristwitterSLCLSTM-75.30, DCNN-75.35
Poria dkk. ( 2016 )CNN Sementara, RNNInggris SpanyolKumpulan data YouTube MOUDSC DAN EC multimodalCNN,RNN = 96,55
Zhao dkk. ( 2017 )CNN LSTMBahasa inggrisulasan amazon tentang kamera digital, ponsel dan laptopSLCCNN-87.7, LSTM-87.9
Dragoni dan Petrucci ( 2017 )RNNBahasa inggrisKumpulan data DranzieraSCKumpulan data Dranziera = 0,81
Chen dkk. ( 2017 )CNN fusi mendalamBahasa inggrisVSO : Flickr Images MVSO-EN: kumpulan data mencakup konsep yang berkaitan dengan emosi yang diungkapkanMulti-modal SCVSO = 84,7, MVSO-EN = 73,7
Wu dan Chi ( 2017 )LSTM-RNN kuadratBahasa inggrisBank pohon sentimen Stanford (SST) dan kumpulan data SAKITSLCSST-86.6(biner) SAKIT-87.28
Uysal dan Murphey ( 2017 )CNN,LSTM, CNN+LSTMBahasa inggrisIMDb, Sentimen 140, Sembilan ulasan sentimen publik, kumpulan data multi domain amazonTingkat dokumen SCS140-71.5 Sembilan-77.1 IMDB-89.1 Amazon-85.4
Yuan dkk. ( 2018 )Bi-LSTM dengan mekanisme perhatianBahasa inggriskumpulan data sentimen multi-domain amazon dan sanders twitterSC multi-domainamazon = 87,69, sander = 86,32
Zhang dkk. ( 2018 )Jaringan Memori DinamisBahasa inggrissemester 2014, semester 2016SCDMN = 0,84
Rao dkk. ( 2018 )LSTMBahasa inggrisYelp 2014, 2015, IMDbTingkat dokumen SCYelp2014-63.9 Yelp2015-63.8, IMDb-44.3
Naseem dkk. ( 2020 )Penyematan Kontekstual Cerdas MendalamBahasa inggrisKumpulan Data Maskapai Penerbanganpadakumpulan data maskapai = 0,95
Basiri dkk. ( 2021 )Model Dalam CNN-RNN Dua Arah (ABCDM) berbasis perhatian Sentimen140, Maskapai Penerbangan, kumpulan data Kindle, ulasan filmpada(ABCDM) Kumpulan data Kindle = 0,93, Maskapai Penerbangan = 0,92, ulasan film = 0,90, Sentiment140 = 0,81
Tabel 6

Sumber

https://link.springer.com/article/10.1007/s10462-022-10144-1

Leave a Reply

Your email address will not be published. Required fields are marked *