Data MiningData Science

Survei tentang metode analisis sentimen, penerapan, dan tantangan – Pendekatan hibrida

Pendekatan hibrid menggabungkan pembelajaran mesin dan pendekatan berbasis leksikon. Hibrid adalah istilah yang mengacu pada kombinasi pembelajaran mesin dan teknik berbasis leksikon untuk analisis sentimen. Teknik hibrida menggabungkan keduanya dan sangat populer, dengan leksikon sentimen memainkan peran penting di sebagian besar sistem. Analisis sentimen adalah pendekatan gabungan, yang mencakup metode statistik dan berbasis pengetahuan untuk mengenali polaritas. Dalam karya Hassonah dkk. ( 2020a ) mengusulkan pendekatan pembelajaran mesin hybrid menggunakan SVM dan dua teknik pemilihan fitur menggunakan pengoptimal multi-ayat dan algoritma Relief (Chang et al. 2020 ). Tugas analisis sentimen (Al Amrani dkk. 2018) diusulkan menggunakan pendekatan hybrid berbasis pembelajaran mesin termasuk RF dan SVM. Mereka menunjukkan bahwa masing-masing model SVM dan RF memiliki akurasi masing-masing sebesar 81,01 dan 82,03 persen, sedangkan model hybrid yang menggabungkan kedua algoritme memiliki akurasi mendekati 84% dalam kumpulan data ulasan produk yang disediakan oleh amazon.com. Hanya sedikit peneliti yang mengusulkan arsitektur hibrid yang melibatkan teknik pembelajaran berbasis leksikon dan otomatis untuk meningkatkan hasil. Hal ini masih menjadi topik hangat bagi para peneliti, dan masih banyak penelitian yang perlu dilakukan.

Dalam karya Hassonah dkk. ( 2020b ) menggunakan data Twitter untuk pelatihan. Sebanyak 6900 tweet diekstraksi untuk pelatihan menggunakan Twitter API. Hasilnya menunjukkan bahwa model mereka mengungguli sebagian besar model sekaligus mengurangi jumlah fitur hingga 96%. Mereka juga menunjukkan kapasitas model Hybrid dan menyimpulkan bahwa model Hybrid dapat mengungguli semua model dengan arsitektur yang tepat dan pemilihan hyperparameter yang tepat (Chang et al. 2020). Model Hibrid mengungguli kedua model tersebut dalam semua metrik dan perbandingan lainnya. Mereka menyimpulkan bahwa meskipun model Hibrid memiliki performa lebih baik dibandingkan model individual, masih banyak peluang penelitian yang tersedia untuk meningkatkan performa model hibrid dengan menyesuaikan dan melatih model tersebut. Terdapat berbagai Analisis Ringkasan Metode Algoritma Klasifikasi Supervised Machine learning beserta Kelebihan dan Kekurangannya ditunjukkan pada Tabel 4 .

Tabel 4 Ringkasan analisis algoritma klasifikasi pembelajaran mesin serta kelebihan dan kekurangannya

TeknikKeuntunganKerugian
catatanMudah DiimplementasikanLebih sedikit data pelatihan yang diperlukanMembutuhkan lebih sedikit waktu pelatihan dan data dibandingkan pendekatan lainnyaMengasumsikan bahwa atribut saling independenModel dapat menghadapi Masalah Frekuensi NolDibatasi oleh ketidakseimbangan kelas, karena nilai probabilitas harus diperkirakan untuk setiap nilai yang mungkin
SVMAlgoritma paling populer untuk SAMemberikan akurasi yang baik untuk kumpulan data besarMenyempurnakan model sangat sulit dan membosankanWaktu pelatihan yang lama untuk kumpulan data besar
DTMudah untuk dibangunLebih sedikit waktu untuk pelatihanKumpulan data yang luas tidak diperlukan untuk pelatihanModel lebih rentan terhadap overfitModel yang sangat berorientasi pada Domain akan dibangun
KNNBatasan keputusan non-linier dapat dibangunData dapat ditambahkan terus-menerus seiring berjalannya waktu tanpa pelatihan eksplisitKompleksitas prediksi yang lebih tinggi untuk kumpulan data dan dimensi besarKepentingan yang sama diberikan pada semua fitur
Federasi RusiaModelnya kuat dan sangat stabilModel cenderung tidak melakukan overfit secara signifikanModelnya sangat kompleksWaktu yang lebih lama untuk melatih data
AKUBekerja pada model probabilistik. Oleh karena itu, banyak data pelatihan tidak diperlukanModel berorientasi domain dan tidak akan berfungsi dengan baik untuk kumpulan data yang berbeda
LRModel paling sederhana untuk diterapkan dan dilatihTidak ada asumsi yang dibuat tentang distribusi kelas dalam ruang fiturBatas linier dibangunAkurasi rendah untuk kumpulan data yang kompleks
DNNDibandingkan dengan model DL lainnya, model ini cukup sederhana untuk diterapkanMasalah yang terlalu pas
RNNPengambilan data berurutan, yang penting untuk kategorisasi teks sentimenBerlatih lebih lambat dibandingkan model lainnyaRumit dan mahal secara komputasi
LSTMLebih efisien daripada RNNDapat memetakan ketergantungan jangka panjangModel yang sangat kompleksWaktu pelatihan tinggi
Bi-LSTMDapat mengetahui ketergantungan di kedua arahHasil yang lebih baik dapat diperoleh dibandingkan dengan metode lainSecara komputasi sangat mahalPelatihan sangat lambat
CNNAkurasi Tinggi, Pelatihan CepatDesain dan pemeliharaan memakan waktu
TransformatorMenggunakan model perhatian diri untuk menemukan ketergantunganBerfokus hanya pada bagian penting dari kalimatKurang populer dan jarang digunakanMemerlukan data yang sangat besar
Tabel 4

Sumber

https://link.springer.com/article/10.1007/s10462-022-10144-1

Leave a Reply

Your email address will not be published. Required fields are marked *