Data MiningData Science

Survei tentang metode analisis sentimen, penerapan, dan tantangan – Pendekatan pembelajaran mesin

Algoritma Pembelajaran Mesin dapat digunakan untuk mengkategorikan sentimen. Analisis sentimen adalah proses mengidentifikasi dan mengukur sentimen teks atau audio menggunakan pemrosesan bahasa alami, analisis teks, linguistik komputasi, dan teknik lainnya. 

Pengumpulan Data dari Media Sosial dan langkah pengolahan untuk analisis sentimen pada kategori Supervised Learning ditunjukkan pada Gambar  5 dan kategori Unsupervised learning ditunjukkan pada Gambar  6 . Ada dua pendekatan utama dalam Machine Learning untuk analisis sentimen:

  • Pembelajaran mesin yang diawasi
  • Pembelajaran tanpa pengawasan berbasis leksikon

Gambar 5

Gambar 6

Tugas ini dapat diselesaikan dengan menggunakan metodologi pembelajaran yang diawasi dan tidak diawasi. Strategi analisis sentimen tanpa pengawasan dengan memanfaatkan basis pengetahuan, ontologi, database, dan leksikon yang mencakup pengetahuan terperinci yang telah dipilih dan disiapkan khusus untuk analisis sentimen. 

Metode pembelajaran yang diawasi lebih umum digunakan karena hasilnya akurat. Algoritme ini perlu dilatih pada set pelatihan sebelum diterapkan pada data sebenarnya. Fitur dapat diekstraksi dari data teks.

Teknik pembelajaran mesin menggunakan faktor sintaksis dan/atau linguistik untuk mengatasi klasifikasi sentimen sebagai masalah klasifikasi teks standar yang memanfaatkan faktor sintaksis dan/atau linguistik. 

Model kategorisasi mengaitkan fitur rekaman yang mendasarinya dengan salah satu label kelas. Model tersebut kemudian digunakan untuk memprediksi label kelas untuk instance tertentu dari kelas yang tidak diketahui. Ketika sebuah instance hanya diberi satu label, kami menghadapi tantangan kategorisasi yang sulit. 

Ketika nilai probabilistik dari label ditetapkan ke sebuah instance, ini disebut sebagai masalah klasifikasi lunak. Pembelajaran mesin memungkinkan sistem memperoleh kemampuan baru tanpa diprogram secara eksplisit untuk melakukannya. 

Algoritme analisis sentimen dapat dilatih untuk membaca lebih dari sekadar definisi sederhana untuk memahami informasi kontekstual, sarkasme, dan kata-kata yang salah penerapan.

Naif Bayes (NB)

Teknik NB digunakan untuk kategorisasi dan pelatihan. NB adalah pendekatan klasifikasi Bayesian berdasarkan teorema bayes. NB adalah pengklasifikasi probabilistik yang menggunakan teorema Bayes untuk memprediksi probabilitas sekumpulan fitur tertentu sebagai bagian dari label tertentu. Probabilitas bersyarat terjadinya peristiwa A dengan mempertimbangkan probabilitas individu A dan B serta probabilitas bersyarat terjadinya peristiwa B . 

Di sini diasumsikan bahwa fitur tidak bergantung. Model BoW dapat digunakan untuk ekstraksi fitur. Umumnya NB diterapkan ketika ukuran data pelatihan kecil. NB mengklasifikasikan positif 10% lebih akurat dibandingkan klasifikasi negatif. Hal ini menyebabkan penurunan akurasi rata-rata saat diambil. 

Dalam karya Kang dkk. (2012 ) memecahkan masalah ini menggunakan versi pengklasifikasi NB yang ditingkatkan. Mereka menguji model ini pada kumpulan data ulasan restoran. Dalam karya Tripathy dkk. ( 2015 ) menggunakan pembelajaran mesin untuk mengklasifikasikan ulasan. Mereka mengusulkan model NB bersama dengan model SVM (Hajek et al. 2020 ; Bordes et al. 2014 ). 

Mereka menggunakan kumpulan data ulasan film untuk melatih dan menguji model. Dua ribu ulasan dilatih setelah pra-pemrosesan dan vektorisasi kumpulan data pelatihan. Count Vectorizer dan TF-IDF digunakan sebelum melatih model pembelajaran mesin. 

Model NB diusulkan dalam Tripathy et al. ( 2015) memberikan akurasi 89,05 persen dalam validasi K-fold Cross. Performanya lebih baik jika dibandingkan model lain yang menggunakan algoritma NB probabilistik (Calders dan Verwer 2010 ).

Mendukung mesin vektor (SVM)

Pendekatan SVM yang menggunakan hyper-planes digunakan untuk menganalisis data dan menentukan batasan keputusan dalam teknik ini. SVM adalah jenis teknik pembelajaran terawasi non-probabilistik yang sering digunakan untuk tugas klasifikasi. Tujuan utama SVM adalah untuk menentukan hyperplane yang paling baik memisahkan data ke dalam kelas-kelas berbeda. Hasilnya, SVM mencari hyperplane dengan margin tertinggi yang memungkinkan. 

Dalam karya Li dan Li ( 2013 ) menggunakan Mesin Vektor Dukungan untuk Pengklasifikasi Polaritas Sentimen. Mengklasifikasikan ulasan berdasarkan kualitasnya adalah salah satu dari banyak tujuan penggunaan SVM. Chen dan Tseng ( 2011) menggunakan dua pendekatan berbasis SVM beberapa kelas. Yang pertama adalah SVM Satu vs Semua dan SVM Multikelas untuk mengklasifikasikan ulasan. Kedua, sebuah metode diusulkan untuk mengevaluasi kualitas dataset review produk dengan menganggapnya sebagai masalah klasifikasi. 

Dalam karya Dave dkk. ( 2003 ) mengerjakan review MP3 dan review kamera digital. Borg dan Boldt ( 2020 ) menggunakan Linear SVM dan VADER untuk memprediksi sentimen ulasan pelanggan. Ulasan tersebut milik Huge Swedish Telecom Corporation. Kumpulan datanya sangat besar dan terdiri dari 168.010 email untuk pelatihan. Mereka menggunakan sentimen Lexicon Swedia dan sentimen VADER untuk pelabelan awal. 

Mereka (Li dkk. 2019a) model SVM linier berkinerja luar biasa dengan skor F1 sebesar 83,4 persen dan rata-rata AUC sebesar 0,896. Selain itu, model mereka menyoroti pola yang diprediksi dalam percakapan Email, yang menggunakan sentimen Email yang tidak terlihat untuk diprediksi. 

Dalam karya Xia et al. ( 2020 ) mendesak agar subjektivitas pendapat dan kredibilitas pengekspresian harus dipertimbangkan, tidak seperti Masalah Klasifikasi Biner biasa. Sebuah kerangka kerja (Wu et al. 2020 ) diusulkan untuk merangkum opini tentang mikroblog. 

Mereka menemukan dan mengambil topik yang disebutkan dalam opini terkait dengan pertanyaan pengguna dan kemudian mengkategorikan opini tersebut menggunakan SVM. Ali dkk. ( 2020 ) juga mengerjakan data tweet Twitter untuk eksperimen tersebut. Mereka merasa bermanfaat untuk mengumpulkan opini untuk mikroblog.

Regresi logistik (LR)

Teknik pembelajaran mesin yang dikenal sebagai regresi logistik bekerja dengan mengalikan nilai masukan dengan nilai bobot. Ini adalah pengklasifikasi yang mempelajari properti masukan mana yang paling membantu dalam mengidentifikasi kelas positif dan negatif. Regresi logistik adalah analisis regresi probabilistik yang digunakan untuk tugas klasifikasi. 

Untuk aplikasi klasifikasi biner, regresi logistik biasanya digunakan. Jika terdapat beberapa variabel penjelas, regresi logistik menghitung rasio peluang. Regresi logistik menggunakan Kemungkinan maksimum untuk menghitung parameter terbaik. 

Variabel independen dapat termasuk dalam kategori apa pun, yaitu Kontinu, Diskrit (ordinal dan nominal). 

Model LR (Hamdan dkk. 2015) bahwa variabel terikatnya bersifat biner, dan terdapat sedikit atau tidak ada multikolinearitas antar variabel prediksi.

Pohon keputusan (DT)

DT Classifier adalah teknik pembelajaran terawasi di mana pohon dibangun menggunakan contoh pelatihan untuk mengklasifikasikan polaritas teks. 

DT menggunakan suatu kondisi untuk membagi data menjadi beberapa bagian secara rekursif. RF lebih sering digunakan dibandingkan DT yang menggabungkan beberapa DT untuk menghindari overfitting dan meningkatkan akurasi. DT dapat dibangun menggunakan beberapa algoritma seperti CART, ID3, C5.0, C4.5 (Revathy dan Lawrance 2017 ; Hssina et al. 2014 ; Singh dan Gupta 2014 ; Patel dan Prajapati 2018 ). Ini digunakan untuk mengidentifikasi atribut paling sesuai yang perlu ditempatkan di akar (Gower 1966 ; Revathy dan Lawrance 2017 ; Patil et al. 2012 ). Yan-Yan dkk. ( 2010)menggunakan strategi berbasis grafik, Mereka mengusulkan strategi propagasi untuk mengintegrasikan fitur tingkat kalimat dan tingkat kalimat. Kedua ciri frase ini disebut dengan verifikasi antar dan intra dokumen. 

Mereka mencoba berargumentasi bahwa menentukan klasifikasi sentimen dari sebuah kalimat ulasan memerlukan lebih dari sekadar memeriksa komponen-komponen pernyataan tersebut. Mereka menyelidiki domain kamera dan membandingkan hasilnya dengan hasil yang diperoleh menggunakan SVM dan NB Classifier. 

Dalam karya Jain dkk. ( 2021a ) menandai data yang dapat digunakan untuk membedakan antara ulasan asli dan ulasan palsu. Selain itu, kami menggunakan dua kumpulan data berbeda untuk menguji berbagai teknik pembelajaran mesin untuk kategorisasi (kumpulan data ulasan hotel Yelp, kumpulan data ulasan restoran Yelp).

Entropi maksimum (ME)

Pengklasifikasi Eksponensial Bersyarat: Pengklasifikasi eksponensial bersyarat mengkodekan kumpulan fitur berlabel sebagai vektor atau larik bilangan bulat. Vektor ini kemudian digunakan untuk menghitung bobot fitur, yang dapat digunakan untuk memilih label yang paling mungkin untuk kumpulan fitur tersebut. Entropi adalah ukuran ketidakpastian. 

Entropi maksimum untuk data yang terdistribusi secara seragam. Data masukan terdiri dari teks dan peringkat dari 1-5 polaritas yang ditetapkan padanya. 

Algoritme yang paling populer digunakan termasuk SVM, NB, ME (Khairnar dan Kinikar 2013 ; Kaufmann 2012 ) menggunakan ME Classifier untuk mendeteksi kalimat paralel dalam pasangan dua bahasa, yang memiliki data pelatihan lebih sedikit. 

Model lain yang digunakan memerlukan kumpulan data pelatihan dalam jumlah besar atau menggunakan teknik khusus bahasa (Bergsma et al.2012 ), namun model mereka menunjukkan hasil yang lebih baik dapat dihasilkan dengan menggunakan pasangan bahasa apa pun. Hal ini akan memungkinkan pembentukan corpora paralel untuk berbagai bahasa.

K-tetangga terdekat (KNN)

Algoritme KNN tidak banyak digunakan dalam analisis sentimen tetapi telah terbukti memberikan hasil yang baik jika dilatih dengan cermat. Ini beroperasi pada fakta bahwa klasifikasi sampel uji akan serupa dengan tetangga terdekat. 

Nilai K dapat dipilih pada algoritma penyetelan hyper-parameter apa pun seperti pencarian Grid atau validasi silang pencarian acak. Polaritas mungkin dipilih berdasarkan nilai K tetangga terdekat, atau penambahan lunak dapat dilakukan untuk menemukan polaritas keseluruhan.

Pembelajaran semi-supervisi

Dalam kasus ini, jika kumpulan data pelatihan berisi data berlabel dan tidak berlabel, pembelajaran semi-supervisi tampaknya menjadi pilihan yang tepat (Zhu dan Goldberg 2009 ). 

Hal ini dilatarbelakangi bahwa meskipun pengumpulan data yang tidak berlabel relatif mudah di banyak aplikasi dunia nyata, seperti mengumpulkan artikel dari berbagai blog, pelabelan itu mahal atau memakan waktu karena pelabelan pada kumpulan data pelatihan biasanya dilakukan oleh manusia. 

Ortigosa-Hernández dkk. ( 2012 ) diperkenalkan dalam karya situasi dunia nyata di mana sikap pengguna ditentukan oleh tiga variabel target yang berbeda (tetapi terkait): subjektivitas, solaritas sentimen, dan keinginan untuk mempengaruhi. Dalam karya Janjua dkk. ( 2021) kerangka kerja untuk pembelajaran mesin semi-supervisi yang menggabungkan algoritma pra-pemrosesan dan klasifikasi untuk kumpulan data yang tidak berlabel.

Ringkasan Berbagai Teknik Analisis Sentimen, Keuntungan dan Kerugiannya ditunjukkan pada Tabel 5 .

Tabel 5 Ringkasan berbagai teknik analisis sentimen pembelajaran mesin kelebihan dan kekurangannya

TeknikKeuntunganKerugian
Metode pembelajaran yang diawasiDengan kemampuan menilai berbagai topik, Efektivitas dalam mengidentifikasi masalah subjektivitasPelatihan yang ditunjuk mendokumentasikan kemampuan mengungkapkan hal subjektif yang menuntut kerja manusia dan pengetahuan linguistikData berlabel diperlukan
Metode pembelajaran tanpa pengawasanTidak memerlukan banyak usaha manusiaData berlabel tidak diperlukanKapasitasnya untuk melakukan hal tersebut belum sepenuhnya terbentuk
Metode pembelajaran semi-supervisiHasil produktif dengan adanya ambiguitasJika sampel yang tidak berlabel menimbulkan gangguan, pengklasifikasi akan mengalami kesulitan
Analisis Sentimen Berorientasi Domain Berbasis Kamus Berbasis LeksikonSertakan sistem klasifikasi dua tingkat yang mencakup opini positif dan negatifKlasifikasikan sentimen pada skala tertentuMenghilangkan kalimat obyektif dari dokumen dapat membantu meningkatkan efektivitas analisis sentimenAbaikan keragaman dan kedalaman perasaan manusia, serta kategori, aspek, dan rincian yang lebih emosionalTergantung pada Teknik
Tabel 5

Sumber

https://link.springer.com/article/10.1007/s10462-022-10144-1

Leave a Reply

Your email address will not be published. Required fields are marked *