Survei tentang metode analisis sentimen, penerapan, dan tantangan – Tantangan dalam analisis sentimen
Analisis sentimen memiliki berbagai tantangan mulai dari biaya komputasi hingga penulisan informal dan adanya variasi bahasa. Kami melihat tantangan analisis sentimen yang lebih sering terjadi pada jenis struktur sentimen tertentu, seperti yang ditunjukkan pada Tabel 7 .
Beberapa tantangan signifikan yang dihadapi dalam analisis sentimen adalah:
Referensi | Tantangan | Struktur ulasan |
---|---|---|
Heerschop dkk ( 2011 ) | Penyangkalan | Data semi struktur (kata sifat) |
Lapponi dkk. ( 2012 ) | Negasi + leksikon besar | Data Semi Terstruktur |
Remus ( 2013 ) | Negasi + kata-kata bipolar | Data semi terstruktur, kalimat atau dokumen topik |
Chunping dkk ( 2014 ) | Kesopanan domain | Data tidak terstruktur, ulasan Emosi |
Hu dkk. ( 2014 ) | Singkatan pendek | Data tidak terstruktur |
Kiritchenko dkk ( 2014 ) | Emosi | data tidak terstruktur |
Cao dkk. ( 2015 ) | Kemenduaan | Data semi terstruktur |
Flekova dkk. ( 2015 ) | Kata-kata yang bersifat bipolar | Data tidak terstruktur |
Kasmuri dan Basiron ( 2017 ) | Deteksi Spam Opini | Data terstruktur |
Shayaa dkk. ( 2018 ) | Informasi yang tidak lengkap dan Ketersebaran | Data tidak terstruktur dan data terstruktur |
Salah dkk. ( 2019 ) dan Mite-Baidal dkk. ( 2018 ) | Ketergantungan domain | Data tidak terstruktur |
Oueslati dkk. ( 2020 ) | Ketergantungan bahasa | Data tidak terstruktur |
Zuo dkk. ( 2020 ) | Bahasa implisit | Data tidak terstruktur |
Acheampong dkk. ( 2020 ) | Deteksi emosi | data tidak terstruktur |
Kumar dan Garg ( 2020 ) | Penggabungan data multi-sumber | Data tidak terstruktur, Data terstruktur |
Parvin dkk. ( 2021 ) | Pidato informal, dan bahasa gaul | Data tidak terstruktur |
Mendon dkk. ( 2021 ) | Klasifikasi beberapa kelas | Data tidak terstruktur, Data terstruktur |
Sentimen terstruktur
Sentimen terstruktur terdapat pada tinjauan sentimen formal, lebih fokus pada masalah formal seperti buku atau penelitian. Karena penulisnya adalah para profesional, maka mereka mampu menuliskan pemikiran atau observasi yang menyangkut persoalan ilmiah atau faktual.
Sentimen semi terstruktur
Sentimen Semi Terstruktur berada di antara sentimen terstruktur dan tidak terstruktur. Hal ini memerlukan kesadaran akan berbagai kekhawatiran terkait tinjauan.
Gaya ini, yang bergantung pada kelebihan dan kekurangannya, dicantumkan secara terpisah oleh penulis, dan bagian pro dan kontra biasanya terdiri dari kalimat singkat (Birjali et al. 2021 ; Hussein 2018 ; Ebrahimi et al. 2017 ; Mohammad 2017 ).
Sentimen tidak terstruktur
Sentimen Tidak Terstruktur adalah jenis tulisan informal dan mengalir bebas di mana penulisnya tidak dibatasi oleh aturan apa pun (Mukherjee et al. 2013 ). Teks tersebut dapat terdiri dari beberapa kalimat, yang masing-masing berpotensi mengandung pro dan kontra.
Misalnya, tinjauan tidak terstruktur menawarkan lebih banyak informasi opini dibandingkan tinjauan formal (Levashina dkk. 2014 ).
Fitur yang dinyatakan secara eksplisit: Jika suatu fitur muncul di segmen/potongan kalimat ulasan, fitur tersebut disebut sebagai fitur eksplisit produk. Misalnya, di segmen tersebut, gambarnya luar biasa.
Gambar adalah fitur eksplisit. Jika fitur f tidak disebutkan secara eksplisit di bagian ulasan tetapi tersirat, maka fitur tersebut disebut sebagai fitur implisit produk (Liu et al. 2010; Elit dkk. 2011 ).
Misalnya, pada bagian tersebut, harganya sangat mahal, dan mahal adalah ciri khasnya. Mengingat sifat kritis dari analisis sentimen, penelitian ini menguji hubungan antara struktur perspektif responden dan isu-isu analisis sentimen.
Tantangan metodologis
Mayoritas analisis sentimen di zaman modern adalah model pembelajaran mesin berbasis data yang mengadaptasi algoritma analisis sentimen yang dikembangkan untuk evaluasi produk guna mengevaluasi postingan mikroblog adalah pertanyaan yang belum terjawab.
Selain itu, cara menghadapi situasi ambigu dan ironi merupakan kesulitan utama dalam analisis sentimen. Misalnya, ucapan sarkastik terhadap suatu objek dimaksudkan untuk mengomunikasikan sentimen negatif; namun, algoritme analisis sentimen konvensional sering kali mengabaikan makna ini. Banyak metode telah diusulkan (Castro dkk. 2019 ; Medhat dkk. 2014) untuk mendeteksi sarkasme dalam bahasa.
Namun, masalahnya masih jauh dari terselesaikan, karena komedi sangat spesifik secara budaya, dan merupakan tantangan bagi mesin untuk memahami kiasan budaya yang unik (dan sering kali cukup mendetail).
Dalam karya Poria dkk. ( 2018a) menyarankan dengan memasukkan ekspresi vokal dan wajah ke dalam analisis sentimen multimodal; Hal ini dapat meningkatkan tingkat keberhasilannya dalam mengidentifikasi komentar sarkastik. Lebih jauh lagi, individu mengekspresikan sentimen untuk alasan sosial yang tidak berhubungan dengan kecenderungan fundamental mereka.
Misalnya, seseorang dapat menyampaikan pikiran positif atau negatif untuk mematuhi suatu topik tertentu. Norma atau mengekspresikan dan mendefinisikan identitas seseorang.
Terakhir, analisis sentimen berbasis mesin terbatas pada ekspresi sentimen luar, dan informasi konklusif tentang ide-ide yang diungkapkan individu masih kurang.
Analisis sentimen dapat diterapkan pada berbagai jenis data, yang masing-masing memiliki tantangan tersendiri. Analisis sentimen interaksi manusia ke mesin dan interaksi manusia ke manusia memerlukan kumpulan data yang sangat mirip dengan yang digunakan untuk pengenalan emosi. Akibatnya, penelitian ini memiliki keterbatasan yang sama dalam hal ukuran dan kebenaran dasar yang tidak dapat diandalkan.
Dalam karya McDuff dkk. ( 2014) telah mengilustrasikan bagaimana webcam dapat digunakan untuk mengumpulkan sejumlah besar reaksi emosional, termasuk sentimen. Meskipun hal ini menurunkan kualitas tangkapan audiovisual, hal ini mencapai skala yang tidak dapat dibayangkan di laboratorium.
Selain itu, ada masalah pelabelan data laboratorium rahasia, yang melarang mereka yang diizinkan untuk memeriksa data melakukan operasi pelabelan yang memakan waktu. Akibatnya, mereka dibatasi dalam hal jumlah data yang dapat dikumpulkan di laboratorium dan kemampuan kita untuk memberi label pada data dalam jumlah besar.
Ada beberapa metode untuk menilai perasaan, tetapi algoritma penyematan kata seperti word2vec dan GloVe mengubah kata menjadi vektor yang bermakna. Sebaliknya, metode ini mengabaikan informasi sentimen kata tersebut (Wankhade dkk. 2021 ).
Informasi multimedia di situs web adalah sumber kedua dari data sentimen multimodal. Media sosial memberi kita banyak data yang membantu kita meningkatkan skala. Masalahnya adalah data yang diperoleh bervariasi dalam hal kualitas dan konteks, dan data tersebut terbatas pada populasi tertentu yang lebih umum di internet.
Namun, karena data tersedia untuk umum, crowdsourcing dapat digunakan untuk mengkategorikannya dengan mudah. Berdasarkan data yang tersedia mengenai MSA, masyarakat lebih cenderung mengomunikasikan ide-ide positif atau negatif secara online, sehingga mengakibatkan kelangkaan opini netral yang terwakili dalam semua studi MSA yang dievaluasi.
Sarkasme Orang cenderung menggunakan sarkasme ketika tidak sesuai dengan harapannya. Sangat sulit bagi mesin untuk menangkap sarkasme karena banyak faktor yang mempengaruhi sarkasme, seperti nada suara, situasi, informasi latar belakang, dll.
Sarkasme adalah ucapan satir yang mungkin terlihat seperti pujian tetapi kenyataannya. Sarkasme digunakan orang untuk mengkritik. Sarkasme adalah jenis sentimen di mana orang mengungkapkan informasi tersirat, biasanya kebalikan dari isi pesan, untuk menyakiti seseorang secara emosional atau mengejek sesuatu. Deteksi sarkasme dalam penambangan teks adalah salah satu tugas paling menantang di NLP, namun belakangan ini menjadi subjek penelitian yang menarik karena kegunaannya dalam meningkatkan analisis sentimen media sosial (Eke et al. 2020 ) .
Gaya penulisan informal Gaya penulisan informal adalah tantangan terbesar untuk semua tugas NLP, termasuk analisis sentimen. Orang-orang sangat santai dalam menulis ulasan atau teks; mereka cenderung menggunakan akronim, emoji, pintasan dalam teksnya yang sangat sulit dipahami. Akronim dapat digunakan jika bersifat universal. Ada banyak akronim daerahCatatan kaki14 yang berubah dan berkembang dari hari ke hari.
Kesalahan tata bahasa Kesalahan tata bahasa sangat umum terjadi dalam teks informal dan dapat ditangani, namun hanya sampai batas tertentu; kesalahan ejaan juga dapat diperbaiki secara terbatas.
Sangat sulit untuk mengembangkan kesalahan ejaan pengguna secara unik setiap saat. Keakuratan analisis sentimen dan tugas NLP dapat ditingkatkan jika kesalahan ini dapat ditangani dan diperbaiki.
Biaya komputasi Untuk mendapatkan akurasi yang lebih baik, kita perlu meningkatkan ukuran data pelatihan dan memperumit model, yang akan meningkatkan biaya komputasi model untuk pelatihan secara eksponensial; GPU kelas atas mungkin diperlukan untuk melatih model dengan korpus yang besar.
Model seperti SVM, NB tidak mahal secara komputasi, tetapi jaringan saraf dan model perhatian telah menunjukkan bahwa model tersebut mahal secara komputasi.
Ketersediaan data Karena NLP dan analisis sentimen adalah teknologi yang sedang booming baru-baru ini, Ketersediaan data juga dapat menjadi tantangan dalam beberapa kasus. Meskipun data tersedia di Twitter untuk analisis sentimen, data pelatihan berkualitas tinggi merupakan tantangan bagi algoritme pembelajaran yang diawasi.
Data pelatihan untuk ABSA sulit ditemukan secara online sehingga perlu dipersiapkan secara manual. Data pelatihan dari satu domain mungkin tidak dapat diterapkan dan berharga untuk domain lain.
Misalnya, model yang dilatih pada kumpulan data ulasan hotel tidak membantu dalam memprediksi sentimen kumpulan data saham atau reksa dana dan sebaliknya.
Adaptasi bahasa Bahasa berubah ketika berpindah ke wilayah dan tempat yang berbeda; Meskipun bahasa dasarnya tetap sama, banyak faktor yang mempengaruhi bahasa tersebut, seperti keunggulan bahasa, pengucapan, tingkat melek huruf, dll.
Misalnya saja bahasa Inggris, yang digunakan secara luas di seluruh dunia, namun terlihat bahwa banyak variasi bahasa Inggris yang digunakan di seluruh dunia berdasarkan bahasa tersebut. di wilayah seperti India, Amerika, Inggris, dll.
Banyak kata yang digunakan secara berbeda tergantung pada wilayah yang digunakan. Misalnya, kata “thong” yang berarti sandal jepit atau sandal di Australia, tetapi di Inggris berarti pakaian dalam. Demikian pula, ejaan berbeda untuk kata yang sama, seperti “warna” dan “warna”,artinya sama tetapi ejaannya berbeda di wilayah yang berbeda. Hal ini akan membuat duplikat dan dapat mempengaruhi keakuratan dan biaya komputasi model.
Hambatan bahasa adalah tantangan tersulit dalam NLP. Ada ribuan bahasa yang digunakan di seluruh dunia, meskipun teknik NLP hampir tidak tersedia untuk 5-10 bahasa, dan sumber daya tersedia secara luas dalam bahasa Inggris.
Frasa yang mengandung kata keterangan derajat dan kata keterangan intensifier seperti sedikit, hampir tidak, dan sedang digunakan untuk mengukur sentimen.
Misalnya, pertimbangkan ulasan r1= “Makanannya hampir tidak enak” dan r2= “makanannya sangat enak”. r 1 dianggap netral atau sedikit positif, sedangkan r 2 dianggap sangat positif. Kata keterangan ‘nyaris’ dan ‘benar-benar’ menentukan sejauh mana kepositifan dan kata ‘baik’. Demikian pula, intensifier juga mengukur sentimen kalimat. Intensifier seperti sangat juga digunakan untuk meningkatkan positif atau negatifnya token.
Misalnya, “terlalu bagus” dianggap lebih positif daripada “baik”.Intensifier dan kata keterangan derajat memberikan tantangan dalam menggabungkan nilai sentimen dan membandingkan dua kalimat dari sentimen yang sama daripada membedakan dua kalimat dengan polaritas berlawanan.
Tantangan teoritis menggunakan berbagai pendekatan untuk meningkatkan kinerja ketika menjawab tantangan sentimen tertentu (Hunter et al. 2012 ).
Jenis teoritis membuat penandaan PoS yang ekstensif dan pendekatan berbasis leksikon (Taboada et al. 2011 ). Pendekatan kedua adalah teknik BoW (El-Din 2016 ).
Terakhir, ada pendekatan ME. Namun, teknik yang paling sering digunakan adalah teknik N-gram, yang didasarkan pada frasa dan ekspresi ketika menghadapi tantangan sentimen teknis (Wilson dkk. 2009 ).
Serta metode yang paling sedikit digunakan adalah pendekatan berbasis leksikon.
Data Kode Campuran Pencampuran kode adalah penggunaan kosakata dan tata bahasa dari berbagai bahasa dalam kalimat yang sama (Pravalika dkk. 2017 ; Poria dkk. 2020 ).
Campur Kode merupakan fenomena kebahasaan yang dapat terjadi dalam situasi multibahasa dimana penuturnya berbicara dalam berbagai bahasa. Fenomena ini menjadi semakin umum seiring dengan berkembangnya komunikasi antara kelompok orang yang berbicara dalam bahasa yang berbeda.
Pencampuran Kode: Tinjauan terhadap postingan Facebook yang dibuat oleh pengguna berbahasa Hindi-Inggris mengungkapkan adanya tingkat campur kode yang tinggi dalam postingan tersebut. Masalah dalam teks campuran kode Hindi-Inggris dilaporkan menggunakan korpus beranotasi tag PoS. (Vijay dkk. 2018) sebuah sistem yang dapat mendeteksi bahasa suatu kata, menormalkannya ke bentuk standar, menetapkan tag PoS, dan membaginya menjadi beberapa bagian untuk menangani masalah penguraian dangkal konten media sosial campuran kode Hindi-Inggris. Hal ini sering terjadi dalam masyarakat multibahasa dan menimbulkan kesulitan besar pada tugas-tugas NLP seperti analisis sentimen.
Kurangnya tata bahasa formal untuk frasa campuran kode menyulitkan identifikasi semantik komposisi, yang sangat penting untuk melakukan analisis sentimen menggunakan teknik berbasis aturan dan berbasis pembelajaran mesin.
Selain itu, karena pencampuran bergantung pada individu, tidak ada pedoman pencampuran yang telah ditentukan sebelumnya, yang merupakan salah satu kelemahan signifikan (Chatterjere dkk. 2020).
Oleh karena itu, untuk melakukan analisis sentimen terhadap data campuran kode, model bahasa baru harus dikembangkan. Dalam karya Chatterjere dkk. ( 2020 ) dan Singh dkk. ( 2018 ) tantangan pemodelan bahasa untuk teks campuran kode Hinglish diselidiki. Namun, terlepas dari kenyataan bahwa Campur Kode merupakan permasalahan yang signifikan, hanya sedikit penelitian yang membahasnya secara menyeluruh seperti penelitian yang dilakukan oleh Lal dkk. ( 2019 ) (Bahasa Inggris-Hindi) data campuran kode untuk analisis sentimen, penulis menyajikan arsitektur hybrid.