Survei tentang metode analisis sentimen, penerapan, dan tantangan – Pemilihan fitur
Penting untuk diingat bahwa mengembangkan model klasifikasi memerlukan identifikasi fitur-fitur yang relevan dalam kumpulan data terlebih dahulu (Ritter et al. 2012 ). Dengan demikian, ulasan dapat diterjemahkan menjadi kata-kata selama pelatihan model dan ditambahkan ke vektor fitur. Untuk mempertimbangkan satu kata, teknik ini disebut “Uni-gram”; ketika dua kata dipertimbangkan, teknik ini disebut “Bi-gram”; dan jika tiga kata dipertimbangkan, teknik ini disebut sebagai “Tri-gram.” kombinasi unigram dan bigram berguna untuk analisis (Razon dan Barnden 2015 ); fitur konteks yang berguna untuk mendapatkan hasil paling akurat.
Ciri-ciri pragmatis adalah ciri-ciri yang menekankan penerapan kata-kata daripada landasan metodologis. Pragmatik adalah studi tentang bagaimana konteks berhubungan dengan persepsi dalam linguistik dan ilmu terkait. Pragmatik adalah studi tentang fenomena seperti implikatur, tindak tutur, relevansi, dan percakapan.
Emoji adalah ekspresi wajah yang digunakan dalam analisis sentimen untuk menyampaikan emosi. Berbagai emotikon digunakan untuk menggambarkan berbagai macam emosi manusia (Tian et al. 2017 ). Emoticon membantu menyampaikan nada suara seseorang saat menyusun kalimat dan juga membantu dalam analisis sentimen. Gantikan maknanya dengan emotikon: Ulasan berisi berbagai emosi, termasuk kebahagiaan, kesedihan, dan kemarahan. Emoticon diklasifikasikan menjadi dua kategori: emosi sentimen positif dan negatif. Emosi positif terbentuk dari emosi positif seperti cinta, kebahagiaan, dan kegembiraan, sedangkan emotikon negatif terdiri dari emosi negatif seperti kesedihan, depresi, dan kemarahan.
Tanda baca , atau tanda seru, berfungsi untuk menonjolkan kekuatan ucapan positif atau negatif. Demikian pula, tanda kutip dan tanda tanya adalah tanda baca lainnya.
Kata-kata dalam bahasa gaul , misalnya lol dan rofl . Ini sering digunakan untuk memasukkan rasa humor ke dalam sebuah komentar. Mengingat sifat dari tweet opini, masuk akal untuk berasumsi bahwa ekspresi slang dalam teks menyarankan analisis sentimen. Gantikan maknanya dengan istilah slang.
Tanda baca , seperti tanda seru, berfungsi untuk menonjolkan kekuatan ucapan positif atau negatif. Demikian pula, tanda kutip dan tanda tanya adalah tanda baca lainnya.
Ekstraksi fitur
Ekstraksi fitur adalah tugas utama dalam klasifikasi sentimen karena melibatkan ekstraksi informasi berharga dari data teks, dan ini akan berdampak langsung pada performa model. Pendekatan ini mencoba mengekstraksi informasi berharga yang merangkum fitur-fitur teks yang paling penting. Dalam karya Venugopalan dan Gupta ( 2015 ) memasukkan fitur-fitur lain karena sulitnya mengekstrak fitur dari teks. Dalam kebanyakan kasus, tanda baca dihapus dari teks setelah diturunkan pada tahap pra-pemrosesan, tetapi mereka menggunakannya untuk mengekstrak fitur dan tagar serta emotikon yang umum digunakan teknik ekstraksi fitur yang tercantum di bawah.
Istilah frekuensi Ini adalah salah satu cara paling sederhana untuk mengekspresikan fitur yang lebih sering digunakan dalam berbagai aplikasi NLP, termasuk Analisis Sentimen, untuk pengambilan informasi. Ini mempertimbangkan satu kata, yaitu, uni-gram atau kelompok dua-tiga kata, yang dapat berupa bi-gram dan tri-gram, dengan jumlah istilah yang mewakili fitur (Sharma dkk. 2013 ) . Kehadiran term memberikan nilai 0 atau 1 pada kata tersebut . Frekuensi term adalah nilai bilangan bulat, yang merupakan hitungannya dalam dokumen tertentu. TF-IDF dapat digunakan sebagai skema tertimbang untuk hasil yang lebih baik yang akan mengukur pentingnya token apa pun dalam dokumen tertentu.
Parts of Speech tagging Proses penandaan suatu kata dalam suatu teks (korpus) berdasarkan definisi dan konteksnya disebut juga dengan istilah grammatical tagging. Token dikategorikan menjadi kata benda, kata kerja, kata ganti, kata keterangan, kata sifat, dan preposisi. Misalnya, “Ponsel ini luar biasa” dapat diberi tag sebagai berikut: (Straka dkk. 2016 ) Ini :determiner, mobile:noun, is:verb, awesome:adjective. Untuk penambangan sentimen, kata sifat lebih sering digunakan karena mewakili sentimen opini. Pemberi tag PoS dapat digunakan untuk tugas ini yang tersedia di NLTK atau Spacy. Penelitian paling umum menggunakan Stanford PoS-tagger (Weerasooriya et al. 2016 ).
Negasi Merupakan kata-kata yang dapat mengubah atau membalikkan polaritas pendapat dan menggeser makna suatu kalimat. Kata-kata negasi yang umum digunakan antara lain tidak, tidak bisa, tidak juga, tidak pernah, tidak ada, tidak ada, dll. Setiap kata yang muncul dalam kalimat tidak akan membalikkan polaritasnya; oleh karena itu, menghapus semua kata negasi dari stop-word dapat meningkatkan biaya komputasi dan menurunkan akurasi model. Kata-kata negasi harus ditangani dengan sangat hati-hati (George et al. 2013). Kata-kata negasi seperti not, none, nor, dan sebagainya sangat penting untuk analisis sentimen karena dapat mengembalikan polaritas frasa tertentu. Misalnya, kalimat “Film ini bagus”. adalah kalimat positif, tapi “Filmnya tidak bagus”. adalah kalimat negatif. Sayangnya, beberapa sistem menghilangkan kata-kata negasi karena kata-kata tersebut dimasukkan dalam daftar kata-kata berhenti atau dihilangkan secara implisit karena kata-kata tersebut memiliki nilai sentimen netral dalam leksikon dan tidak mempengaruhi polaritas absolut. Namun, membalikkan polaritasnya tidaklah mudah karena kata-kata negasi dapat muncul dalam sebuah kalimat tanpa mempengaruhi emosi teks.
Dalam beberapa kasus, sentimen netral juga disertakan, dan evaluasi netral sering kali diabaikan dalam banyak tugas analisis sentimen karena ketidakjelasan dan kurangnya informasi, Dalam karya Valdivia dkk. ( 2018 ) dianggap memberdayakan netralitas dengan menentukan batas antara evaluasi positif dan negatif untuk meningkatkan kinerja model. Mereka menggunakan beberapa pendekatan analisis sentimen terhadap berbagai korpora, mengekstraksi sentimen mereka dan menyaring evaluasi netral melalui konsensus, yaitu mengambil berbagai model berdasarkan agregasi tertimbang. Terakhir, mereka kemudian membandingkan performa model tunggal dan model agregat dalam kategorisasi. Kontribusi lain diperkenalkan dalam karya Wang et al. ( 2020) analisis opini, yaitu deteksi sentimen berskala halus bertingkat dengan penanganan ambivalensi. Penangan ambivalensi dirinci, begitu pula pengaturan penyesuaian tingkat kekuatan untuk menganalisis kekuatan dan skala halus dari sikap positif dan negatif (Buder dkk. 2021 ). Ia mampu menggali lebih dalam teks untuk mengungkap sentimen multi-level berskala halus dan tipe emosi yang berbeda. Dalam karya Valdivia dkk. ( 2017 ) menyarankan penggunaan operator rata-rata tertimbang terinduksi berdasarkan mayoritas fuzzy untuk polaritas agregasi dari banyak metode analisis sentimen. Kontribusi mereka adalah membangun netralitas opini yang dipandu oleh mayoritas yang tidak jelas.
Bag of Words (BoW) BoW adalah salah satu pendekatan paling sederhana untuk mengekstraksi fitur teks. BoW akan mendeskripsikan kemunculan kata dalam sebuah dokumen. Bag mewakili kosakata kata-kata yang digunakan untuk membentuk vektor untuk setiap kalimat. Masalah utama model ini adalah tidak mempertimbangkan makna sintaksis teks. Misalnya, perhatikan dua kalimat s1= “makanannya enak”, s2= “pelayanannya buruk”. Kosakata dibuat untuk dua kalimat dimana v= {‘the’, ‘food’, ‘was’, ‘service’, ‘bad’, ‘good’} dan panjang vektornya adalah 6 dan direpresentasikan sebagai v1= [ 1 1 1 0 0 1] dan v2= [1 0 1 1 1 0]. Kinerja pendekatan BoW dievaluasi menggunakan (TF-IDF) yang berkinerja lebih baik dalam banyak kasus.
Penyematan kata
Penyematan kata merepresentasikan kata-kata dalam ruang vektor dengan mengelompokkan kata-kata yang memiliki arti serupa. Setiap kata ditugaskan ke sebuah vektor, yang kemudian dipelajari dengan cara yang mirip dengan jaringan saraf. Ia mempelajari dan memilih vektor dari kosakata yang telah ditentukan. Dimensi kata dapat dipilih dengan meneruskannya sebagai hyperparameter. Model SG dan model CBOW berkelanjutan adalah dua algoritma yang paling terkenal untuk penyematan kata. Keduanya adalah metode pendekatan jendela dangkal yang menentukan jendela pendek dengan ukuran tertentu, seperti empat atau enam, dan kata saat ini diantisipasi menggunakan kata konteks di CBOW, sedangkan kata konteks diramalkan menggunakan kata saat ini di SG. model. Penyematan kata berkaitan dengan pembelajaran tentang kata-kata dalam konteks penggunaan lokalnya, yang ditentukan oleh jendela istilah terdekat.
Word2vec word2vec adalah jaringan saraf 2 lapis yang digunakan untuk membuat vektorisasi token. Ini adalah salah satu teknik vektorisasi terkenal dan banyak digunakan yang dikembangkan oleh Mikolov et al. ( 2013 ). Word2vec terutama memiliki dua model CBOW dan SG. Model CBOW memprediksi kata sasaran menggunakan kata konteks, sedangkan model SG memprediksi kata sasaran menggunakan kata konteks. Dengan kumpulan data yang lebih besar, model SG memiliki performa yang lebih baik.
Vektor Global (GloVe) Vektor Global untuk representasi kata telah dikembangkan (Pennington et al. 2014 ) melalui pendekatan pembelajaran tanpa pengawasan untuk menghasilkan penyematan kata dari matriks kejadian bersama korpus kata-ke-kata. GloVe adalah metode yang populer digunakan karena melatih model GloVe dengan mudah dan cepat karena kapasitas implementasi paralelnya (Al Amrani et al. 2018 ).
Teks Cepat Ini adalah perpustakaan sumber terbuka dan gratis yang dikembangkan oleh FAIR (Facebook AI Research) yang terutama digunakan untuk klasifikasi kata, vektorisasi, dan pembuatan penyematan kata. Ia menggunakan pengklasifikasi linier untuk melatih model, yang sangat cepat dalam melatih model (Bojanowski et al. 2017 ). Ini mendukung model CBOW dan SG. Kesamaan semantik dapat ditemukan dengan menggunakan model ini.
ELMo ELMo adalah representasi teks yang dikontekstualisasikan secara mendalam. ELMo berkontribusi untuk mengatasi keterbatasan pendekatan penyematan kata konvensional seperti model LSA, TF-IDF, dan n-gram (Peng et al. 2019 ). ELMo menghasilkan penyematan pada kata-kata berdasarkan konteks penggunaannya untuk mencatat arti kata dan mengambil informasi kontekstual tambahan. Melalui pra-pelatihan, ELMo dapat merepresentasikan kata-kata polisemantik dengan lebih akurat dalam berbagai konteks dan lebih informatif tentang semantik tingkat tinggi teks (Ling dkk. 2020 ).
Pendekatan pemilihan fitur
Pendekatan Seleksi Fitur dievaluasi untuk mengidentifikasi suatu karakteristik data. Suatu karakteristik dapat bersifat tidak signifikan, signifikan, atau mubazir. Berbagai pendekatan pemilihan fitur digunakan untuk menghilangkan karakteristik yang tidak relevan dan berlebihan (Ahmad et al. 2019b ; Lata et al. 2020 ). Pemilihan Fitur adalah prosedur yang mengidentifikasi dan menghilangkan karakteristik yang berlebihan dan tidak relevan dari daftar fitur sehingga meningkatkan akurasi klasifikasi sentimen. Dalam karya (Hailong et al. 2014 ; Duric dan Song 2012) analisis sentimen untuk pemilihan fitur meliputi metode berbasis leksikon dan statistik. Manusia menghasilkan fitur dalam teknik berbasis leksikon. Biasanya, prosedur dimulai dengan pengumpulan frasa dengan perasaan yang kuat untuk mengembangkan serangkaian fitur terbatas (Kolchyna et al. 2015 ). Kumpulan ini ditambah dengan istilah tambahan melalui deteksi sinonim atau sumber daya web (Ghazi dkk. 2015 ; Rizos dkk. 2019 ). Manfaat dari pendekatan ini adalah kemanjurannya, karena pendekatan ini secara hati-hati menangani berbagai aspek. Memilih fitur buatan tangan adalah proses yang panjang dan rumit.
SentiWordNet adalah leksikon sentimen yang dibangun dari database WordNet, dengan setiap istilah disertai nilai numerik yang menunjukkan sentimen positif dan negatif. Contoh yang terkenal adalah leksikon SentiWordNet. sebaliknya, proses statistik sepenuhnya otomatis dan digunakan secara luas untuk pemilihan fitur, meskipun proses statistik biasanya gagal membedakan antara fitur sentimental dan non-sentimental (Poria et al. 2014 ; Varelas et al. 2005 ). Penulis (Cambria dkk. 2020 ) mengusulkan SenticNet sebagai cara untuk memasukkan penalaran logis ke dalam model pembelajaran mendalam untuk analisis sentimen.
Teknik statistik untuk pemilihan fitur biasanya dikategorikan ke dalam empat kategori: filter, embedding, wrapper, dan hybrid.
Pendekatan filter Ini adalah teknik pemilihan fitur yang paling sering digunakan. Ia memilih fitur tanpa menggunakan teknik pembelajaran mesin apa pun berdasarkan properti umum data pelatihan. Fitur tersebut diberi peringkat menggunakan beberapa metrik statistik, dan kemudian fitur dengan peringkat tertinggi dipilih (Adomavicius dan Kwon 2011 ). Mereka tidak mahal secara komputasi dan cocok untuk kumpulan data dengan jumlah atribut yang tinggi. Kata-kata “Perolehan Informasi”, “Chi-kuadrat”, “Frekuensi Dokumen”, dan “Mutual informasi” semuanya digunakan untuk merujuk pada algoritma filter dasar.
Pendekatan wrapper Pendekatan ini didasarkan pada algoritma pembelajaran mesin karena mengandalkan keluaran dari algoritma pembelajaran mesin. Pendekatan sering kali bersifat iteratif dan menuntut komputasi karena ketergantungan ini, namun pendekatan ini dapat menentukan kumpulan fitur optimal untuk algoritma pemodelan tertentu. Teknik wrapper mencakup pembuatan subset fitur (pemilihan maju atau mundur) ditambah berbagai algoritma pembelajaran (seperti NB atau SVM).
Pendekatan tertanam Metode ini menggabungkan prosedur pemilihan fitur ke dalam pelaksanaan algoritma pemodelan. Ia menggunakan metode klasifikasi yang memiliki kemampuan pemilihan fitur bawaan (Imani et al. 2013 ). Hasilnya, pendekatan ini lebih efisien secara komputasi dibandingkan pendekatan wrapper. Namun, teknik ini bersifat spesifik pada algoritma (Das dkk. 2020 ). Teknik yang disematkan sering kali didasarkan pada berbagai algoritma pohon keputusan, termasuk CART (Kosamkar dan Chaudhari 2013 ), C4.5, dan ID3 (Quinlan 2014 ; Mezquita et al. 2020 ), dan algoritma tambahan seperti LASSO (Hssina et al. 2014 ).
Pendekatan hibrid Strategi ini menggabungkan pendekatan filter dan wrapper; metode hybrid umumnya menggunakan berbagai pendekatan untuk menghasilkan subset fitur yang optimal. Teknik hibrida biasanya mencapai kinerja dan akurasi yang sangat baik melalui penggunaan banyak pendekatan. Banyak algoritme pemilihan fitur hibrid untuk analisis sentimen telah dikembangkan (Chiew et al. 2019 ).