Survei tentang metode analisis sentimen, penerapan, dan tantangan – Pengumpulan data dan pemilihan fitur
Pengumpulan data
Data dapat dikumpulkan dari internet melalui web scraping, media sosial, saluran berita, situs web E-commerce, Forum, Weblog, beberapa situs web lain yang ditunjukkan pada Gambar 2 . Pengumpulan Data merupakan tahap pertama dalam Analisis Sentimen. Bergantung pada temuan analisis sentimen tugas, data teks dapat digabungkan dengan jenis data lain seperti video, audio, lokasi, dll. Beberapa sumber penting pengumpulan data adalah:
Media sosial : Data sosial mengacu pada informasi yang dikumpulkan melalui jaringan media sosial. Ini menunjukkan bagaimana konsumen berinteraksi dengan produk dengan mengakses, memposting, dan bertukar. Kajian akademis mengenai individu, kelompok dan perilaku menggunakan media sosial sebagai sumber data yang dinamis. Ini mengacu pada aplikasi Internet berbasis web atau seluler yang memungkinkan pengguna membuat, mengakses, dan memperdagangkan konten buatan pengguna.
Forum : Pengguna dapat menggunakan papan pesan untuk mendiskusikan berbagai topik, bertukar pendapat dan ide, dan meminta bantuan melalui pesan teks. Forum adalah sumber yang menarik untuk analisis sentimen karena sifat dinamis dari informasi yang dihasilkan pengguna. Selain itu, peneliti dapat melakukan analisis sentimen pada domain tertentu dengan memanfaatkan forum sebagai sumber (Korkontzelos dkk. 2016 ).
Weblog : Weblog pendek terdiri dari paragraf yang menyampaikan sudut pandang, fakta, entri buku harian pribadi, atau tautan. Bersama-sama disebut sebagai postingan, yang diurutkan secara kronologis dengan entri terbaru muncul terlebih dahulu, dalam gaya artikel penelitian (Kumar dan Teeja 2012 ). Blog merupakan sumber berharga untuk melakukan analisis sentimen pada berbagai entitas (Annett dan Kondrak 2008 ).
Situs web Electronic Commerce: Situs web Electronic Commerce di mana pengguna dapat memberikan evaluasi dan mengungkapkan pendapat mereka tentang bisnis atau organisasi tertentu. Dalam hal ini, situs web yang tidak secara khusus mengulas situs memiliki jutaan ulasan, seperti situs e-niaga yang menampilkan ulasan produkCatatan kaki1 atau situs ulasan profesional seperti.Catatan kaki2 Dalam karya Jain dkk. ( 2019 ) melakukan studi deskriptif terhadap berbagai klasifikasi layanan maskapai penerbangan.
Gambar 2
Tabel 1 Macam-macam penjelasan singkatan
Abbreviation | Description of abbreviation |
---|---|
NLP | Natural Language Processing |
NB | Naïve Bayes |
SVM | Support Vector Machine |
RF | Random Forest |
LR | Logistic Regression |
DT | Decision Tree |
LSTM | Long Short-Term Memory |
Bi-LSTM | Bi-directional Long Short-Term Memory |
CNN | Convolutional Neural Network |
RNTN | Recursive Neural Tensor Network |
RNN | Recurrent Neural Network |
ANN | Artificial Neural Network |
RNTN | Recursive Neural Tensor Network |
AI | Artificial Intelligence |
KNN | K nearest Neighbours |
LDA | Latent Dirichlet allocation |
ME | Maximum Entropy |
LSA | Latent Semantic Analysis |
CBOW | Continuous Bag of words |
SG | Skip Gram |
TF-IDF | Term Frequency-Inverse Document Frequency |
DNN | Deep Neural Network |
BoW | Bag of Words |
ABSA | Aspect Based Sentiment Analysis |
PoS | Parts-of-Speech |
NLTK | Natural Language tool kit |
DCNN | Dynamic Convolutional Neural Network |
BERT | Bidirectional Encoder Representations from Transformers |
MSA | Multimodal Sentiment Analysis |
GPT | Generative Pre-trained Transformer |
SLC | Sentence Level Classification |
AR-NN | Auto-regressive Neural Network |
DMN | Dynamic Memory Networks |
ELMo | Embedding Language Models |
Sumber
https://link.springer.com/article/10.1007/s10462-022-10144-1