Survei tentang metode analisis sentimen, penerapan, dan tantangan – Analisis sentimen multimodal (MSA)
MSA menambahkan level baru pada analisis sentimen berbasis teks standar dengan memasukkan modalitas tambahan seperti data audio dan visual.
Beberapa penelitian telah mencoba untuk membedakan analisis sentimen dalam multimedia sosial menggunakan berbagai input multimodal, termasuk data visual, audio, dan tekstual (Soleymani et al. 2017). Situs multimedia sosial seperti YouTube, blog video (vlog), atau evaluasi lisan berisi ekspresi sentimen, seperti video yang menggambarkan seseorang mendiskusikan suatu produk atau film. Biasanya, transkrip lisan diperiksa secara terpisah dari ekspresi wajah dan suara, dan hasil analisis sentimen berbasis teks unimodal digabungkan dalam postingan untuk menciptakan sistem “MSA”. Bisa berupa bimodal, yang terdiri dari berbagai kombinasi dua modalitas, atau trimodal, yang terdiri dari tiga modalitas (Stappen et al. 2020 ).
Mayoritas teknik MSA berfokus pada pengembangan proses fusi yang kompleks, mulai dari model berbasis perhatian hingga fusi berbasis tensor.
MSA adalah bidang studi yang berkembang pesat. Peluang utama dalam bidang ini adalah untuk meningkatkan mekanisme fusi multimodal.
Dalam karya Majumder dkk. ( 2018 ) dan Poria dkk. ( 2018b ) teknik fusi fitur yang bersifat hierarkis, menggabungkan dua modalitas terlebih dahulu dan selanjutnya ketiga modalitas. MSA bahasa lisan manusia telah berkembang menjadi subjek penelitian yang signifikan (Liu 2012 ; Poria dkk. 2017 ).
Berbeda dengan tugas pembelajaran emosional tradisional yang memerlukan penggunaan modalitas tunggal (teks, ucapan), pembelajaran multimodal menggunakan banyak sumber informasi, termasuk bahasa (teks/transkrip/ASR), modalitas audio/akustik, dan visual.
Sumber
https://link.springer.com/article/10.1007/s10462-022-10144-1