Tinjauan Artificial Intelligence pada Industri Kreatif – Part 1
1. Pendahuluan
Yo, pernah nggak sih kalian bayangin kalo komputer bisa ikut ngebantu bikin lagu, film, atau bahkan gambar yang keren banget? Di artikel ini, kita nggak cuma ngomongin mimpi, tapi juga kasih tau kalian gimana sih AI udah mulai masuk ke dunia kreatif kita.
Tapi tunggu dulu, gimana dengan dunia kreatif kita? Kreatifitas itu kan beda, kita bisa ‘thinking out of the box’, sesuatu yang susah banget buat mesin. Tapi jangan salah, AI juga bisa bantu kita loh di dunia kreatif.
Ada riset yang bilang 75% seniman di beberapa negara udah mulai mempertimbangkan pakai AI buat bantuin mereka di tugas-tugas yang nggak terlalu ‘kreatif’. Dan bukan cuma itu, penggunaan AI di industri kreatif tuh udah meningkat banget dalam lima tahun terakhir.
Mau tau lebih dalam gimana mesin bisa bantu kita jadi lebih kreatif atau malah jadi ‘artis’ sendiri? Yuk, baca artikel ini! Kita bakal ngupas tuntas teknologi keren ini, mulai dari bikin karya asli, analisis data, sampe ke perbaikan kualitas karya.
Kita juga bakal diskusiin tantangan dan masa depannya, plus ngomongin juga soal etika dan dampaknya ke kehidupan kita. Jangan sampe ketinggalan, siapa tau ini bisa jadi ‘game-changer’ buat karir kreatif kalian di masa depan!
2. Kenalan Yuk Sama Artificial Intelligence (AI)
Hei semua, kecerdasan buatan (AI) itu sebenernya apa sih? Simplenya, ini adalah kode dan algoritma yang bikin komputer bisa ngerti dan ngerjain hal-hal yang biasanya cuma manusia yang bisa. Kalo komputer udah bisa ngerti dan ngelakuin semuanya kayak manusia, itu biasanya disebut “General AI”. Tapi yang banyak ada sekarang itu adalah “Narrow AI,” yang cuma bisa ngelakuin tugas-tugas tertentu.
2.1 Machine Learning, Neurons, dan Artificial Neural Networks
Sekarang banyak yang pake algoritma berbasis Machine Learning (ML). ML ini belajar langsung dari data besar tanpa perlu model atau rumus khusus. Ada berbagai jenis ML, kayak Supervised Learning yang belajar dari data yang udah dikasih label, Unsupervised Learning yang belajar dari data tanpa label, dan Reinforcement Learning yang belajar dari trial and error.
Konsep modern ML ini dapet inspirasi dari model neuron yang pertama kali diusulin tahun 1943. Dalam model ini, neuron artificial menerima banyak input dan nimbang-nimbanginnya. Hasilnya dilewatkan melalui fungsi aktivasi.
MLP, atau Multi-Layer Perceptron, adalah salah satu jenis Artificial Neural Network (ANN) yang populer di tahun 80-an. Ini terdiri dari beberapa lapisan neuron yang saling terhubung. Salah satu kelemahannya adalah model bisa jadi ‘overfit’ dan nggak bisa generalize ke data baru.
Untuk training, MLP ini menggunakan metode backpropagation untuk menghitung gradien dari loss function. Tujuannya adalah meminimalkan loss function ini dari banyak data input.
2.2 Kenalan Sama Deep Neural Networks
Deep Learning itu adalah bagian dari Machine Learning, tapi spesialisasinya adalah menggunakan Deep Neural Networks (DNNs). “Deep” di sini maksudnya banyak lapisan tersembunyi di jaringan sarafnya yang bisa belajar. Kalau datanya berbentuk gambar, biasanya pake Convolutional Neural Networks (CNNs). Ini adalah model yang terinspirasi dari cara kerja otak kita.
Pertama kali CNN diciptakan tahun 1980 oleh Fukushima untuk kenali pola visual. Model awalnya disebut Neocognitron, punya banyak lapisan untuk konvolusi dan pooling. Lecun dan timnya tahun 1989 pake algoritma backpropagation buat latih CNN dan bisa kenali kode ZIP yang ditulis tangan. CNN pertama yang performanya bagus banget namanya LeNet5, diciptakan oleh LeCun juga.
Keunggulan deep learning ini semakin kentara sejak munculnya GPU yang bisa ngebutin proses training. Sejak 2012, CNN jadi standar emas buat masalah kompleks seperti pengenalan gambar. CNN ini bisa belajar dari piksel dasar buat deteksi garis, bentuk, dll, dan semakin kompleks di lapisan-lapisan lebih atas.
Ada juga model lain namanya Generative Adversarial Network (GAN) yang diciptakan oleh Goodfellow dan timnya. Ini terdiri dari dua bagian: generator yang bikin gambar dan discriminator yang ngecek apakah gambar itu asli atau palsu. Karena performanya, GAN jadi populer banget dan banyak dipake, termasuk di industri kreatif.
2.3 Teknologi AI Terkini
Bagian ini akan bahas metode AI paling canggih yang relevan buat industri kreatif. Kalau kalian lebih tertarik di aplikasinya, bisa langsung loncat ke bagian 3.
2.3.1 Kenapa AI Butuh Data yang Banyak
AI bekerja efektif kalau tiga elemennya klop: arsitektur komputasi, strategi belajar, dan lingkungan data tempat dia belajar. Database untuk training itu krusial banget buat optimalin performa Machine Learning. Model yang bagus butuh data yang representatif biar nggak “overfitting,” alias nggak cuma pinter di data training doang.
Jadi, kalo ML mau belajar sendiri tanpa diprogram secara eksplisit, dia butuh data yang punya karakteristik mirip dengan aplikasi yang akan dihadapi. Misalnya, kalo lu mau bikin AI yang kenal jenis-jenis kucing, data trainingnya juga harus beragam jenis kucing.
Pentingnya Label yang Tepat
Buat Deep Learning tipe “supervised,” label di dataset itu harus akurat. Dataset harus punya dua hal: data yang mirip sama kondisi nyata, dan “ground truth” yang jadi acuan output yang diinginkan. Misalnya, di aplikasi pengenalan objek, data ground truthnya adalah kategori objek, kayak mobil, rumah, atau manusia.
Limitasi dan Solusi
Beberapa dataset bisa didapet gratis, tapi biasanya terbatas atau nggak seimbang. Misalnya, kebanyakan gambarnya langit, sedikit yang bunga. Ini bikin AI jadi bias. Solusinya, ada teknik buat seimbangin distribusi data, atau pake metode khusus kayak Noise2Noise yang bisa belajar meskipun data yang ada nggak “bersih.”
2.3.1.1 Teknik Data Augmentation
Ini teknik yang sering dipake buat nambahin jumlah dan variasi data training tanpa harus ngumpulin data baru. Misalnya, gambar yang udah ada di-crop, di-flip, atau di-rotate. Ini bisa bantu menghindari “overfitting” dan bisa bantu model jadi lebih general.
CycleGAN adalah salah satu teknik yang lagi populer buat ini. Dari satu input, dia bisa produksi banyak output yang variatif. Teknik ini juga udah diaplikasikan dalam berbagai kasus spesifik, kayak deteksi kendaraan atau klasifikasi emosi.
2.3.1.2 Data Sintetis
Ada kalanya kita nggak bisa ngumpulin data asli, atau teknik data augmentation aja nggak cukup. Di situasi kayak gini, kita bisa pake model ilmiah atau parametrik buat bikin data sintetis. Misalnya aja buat deteksi penyakit atau kejadian geologis yang jarang banget terjadi. Dalam kasus industri kreatif, data sintetis ini juga berguna, terutama kalo kita nggak punya “ground truth” atau output ideal. Teknik ini udah diaplikasiin dalam beberapa kasus, kayak penajaman gambar yang blur atau peningkatan kontras.
2.3.2 Convolutional Neural Networks (CNNs)
2.3.2.1 Dasar-dasar CNN
CNN adalah jenis Deep Learning yang paling mantap buat handle data berstruktur 2D, kayak gambar. CNN ini punya beberapa lapisan yang fokus pada operasi konvolusi. Tiap lapisan ngolah data dari lapisan sebelumnya pake filter yang bobotnya bisa di-adjust selama proses training. Biasanya, lapisan-lapisan awal CNN ngambil fitur-fitur dasar dari data, sementara lapisan yang lebih tinggi fokus pada fitur yang lebih kompleks.
Arsitektur CNN biasanya punya lapisan pooling setelah tiap lapisan konvolusi. Ini buat ngurangin dimensi data. Setelah itu, biasanya pake fungsi aktivasi kayak tanh atau ReLU buat tambahin non-linearitas. Akhirnya, bagian akhir dari CNN biasanya adalah lapisan klasifikasi yang terdiri dari beberapa lapisan fully connected dan satu lapisan softmax.
Arsitektur yang Populer
Salah satu arsitektur CNN yang paling populer adalah VGG yang punya dua varian: VGG-16 dan VGG-19, masing-masing dengan 16 dan 19 lapisan. VGG ini pake receptive fields yang kecil (3×3) dengan stride 1, yang memungkinkan arsitektur yang lebih dalam dibanding jaringan yang lebih tua. VGG ini juga sering digunakan dalam aplikasi lain sebagai ukuran loss perseptual selama proses training.
2.3.2.2 CNN dengan Rekonstruksi
Nah, kalau sebelumnya kita ngomongin tentang ‘encoder’ di CNN, sekarang kita bahas tentang ‘decoder’. Decoder ini punya kerjaan buat ngembalikan output ke ukuran asli input. Ini berguna banget buat aplikasi kreatif, kayak transfer gaya, pemulihan gambar, atau penajaman kontras. Kadang-kadang, arsitektur ini juga pake ‘skip connection’ biar fitur lokal dan global bisa terhubung dan dapet akurasi yang lebih mantap.
U-Net, Misalnya
Salah satu arsitektur yang populer untuk tipe ini adalah U-Net. Awalnya sih emang buat segmentasi gambar biomedis, tapi sekarang udah dipake di banyak aplikasi. Struktur U-Net itu ada dua bagian: encoder yang nyusutin ukuran gambar, dan decoder yang nge-expand lagi. Keduanya dihubungin dengan ‘skip connections’.
2.3.2.3 CNN Tingkat Lanjut
Ada juga arsitektur CNN yang modifikasi operasi konvolusinya sendiri. Misalnya, ‘dilated convolution’ yang bisa ngasih kita fitur lokal dan global. Atau ‘ResNet’ yang punya ‘skip connection’ di setiap blok residual-nya. Ini bisa atasi masalah vanishing gradients, jadi kita bisa bikin CNN yang lebih dalam lagi.
Konvolusi yang Bisa Ubah Bentuk
Ada juga yang namanya ‘Deformable Convolution’. Ini ngebantu banget kalo objek yang mau kita deteksi itu nggak berada di grid yang biasa. Misalnya, kalo objeknya bisa ada di mana aja di gambar, teknik ini bisa lebih fleksibel.
Jangan Lupa Capsule Networks
Ini nih, revolusi baru setelah CNN. Capsule Networks itu bisa lebih baik dalam memodelkan hubungan hirarkis. Jadi, setiap ‘capsule’ bisa punya banyak informasi tentang fitur yang dia tangkap, kayak orientasi atau ukuran. Ini udah mulai dipake di banyak aplikasi yang butuh pemahaman data yang lebih kompleks.
Gimana makin paham kan tentang CNN ? Kalau ada yang belum paham, jangan ragu yang buat tanya di kolom komentar 😁
2.3.3 Generative Adversarial Networks (GANs)
Generative Adversarial Networks (GANs) adalah model yang lumayan baru di dunia AI. Inti dari GAN adalah duel antara dua neural network: generator dan discriminator. Generator berusaha bikin data palsu yang mirip banget sama data asli, sementara discriminator berusaha tebak mana yang asli dan mana yang palsu. GANs ini sering kali sulit untuk dilatih, tapi hasilnya bisa luar biasa, mulai dari super-resolution, inpainting, sampai enhancement kontras.
Varian GAN
Ada juga yang namanya Conditional GANs (cGAN), yang memungkinkan kita memasukkan kondisi atau label ke dalam model generatif. Ini bisa membantu GANs menjadi lebih spesifik dalam menghasilkan data.
Kreativitas dalam GAN
Kalau kita mau buat karya seni yang lebih kreatif, ada Creative Adversarial Network (CAN). Ini adalah varian GAN yang dirancang untuk menghasilkan konten yang lebih kreatif, nggak cuma mirip-mirip doang.
2.3.4 Recurrent Neural Networks (RNNs)
RNNs adalah tipe neural network yang sangat berguna untuk mengolah data berurutan. Salah satu jenis RNN yang paling terkenal adalah Long Short-Term Memory (LSTM), yang bisa mengatasi masalah vanishing gradients yang sering terjadi pada RNN biasa.
Kelebihan RNN
RNNs ini sering digunakan di berbagai aplikasi seperti pengenalan suara, pengenalan tulisan tangan, dan bahkan generasi musik. Beberapa model gabungan antara CNN dan RNN juga ada, seperti CNN-LSTM yang digunakan untuk memproses data berurutan.
Variasi RNN
Ada banyak variasi dari RNN, termasuk 3D CNN dan ConvLSTM, yang dirancang untuk mengekstrak fitur spasial-temporal dari urutan video. Ini penting untuk aplikasi seperti pengenalan aksi atau pemrosesan citra medis.
Jadi, GANs dan RNNs ini adalah dua jenis neural network yang menawarkan banyak potensi untuk berbagai jenis aplikasi, baik itu di bidang kreatif maupun analitik. Ada yang ingin ditanyakan ? Komen ya ✌️
2.3.5 Deep Reinforcement Learning (DRL)
What is DRL?
Deep Reinforcement Learning (DRL) menggabungkan Artificial Neural Networks (ANNs) dengan arsitektur Reinforcement Learning (RL). Dalam RL, agen (misalnya, sebuah program komputer) belajar untuk membuat keputusan demi mencapai tujuan tertentu dalam suatu lingkungan. DRL memungkinkan agen ini untuk belajar tindakan terbaik dalam lingkungan virtual.
Bagaimana DRL Bekerja?
Agen RL terdiri dari sebuah kebijakan (policy) yang memetakan input ke output dan algoritma yang mengupdate kebijakan ini. Proses pembelajaran ini sebenarnya adalah sebuah proses coba-coba (trial-and-error) yang memanfaatkan sistem reward dan punishment.
Kelebihan dan Kekurangan
Keuntungan dari DRL adalah bahwa ia tidak memerlukan dataset pelatihan yang sudah ditentukan sebelumnya. Namun, metode RL murni memerlukan jumlah percobaan yang sangat banyak untuk belajar sepenuhnya, yang mungkin tidak praktis dalam banyak aplikasi, terutama yang berjalan dalam waktu nyata.
Aplikasi DRL
- Pemain Go Otomatis: Misalnya, AlphaGo dari DeepMind menggunakan RL di atas model yang sudah dilatih untuk memperbaiki strateginya dalam permainan Go.
- Aplikasi Kreatif: Dalam konteks industri kreatif, DRL dapat berguna di mana tidak ada cara yang telah ditentukan untuk melakukan tugas tertentu tetapi ada aturan yang harus diikuti oleh model.
- Game: Aplikasi lain termasuk penggunaan DRL dalam game, seperti yang ditunjukkan oleh Mnih et al.
- Seni: DRL juga digunakan dengan GANs untuk optimalisasi dalam rendering berbasis stroke.
- Strategi Board Game Skala Besar: Metode RL baru-baru ini telah dikembangkan menggunakan Graph Neural Networks (GNNs) untuk bermain Diplomacy, sebuah permainan papan yang sangat kompleks.
Teknik Tambahan: Temporal Difference Learning
Temporal Difference (TD) learning adalah metode RL tanpa model yang belajar memprediksi kuantitas yang bergantung pada nilai masa depan dari suatu sinyal. Teknik ini memiliki potensi aplikasi di sektor kreatif, seperti dalam penceritaan, generasi keterangan dari gambar, dan game.
DRL adalah bidang yang sangat menarik dengan banyak potensi untuk berbagai jenis aplikasi. Bagaimana, ada yang ingin ditanyakan lagi?
Nah, itulah gambaran umum tentang Artificial Intelligence dan teknik-teknik yang digunakan di dalamnya. Di part selanjutnya kita akan membahas tentang Penggunaan AI dalam Industri Kreatif, langsung cek yuk di Part 2
Sumber
https://link.springer.com/article/10.1007/s10462-023-10472-w
Pingback: Tinjauan Artificial Intelligence pada Industri Kreatif – Part 2 – Roniwahyu.com