ChatGPT dan Lebih Lanjut: Fondasi Teknis dari LLMs (Large Language Models)
Teknologi seperti ChatGPT dari OpenAI dan Bard dari Google sedang mengubah cara kita bekerja, dan AI generatif akan semakin populer. Sebagai profesional data dan pengembang, penting untuk mengetahui bagaimana alat-alat ini bekerja di dalamnya dan bagaimana Anda dapat memanfaatkan model bahasa besar (Large Language Models/LLM) untuk pekerjaan Anda.
LLM telah merevolusi bidang pemrosesan bahasa alami (Natural Language Processing/NLP) dan semakin banyak digunakan untuk menyelesaikan berbagai masalah NLP di berbagai industri. Memahami LLM dapat membantu pengembang dan ilmuwan data, seperti Anda, untuk:
- Membangun model NLP yang lebih baik: LLM adalah model terdepan untuk banyak tugas NLP, dan memahami cara kerjanya dapat membantu pengembang dan ilmuwan data membangun model yang lebih baik dan mencapai kinerja yang lebih baik dalam tugas-tugas NLP mereka.
- Mengembangkan aplikasi NLP kustom: LLM dapat disesuaikan ulang untuk tugas-tugas NLP tertentu, sehingga sangat dapat beradaptasi dengan berbagai domain dan kasus penggunaan. Pengembang dan ilmuwan data yang memahami LLM dapat memanfaatkan fleksibilitas ini untuk mengembangkan aplikasi NLP kustom sesuai dengan kebutuhan mereka.
- Mengoptimalkan kinerja model: Memahami LLM dapat membantu pengembang dan ilmuwan data mengoptimalkan kinerja model dengan memilih arsitektur yang sesuai, rekayasa prompt, strategi fine-tuning, dan tugas-tugas downstream untuk kasus penggunaan mereka yang khusus.
Dengan rilis terbaru dari model bahasa GPT-4 dari OpenAI, model ini digunakan oleh manajemen kekayaan Morgan Stanley untuk mengorganisir basis pengetahuan luasnya, Be My Eyes untuk mengubah aksesibilitas visual, Stripe untuk menyederhanakan pengalaman pengguna dan melawan penipuan, serta Pemerintah Islandia untuk melestarikan bahasanya.
Dalam waktu singkat, model bahasa besar beralih dari ranah peneliti khusus menjadi alur kerja sehari-hari tim data dan ML di seluruh dunia. Di TDS, kami melihat bagaimana, bersama dengan transisi ini, banyak fokus beralih ke aplikasi praktis dan solusi langsung. Langsung beralih ke mode pengutak-atik mungkin sangat masuk akal untuk para profesional data yang bekerja di industri – waktu sangat berharga, kan. Namun, selalu ide yang baik untuk memahami dengan baik cara kerja teknologi yang kita gunakan dan kerjakan, dan itulah tepatnya yang dibahas oleh sorotan kami setiap minggunya.
Rekomendasi bacaan kami melihat kedua fondasi teoritis LLMs – khususnya keluarga GPT – dan pertanyaan tingkat tinggi yang muncul akibat kedatangan mereka. Bahkan jika Anda hanya pengguna model ini secara acak, kami pikir Anda akan menikmati eksplorasi pemikiran yang bijaksana ini.
- Arsitektur Transformers adalah inovasi revolusioner yang membuat model GPT menjadi mungkin. Seperti yang dijelaskan oleh Beatriz Stollnitz, “memahami rincian cara kerja mereka adalah keterampilan penting bagi setiap praktisi AI,” dan Anda akan meninggalkan penjelasannya dengan pemahaman yang sangat jelas tentang kekuatan transformer.
- Lily Hughes-Robinson menawarkan pendekatan berbeda untuk belajar tentang transformers: satu yang fokus pada kode sumber sehingga Anda dapat membangun pengetahuan Anda dengan intuitif dari bawah ke atas.
- Seberapa penting ukuran ketika datang ke performa LLMs? Gadi Singer menyelidiki pertanyaan ini secara rinci saat ia meninjau kelompok terbaru model AI generatif yang padat. Kontestan ini bertujuan untuk bersaing dengan GPT-4 dalam akurasi, tetapi dengan biaya yang lebih rendah dan dengan potensi yang lebih besar untuk mencapai skalabilitas.
- Dari semua perdebatan sengit yang mengelilingi ChatGPT dan alat serupa, mungkin tidak ada yang lebih kontroversial daripada pertanyaan seputar kecerdasan yang diduga dimiliki oleh LLMs. Lan Chu menangani topik ini dengan lugas, dan membawa perspektif yang seimbang dan pragmatis ke dalam percakapan. (Spoiler alert: AI tidak memiliki kesadaran; ya, hal itu rumit.)
- “Jadi, bagaimana kita bisa melampaui persepsi LLMs seperti ChatGPT sebagai kotak hitam ajaib? Fisika mungkin memberikan jawabannya.” Artikel terbaru dari Tim Lou, PhD mengajukan sebuah gagasan yang menggugah pemikiran: bahwa persamaan yang membuat model bahasa bekerja secara analogi dengan hukum fisika dan cara mereka mengatur partikel dan gaya-gaya.
Sebuah artikel pada towardsdatascience.com menyebutkan bahwa begitu banyak artikel fantastis tentang topik lain dalam beberapa minggu terakhir ini; berikut ini adalah hanya beberapa artikel yang benar-benar harus kami soroti.
- Siapa bilang bacaan musim panas haruslah hiburan ringan? Edisi Agustus kami menghadirkan koleksi yang mengesankan dari postingan yang menarik, mencerahkan, dan tulisan yang tahan panas.
- Bahan yang hilang dalam strategi pemasaran Anda mungkin saja berupa pembelajaran mesin, kata Elena K., yang merupakan cerita debut TDS yang penuh dengan tip dan trik yang dapat dijalankan.
- Jika Anda sedang dalam suasana hati untuk topik yang lebih berfokus pada bisnis, Anda beruntung: Matteo Courthoud kembali dengan kontribusi baru yang fokus pada interaksi antara churn dan pendapatan.
- Kembali pada sisi praktis dari bekerja dengan LLMs, Felipe de Pontes Adachi menguraikan tujuh taktik untuk memantau perilaku mereka guna memastikan kinerja yang konsisten.
- Postingan baru dari Anna Via mendorong praktisi data industri untuk mengambil langkah mundur sebelum meluncurkan proyek yang berpusat pada ML dan bertanya apakah model pembelajaran mesin benar-benar diperlukan untuk masalah yang dihadapi.