Dalam era kecerdasan buatan yang semakin berkembang, kehadiran Large Language Models (LLM) telah mengubah cara manusia berinteraksi dengan teknologi, khususnya dalam bidang pemrosesan bahasa alami atau Natural Language Processing (NLP). LLM seperti GPT, BERT, dan T5 adalah contoh nyata bagaimana model bahasa skala besar mampu memahami dan menghasilkan teks seperti layaknya manusia. Namun, tahukah Anda bahwa di balik kemampuannya tersebut, LLM dibangun dengan tiga jenis arsitektur utama?
Galih Setiawan Nurohim, M.Kom, seorang dosen Program Studi Sistem Informasi di Universitas Bina Sarana Informatika (UBSI) Kampus Surakarta, menjelaskan bahwa secara umum, LLM diklasifikasikan ke dalam tiga tipe berdasarkan arsitektur yang digunakan, yaitu Auto-Encoding, Auto-Regressive, dan Sequence-to-Sequence. Masing-masing arsitektur memiliki pendekatan dan fungsi yang berbeda dalam memproses serta menghasilkan teks.
1. Auto-Encoding (Masked Language Modeling / MLM)
Model dengan arsitektur Auto-Encoding memanfaatkan teknik yang dikenal sebagai Masked Language Modeling (MLM). Dalam pendekatan ini, model hanya terdiri dari bagian encoder yang bertugas memahami konteks kalimat melalui proses pelatihan di mana beberapa kata dalam kalimat sengaja disembunyikan atau “dimask”.
Sebagai contoh, jika model diberikan kalimat:
“The cat is climbing the tree”,
maka dalam proses pelatihan, sebagian kata akan diganti menjadi [MASK], menjadi:
“The cat is [MASK] the tree.”
Tugas model adalah menebak kata yang hilang berdasarkan kata-kata di sekitarnya. Dalam hal ini, jawaban yang benar adalah “climbing”. Melalui proses ini, model belajar memahami struktur kalimat, keterkaitan antar kata, serta makna dari konteks yang utuh.
Model terkenal yang menggunakan pendekatan ini adalah BERT (Bidirectional Encoder Representations from Transformers). BERT berhasil meningkatkan akurasi pada berbagai tugas NLP karena kemampuannya dalam memahami konteks dua arah secara mendalam.
2. Auto-Regressive (Causal Language Modeling / CLM)
Berbeda dari Auto-Encoding, model dengan arsitektur Auto-Regressive hanya terdiri dari bagian decoder dan dikenal juga dengan pendekatan Causal Language Modeling (CLM). Model ini dilatih untuk memprediksi kata berikutnya berdasarkan urutan kata sebelumnya. Dalam praktiknya, model membaca kalimat dari kiri ke kanan secara berurutan.
Menggunakan kalimat yang sama:
“The cat is climbing the tree”
Model akan memulai dari kata pertama “The”, kemudian memprediksi kata berikutnya “cat”, lalu “is”, dan seterusnya, hingga seluruh kalimat terbentuk.
Galih menjelaskan bahwa karena model ini hanya memperhitungkan informasi dari kata-kata sebelumnya (tanpa melihat ke depan), maka hasil teks yang dihasilkan biasanya mengalir secara alami dan menyerupai gaya bahasa manusia. Inilah alasan mengapa model Auto-Regressive sangat populer dalam aplikasi generatif seperti chatbot, penulisan kreatif, hingga sistem tanya jawab otomatis.
Model GPT (Generative Pre-trained Transformer) adalah contoh utama dari pendekatan ini, yang kini telah banyak digunakan dalam berbagai platform AI generatif.
3. Sequence-to-Sequence (Encoder-Decoder)
Jenis arsitektur ketiga adalah Sequence-to-Sequence atau disingkat Seq2Seq, yang menggabungkan kekuatan dari encoder dan decoder. Dalam pendekatan ini, encoder berfungsi untuk memahami dan menyarikan informasi dari input (misalnya sebuah kalimat), lalu decoder menggunakan informasi tersebut untuk menghasilkan output yang sesuai.
Galih mencontohkan penggunaannya dalam proses penerjemahan bahasa. Jika kita ingin menerjemahkan kalimat:
“The cat is climbing the tree”
ke dalam bahasa Indonesia, maka encoder akan terlebih dahulu menganalisis kalimat tersebut dan mengubahnya menjadi representasi internal bermakna. Setelah itu, decoder akan memproses representasi tersebut dan menghasilkan kalimat dalam bahasa target, seperti:
“Kucing sedang memanjat pohon.”
Selain terjemahan, pendekatan ini juga efektif untuk tugas-tugas NLP lain seperti pembuatan ringkasan otomatis (text summarization), sistem tanya-jawab (question answering), dan pemodelan percakapan (dialog modeling).
Model T5 (Text-to-Text Transfer Transformer) dan BART (Bidirectional and Auto-Regressive Transformers) adalah contoh model populer yang menggunakan arsitektur Seq2Seq.
LLM dalam Konteks Pembelajaran dan Inovasi Digital
Menurut Galih, memahami perbedaan dari ketiga jenis arsitektur LLM ini sangat penting bagi mahasiswa dan praktisi teknologi informasi, terutama yang ingin mendalami bidang NLP, AI, dan data science. Pengetahuan ini tidak hanya berguna dalam pengembangan sistem cerdas, tetapi juga dalam mengkaji etika, efisiensi komputasi, serta potensi pemanfaatan model-model ini untuk berbagai kebutuhan masyarakat.
“Dengan memahami struktur dasar dari LLM, kita bisa lebih bijak dalam memilih dan mengimplementasikan teknologi yang tepat sesuai kebutuhan, baik itu untuk tugas kuliah, proyek penelitian, hingga solusi industri,” ujar Galih.