Data Sintetis dan Masa Depan AI Berbahasa Indonesia: Catatan Kritis dari Dosen Sistem Informasi UBSI Solo

Dalam diskursus large language model (LLM), Bahasa Indonesia hampir selalu dilabeli sebagai low-resource language. Saya cenderung sepakat tetapi dengan satu catatan penting: masalahnya bukan pada jumlah penutur, melainkan pada kemiskinan data yang layak dilatih. Kita kekurangan korpus teks yang rapi, formal, teknis, dan tervalidasi. Sebaliknya, yang berlimpah justru data web crawl yang bercampur bahasa, penuh singkatan, ambigu, dan berisik.

Sebagai dosen Sistem Informasi, saya melihat isu ini bukan sekadar problem teknis machine learning. Ini adalah persoalan struktural: bagaimana ekosistem pengetahuan Indonesia direkam, dikurasi, dan direproduksi ke dalam sistem AI. Tanpa fondasi data yang sehat, model sebesar apa pun hanya akan meniru kebisingan bukan pengetahuan.

Anotasi Manual: Ideal, tapi Tidak Realistis

Secara teoritis, solusi terbaik adalah anotasi manual oleh pakar lokal. Data menjadi kaya konteks dan akurat. Masalahnya klasik: mahal, lambat, dan sulit diskalakan. Untuk negara berkembang, pendekatan ini sering berhenti di proposal riset, bukan implementasi nasional.

Akibatnya, pengembangan AI berbahasa Indonesia tertinggal. Bukan karena penelitinya kurang mampu, tetapi karena entry cost untuk membangun dataset berkualitas terlalu tinggi. Di titik inilah data sintetis mulai dilirik bukan sebagai solusi sempurna, melainkan kompromi paling masuk akal.

 

Data Sintetis: Jalan Pintas yang menarik

Data sintetis dihasilkan bukan dari manusia, melainkan dari model AI lain yang berperan sebagai teacher. Dari sudut pandang rekayasa sistem, ini efisien: biaya lebih rendah, volume besar, dan cepat. Paradigma pun bergeser dari data-centric manual labor ke model-driven automation.

Namun saya ingin menegaskan: tidak semua data sintetis diciptakan setara.

Gelombang awal di Indonesia banyak mengandalkan terjemahan dataset instruksi bahasa Inggris. Praktis, ya. Berkualitas, belum tentu. Struktur kalimat terasa asing, konteks lokal menguap, dan model yang dihasilkan cenderung “pintar secara global, tapi canggung secara lokal”. Model bisa menjawab, tetapi tidak benar-benar memahami Indonesia.

Tahap berikutnya memanfaatkan knowledge distillation. Model besar seperti GPT-4 atau Qwen digunakan untuk menghasilkan data langsung dalam Bahasa Indonesia. Dengan prompt yang tepat, konteks lokal bisa disuntikkan: rupiah, regulasi nasional, hingga kebiasaan administratif. Kualitas meningkat signifikan. Tetapi di sini muncul masalah baru: biaya komputasi tinggi dan ketergantungan pada model tertutup asing.

 

Evol-Instruct, RAG, dan Ilusi Kemajuan

Pendekatan yang menurut saya paling menjanjikan saat ini adalah kombinasi Evol-Instruct dan Retrieval-Augmented Generation (RAG). Dokumen lokal undang-undang, modul kuliah, jurnal nasional, arsip berita dijadikan sumber utama. Model tidak lagi “mengarang dari udara”, tetapi dipaksa bernalar dari dokumen.

Secara teknis, ini langkah maju. Halusinasi berkurang, kepadatan informasi meningkat, dan konteks lokal lebih terjaga. Namun kita juga perlu jujur: RAG bukan obat mujarab. Jika dokumen sumbernya buruk, usang, atau bias, maka AI hanya akan memproduksi ulang bias tersebut dengan bahasa yang lebih meyakinkan.

 

Efisiensi vs Ketahanan Pengetahuan

Di sinilah dilema besarnya. Data sintetis itu murah dan cepat. Data asli itu mahal dan lambat. Tetapi data asli menyimpan variasi dan ketidaksempurnaan manusia sesuatu yang justru penting untuk generalisasi model.

Riset terbaru menunjukkan bahwa model yang terlalu sering “diberi makan” data sintetis tanpa kurasi ketat akan mengalami penyempitan distribusi pengetahuan. Model tampak rapi, tetapi rapuh. Ia fasih, namun dangkal. Dalam konteks Indonesia, ini berbahaya: kita bisa memiliki AI yang lancar berbahasa Indonesia, tetapi miskin pemahaman sosial, hukum, dan budaya.

Verifikasi juga menjadi titik lemah. Untuk data pemrograman, kesalahan mudah diuji lewat eksekusi kode. Tetapi untuk hukum, kebijakan publik, atau sejarah nasional, validasi masih membutuhkan manusia. Di sinilah saya berpendapat tegas: human-in-the-loop bukan fitur tambahan, melainkan syarat minimum.

Catatan untuk Strategi AI Nasional

Jika Indonesia serius membangun AI nasional, fokusnya tidak boleh berhenti pada ukuran model atau klaim “LLM lokal”. Pertanyaan dasarnya jauh lebih sederhana dan lebih sulit: siapa yang mengontrol data, bagaimana data itu diverifikasi, dan pengetahuan siapa yang direplikasi ke dalam mesin?

Tanpa investasi serius pada pipeline data kurasi, validasi, dan pembobotan AI lokal hanya akan menjadi refleksi buram dari model asing. Berbahasa Indonesia, tetapi berpikir dengan logika luar.

Data sintetis memang menawarkan jalan pintas. Tetapi sebagai dosen, saya selalu mengingatkan mahasiswa satu hal: jalan pintas tanpa disiplin metodologis hanya akan memindahkan masalah ke tahap berikutnya.

Tantangan kita hari ini bukan lagi apakah data sintetis akan digunakan. Itu sudah pasti. Tantangannya adalah memastikan bahwa data tersebut memperkaya pengetahuan kolektif Indonesia bukan justru menyederhanakannya demi efisiensi jangka pendek.

Pos terkait

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *