Alasan Kenapa membuat semacam chatgpt bukan perkara mudah ?

Ngomongin LLM alias Large Language Model, jangan kira ini kayak download framework Laravel lalu tinggal php artisan serve. Ini level yang sangat berbeda. Tantangan pertama yang langsung terasa adalah: ukuran model yang sangat besar.

Sebagaimana dijelaskan oleh Galih Setiawan Nurohim, M.Kom, dosen di Universitas Bina Sarana Informatika Kampus Solo, dalam rilis resminya, “Model seperti BLOOM dari BigScience bisa mencapai ukuran 330 GB, dua kali lipat lebih besar dari dataset ImageNet. Ini jelas bukan ukuran yang bisa dianggap sepele. Sebelum masuk ke dunia LLM, storage harus disiapkan matang-matang.” Galih menambahkan bahwa untungnya, model sebesar BLOOM biasanya dibagi menjadi banyak file kecil, yang memungkinkan proses download secara paralel untuk mengurangi tekanan bandwidth.

Namun, tantangan tidak berhenti setelah proses download. Proses selanjutnya adalah memuat model ke GPU, dan ini pun tidak bisa instan. Untuk model sebesar BLOOM, proses ini bisa memakan waktu 30 hingga 45 menit hanya untuk membuat model “siap digunakan”.

Dalam keterangannya, Galih menyebutkan, “Model besar semacam ini biasanya dijalankan dalam sistem multi-GPU. Proses loading melibatkan transfer data antar GPU atau antar node, terutama bila menggunakan setup distributed. Tanpa manajemen sistem yang rapi, waktu loading bisa jadi bottleneck kritis.”

Masalah berikutnya adalah soal latency. Makin besar model, makin tinggi pula waktu tunggunya dalam menghasilkan jawaban. Ini karena model besar mengandung lebih banyak parameter, sehingga perhitungan yang dilakukan juga lebih kompleks dan berat.

“Orang sering terkecoh karena tampaknya model seperti ChatGPT bisa menjawab secara real-time. Padahal di belakang layar, ada proses paralelisasi antar GPU dan sinkronisasi hasilnya,” ujar Galih. Ia menekankan bahwa panjang input juga memengaruhi performa karena LLM bekerja secara auto-regresif—membuat kata demi kata sambil mempertimbangkan konteks sebelumnya.

Untungnya, ada teknik bernama Chain of Thought (CoT) yang bisa mengurangi beban perhitungan sekaligus meningkatkan akurasi jawaban. Teknik ini mengarahkan model untuk berpikir secara bertahap, bukan langsung melompat ke jawaban.

“Misalnya,” jelas Galih, “jika kita punya pertanyaan: ‘Ada 3 toko, tiap toko jual 5 dus, tiap dus berisi 10 barang, berapa totalnya?’ Maka model bisa diarahkan berpikir seperti ini: 3×5 = 15 dus, lalu 15×10 = 150 barang. Proses semacam ini membuat jawaban model lebih presisi dan latency-nya lebih terkendali.”

Kesimpulannya, membangun dan menjalankan LLM bukan hanya soal membuat model lalu memberikan data. Ada tantangan besar di sisi teknis: dari ukuran file, waktu deployment, hingga optimasi inference.

“LLM itu powerful, tapi kompleks,” tutup Galih. “Butuh hardware yang siap, sistem distribusi yang rapi, dan teknik prompting yang cerdas. Tapi kalau semua komponen ini siap, hasilnya bisa luar biasa—jawaban yang relevan, reasoning yang solid, dan pengalaman interaksi yang sangat alami.”

Artikel Terbaru

Artikel Terkait