Salah satu teknik yang paling banyak digunakan untuk membuat model AI lebih efisien, yaitu kuantisasi, memiliki batasan – dan industri mungkin akan segera mendekatinya.
Dalam konteks AI, kuantisasi mengacu pada penurunan jumlah bit – unit terkecil yang dapat diproses komputer – yang diperlukan untuk mewakili informasi. Pertimbangkan analogi ini: Ketika seseorang menanyakan waktu, Anda mungkin akan menjawab “siang” — bukan “oh dua belas ratus, satu detik, dan empat milidetik.” Itu mengkuantisasi; kedua jawaban itu benar, tetapi ada satu jawaban yang sedikit lebih tepat. Seberapa presisi yang sebenarnya Anda perlukan bergantung pada konteksnya.
Model AI terdiri dari beberapa komponen yang dapat dikuantisasi — khususnya parameter, model variabel internal yang digunakan untuk membuat prediksi atau keputusan. Ini nyaman, mengingat model melakukan jutaan penghitungan saat dijalankan. Model terkuantisasi dengan bit lebih sedikit yang mewakili parameternya tidak terlalu menuntut secara matematis, dan oleh karena itu secara komputasi. (Untuk lebih jelasnya, ini adalah proses yang berbeda dari “penyulingan”, yang merupakan pemangkasan parameter yang lebih melibatkan dan selektif.)
Namun kuantisasi mungkin memiliki lebih banyak trade-off daripada yang diperkirakan sebelumnya.
Model yang terus menyusut
Menurut sebuah studi dari para peneliti di Harvard, Stanford, MIT, Databricks, dan Carnegie Mellon, model terkuantisasi akan berkinerja lebih buruk jika versi model asli yang tidak terkuantisasi dilatih dalam jangka waktu lama pada banyak data….