Tes kecerdasan umum buatan (AGI) yang terkenal semakin dekat untuk dipecahkan. Namun pembuat tes mengatakan hal ini menunjukkan kelemahan dalam desain tes, bukan terobosan penelitian yang bonafide.
Pada tahun 2019, Francois Chollet, tokoh terkemuka di dunia AI, memperkenalkan benchmark ARC-AGI, kependekan dari “Abstract and Reasoning Corpus for Artificial General Intelligence.” Dirancang untuk mengevaluasi apakah sistem AI dapat secara efisien memperoleh keterampilan baru di luar data yang dilatihnya, ARC-AGI, menurut Francois, tetap menjadi satu-satunya tes AI untuk mengukur kemajuan menuju kecerdasan umum (walaupun tes lain telah diusulkan.)
Hingga tahun ini, AI dengan kinerja terbaik hanya mampu menyelesaikan kurang dari sepertiga tugas di ARC-AGI. Chollet menyalahkan fokus industri pada model bahasa besar (LLM), yang menurutnya tidak mampu memberikan “penalaran” yang sebenarnya.
“LLM kesulitan dengan generalisasi, karena sepenuhnya bergantung pada hafalan,” katanya dalam serangkaian postingan di X pada bulan Februari. “Mereka menguraikan apa pun yang tidak ada dalam data pelatihan mereka.”
Menurut Chollet, LLM adalah mesin statistik. Dilatih dengan banyak contoh, mereka mempelajari pola dalam contoh tersebut untuk membuat prediksi, seperti “kepada siapa” dalam email biasanya mendahului “yang berkepentingan.”
Chollet menegaskan bahwa meskipun LLM mungkin mampu menghafal “pola penalaran”, kecil kemungkinannya mereka…