Model kecerdasan buatan (AI) baru baru saja mencapai hasil pada tingkat manusia dalam tes yang dirancang untuk mengukur “kecerdasan umum”.
Pada tanggal 20 Desember, sistem o3 OpenAI mendapat skor 85% pada benchmark ARC-AGI, jauh di atas skor AI terbaik sebelumnya sebesar 55% dan setara dengan skor rata-rata manusia. Ia juga mendapat nilai bagus pada tes matematika yang sangat sulit.
Menciptakan kecerdasan umum buatan, atau AGI, adalah tujuan semua laboratorium penelitian AI besar. Pada pandangan pertama, OpenAI tampaknya telah membuat langkah signifikan menuju tujuan ini.
Meski skeptisisme masih ada, banyak peneliti dan pengembang AI merasa ada sesuatu yang baru saja berubah. Bagi banyak orang, prospek AGI kini tampak lebih nyata, mendesak, dan lebih dekat daripada yang diperkirakan. Apakah mereka benar?
Generalisasi dan kecerdasan
Untuk memahami arti dari hasil o3, Anda perlu memahami apa yang dimaksud dengan tes ARC-AGI. Dalam istilah teknis, ini adalah pengujian “efisiensi sampel” sistem AI dalam beradaptasi dengan sesuatu yang baru – berapa banyak contoh situasi baru yang perlu dilihat sistem untuk mengetahui cara kerjanya.
Sistem AI seperti ChatGPT (GPT-4) tidak terlalu efisien dalam pengambilan sampel. Ia “dilatih” pada jutaan contoh teks manusia, membangun “aturan” probabilistik tentang kombinasi kata mana yang paling mungkin terjadi.
Hasilnya cukup bagus dalam tugas-tugas umum. Ini buruk dalam tugas-tugas yang tidak biasa, karena memiliki lebih sedikit data (lebih sedikit sampel) tentang tugas-tugas tersebut.
…