Setelah hampir dua minggu pengumuman, OpenAI mengakhiri seri livestream 12 Hari OpenAI dengan pratinjau model frontier generasi berikutnya. “Untuk menghormati teman-teman di Telefónica (pemilik jaringan seluler O2 di Eropa), dan dalam tradisi besar OpenAI yang benar-benar buruk dalam menyebutkan nama, ini disebut o3,” CEO OpenAI Sam Altman mengatakan kepada mereka yang menonton pengumuman di YouTube .
Model baru ini belum siap untuk digunakan publik. Sebaliknya, OpenAI pertama-tama menyediakan o3 bagi para peneliti yang membutuhkan bantuan dalam pengujian keamanan. OpenAI juga mengumumkan keberadaan o3-mini. Altman mengatakan perusahaan berencana untuk meluncurkan model tersebut “sekitar akhir Januari,” dan o3 menyusul “segera setelah itu.”
Seperti yang mungkin Anda harapkan, o3 menawarkan peningkatan kinerja dibandingkan pendahulunya, namun seberapa jauh lebih baik dari o1 adalah fitur utama di sini. Misalnya, saat mengikuti Ujian Matematika Undangan Amerika tahun ini, o3 mencapai skor akurasi 96,7 persen. Sebaliknya, o1 memperoleh peringkat yang lebih sederhana yaitu 83,3 persen. “Hal ini menandakan bahwa o3 sering kali melewatkan satu pertanyaan saja,” kata Mark Chen, wakil presiden senior penelitian di OpenAI. Faktanya, o3 bekerja dengan sangat baik pada rangkaian tolok ukur yang biasa digunakan OpenAI pada modelnya sehingga perusahaan harus menemukan pengujian yang lebih menantang untuk dijadikan tolok ukur.
Salah satunya adalah ARC-AGI, sebuah benchmark yang menguji AI…