OpenAI mengumumkan rangkaian model penalaran AI baru pada hari Jumat, o3, yang diklaim oleh startup tersebut lebih maju daripada o1 atau apa pun yang dirilisnya. Peningkatan ini tampaknya berasal dari penskalaan komputasi waktu pengujian, sesuatu yang kami tulis bulan lalu, namun OpenAI juga mengatakan bahwa pihaknya menggunakan paradigma keselamatan baru untuk melatih model seri o-nya.
Pada hari Jumat, OpenAI merilis penelitian baru tentang “penyelarasan deliberatif,” yang menguraikan cara terbaru perusahaan untuk memastikan model penalaran AI tetap selaras dengan nilai-nilai pengembang manusianya. Startup ini menggunakan metode ini untuk membuat o1 dan o3 “berpikir” tentang kebijakan keamanan OpenAI selama inferensi, fase setelah pengguna menekan enter pada perintah mereka.
Metode ini meningkatkan keselarasan o1 secara keseluruhan dengan prinsip keselamatan perusahaan, menurut penelitian OpenAI. Ini berarti penyelarasan yang disengaja menurunkan tingkat jawaban o1 terhadap pertanyaan “tidak aman” – setidaknya pertanyaan yang dianggap tidak aman oleh OpenAI – sekaligus meningkatkan kemampuannya untuk menjawab pertanyaan yang tidak berbahaya.
Seiring meningkatnya popularitas dan kekuatan model AI, penelitian keamanan AI tampaknya semakin relevan. Namun pada saat yang sama, hal ini lebih kontroversial: David Sacks, Elon Musk, dan Marc Andreessen mengatakan beberapa tindakan keamanan AI sebenarnya adalah “sensor”, menyoroti sifat subjektif dalam…