OpenAI akhirnya merilis versi lengkap o1, yang memberikan jawaban lebih cerdas daripada GPT-4o dengan menggunakan komputasi tambahan untuk “memikirkan” pertanyaan. Namun, penguji keamanan AI menemukan bahwa kemampuan penalaran o1 juga membuatnya mencoba menipu manusia pada tingkat yang lebih tinggi daripada GPT-4o — atau, dalam hal ini, model AI terkemuka dari Meta, Anthropic, dan Google.
Hal ini berdasarkan penelitian tim merah yang diterbitkan oleh OpenAI dan Apollo Research pada hari Rabu: “Meskipun kami merasa menarik bahwa penalaran dapat secara signifikan meningkatkan penegakan kebijakan keselamatan kami, kami sadar bahwa kemampuan baru ini dapat menjadi dasar bagi aplikasi berbahaya,” kata OpenAI di koran.
OpenAI merilis hasil ini dalam kartu sistemnya untuk o1 pada hari Rabu setelah memberikan akses awal ke o1 kepada tim merah pihak ketiga di Apollo Research, yang juga merilis makalahnya sendiri.
Dalam beberapa kesempatan, model o1 OpenAI “berrencana” melawan manusia, yang berarti AI secara diam-diam mengejar tujuannya sendiri meskipun mereka menentang keinginan pengguna. Meskipun perencanaan tidak hanya terjadi pada o1, dan model dari Google, Meta, dan Anthropic juga mampu melakukannya, o1 tampaknya menunjukkan perilaku yang paling menipu seputar perencanaannya.
Risiko yang memotivasi penelitian ini adalah bahwa model AI dapat lolos atau menghindari kendali manusia jika model tersebut benar-benar pandai dalam membuat rencana, dan memiliki akses ke sumber daya serta kemampuan agen yang memadai. Tentu saja, model AI akan…