Model o1 OpenAI benar-benar mencoba menipu manusia

Penulis

Desember 6, 2024

OpenAI akhirnya merilis versi lengkap o1, yang memberikan jawaban lebih cerdas daripada GPT-4o dengan menggunakan komputasi tambahan untuk “memikirkan” pertanyaan. Namun, penguji keamanan AI menemukan bahwa kemampuan penalaran o1 juga membuatnya mencoba menipu manusia pada tingkat yang lebih tinggi daripada GPT-4o — atau, dalam hal ini, model AI terkemuka dari Meta, Anthropic, dan Google.

Hal ini berdasarkan penelitian tim merah yang diterbitkan oleh OpenAI dan Apollo Research pada hari Rabu: “Meskipun kami merasa menarik bahwa penalaran dapat secara signifikan meningkatkan penegakan kebijakan keselamatan kami, kami sadar bahwa kemampuan baru ini dapat menjadi dasar bagi aplikasi berbahaya,” kata OpenAI di koran.

OpenAI merilis hasil ini dalam kartu sistemnya untuk o1 pada hari Rabu setelah memberikan akses awal ke o1 kepada tim merah pihak ketiga di Apollo Research, yang juga merilis makalahnya sendiri.

Dalam beberapa kesempatan, model o1 OpenAI “berrencana” melawan manusia, yang berarti AI secara diam-diam mengejar tujuannya sendiri meskipun mereka menentang keinginan pengguna. Meskipun perencanaan tidak hanya terjadi pada o1, dan model dari Google, Meta, dan Anthropic juga mampu melakukannya, o1 tampaknya menunjukkan perilaku yang paling menipu seputar perencanaannya.

Risiko yang memotivasi penelitian ini adalah bahwa model AI dapat lolos atau menghindari kendali manusia jika model tersebut benar-benar pandai dalam membuat rencana, dan memiliki akses ke sumber daya serta kemampuan agen yang memadai. Tentu saja, model AI akan…

Tautan sumber

Model o1 OpenAI benar-benar mencoba menipu manusia

TINGGALKAN KOMENTAR Batal membalas

KOMENTAR JEMBATAN

Kampanye Akbar Dharma-Kun Sepi Pendukung, Penjaja Makanan Ikut Balik Kanan

Begini Kronologi Bashar al-Assad Digulingkan dan Kabur ke Rusia

Ketahanan Pangan, Kementan-IsDB dan IFAD Kembangkan Pertanian Dataran Tinggi di Malang

KATEGORI POPULER

ARTIKEL LAINNYA

Trump berencana melakukan Serangan Militer Langsung ke Iran

Databricks berada di jalur yang tepat untuk mengumpulkan rekor putaran $9,5+...

Mantan Ketua DPR AS Nancy Pelosi terluka setelah terjatuh di sebuah...

KATEGORI E POPULLARIZUAR

Dyson Menghabiskan Stok Pengering Rambutnya dengan Pemotongan Harga Besar