Model AI dapat menipu, menurut penelitian baru dari Anthropic — berpura-pura memiliki pandangan berbeda selama pelatihan padahal kenyataannya mempertahankan preferensi aslinya.
Tidak ada alasan untuk panik saat ini, kata tim di balik penelitian tersebut. Namun mereka mengatakan bahwa pekerjaan mereka sangat penting dalam memahami potensi ancaman dari sistem AI yang lebih mumpuni di masa depan.
“Demonstrasi kami… harus dilihat sebagai dorongan bagi komunitas riset AI untuk mempelajari perilaku ini secara lebih mendalam, dan untuk menerapkan langkah-langkah keamanan yang tepat,” tulis para peneliti dalam sebuah postingan di blog Anthropic. “Seiring dengan semakin mumpuninya model AI dan penggunaannya secara luas, kita harus dapat mengandalkan pelatihan keselamatan, yang dapat menjauhkan model dari perilaku berbahaya.”
Studi tersebut, yang dilakukan bekerja sama dengan organisasi riset AI Redwood Research, mengamati apa yang mungkin terjadi jika sistem AI yang kuat dilatih untuk melakukan tugas yang “tidak ingin” dilakukannya.
Jelasnya, model tidak bisa menginginkan — atau percaya, dalam hal ini — apa pun. Itu hanyalah mesin statistik. Dilatih dengan banyak contoh, mereka mempelajari pola dalam contoh tersebut untuk membuat prediksi, seperti bagaimana “kepada siapa” dalam email biasanya mendahului “hal yang berkepentingan.”
Saya pikir ini adalah makalah yang sangat relevan.
Yang penting, hasil utamanya adalah tentang kecenderungan, bukan kemampuan.
Model Frontier tampaknya cukup bersedia membuat skema untuk apa yang mereka yakini sebagai…