Mungkinkah suatu AI dilatih hanya berdasarkan data yang dihasilkan oleh AI lain? Ini mungkin terdengar seperti ide yang tidak masuk akal. Namun hal ini sudah ada sejak lama – dan seiring dengan semakin sulitnya mendapatkan data nyata, hal ini semakin mendapatkan daya tarik.
Anthropic menggunakan beberapa data sintetis untuk melatih salah satu model andalannya, Claude 3.5 Sonnet. Meta menyempurnakan model Llama 3.1 menggunakan data yang dihasilkan AI. Dan OpenAI dikatakan mengambil data pelatihan sintetis dari o1, model “penalarannya”, untuk Orion mendatang.
Namun mengapa AI membutuhkan data — dan apa baik data yang dibutuhkan? Dan dapatkah data ini Sungguh digantikan oleh data sintetis?
Pentingnya anotasi
Sistem AI adalah mesin statistik. Dilatih dengan banyak contoh, mereka mempelajari pola dalam contoh tersebut untuk membuat prediksi, seperti “kepada siapa” dalam email biasanya mendahului “yang berkepentingan.”
Anotasi, biasanya teks yang memberi label pada makna atau bagian data yang diserap sistem, merupakan bagian penting dalam contoh ini. Mereka berfungsi sebagai tiang penunjuk jalan, “mengajarkan” model untuk membedakan benda, tempat, dan gagasan.
Perhatikan model klasifikasi foto yang memperlihatkan banyak gambar dapur yang diberi label kata “dapur”. Saat dilatih, model akan mulai membuat asosiasi antara “dapur” dan umum karakteristik dapur (misalnya yang berisi lemari es dan meja dapur). Setelah…