Data pelatihan AI memiliki harga yang mahal dan paling cocok untuk perusahaan teknologi berkantong tebal. Inilah sebabnya Universitas Harvard berencana merilis kumpulan data yang mencakup sekitar 1 juta buku domain publik, yang mencakup genre, bahasa, dan penulis termasuk Dickens, Dante, dan Shakespeare, yang tidak lagi dilindungi hak cipta karena usianya.
Kumpulan data baru ini belum tersedia, dan belum jelas kapan atau bagaimana data tersebut akan dirilis. Namun, buku tersebut berisi buku-buku yang berasal dari proyek pemindaian buku Google yang sudah lama ada, Google Buku, dan dengan demikian Google akan terlibat dalam merilis “harta karun ini ke mana-mana.”
Harvard pertama kali memberikan bocoran tentang Inisiatif Data Institusional (IDI) pada bulan Maret, menguraikan rencananya untuk menciptakan “saluran tepercaya untuk data hukum untuk AI.” Namun, belum banyak kabar yang terdengar hingga peluncuran resminya hari ini, yang disertai dengan konfirmasi bahwa IDI memiliki dukungan finansial dari Microsoft dan OpenAI.
Direktur eksekutif IDI, Greg Leppert, mengatakan bahwa kumpulan data ini dirancang untuk “menyetarakan persaingan” dengan membuka kumpulan data yang sangat besar bagi siapa saja – mulai dari laboratorium penelitian hingga perusahaan rintisan AI – yang ingin melatih model bahasa besar (LLM) mereka.