Data adalah minyak baru, seperti yang mereka katakan, dan mungkin itulah yang menjadikan Universitas Harvard sebagai Exxon yang baru. Sekolah tersebut pada hari Kamis mengumumkan peluncuran kumpulan data yang berisi hampir satu juta buku domain publik yang dapat digunakan untuk melatih model AI. Di bawah Inisiatif Data Institusional yang baru dibentuk, proyek ini telah menerima dana dari Microsoft dan OpenAI, dan berisi buku-buku yang dipindai oleh Google Buku yang sudah cukup umur sehingga perlindungan hak ciptanya telah habis masa berlakunya.
Kabel dalam sebuah bagian dari proyek baru tersebut mengatakan bahwa kumpulan data tersebut mencakup berbagai macam buku dengan “buku klasik dari Shakespeare, Charles Dickens, dan Dante disertakan bersama dengan buku teks matematika Ceko dan kamus saku Welsh yang tidak jelas.” Sebagai aturan umum, perlindungan hak cipta berlaku seumur hidup pencipta ditambah 70 tahun tambahan.
Model bahasa dasar, seperti ChatGPT, yang berperilaku seperti manusia nyata memerlukan sejumlah besar teks berkualitas tinggi untuk pelatihannya—umumnya semakin banyak informasi yang mereka konsumsi, semakin baik kinerja model dalam meniru manusia dan menyajikan pengetahuan. Namun rasa haus akan data telah menimbulkan masalah karena OpenAI telah membatasi jumlah informasi baru yang dapat mereka temukan—setidaknya tanpa mencurinya.
Penerbit termasuk Jurnal Wall Street dan itu Waktu New York telah menggugat OpenAI dan pesaingnya, Perplexity, karena menyerap data mereka tanpa…