Startup AI Mistral telah meluncurkan API baru untuk moderasi konten.
API tersebut, yang merupakan API yang sama yang mendukung moderasi di platform chatbot Le Chat Mistral, dapat disesuaikan dengan aplikasi spesifik dan standar keamanan, kata Mistral. Ini didukung oleh model yang telah disesuaikan (Ministral 8B) yang dilatih untuk mengklasifikasikan teks dalam berbagai bahasa, termasuk Inggris, Prancis, dan Jerman, ke dalam salah satu dari sembilan kategori: seksual, kebencian dan diskriminasi, kekerasan dan ancaman, konten berbahaya dan kriminal. , tindakan menyakiti diri sendiri, kesehatan, keuangan, hukum, dan informasi identitas pribadi.
API moderasi dapat diterapkan pada teks mentah atau percakapan, kata Mistral.
“Selama beberapa bulan terakhir, kami telah melihat meningkatnya antusiasme di seluruh industri dan komunitas riset terhadap sistem moderasi berbasis AI baru, yang dapat membantu membuat moderasi lebih terukur dan kuat di seluruh aplikasi,” tulis Mistral dalam postingan blognya. “Pengklasifikasi moderasi konten kami memanfaatkan kategori kebijakan yang paling relevan untuk pagar pembatas yang efektif dan memperkenalkan pendekatan pragmatis terhadap model keselamatan dengan mengatasi dampak buruk yang ditimbulkan oleh model seperti saran yang tidak memenuhi syarat dan PII.”
Sistem moderasi yang didukung AI berguna secara teori. Namun mereka juga rentan terhadap bias dan kelemahan teknis yang sama seperti yang dialami sistem AI lainnya.
Misalnya, beberapa model yang dilatih untuk mendeteksi toksisitas melihat frasa dalam Bahasa Inggris Vernakular Afrika-Amerika (AAVE),…