Sebuah laboratorium di Tiongkok telah menciptakan salah satu model AI “terbuka” yang paling kuat hingga saat ini.
Modelnya, DeepSeek V3, dikembangkan oleh perusahaan AI DeepSeek, dan dirilis pada hari Rabu di bawah lisensi permisif yang memungkinkan pengembang mengunduh dan memodifikasinya untuk sebagian besar aplikasi, termasuk aplikasi komersial.
DeepSeek V3 dapat menangani berbagai beban kerja dan tugas berbasis teks, seperti pengkodean, penerjemahan, dan penulisan esai dan email dari perintah deskriptif.
Menurut pengujian benchmark internal DeepSeek, DeepSeek V3 mengungguli model yang dapat diunduh, tersedia “terbuka” dan model AI “tertutup” yang hanya dapat diakses melalui API. Dalam subset kompetisi coding yang diselenggarakan di Codeforces, sebuah platform untuk kontes pemrograman, DeepSeek mengungguli model termasuk Llama 3.1 405B dari Meta, GPT-4o dari OpenAI, dan Qwen 2.5 72B dari Alibaba.
DeepSeek V3 juga mengalahkan persaingan pada Aider Polgyglot, sebuah pengujian yang dirancang untuk mengukur, antara lain, apakah suatu model berhasil menulis kode baru yang terintegrasi ke dalam kode yang sudah ada.
DeepSeek-V3!
60 token/detik (3x lebih cepat dari V2!)
Kompatibilitas API utuh
Model & makalah sumber terbuka sepenuhnya
671B parameter MoE
37B parameter yang diaktifkan
Dilatih dengan 14,8T token berkualitas tinggiMengalahkan Llama 3.1 405b di hampir semua benchmark https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf
— Gemuk♨️ (@kimmonismus) 26 Desember 2024