Model AI “penalaran” baru, QwQ-32B-Preview, telah hadir. Ini adalah salah satu dari sedikit yang menyaingi o1 OpenAI, dan ini adalah yang pertama tersedia untuk diunduh di bawah lisensi permisif.
Dikembangkan oleh tim Qwen Alibaba, QwQ-32B-Preview, yang berisi 32,5 miliar parameter dan dapat mempertimbangkan permintaan hingga panjang ~32.000 kata, berkinerja lebih baik pada tolok ukur tertentu dibandingkan o1-preview dan o1-mini, dua model penalaran yang dirilis OpenAI sejauh ini. Parameter secara kasar sesuai dengan keterampilan pemecahan masalah model, dan model dengan lebih banyak parameter umumnya berperforma lebih baik dibandingkan model dengan parameter lebih sedikit.
Berdasarkan pengujian Alibaba, Pratinjau QwQ-32B mengalahkan model o1 OpenAI pada pengujian AIME dan MATH. AIME menggunakan model AI lain untuk mengevaluasi kinerja model, sedangkan MATH adalah kumpulan soal kata.
QwQ-32B-Preview dapat memecahkan teka-teki logika dan menjawab pertanyaan matematika yang cukup menantang, berkat kemampuan “penalarannya”. Tapi itu tidak sempurna. Alibaba mencatat dalam postingan blognya bahwa model tersebut mungkin berganti bahasa secara tidak terduga, terjebak dalam loop, dan berkinerja buruk pada tugas-tugas yang memerlukan “penalaran akal sehat.”
Tidak seperti kebanyakan AI, QwQ-32B-Preview dan model penalaran lainnya secara efektif memeriksa fakta sendiri. Hal ini membantu mereka menghindari beberapa kendala yang biasanya membuat model tersandung, namun kelemahannya adalah sering kali memerlukan waktu lebih lama untuk sampai…