Ketika dunia usaha beralih dari mencoba AI generatif dalam prototipe terbatas menjadi memproduksinya, mereka menjadi semakin sadar akan harga. Lagipula, menggunakan model bahasa yang besar tidaklah murah. Salah satu cara untuk mengurangi biaya adalah dengan kembali ke konsep lama: caching. Cara lainnya adalah mengarahkan kueri yang lebih sederhana ke model yang lebih kecil dan lebih hemat biaya. Pada konferensi re:invent di Las Vegas, AWS hari ini mengumumkan kedua fitur ini untuk layanan hosting Bedrock LLM miliknya.
Mari kita bicara tentang layanan caching terlebih dahulu. “Misalnya ada sebuah dokumen, dan banyak orang mengajukan pertanyaan tentang dokumen yang sama. Setiap kali Anda membayar,” kata Atul Deo, direktur produk Bedrock, kepada saya. “Dan jendela konteks ini semakin panjang. Misalnya, dengan Nova, kita akan mendapat 300k [tokens of] konteks dan 2 juta [tokens of] konteks. Saya pikir pada tahun depan, angkanya bisa jauh lebih tinggi.”
Caching pada dasarnya memastikan bahwa Anda tidak perlu membayar model untuk melakukan pekerjaan berulang dan memproses ulang kueri yang sama (atau secara substansial serupa) berulang kali. Menurut AWS, hal ini dapat mengurangi biaya hingga 90% namun satu produk sampingan tambahan dari hal ini adalah latensi untuk mendapatkan jawaban kembali dari model secara signifikan lebih rendah (AWS mengatakan hingga 85%). Adobe, yang menguji cache cepat untuk beberapa aplikasi AI generatifnya di Bedrock, mengalami penurunan sebesar 72%…