OpenAI menyalahkan salah satu pemadaman terpanjang dalam sejarahnya karena “layanan telemetri baru” yang tidak berfungsi dengan baik.
Pada hari Rabu, platform chatbot bertenaga AI OpenAI, ChatGPT; pembuat videonya, Sora; dan API yang dihadapi pengembangnya mengalami gangguan besar mulai sekitar pukul 15.00 Pasifik. OpenAI segera mengetahui masalahnya dan mulai melakukan perbaikan. Namun perusahaan membutuhkan waktu sekitar tiga jam untuk memulihkan semua layanan.
Dalam postmortem yang diterbitkan Kamis malam, OpenAI menulis bahwa pemadaman tersebut bukan disebabkan oleh insiden keamanan atau peluncuran produk baru-baru ini, namun oleh layanan telemetri yang dikerahkan pada hari Rabu untuk mengumpulkan metrik Kubernetes. Kubernetes adalah program sumber terbuka yang membantu mengelola container, atau paket aplikasi dan file terkait yang digunakan untuk menjalankan perangkat lunak di lingkungan terisolasi.
“Layanan telemetri memiliki jangkauan yang sangat luas, sehingga konfigurasi layanan baru ini secara tidak sengaja menyebabkan… operasi API Kubernetes yang intensif sumber daya,” tulis OpenAI dalam postmortemnya. “[Our] Server API Kubernetes menjadi kewalahan, sehingga melumpuhkan bidang kendali Kubernetes di sebagian besar server besar kami [Kubernetes] cluster.”
Banyak sekali jargonnya, namun pada dasarnya, layanan telemetri baru ini memengaruhi operasi Kubernetes OpenAI, termasuk sumber daya yang diandalkan oleh banyak layanan perusahaan untuk resolusi DNS. Resolusi DNS mengubah alamat IP menjadi nama domain; itu alasannya…