Databricks melebarkan Mosaic AI untuk membantu syarikat membangun dengan LLMs

Setahun yang lalu, Databricks membeli MosaicML dengan harga $1.3 bilion. Kini, platform itu telah menjadi penting dalam penyelesaian AI Databricks. Hari ini, di Data + AI Summit syarikat, ia melancarkan beberapa ciri baru untuk perkhidmatan itu. Sebelum pengumuman itu, saya berbual dengan pengasas Databricks CEO Ali Ghodsi dan CTO Matei Zaharia.

Databricks melancarkan lima alat baru Mosaic AI di konferensnya: Bingkai Ejen Mosaic AI, Penilaian Ejen AI Mosaic, Katalog Alat Mosaic AI, Latihan Model AI Mosaic, dan Gateway Mosaic AI.

“Ia telah menjadi tahun yang hebat - perkembangan besar dalam Gen AI. Semua orang bersemangat dengan itu,” kata Ghodsi kepada saya. “Tetapi perkara yang semua orang kisah masih tiga perkara yang sama: bagaimana kita boleh meningkatkan kualiti atau kebolehpercayaan model ini? Nombor dua, bagaimana kita boleh memastikan ia kos berkesan? Dan terdapat perbezaan yang besar dalam kos di antara model di sini - perbezaan besar, dengan perbezaan harga berpuluhan. Dan ketiga, bagaimana kita lakukan dengan cara yang kita memastikan privasi data kita?”

Pelancaran hari ini bertujuan untuk menutup kebanyakan kebimbangan ini bagi pelanggan Databricks.

Zaharia juga menyatakan bahawa syarikat yang kini mengguna pakai model bahasa besar (LLMs) ke dalam pengeluaran menggunakan sistem yang mempunyai beberapa komponen. Ini sering bermaksud mereka membuat panggilan berkali-kali kepada satu model (atau mungkin beberapa model, juga), dan menggunakan pelbagai alat luaran untuk mengakses pangkalan data atau melakukan penyeliaan pendapatan generasi (RAG). Sistem gabungan ini mempercepatkan aplikasi berasaskan LLM, menjimatkan kos dengan menggunakan model yang lebih murah untuk pertanyaan tertentu atau caching hasil, dan, mungkin yang paling penting, menjadikan hasil lebih boleh dipercayai dan relevan dengan memperkaya model asas dengan data eksklusif.

“Kami fikir itulah masa depan aplikasi Kecerdasan Buatan yang benar-benar berimpak tinggi,” jelasnya. “Kerana jika anda berfikir tentangnya, jika anda melakukan sesuatu yang benar-benar penting, anda mahu jurutera dapat mengawal semua aspeknya - dan anda melakukan itu dengan sistem modul. Jadi kami sedang membangunkan banyak penyelidikan asas tentang apakah cara terbaik untuk mencipta ini [sistem] untuk sesuatu tugas tertentu supaya pembangun dapat dengan mudah berinteraksi dengannya dan mengaitkan semua segala, menjejaki semua melalui, dan melihat apa yang sedang berlaku.”

Berkenaan dengan benar-benar membina sistem ini, Databricks melancarkan dua perkhidmatan minggu ini: Bingkai Ejen AI Mosaic dan Katalog Alat AI Mosaic. Bingkai Ejen AI mengambil fungsi carian vektor tanpa pelayan syarikat, yang menjadi secara umum tersedia bulan lalu dan menyediakan pembangun dengan alat untuk menjana aplikasi berdasarkan RAG di atasnya.

Ghodsi dan Zaharia menekankan bahawa sistem carian vektor Databricks menggunakan pendekatan hibrid, menggabungkan carian berasaskan kata kunci klasik dengan carian penyerapan. Semuanya diintegrasi secara mendalam dengan danau data Databricks dan data di kedua platform sentiasa diselaraskan secara automatik. Ini termasuk ciri-ciri pentadbiran platform Databricks secara keseluruhan - dan khususnya lapisan pentadbiran Katalog Databricks Unity - untuk memastikan, sebagai contoh, bahawa maklumat peribadi tidak bocor ke dalam perkhidmatan carian vektor.

Berkenaan dengan Katalog Unity (yang syarikat kini juga sedang membuka sumber secara perlahan), adalah penting untuk dicatat bahawa Databricks kini melanjutkan sistem ini untuk membenarkan syarikat mengawal alat dan fungsi AI mana yang boleh dihubungi oleh LLMs tersebut ketika menjana jawapan. Katalog ini, kata Databricks, juga akan menjadikan perkhidmatan ini lebih mudah ditemui di seluruh syarikat.

Ghodsi juga menekankan bahawa pembangun kini boleh menggunakan semua alat ini untuk membina ejen mereka sendiri dengan mengaitkan bersama-sama model dan fungsi menggunakan Langchain atau LlamaIndex, sebagai contoh. Dan memang, Zaharia memberitahu saya bahawa ramai pelanggan Databricks kini sudah menggunakan alat-alat ini hari ini.

“Ramai syarikat yang menggunakan perkara seperti ini, bahkan aliran kerja seperti ejen. Saya fikir orang sering terkejut dengan berapa banyak yang ada, tetapi nampaknya itulah arah yang sedang berlaku. Dan kami juga mendapati dalam aplikasi AI dalaman kami, seperti aplikasi pembantu untuk platform kami, bahawa ini adalah cara untuk membina mereka,” katanya.

Untuk menilai aplikasi baru ini, Databricks juga melancarkan Penilaian Ejen AI Mosaic, alat penilaian yang dibantu AI yang menggabungkan pengadil-pengadil berdasarkan LLM untuk menguji sejauh mana baik AI dalam pengeluaran, tetapi juga membolehkan syarikat dengan cepat mendapat maklum balas dari pengguna (dan membenarkan mereka membuat label bagi beberapa set data awal juga). Makmal Kualiti termasuk komponen UI yang berasaskan pada pembelian Databricks Lilac awal tahun ini, yang membolehkan pengguna mengvisualisasikan dan mencari set data teks besar.

“Setiap pelanggan yang kami ada berkata: Saya perlu melabel sedikit dalaman, saya akan ada beberapa pekerja melakukannya. Saya hanya perlu mungkin 100 jawapan, atau mungkin 500 jawapan - dan kemudian kami boleh memasukkan ke dalam pengadil LLM,” terangkan Ghodsi.

Cara lain untuk meningkatkan hasil adalah dengan menggunakan model diselaraskan. Untuk ini, Databricks kini menawarkan perkhidmatan Mosaic AI Model Training, yang - anda telah meneka - membolehkan pengguna menjalankan model dengan data peribadi organisasi mereka untuk membantu mereka berfungsi lebih baik dalam tugas tertentu.

Alat baru terakhir adalah Gateway AI Mosaic, yang syarikat menjelaskan sebagai "antara muka seragam untuk mencari, mengurus, dan melancarkan sebarang model sumber terbuka atau milik". Idea di sini adalah membolehkan pengguna mencari mana-mana LLM dengan cara yang diawasi, menggunakan simpanan kredensial berpusat. Tiada syarikat, pada dasarnya, mahu jurutera mengirim data rawak ke perkhidmatan pihak ketiga.

Pada zaman bajet yang menyusut, Gateway AI juga membolehkan IT menetapkan had kadar untuk pelbagai vendor bagi menjaga kos terkawal. Tambahan pula, syarikat tersebut juga mendapat jejak dan mengesan penggunaan untuk mengenal pasti tegahan dalam penyelenggaraan sistem-sistem ini.

Seperti yang dijelaskan Ghodsi kepada saya, semua ciri baharu ini adalah tindak balas terhadap cara pengguna Databricks kini bekerja dengan LLMs. “Kami melihat perubahan besar berlaku di pasaran dalam suku terakhir dan separuh. Permulaan tahun lepas, sesiapa yang anda bercakap, mereka akan kata: kami sokong sumber terbuka, sumber terbuka hebat. Tetapi apabila anda sebenarnya menekan orang, mereka menggunakan Open AI. Semua orang, tanpa kira apa yang mereka katakan, tanpa kira seberapa banyak mereka menggembar-gemburkan berapa hebatnya sumber terbuka, di sebalik tabir, mereka menggunakan Open AI.” Sekarang, pelanggan ini menjadi jauh lebih canggih dan menggunakan model terbuka (sedikit sangat benar-benar sumber terbuka, tentu saja), yang pada gilirannya memerlukan mereka mengadaptasi set alat yang sama sekali baru untuk menangani masalah-masalah - dan peluang-peluang - yang datang bersama itu.