LanceDB, yang mengira Midjourney sebagai pelanggan, sedang membangun pangkalan data untuk AI multimodal

Chang She, sebelum ini menjadi VP kejuruteraan di Tubi dan seorang veteran Cloudera, mempunyai pengalaman bertahun-tahun dalam membangunkan peralatan dan infrastruktur data. Tetapi apabila She mula bekerja dalam ruang AI, dia dengan cepat menghadapi masalah dengan infrastruktur data tradisional - masalah yang menghalanginya daripada membawa model AI ke dalam pengeluaran.

“Jurutera pembelajaran mesin dan penyelidik AI sering terperangkap dengan pengalaman pembangunan yang tidak memuaskan,” kata She kepada TechCrunch dalam satu temu bual. “Syarikat infra data sebenarnya tidak memahami masalah untuk data pembelajaran mesin pada tahap fundamental.”

Jadi Chang - yang merupakan salah satu pencipta bersama Pandas, perpustakaan sains data Python yang sangat popular - bergabung dengan jurutera perisian Lei Xu untuk bersama-sama melancarkan LanceDB.

LanceDB sedang membangun perisian pangkalan data sumber terbuka yang dinamakan LanceDB, yang direka untuk menyokong model AI multimodal - model yang melatih dan menghasilkan imej, video dan lain-lain selain daripada teks. Dibiayai oleh Y Combinator, LanceDB bulan ini mengumpul $8 juta dalam siri pembiayaan benih yang dipimpin oleh CRV, Essence VC dan Swift Ventures, membawa jumlah yang dikumpulnya kepada $11 juta.

“Jika AI multimodal adalah penting untuk kejayaan masa depan syarikat anda, anda mahu pasukan AI yang sangat mahal anda memberi tumpuan kepada model dan menjembatani AI dengan nilai perniagaan,” kata Chang. “Malangnya, pada hari ini, pasukan AI menghabiskan kebanyakan masa mereka berurusan dengan butiran infrastruktur data berlevel rendah. LanceDB menyediakan asas yang diperlukan oleh pasukan AI agar mereka boleh terlepas untuk memberi tumpuang kepada perkara yang benar-benar penting bagi nilai perniagaan dan membawa produk AI ke pasaran lebih cepat daripada sebaliknya.

LanceDB pada dasarnya adalah pangkalan data vektor - sebuah pangkalan data yang mengandungi siri nombor (“vektor”) yang mewakili makna data struktur tidak terstruktur (contohnya imej, teks dan sebagainya).

Seperti yang ditulis oleh rakan sekerja saya Paul Sawers baru-baru ini, pangkalan data vektor sedang mengalami masa-masa yang sibuk apabila puncak nanar AI. Itu kerana mereka berguna untuk pelbagai aplikasi AI, dari cadangan kandungan dalam platform e-dagangdan media sosial hingga mengurangkan halusinasi.

Persaingan pangkalan data vektor adalah sengit - lihat Qdrant, Vespa, Weaviate, Pinecone dan Chroma sebagai beberapa vender (tanpa mengira syarikat raksasa teknologi besar). Jadi apakah yang menjadikan LanceDB unik? Kelebihan fleksibiliti, prestasi dan skalabiliti yang lebih baik, menurut Chang.

Pertama, kata Chang, LanceDB - yang dibina di atas Apache Arrow - dikuasakan oleh format data khusus, Lance Format, yang dioptimumkan untuk latihan dan analitik AI multimodal. Lance Format membolehkan LanceDB mengendalikan hingga berbilion vektor dan petabait teks, imej dan video, dan membenarkan jurutera menguruskan pelbagai bentuk metadata yang berkaitan dengan data itu.

“Sehingga kini, tidak pernah ada sistem yang boleh menyatukan latihan, penjelajahan, carian dan pemprosesan data dalam skala besar,” kata Chang. “Lance Format membolehkan penyelidik dan jurutera AI memiliki satu sumber kebenaran dan mendapatkan prestasi yang sangat pantas di seluruh saluran AI mereka. Ia bukan sahaja tentang menyimpan vektor.”

LanceDB menjana pendapatan dengan menjual versi yang dikelola sepenuhnya dari perisian sumber terbuka mereka dengan ciri tambahan seperti pemercepatan perkakasan dan kawalan tadbir. Dan bisnes nampaknya berjalan lancar. Senarai pelanggan syarikat termasuk platform teks-ke-imej Midjourney, naga ringan chatbot Character.ai, permulaan kereta autonomi WeRide dan Airtable.

Chang menegaskan bahawa sokongan VC terbaru LanceDB tidak akan mengalihkan perhatiannya daripada projek sumber terbuka tersebut, walaupun, yang katanya kini melihat sekitar 600,000 muat turun sebulan.

“Kami ingin mencipta sesuatu yang akan menjadikan 10 kali lebih mudah bagi pasukan AI yang bekerja dengan data multimodal dalam skala besar,” katanya. “LanceDB menawarkan - dan akan terus menawarkan - satu set ekosistem integrasi yang sangat kaya untuk mengurangkan usaha penggabungan.”

Kami melancarkan newsletter AI! Daftar di sini untuk mula menerima di peti masuk anda pada 5 Jun.