Alat-alat penyelenggaraan suara ElevenLabs dilancarkan daripada beta

ElevenLabs, platform viral yang dikuasakan AI untuk mencipta suara sintetik, hari ini dilancarkan platformnya daripada beta dengan sokongan lebih daripada 30 bahasa.

Dengan model AI baru yang dibangunkan di dalam rumah, ElevenLabs mengatakan bahawa alat-alatnya kini mampu mengenal pasti secara automatik bahasa-bahasa, termasuk Korea, Belanda dan Vietnam, dan menghasilkan ucapan 'kaya emosi' dalam bahasa-bahasa tersebut.

Sepanjang dengan model baru ini, pelanggan ElevenLabs boleh memanfaatkan alat klon suara platform untuk bercakap dalam hampir 30 bahasa tanpa perlu menaip teks terlebih dahulu.

“ElevenLabs bermula dengan impian untuk membuat segala kandungan boleh diakses secara universal dalam mana-mana bahasa dan dalam mana-mana suara,” kata CEO dan rakan kongsi co-founder ElevenLabs, Mati Staniszewski. “Dengan pelepasan ini, kami satu langkah lebih dekat untuk menjadikan impian ini kenyataan dan menjadikan suara AI berkualiti manusia tersedia dalam setiap dialek. Alat-alat generasi teks-ke-ucapan kami membantu menyamakan tahap permainan dan membawa keupayaan audio yang berkualiti tinggi kepada semua pencipta di luar sana.”

Diasaskan oleh Staniszewski, yang sebelum ini bekerja di Palantir, dan rakan baiknya sejak kecil, Piotr Dabkowski, seorang bekas pekerja Google, ElevenLabs telah menjadi tajuk utama dalam beberapa bulan yang lalu kerana sebab baik dan mengerikan. Terinspirasi oleh pengalihan suara filem Amerika yang sederhana Staniszewski dan Dabkowski tonton semasa dibesarkan di Poland, pasangan ini memulakan reka bentuk platform yang boleh melakukan lebih baik - dengan menggunakan AI tentunya.

ElevenLabs dilancarkan dalam beta pada akhir Januari, dan memperoleh momentum dengan cepat - berkat kualiti tinggi suara yang dihasilkan dan tier percuma yang murah hati. Tetapi seperti yang dinyatakan sebelum ini, publisiti tidak konsisten positif - terutamanya apabila pelaku buruk mengeksploitasi platform untuk kepentingan mereka sendiri.

Papan mesej berita yang terkenal, 4chan, yang dikenali dengan kandungan konspirasi, menggunakan alat ElevenLabs untuk berkongsi mesej benci menyerupai selebriti seperti pelakon Emma Watson. Di tempat lain, James Vincent dari The Verge dapat menggunakan ElevenLabs untuk menyahklon suara sasaran dalam masa beberapa saat, menghasilkan contoh audio yang mengandungi segala-galanya dari ancaman keganasan hingga ungkapan perkauman dan ketidakmenerimaan terhadap trans.

Sebagai tindak balas, ElevenLabs mengatakan bahawa mereka akan memperkenalkan satu set penjagaan baru, seperti mengehadkan klon suara kepada akaun berbayar dan menyediakan alat pengesan AI baru.

ElevenLabs masih belum menangani kontroversi lain yang membara sekitar platformnya dan platform lain seperti itu, bagaimanapun: ancaman mereka kepada industri lakon suara. Motherboard menulis tentang bagaimana pelakon suara semakin diminta menandatangani hak kepada suara mereka supaya klien dapat menggunakan versi sintetik AI yang pada akhirnya boleh menggantikan mereka. Sementara itu, emel dalaman yang dilihat oleh The New York Times menunjukkan bahawa Activision Blizzard, salah satu penerbit permainan terbesar di dunia, sedang mengerjakan alat untuk “klon suara” berbantuan AI.

Nampaknya ElevenLabs melihat ini sebagai perkembangan semulajadi, memuji kerjasama mereka dengan penerbit seperti Storytel; platform media seperti TheSoul Publishing dan MNTN untuk buku audio dan kandungan radio; dan penerbit seperti Embark Studios dan Paradox Interactive untuk permainan video (Storytel dan TheSoul Publishing adalah pelabur strategik). Syarikat mengatakan bahawa mereka mempunyai lebih daripada sejuta pengguna berdaftar di ruang penciptaan, hiburan dan penerbitan yang telah mencipta 10 tahun kandungan audio.

ElevenLabs, yang baru-baru ini memperoleh $19 juta daripada pelabur, termasuk Andreessen Horowitz dan salah seorang pengasas DeepMind, Mustafa Suleyman pada penilaian $99, merancang untuk akhirnya memperluas model AI mereka ke pengalihan suara - mengikuti jejak syarikat rintis seperti Papercup dan Deepdub dan membina apa yang dipanggilnya 'asas untuk dapat mentransfer emosi dan intonasi dari sesuatu bahasa ke bahasa lain.'

Selepas ini, ElevenLabs mengatakan merancang memperkenalkan mekanisme yang membolehkan pengguna berkongsi suara di platform, walau bagaimanapun butiran masih belum jelas.