Fairgen 'menguatkan' hasil kajian menggunakan data sintetik dan respons AI yang dihasilkan

Kajian telah digunakan untuk mendapatkan pandangan tentang populasi, produk, dan pendapat orang ramai sejak zaman dahulu. Dan walaupun metodologi mungkin telah berubah sepanjang milenia, satu perkara tetap kekal: Kehendak akan orang, banyak orang.

Tetapi apakah jika anda tidak dapat mencari jumlah yang mencukupi untuk membina kumpulan sampel yang cukup besar untuk menghasilkan hasil yang bermakna? Atau, apakah jika anda mungkin dapat mencari jumlah yang mencukupi, tetapi kekangan bajet menghadkan jumlah orang yang anda boleh dapatkan dan temui untuk ditemubual?

Ini adalah di mana Fairgen mahu membantu. Startup Israel ini hari ini melancarkan platform yang menggunakan "AI statistik" untuk menghasilkan data sintetik yang dikatakan sama baiknya dengan yang sebenar. Syarikat ini juga mengumumkan kutipan dana segar sebanyak $5.5 juta dari Maverick Ventures Israel, The Creator Fund, Tal Ventures, Ignia, dan beberapa pelabur malaikat lain, menjadikan jumlah tunai yang dikumpulkan sejak permulaannya sehingga $8 juta.

Data 'palsu'

Data mungkin adalah nyawa AI, tetapi ia juga telah menjadi asas penyelidikan pasaran sejak selamanya. Jadi apabila dua dunia bertembung, seperti yang dilakukan dalam dunia Fairgen, keperluan akan data berkualiti menjadi sedikit lebih menonjol.

Diasaskan di Tel Aviv, Israel, pada tahun 2021, Fairgen sebelum ini memberi tumpuan kepada menangani kecenderungan dalam AI. Tetapi pada akhir tahun 2022, syarikat itu beralih kepada produk baru, Fairboost, yang kini dilancarkan keluar dari beta.

Fairboost berjanji untuk 'menguatkan' dataset yang lebih kecil sehingga tiga kali ganda, membolehkan lebih banyak pandangan terperinci ke dalam niche yang mungkin terlalu sukar atau mahal untuk dicapai. Dengan menggunakan ini, syarikat boleh melatih model pembelajaran mesin yang mendalam untuk setiap dataset yang dimuat naik ke platform Fairgen, dengan AI statistik mempelajari corak melintasi segmen kajian yang berbeza.

Konsep "data sintetik" - data yang dihasilkan secara buatan daripada kejadian dunia nyata - bukanlah sesuatu yang baru. Asalnya bermula pada zaman awal pengkomputeran, di mana ia digunakan untuk menguji perisian dan algoritma, dan mensimulasikan proses. Tetapi data sintetik, sebagaimana yang kita fahami hari ini, telah mengambil kehidupan sendiri, terutamanya dengan kemunculan pembelajaran mesin, di mana ia semakin digunakan untuk melatih model. Kita boleh menangani kedua-dua isu kekurangan data serta kebimbangan privasi data dengan menggunakan data yang dihasilkan secara artifisial yang tidak mengandungi maklumat sensitif.

Fairgen adalah startup terbaru yang menguji data sintetik, dan ia mempunyai pasaran penyelidikan pasaran sebagai sasaran utama. adalah penting untuk mencari tahu bahawa Fairgen tidak menghasilkan data dari udara semata-mata, atau melemparkan jutaan kajian sejarah ke dalam periuk cairan yang digerakkan oleh AI - penyelidik pasaran perlu menjalankan kajian untuk sampel kecil daripada pasaran sasaran mereka, dan dari situ, Fairgen menetapkan corak untuk memperluaskan sampel. Syarikat itu mengatakan ia dapat menjamin sekurang-kurangnya dua kali ganda pemula sampel, tetapi secara purata, ia dapat mencapai tiga kali ganda .

Dengan cara ini, Fairgen mungkin boleh menetapkan bahawa seseorang dalam kelompok umur tertentu dan/atau tahap pendapatan lebih cenderung menjawab soalan dengan cara tertentu. Atau, menggabungkan sebarang jumlah titik data untuk melakukan interpolasi dari dataset asal. Pada dasarnya, ia tentang menghasilkan apa yang dikatakan Samuel Cohen, pengasas bersama dan CEO Fairgen, "segemen data yang lebih kuat, lebih padu, dengan batasan kesilapan yang lebih rendah."

"Realisasi utama adalah bahawa orang semakin menjadi lebih beraneka ragam - jenama perlu menyesuaikan diri dengan itu, dan mereka perlu memahami segmen pelanggan mereka," Cohen menjelaskan kepada TechCrunch. "Segmen sangat berbeza - Gen Z berfikir berbeza daripada orang tua. Dan untuk dapat memahami pasaran ini pada tahap segmen, ia memakan banyak wang, mengambil masa yang lama, dan sumber operasi yang banyak. Dan di sinilah saya menyedari titik sakitnya. Kami tahu bahawa data sintetik memainkan peranan di sana."

Kritikan yang jelas - satu kritikan yang syarikat mengakui bahawa mereka telah bergulat dengannya - ialah bahawa ini semua kedengaran seperti jalan pintas besar untuk pergi ke lapangan, mewawancara orang sebenar dan mengumpul pendapat sebenar.

Sudah pasti mana-mana kumpulan yang kurang diwakili sepatutnya bimbang bahawa suara sebenar mereka digantikan oleh, apa ya, suara palsu?

"Setiap pelanggan yang kami berbicara di ruang penyelidikan mempunyai titik buta yang besar - audiens yang cukup sukar untuk dijangkau," kata ketua pertumbuhan Fairgen, Fernando Zatz, kepada TechCrunch. "Mereka sebenarnya tidak menjual projek kerana tidak ada orang yang tersedia, terutama dalam dunia yang semakin beragam di mana anda mempunyai banyak sekatan pasaran. Kadang-kadang mereka tidak boleh masuk ke negara-negara tertentu; mereka tidak boleh masuk ke demografi tertentu, jadi sebenarnya mereka kehilangan projek kerana tidak dapat mencapai kuota mereka. Mereka mempunyai jumlah minimum [responden], dan jika mereka tidak mencapai jumlah itu, mereka tidak menjual pandangan."

Fairgen bukanlah syarikat tunggal yang menggunakan AI generatif dalam bidang penyelidikan pasaran. Qualtrics tahun lalu mengatakan mereka akan melabur $500 juta selama empat tahun untuk membawa AI generatif ke platform mereka, walaupun dengan tumpuan substansial pada penyelidikan kualitatif. Namun, ini adalah bukti lebih lanjut bahawa data sintetik ada, dan ia di sini untuk kekal.

Namun, memvalidasi hasil akan memainkan peranan penting dalam meyakinkan orang bahawa ini adalah perkara yang sebenar dan bukan satu langkah pengurangan kos yang akan menghasilkan hasil yang tidak optimum. Fairgen melakukan ini dengan membandingkan 'peningkatan' sampel 'sebenar' dengan 'pemalsuan' sampel - ia mengambil sampel kecil daripada dataset, menggabungkannya dan meletakkannya bersebelahan dengan perkara yang sebenar.

"Dengan setiap pelanggan tunggal yang kami daftarkan, kami membuat ujian jenis yang sama," kata Cohen.

Dari segi statistik

Cohen mempunyai gelar MSc dalam sains statistik dari Universiti Oxford, dan PhD dalam pembelajaran mesin dari UCL London, sebahagian daripadanya melibatkan tempoh sembilan bulan sebagai ahli sains penyelidikan di Meta.

Salah satu pengasas syarikat adalah pengerusi Benny Schnaider, yang sebelum ini berada dalam ruang perisian korporat, dengan empat keluaran namanya: Ravello kepada Oracle dengan nilai $500 juta pada 2016; Qumranet kepada Red Hat dengan nilai $107 juta pada 2008; P-Cube kepada Cisco dengan nilai $200 juta pada 2004; dan Pentacom kepada Cisco dengan nilai $118 pada tahun 2000.

Dan kemudian ada Emmanuel Candès, profesor statistik dan kejuruteraan elektrik di Universiti Stanford, yang berkhidmat sebagai penasihat saintifik utama Fairgen.

Pangkal balik perniagaan dan matematik ini adalah titik jual utama bagi syarikat yang cuba meyakinkan dunia bahawa data palsu boleh sama baiknya dengan data sebenar, jika digunakan dengan betul. Inilah juga cara mereka dapat menjelaskan dengan jelas ambang dan batasan teknologi mereka - betapa besar sampel yang diperlukan untuk mencapai peningkatan optimum.

Menurut Cohen, mereka idealnya memerlukan sekurang-kurangnya 300 responden sebenar bagi satu kajian, dan dari situ Fairboost boleh meningkatkan saiz segmen yang tidak melebihi 15% daripada kajian yang lebih luas.

"Di bawah 15%, kami boleh menjamin purata peningkatan sebanyak 3x setelah memvalidasi dengan ratusan ujian selari," kata Cohen. "Statistiknya, keuntungan yang kurang dramatik di atas 15%. Data sudah menunjukkan tahap keyakinan yang baik, dan responden sintetik kami hanya boleh melengkapinya atau membawa kenaikan yang margin. Dari segi perniagaan, tiada tahap sakit di atas 15% - jenama sudah dapat mengambil pembelajaran dari kumpulan ini; mereka hanya terjebak pada tahap niche."

Faktor Tiada-LLM

Perlu diingat bahawa Fairgen tidak menggunakan model bahasa besar (LLM), dan platformnya tidak menghasilkan respons 'bahasa yang mudah difahami' seperti ChatGPT. Sebabnya adalah kerana LLM akan menggunakan pembelajaran dari pelbagai sumber data lain di luar parameter kajian, yang meningkatkan peluang memperkenalkan kecenderungan yang tidak selari dengan penyelidikan kuantitatif.

Fairgen sepenuhnya tentang model-model statistik dan data tabular, dan latihannya bergantung sepenuhnya pada data yang terkandung dalam dataset yang dimuat naik. Ini membolehkan penyelidik pasaran menghasilkan responden baru dan sintetik dengan interpolasi daripada segmen-segmen bersebelahan dalam kajian.

"Kami tidak menggunakan sebarang LLM untuk alasan yang sangat mudah, iaitu jika kami akan membuat latihan pra di banyak [lain] kajian, ia hanya akan menghantar maklumat yang salah," kata Cohen. "Kerana anda akan mendapati kes di mana sesuatu telah dipelajari dalam kajian yang lain, dan kami tidak mahu itu. Ia semua tentang kebolehpercayaan."

Dari segi model perniagaan, Fairgen dijual sebagai SaaS, dengan syarikat memuat naik kajian mereka dalam format yang tersusun mana-mana (.CSV, atau SAV) ke platform berasaskan awan Fairgen. Menurut Cohen, ia mengambil masa sehingga 20 minit untuk melatih model pada data kajian yang diberikan, bergantung pada jumlah soalan. Pengguna kemudian memilih 'segi' (subset responden yang berkongsi ciri-ciri tertentu) - contohnya, 'Gen Z yang bekerja dalam industri x,' - dan kemudian Fairgen memberikan fail baru yang terstruktur secara identik dengan fail latihan asal, dengan soalan yang sama persis, hanya baris baru.

Fairgen digunakan oleh BVA dan firma penyelidikan pasaran dan undian IFOP Perancis, yang telah mengintegrasikan teknologi startup ke dalam perkhidmatan mereka. IFOP, yang sedikit seperti Gallup di Amerika Syarikat, menggunakan Fairgen untuk tujuan undian pada pilihan raya Eropah, walaupun Cohen berpendapat ia mungkin akan digunakan untuk pilihan raya Amerika Syarikat juga pada tahun ini.

"IFOP secara asasnya adalah cap pengesahan kami, kerana mereka telah berada selama kira-kira 100 tahun," kata Cohen. "Mereka menilai teknologi dan merupakan rakan pendesain asal kami. Kami juga sedang menguji atau sudah mengintegrasikan dengan beberapa daripada syarikat penyelidikan pasaran terbesar di dunia, yang saya tidak dibenarkan berbicara tentang lagi."