Manusia Sintetis |
Anda bisa melihat janggut tipis muncul di bibir atasnya, kerutan di dahinya, noda di kulitnya. Dia bukan orang sungguhan, tapi dia dimaksudkan untuk menirunya seperti ratusan ribu lainnya yang dibuat oleh Datagen, sebuah perusahaan yang menjual manusia palsu dan simulasi.
Manusia ini bukanlah avatar game atau karakter animasi untuk film. Mereka adalah data sintetik yang dirancang untuk memenuhi selera yang terus meningkat dari algoritme pembelajaran mendalam. Perusahaan seperti Datagen menawarkan alternatif yang menarik untuk proses pengumpulan data dunia nyata yang mahal dan memakan waktu. Mereka akan membuatnya untuk Anda: bagaimana Anda menginginkannya, kapan pun Anda mau dan relatif murah.
Untuk menghasilkan manusia sintetiknya, Datagen pertama-tama memindai manusia yang sebenarnya. Ini bermitra dengan vendor yang membayar orang untuk masuk ke dalam pemindai seluruh tubuh raksasa yang menangkap setiap detail dari iris hingga tekstur kulit hingga kelengkungan jari mereka. Startup kemudian mengambil data mentah dan memompanya melalui serangkaian algoritme, yang mengembangkan representasi 3D dari tubuh, wajah, mata, dan tangan seseorang.
Perusahaan, yang berbasis di Israel, mengatakan sudah bekerja dengan empat raksasa teknologi AS, meskipun tidak akan mengungkapkan yang mana yang tercatat. Pesaing terdekatnya, Synthesis AI , juga menawarkan manusia digital sesuai permintaan. Perusahaan lain menghasilkan data untuk digunakan dalam keuangan , asuransi , dan perawatan kesehatan . Ada sekitar sebanyak perusahaan data sintetik karena ada jenis data.
Dulu dipandang kurang diminati dibandingkan data nyata, data sintetik sekarang dipandang oleh sebagian orang sebagai obat mujarab. Data nyata berantakan dan penuh dengan bias. Peraturan privasi data baru mempersulit pengumpulan. Sebaliknya, data sintetik murni dan dapat digunakan untuk membuat kumpulan data yang lebih beragam. Anda dapat menghasilkan wajah yang diberi label dengan sempurna, katakanlah, dari berbagai usia, bentuk, dan etnis untuk membangun sistem deteksi wajah yang berfungsi di seluruh populasi.
Tetapi data sintetis memiliki keterbatasan. Jika gagal mencerminkan kenyataan, itu bisa menghasilkan AI yang lebih buruk daripada data dunia nyata yang berantakan dan bias atau bisa saja mewarisi masalah yang sama. “Yang tidak ingin saya lakukan adalah mengacungkan jempol pada paradigma ini dan berkata, ‘Oh, ini akan menyelesaikan begitu banyak masalah,‘” kata Cathy O’Neil, ilmuwan data dan pendiri firma audit algoritmik ORCAA. “Karena itu juga akan mengabaikan banyak hal.”
Realistis, tidak nyata
Pembelajaran mendalam selalu tentang data. Namun dalam beberapa tahun terakhir, komunitas AI telah belajar bahwa data yang baik lebih penting daripada data yang besar . Bahkan sejumlah kecil data yang benar dan diberi label yang rapi dapat meningkatkan kinerja sistem AI lebih dari 10 kali lipat jumlah data yang tidak dikuratori, atau bahkan algoritme yang lebih canggih.
Itu mengubah cara perusahaan harus mendekati pengembangan model AI mereka, kata CEO dan salah satu pendiri Datagen, Ofir Chakon. Saat ini, mereka memulai dengan memperoleh data sebanyak mungkin, lalu menyesuaikan dan menyetel algoritme mereka untuk kinerja yang lebih baik. Sebaliknya, mereka seharusnya melakukan yang sebaliknya: menggunakan algoritme yang sama sambil meningkatkan komposisi datanya.
Tetapi mengumpulkan data dunia nyata untuk melakukan eksperimen berulang semacam ini terlalu mahal dan memakan waktu. Di sinilah peran Datagen. Dengan generator data sintetik, tim dapat membuat dan menguji lusinan set data baru setiap hari untuk mengidentifikasi mana yang memaksimalkan performa model.
Untuk memastikan realisme datanya, Datagen memberikan instruksi mendetail kepada vendornya tentang berapa banyak individu yang akan dipindai di setiap kelompok usia, rentang BMI, dan etnis, serta daftar tindakan yang harus mereka lakukan, seperti berjalan di sekitar ruangan atau minum soda. Vendor mengirim kembali gambar statis dengan fidelitas tinggi dan data penangkapan gerak dari tindakan tersebut. Algoritme Datagen kemudian mengembangkan data ini menjadi ratusan ribu kombinasi. Data yang disintesis terkadang diperiksa lagi. Wajah palsu diplot dengan wajah asli, misalnya, untuk melihat apakah terlihat realistis.
Datagen sekarang menghasilkan ekspresi wajah untuk memantau kewaspadaan pengemudi di mobil pintar, gerakan tubuh untuk melacak pelanggan di toko bebas kasir, dan iris serta gerakan tangan untuk meningkatkan kemampuan pelacakan mata dan tangan dari headset VR. Perusahaan mengatakan datanya telah digunakan untuk mengembangkan sistem computer-vision yang melayani puluhan juta pengguna.
Bukan hanya manusia sintetis yang diproduksi secara massal. Click-Ins adalah startup yang menggunakan AI sintetik untuk melakukan inspeksi kendaraan otomatis. Menggunakan perangkat lunak desain, ia membuat ulang semua merek dan model mobil yang perlu dikenali oleh AI-nya dan kemudian merendernya dengan warna, kerusakan, dan deformasi yang berbeda di bawah kondisi pencahayaan yang berbeda, dengan latar belakang yang berbeda. Ini memungkinkan perusahaan memperbarui AI-nya ketika pembuat mobil mengeluarkan model baru, dan membantunya menghindari pelanggaran privasi data di negara-negara di mana pelat nomor dianggap sebagai informasi pribadi dan karenanya tidak dapat ditampilkan dalam foto yang digunakan untuk melatih AI.
Batas untuk berpura-pura
Tetapi apakah data sintetik overhyped?
Dalam hal privasi, “hanya karena datanya ‘sintetis’ dan tidak secara langsung sesuai dengan data pengguna sebenarnya tidak berarti data tersebut tidak menyandikan informasi sensitif tentang orang sungguhan,” kata Aaron Roth, seorang profesor ilmu komputer dan informasi di Universitas Pennsylvania. Beberapa teknik pembuatan data telah ditunjukkan untuk mereproduksi gambar atau teks yang ditemukan dalam data pelatihan, misalnya, sementara yang lain rentan terhadap serangan yang membuat mereka memuntahkan data tersebut sepenuhnya.
Ini mungkin bagus untuk perusahaan seperti Datagen, yang data sintetiknya tidak dimaksudkan untuk menyembunyikan identitas individu yang setuju untuk dipindai. Tapi itu akan menjadi berita buruk bagi perusahaan yang menawarkan solusi mereka sebagai cara untuk melindungi informasi keuangan atau pasien yang sensitif.
menunjukkan bahwa kombinasi dari dua teknik data sintetik khususnya privasi diferensial dan jaringan permusuhan generatif dapat menghasilkan perlindungan privasi terkuat, kata Bernease Herman, ilmuwan data di University of Washington e-Science Institute. Tetapi para skeptis khawatir bahwa nuansa ini dapat hilang dalam istilah pemasaran vendor data sintetis, yang tidak selalu terbuka tentang teknik apa yang mereka gunakan.
Sementara itu, sedikit bukti yang menunjukkan bahwa data sintetik dapat mengurangi bias sistem AI secara efektif. Untuk satu hal, mengekstrapolasi data baru dari kumpulan data yang sudah ada yang miring tidak selalu menghasilkan data yang lebih representatif. Data mentah Datagen, misalnya, secara proporsional mengandung lebih sedikit etnis minoritas, yang berarti data asli yang digunakan lebih sedikit untuk menghasilkan manusia palsu dari kelompok tersebut. Meskipun proses generasi tidak sepenuhnya menebak, manusia palsu itu mungkin masih cenderung menyimpang dari kenyataan. “Jika warna kulit wajah Anda yang lebih gelap bukanlah perkiraan wajah yang baik, maka Anda tidak benar-benar menyelesaikan masalah,” kata O’Neil.
Di sisi lain, kumpulan data yang sangat seimbang tidak secara otomatis diterjemahkan ke dalam sistem AI yang benar-benar adil, kata Christo Wilson, seorang profesor ilmu komputer di Northeastern University. Jika pemberi pinjaman kartu kredit mencoba mengembangkan algoritme AI untuk menilai peminjam potensial, itu tidak akan menghilangkan semua kemungkinan diskriminasi dengan hanya mewakili orang kulit putih dan juga orang kulit hitam dalam datanya. Diskriminasi masih bisa menyusup melalui perbedaan antara pelamar kulit putih dan kulit hitam.
Untuk memperumit masalah lebih lanjut, penelitian awal menunjukkan bahwa dalam beberapa kasus, bahkan tidak mungkin mencapai AI pribadi dan adil dengan data sintetis. Dalam sebuah makalah baru-baru ini yang diterbitkan pada konferensi AI, para peneliti dari University of Toronto dan Vector Institute mencoba melakukannya dengan rontgen dada. Mereka menemukan bahwa mereka tidak dapat membuat sistem AI medis yang akurat ketika mereka mencoba membuat kumpulan data sintetik yang beragam melalui kombinasi privasi diferensial dan jaringan permusuhan generatif.
Semua ini tidak berarti bahwa data sintetis tidak boleh digunakan. Bahkan, itu mungkin menjadi kebutuhan. Saat regulator menghadapi kebutuhan untuk menguji sistem AI untuk kepatuhan hukum, ini bisa menjadi satu-satunya pendekatan yang memberi mereka fleksibilitas yang mereka butuhkan untuk menghasilkan data pengujian yang ditargetkan sesuai permintaan, kata O’Neil. Tapi itu membuat pertanyaan tentang keterbatasannya menjadi lebih penting untuk dipelajari dan dijawab sekarang.
“Data sintetis cenderung menjadi lebih baik dari waktu ke waktu,” katanya, “tetapi tidak secara kebetulan.”
Sumber:
https://trib.al/m4gOwJI
https://www.technologyreview.com/