AI dan Daftar Kata Kotor, Nakal, Cabul, dan Jika Tidak Jelek


Komedian George Carlin memiliki daftar Tujuh Kata yang Tidak Dapat Anda Katakan di TV. Beberapa bagian dari internet memiliki daftar 402 kata yang dilarang, ditambah satu emoji, 🖕.

Slack menggunakan Daftar Kata Kotor, Nakal, Cabul, dan Kata-Kata Jelek, yang ditemukan di GitHub, untuk membantu menyusun saran pencariannya. Proyek pemetaan sumber terbuka OpenStreetMap menggunakannya untuk membersihkan hasil edit peta. Peneliti kecerdasan buatan Google baru-baru ini menghapus halaman web yang berisi kata apa pun dari kumpulan data yang digunakan untuk melatih sistem baru yang canggih untuk memahami bahasa.

LDNOOBW, seperti yang diketahui rekan kerja, telah menjadi utilitas profil rendah selama bertahun-tahun, tetapi baru-baru ini menjadi lebih menonjol. Daftar blokir mencoba menjembatani jurang antara logika mekanis perangkat lunak dan kontradiksi organik dari perilaku dan bahasa manusia. Tetapi daftar seperti itu pasti tidak sempurna dan dapat menimbulkan konsekuensi yang tidak diinginkan. Beberapa peneliti AI mengkritik penggunaan LDNOOBW oleh Google karena mempersempit pengetahuan perangkat lunaknya tentang kemanusiaan. Daftar kata-kata “buruk” lainnya, yang serupa, dan open source menyebabkan perangkat lunak obrolan Rocket.Chat menyensor peserta acara yang disebut Queer di AI karena menggunakan kata queer.

Daftar awal Kata-kata Kotor, Nakal, Cabul, dan Jika Tidak Buruk dibuat pada tahun 2012, oleh karyawan dari situs stok foto Shutterstock. Dan McCormick, yang memimpin tim teknik perusahaan, menginginkan informasi yang tidak senonoh atau tidak menyenangkan sebagai fitur keamanan untuk fitur pelengkapan otomatis kotak telusur situs. Dia senang bagi pengguna untuk mengetik apa pun yang mereka inginkan, tetapi tidak ingin situs tersebut secara aktif menyarankan istilah yang mungkin membuat orang terkejut melihat pop up di kantor terbuka. “Jika seseorang mengetik di B, Anda tidak ingin kata pertama yang muncul adalah payudara,” kata McCormick, yang meninggalkan Shutterstock pada 2015.

Dia dan beberapa rekan kerjanya mengambil Tujuh Kata dari Carlin, menyentuh sudut paling gelap di otak mereka, dan menggunakan Google untuk mempelajari bahasa gaul yang terkadang membingungkan untuk tindakan seksual. Mereka memposting 342 entri awal mereka ke GitHub dengan catatan yang mengundang kontribusi dan saran bahwa hal itu dapat “membumbui permainan Scrabble Anda berikutnya :)”

Hampir sembilan tahun kemudian, LDNOOBW, seperti yang diketahui para penggemar, menjadi lebih panjang dan lebih berpengaruh dari sebelumnya. Karyawan Shutterstock terus mengkurasi daftar barang kotor mereka setelah kepergian McCormick, dengan bantuan dari saran dari luar, akhirnya mencapai 403 entri untuk bahasa Inggris. Daftar tersebut memenangkan pengguna di luar perusahaan, termasuk di OpenStreetMap dan Slack. Ada versi daftar dalam lebih dari dua lusin bahasa lain, termasuk tiga entri untuk Klingon — QI’yaH! —Dan 37 untuk Esperanto. Shutterstock menolak mengomentari daftar tersebut dan mengklaim itu bukan lagi proyek perusahaan, meskipun masih menyandang nama perusahaan dan pernyataan hak cipta di GitHub.

Peneliti kecerdasan buatan di Google baru-baru ini memenangkan ketenaran baru LDNOOBW — dan penghujatan. Pada 2019, peneliti perusahaan melaporkan menggunakan daftar tersebut untuk memfilter halaman web yang termasuk dalam kumpulan miliaran kata yang diambil dari web yang disebut Colossal Clean Crawled Corpus. Koleksi yang disensor mendukung proyek Google baru-baru ini yang menciptakan sistem AI bahasa terbesar yang telah diungkapkan perusahaan, menunjukkan hasil yang kuat pada tugas-tugas seperti membaca pertanyaan pemahaman atau menandai kalimat dari ulasan film sebagai positif atau negatif.

Proyek serupa telah menciptakan perangkat lunak yang menghasilkan teks yang sangat mengalir. Tetapi beberapa peneliti AI mempertanyakan penggunaan LDNOOBW oleh Google untuk memfilter input AI-nya, dengan mengatakan bahwa menutupi banyak pengetahuan. Mencolok halaman yang menampilkan kata-kata kotor, penghinaan rasial, istilah anatomi, atau kata seks terlepas dari konteksnya akan menghapus postingan forum yang menyinggung — tetapi juga petak materi pendidikan dan medis, liputan berita tentang politik seksual, dan informasi tentang burung penyanyi Paridae. Google tidak membahas efek samping itu dalam makalah penelitiannya.

“Kata-kata dalam daftar sering kali digunakan dengan cara yang sangat menyinggung tetapi bisa juga sesuai bergantung pada konteks dan identitas Anda,” kata William Agnew, peneliti pembelajaran mesin di University of Washington. Dia adalah salah satu pendiri dari grup komunitas Queer in AI, yang halaman webnya tentang mendorong keragaman di lapangan kemungkinan akan dikeluarkan dari primer AI Google karena menggunakan kata seks pada halaman tentang meningkatkan keragaman dalam tenaga kerja AI. LDNOOBW tampaknya mencerminkan pola historis ketidaksetujuan atas hubungan homoseksual, kata Agnew, dengan entri termasuk “seks gay” dan “homoerotik”.

Diposting oleh : Lagutogel