Sekarang Mesin Bisa Belajar, Bisakah Mereka Melupakan?


Perusahaan semua jenis menggunakan pembelajaran mesin untuk menganalisis keinginan, ketidaksukaan, atau wajah orang. Beberapa peneliti sekarang mengajukan pertanyaan yang berbeda: Bagaimana kita bisa membuat mesin lupa?

Area baru ilmu komputer yang dijuluki mesin berhenti belajar mencari cara untuk menginduksi amnesia selektif dalam perangkat lunak kecerdasan buatan. Tujuannya adalah untuk menghapus semua jejak orang atau titik data tertentu dari sistem pembelajaran mesin, tanpa memengaruhi kinerjanya.

Jika dibuat praktis, konsep tersebut dapat memberi orang lebih banyak kontrol atas data mereka dan nilai yang diperoleh darinya. Meskipun pengguna sudah dapat meminta beberapa perusahaan untuk menghapus data pribadi, mereka umumnya tidak mengetahui tentang algoritme apa yang dibantu oleh informasi mereka untuk disetel atau dilatih. Penghentian pembelajaran mesin dapat memungkinkan seseorang untuk menarik data mereka dan kemampuan perusahaan untuk mendapatkan keuntungan darinya.

Meskipun intuitif bagi siapa saja yang menyesali apa yang mereka bagikan secara online, gagasan tentang amnesia buatan itu memerlukan beberapa ide baru dalam ilmu komputer. Perusahaan menghabiskan jutaan dolar untuk melatih algoritme pembelajaran mesin untuk mengenali wajah atau memeringkat pos sosial, karena algoritme sering kali dapat memecahkan masalah lebih cepat daripada pembuat kode manusia saja. Tetapi setelah dilatih, sistem pembelajaran mesin tidak mudah diubah, atau bahkan dipahami. Cara konvensional untuk menghilangkan pengaruh titik data tertentu adalah dengan membangun kembali sistem dari awal, sebuah latihan yang berpotensi mahal. “Penelitian ini bertujuan untuk menemukan jalan tengah,” kata Aaron Roth, seorang profesor di University of Pennsylvania yang mengerjakan machine unlearning. “Dapatkah kami menghapus semua pengaruh data seseorang ketika mereka meminta untuk menghapusnya, tetapi menghindari biaya penuh pelatihan ulang dari awal?”

Bekerja pada penghentian pembelajaran mesin sebagian dimotivasi oleh meningkatnya perhatian pada cara kecerdasan buatan dapat mengikis privasi. Regulator data di seluruh dunia telah lama memiliki kekuatan untuk memaksa perusahaan menghapus informasi yang tidak sah. Warga beberapa negara, seperti UE dan California, bahkan berhak meminta perusahaan menghapus data mereka jika mereka berubah pikiran tentang apa yang mereka ungkapkan. Baru-baru ini, regulator AS dan Eropa mengatakan pemilik sistem AI terkadang harus melangkah lebih jauh: menghapus sistem yang dilatih pada data sensitif.

Tahun lalu, regulator data Inggris memperingatkan perusahaan bahwa beberapa perangkat lunak pembelajaran mesin dapat dikenakan hak GDPR seperti penghapusan data, karena sistem AI dapat berisi data pribadi. Peneliti keamanan telah menunjukkan bahwa algoritme terkadang dapat dipaksa untuk membocorkan data sensitif yang digunakan dalam pembuatannya. Awal tahun ini, Komisi Perdagangan Federal AS memaksa startup pengenalan wajah Paravision untuk menghapus koleksi foto wajah yang diperoleh secara tidak benar dan algoritme pembelajaran mesin yang dilatih dengan mereka. Komisaris FTC Rohit Chopra memuji taktik penegakan baru itu sebagai cara untuk memaksa perusahaan yang melanggar aturan data untuk “menghilangkan hasil penipuannya.”

Bidang kecil penelitian penghentian pembelajaran mesin bergulat dengan beberapa pertanyaan praktis dan matematis yang diajukan oleh perubahan peraturan tersebut. Para peneliti telah menunjukkan bahwa mereka dapat membuat algoritma pembelajaran mesin lupa dalam kondisi tertentu, tetapi tekniknya belum siap untuk prime time. “Seperti biasa untuk bidang muda, ada kesenjangan antara apa yang dicita-citakan oleh daerah ini dan apa yang kita tahu bagaimana melakukannya sekarang,” kata Roth.

Salah satu pendekatan menjanjikan yang diusulkan pada tahun 2019 oleh para peneliti dari universitas Toronto dan Wisconsin-Madison melibatkan pemisahan data sumber untuk proyek pembelajaran mesin baru menjadi beberapa bagian. Masing-masing kemudian diproses secara terpisah, sebelum hasilnya digabungkan menjadi model pembelajaran mesin akhir. Jika satu titik data nanti perlu dilupakan, hanya sebagian kecil dari data masukan asli yang perlu diproses ulang. Pendekatan ini terbukti berhasil pada data pembelian online dan koleksi lebih dari satu juta foto.

Roth dan kolaborator dari Penn, Harvard, dan Stanford baru-baru ini menunjukkan kelemahan dalam pendekatan itu, menunjukkan bahwa sistem unlearning akan rusak jika permintaan penghapusan yang diajukan datang dalam urutan tertentu, baik secara kebetulan atau dari aktor jahat. Mereka juga menunjukkan bagaimana masalah dapat dikurangi.

Gautam Kamath, seorang profesor di University of Waterloo yang juga mengerjakan unlearning, mengatakan masalah yang ditemukan dan diperbaiki oleh proyek adalah contoh dari banyak pertanyaan terbuka yang tersisa tentang bagaimana membuat machine unlearning lebih dari sekadar rasa ingin tahu lab. Kelompok risetnya sendiri telah mengeksplorasi seberapa banyak akurasi sistem berkurang dengan membuatnya secara berturut-turut mengabaikan banyak titik data.

Kamath juga tertarik untuk menemukan cara bagi perusahaan untuk membuktikan—atau regulator untuk memeriksa—bahwa suatu sistem benar-benar telah melupakan apa yang seharusnya tidak dipelajarinya. “Rasanya agak jauh, tapi mungkin mereka pada akhirnya akan memiliki auditor untuk hal semacam ini,” katanya.

Diposting oleh : Lagutogel