Fondasi AI Penuh Dengan Kesalahan


Booming saat ini dalam kecerdasan buatan dapat ditelusuri kembali ke 2012 dan terobosan selama kompetisi dibangun di sekitar ImageNet, satu set 14 juta gambar berlabel.

Dalam kompetisi tersebut, metode yang disebut pembelajaran dalam, yang melibatkan pemberian contoh ke jaringan saraf tiruan raksasa, terbukti secara dramatis lebih baik dalam mengidentifikasi objek dalam gambar daripada pendekatan lainnya. Ketertarikan awal dalam menggunakan AI untuk menyelesaikan masalah yang berbeda.

Tetapi penelitian mengungkapkan minggu ini menunjukkan bahwa ImageNet dan sembilan kumpulan data AI utama lainnya mengandung banyak kesalahan. Para peneliti di MIT membandingkan bagaimana algoritme AI yang dilatih pada data menafsirkan gambar dengan label yang diterapkan padanya. Misalnya, jika algoritme memutuskan bahwa gambar 70 persen kemungkinan besar adalah kucing tetapi labelnya bertuliskan “sendok,” maka kemungkinan gambar tersebut salah diberi label dan benar-benar menampilkan kucing. Untuk memeriksa, di mana algoritme dan label tidak sesuai, peneliti menunjukkan gambar tersebut kepada lebih banyak orang.

ImageNet dan kumpulan data besar lainnya adalah kunci bagaimana sistem AI, termasuk yang digunakan dalam mobil self-driving, perangkat pencitraan medis, dan sistem penilaian kredit, dibuat dan diuji. Tapi mereka juga bisa menjadi mata rantai yang lemah. Data biasanya dikumpulkan dan diberi label oleh pekerja bergaji rendah, dan penelitian sedang menumpuk tentang masalah yang ditimbulkan metode ini.

Algoritme dapat menunjukkan bias dalam mengenali wajah, misalnya, jika mereka dilatih pada data yang sangat banyak berkulit putih dan jantan. Pemberi label juga dapat memperkenalkan bias jika, misalnya, mereka memutuskan bahwa wanita yang ditampilkan dalam pengaturan medis lebih cenderung menjadi “perawat” sementara pria lebih cenderung menjadi “dokter”.

Penelitian terbaru juga menyoroti bagaimana kesalahan dasar yang bersembunyi dalam data yang digunakan untuk melatih dan menguji model AI — prediksi yang dihasilkan oleh algoritme — dapat menyamarkan seberapa baik atau buruk model tersebut sebenarnya.

“Apa yang ditunjukkan oleh karya ini kepada dunia adalah bahwa Anda perlu membersihkan kesalahannya,” kata Curtis Northcutt, seorang mahasiswa PhD di MIT yang memimpin pekerjaan baru tersebut. “Jika tidak, model yang menurut Anda terbaik untuk masalah bisnis dunia nyata Anda sebenarnya bisa salah.”

Aleksander Madry, seorang profesor di MIT, memimpin upaya lain untuk mengidentifikasi masalah dalam kumpulan data gambar tahun lalu dan tidak terlibat dengan pekerjaan baru tersebut. Dia mengatakan itu menyoroti masalah penting, meskipun dia mengatakan metodologi perlu dipelajari dengan hati-hati untuk menentukan apakah kesalahan umum seperti yang disarankan oleh pekerjaan baru.

Kumpulan data besar serupa digunakan untuk mengembangkan algoritme untuk berbagai penggunaan industri AI. Jutaan gambar pemandangan jalan raya, misalnya, diumpankan ke algoritme yang membantu kendaraan otonom melihat hambatan di jalan. Koleksi besar catatan medis berlabel juga membantu algoritma memprediksi kemungkinan seseorang mengembangkan penyakit tertentu.

Kesalahan semacam itu dapat menyebabkan insinyur pembelajaran mesin ke jalur yang salah saat memilih di antara model AI yang berbeda. “Mereka mungkin benar-benar memilih model yang memiliki kinerja lebih buruk di dunia nyata,” kata Northcutt.

Northcutt menunjuk pada algoritme yang digunakan untuk mengidentifikasi objek di jalan di depan mobil yang dapat mengemudi sendiri sebagai contoh sistem kritis yang mungkin tidak berfungsi sebaik yang dipikirkan oleh pengembangnya.

Tidaklah mengherankan bahwa kumpulan data AI mengandung kesalahan, mengingat bahwa anotasi dan label biasanya diterapkan oleh pekerja kerumunan bergaji rendah. Ini adalah rahasia umum dalam penelitian AI, tetapi hanya sedikit peneliti yang mencoba menunjukkan frekuensi kesalahan tersebut. Juga tidak ada efek yang ditunjukkan pada performa model AI yang berbeda.

Para peneliti MIT memeriksa kumpulan data pengujian ImageNet — subset gambar yang digunakan untuk menguji algoritme terlatih — dan menemukan label yang salah pada 6 persen gambar. Mereka menemukan proporsi kesalahan yang serupa dalam kumpulan data yang digunakan untuk melatih program AI untuk mengukur seberapa positif atau negatif ulasan film, berapa banyak bintang yang akan diterima ulasan produk, atau apa yang ditampilkan video, antara lain.

Kumpulan data AI ini telah digunakan untuk melatih algoritme dan mengukur kemajuan di berbagai bidang termasuk penglihatan komputer dan pemahaman bahasa alami. Pekerjaan tersebut menunjukkan bahwa adanya kesalahan ini dalam kumpulan data pengujian menyulitkan untuk mengukur seberapa baik satu algoritme dibandingkan dengan algoritme lainnya. Misalnya, algoritme yang dirancang untuk melihat pejalan kaki mungkin berperforma lebih buruk saat label yang salah dihapus. Itu mungkin tidak terlihat banyak, tapi bisa memiliki konsekuensi besar bagi performa kendaraan otonom.

Setelah periode hype yang intens setelah terobosan ImageNet 2012, semakin jelas bahwa algoritme AI modern mungkin mengalami masalah karena data yang mereka berikan. Beberapa orang mengatakan bahwa seluruh konsep pelabelan data juga bermasalah. “Inti dari supervised learning, terutama dalam visi, terletak pada ide kabur tentang label,” kata Vinay Prabhu, seorang peneliti pembelajaran mesin yang bekerja untuk perusahaan UnifyID.

Juni lalu, Prabhu dan Abeba Birhane, seorang mahasiswa PhD di University College Dublin, menelusuri ImageNet dan menemukan kesalahan, bahasa yang kasar, dan informasi identitas pribadi.

Prabhu menunjukkan bahwa label seringkali tidak dapat sepenuhnya mendeskripsikan gambar yang berisi banyak objek, misalnya. Dia juga mengatakan bermasalah jika pemberi label dapat menambahkan penilaian tentang profesi, kebangsaan, atau karakter seseorang, seperti halnya dengan ImageNet.


Diposting oleh : Lagutogel