internetsehat.id

Merawat Kolaborasi Literasi Digital Indonesia

Literasi Digital

MIT Hapus Dataset yang Melatih AI Rasis dan Misoginis

Internet Sehat : Massachusetts Institute of Technology (MIT) telah meng-offline-kan dataset AI yang sangat banyak dikutip yang melatih sistem AI untuk berpotensi menggambarkan orang yang menggunakan istilah , dan masalah lainnya.

Basis data telah dihapus minggu ini setelah Register memperingatkan MIT. MIT juga mendesak para peneliti dan pengembang untuk berhenti menggunakan perpustakaan pelatihan, dan menghapus salinan apa pun. Seorang profesor dari MIT mengatakan meminta maaf.

Dataset pelatihan yang dibangun oleh universitas tersebut telah digunakan untuk mengajarkan model pembelajaran mesin untuk secara otomatis mengidentifikasi dan membuat daftar orang dan objek yang digambarkan dalam gambar foto. Sebagai contoh, jika sebuah foto taman ditunjukkan kepada salah satu dari sistem ini sebuah, dataset tersebut mungkin memberi tahu tentang anak-anak, orang dewasa, hewan peliharaan, hamparan piknik, rumput, dan pohon yang ada di foto. Namun, berkat pendekatan angkuh MIT ketika merakit set pelatihannya, sistem ini juga dapat melabeli wanita sebagai pelacur dan orang kulit hitam dan Asia dengan bahasa yang merendahkan. Basis data juga berisi gambar close-up alat kelamin wanita berlabel C-word.

Aplikasi, situs web, dan produk lain yang mengandalkan jaringan saraf yang dilatih menggunakan dataset MIT pada akhirnya dapat menggunakan istilah-istilah ini ketika menganalisis foto dan rekaman kamera.

Pustaka pelatihan yang bermasalah tersebut adalah 80 juta Tiny Images yang diciptakan pada 2008 untuk membantu menghasilkan teknik deteksi objek canggih. Pustaka ini pada dasarnya adalah koleksi besar foto dengan label yang menggambarkan apa yang ada di foto, yang semuanya dapat dimasukkan ke dalam jaringan saraf untuk mengajar mereka mengaitkan pola dalam foto dengan label deskriptif. Jadi ketika jaringan saraf yang terlatih ditunjukkan sepeda, ia dapat secara akurat memprediksi sepeda hadir dalam sekejap. Pustaka ini disebut Tiny Images karena gambar di perpustakaan cukup kecil untuk algoritma visi komputer pada akhir 2000-an dan awal 2010-an untuk dicerna.

Dataset menampung lebih dari 79.300.000 gambar, diambil dari Google Images, disusun dalam 75.000 kategori ganjil. Versi yang lebih kecil, dengan 2,2 juta gambar, dapat dicari dan dibaca secara online dari situs web MIT’s Computer Science and Artificial Intelligence Lab (CSAIL). Visualisasi ini, bersama dengan basis data lengkap yang dapat diunduh, dihapus pada hari Senin minggu lalu dari situs web CSAIL.

Masalah utama adalah bahwa dataset tersebut mencakup, misalnya, gambar orang dan monyet berkulit hitam yang berlabel N-word; perempuan dalam bikini, atau memegang anak-anak mereka, berlabel pelacur; bagian anatomi yang dilabeli istilah kasar; dan sebagainya yang menghubungkan citra sehari-hari dengan cercaan dan bahasa ofensif, dan membuat prasangka dan bias ke dalam model AI masa depan.

Sumber: The Register

Sumber Foto: Getty Images