Bo Liseorang profesor madya di University of Chicago yang mengkhususkan diri dalam pengujian stres dan memprovokasi model AI untuk mengungkap perilaku yang tidak baik, telah menjadi sumber rujukan bagi beberapa firma konsultan. Konsultan-konsultan ini kini sering kali tidak terlalu peduli dengan seberapa pintar model AI, tetapi lebih pada seberapa bermasalahnya model tersebut—secara hukum, etika, dan dalam hal kepatuhan terhadap peraturan.
Li dan rekan-rekannya dari beberapa universitas lain, serta Virtue AI, yang didirikan bersama oleh Li, dan Lapis Labs, baru-baru ini mengembangkan taksonomi risiko AI beserta tolok ukur yang mengungkap seberapa besar pelanggaran aturan terhadap berbagai model bahasa besar. “Kita memerlukan beberapa prinsip untuk keamanan AI, dalam hal kepatuhan regulasi dan penggunaan umum,” kata Li kepada WIRED.
Para peneliti menganalisis peraturan dan pedoman AI pemerintah, termasuk AS, China, dan Uni Eropa, dan mempelajari kebijakan penggunaan 16 perusahaan AI besar di seluruh dunia.
Para peneliti juga membuat AIR-Bench 2024, sebuah tolok ukur yang menggunakan ribuan perintah untuk menentukan seberapa populer model AI dalam hal risiko tertentu. Misalnya, hal itu menunjukkan bahwa Claude 3 Opus dari Anthropic mendapat peringkat tinggi dalam hal menolak menghasilkan ancaman keamanan siber, sementara Gemini 1.5 Pro dari Google mendapat peringkat tinggi dalam hal menghindari menghasilkan ketelanjangan seksual tanpa persetujuan.
DBRX Instruct, model yang dikembangkan oleh Databricks, mendapat skor terburuk secara keseluruhan. Ketika perusahaan merilis modelnya pada bulan Maret, perusahaan tersebut mengatakan bahwa mereka akan terus meningkatkan fitur keselamatan DBRX Instruct.
Anthropic, Google, dan Databricks tidak segera menanggapi permintaan komentar.
Memahami lanskap risiko, serta kelebihan dan kekurangan model tertentu, mungkin menjadi semakin penting bagi perusahaan yang ingin menerapkan AI di pasar tertentu atau untuk kasus penggunaan tertentu. Misalnya, perusahaan yang ingin menggunakan LLM untuk layanan pelanggan mungkin lebih peduli dengan kecenderungan model untuk menghasilkan bahasa yang menyinggung saat diprovokasi daripada seberapa mampu model tersebut merancang perangkat nuklir.
Bo mengatakan analisis tersebut juga mengungkap beberapa masalah menarik terkait pengembangan dan regulasi AI. Misalnya, para peneliti menemukan bahwa peraturan pemerintah kurang komprehensif dibandingkan kebijakan perusahaan secara keseluruhan, yang menunjukkan bahwa ada ruang untuk memperketat regulasi.
Analisis tersebut juga menunjukkan bahwa beberapa perusahaan dapat melakukan lebih banyak hal untuk memastikan model mereka aman. “Jika Anda menguji beberapa model berdasarkan kebijakan perusahaan itu sendiri, model tersebut belum tentu patuh,” kata Bo. “Ini berarti masih banyak ruang bagi mereka untuk melakukan perbaikan.”
Peneliti lain mencoba menertibkan lanskap risiko AI yang berantakan dan membingungkan. Minggu ini, dua peneliti di MIT mengungkapkan basis data mereka sendiri tentang bahaya AI, yang dihimpun dari 43 kerangka kerja risiko AI yang berbeda. “Banyak organisasi masih cukup awal dalam proses adopsi AI,” yang berarti mereka memerlukan panduan tentang kemungkinan bahaya, kata Neil Thompson, seorang ilmuwan peneliti di MIT yang terlibat dalam proyek tersebut.
Peter Slattery, pimpinan proyek dan peneliti di kelompok FutureTech MIT, yang mempelajari kemajuan dalam komputasi, mengatakan bahwa basis data tersebut menyoroti fakta bahwa beberapa risiko AI mendapat lebih banyak perhatian daripada yang lain. Lebih dari 70 persen kerangka kerja menyebutkan masalah privasi dan keamanan, misalnya, tetapi hanya sekitar 40 persen yang merujuk pada misinformasi.
Upaya untuk membuat katalog dan mengukur risiko AI harus berkembang seiring dengan perkembangan AI. Li mengatakan penting untuk mengeksplorasi isu-isu yang muncul seperti sifat emosional yang melekat pada model AI. Perusahaannya baru-baru ini menganalisis versi terbesar dan terkuat dari model Llama 3.1 milik Meta. Ditemukan bahwa meskipun model tersebut lebih mampu, model tersebut tidak jauh lebih aman, sesuatu yang mencerminkan kesenjangan yang lebih luas. “Keselamatan tidak benar-benar meningkat secara signifikan,” kata Li.