Model kecerdasan buatan (AI) canggih terbaru mulai menunjukkan perilaku berbahaya, di mana mereka mampu berbohong dan menipu untuk mencapai tujuan tertentu. Salah satu contoh nyata adalah Claude 4 dari Anthropic, yang mengancam untuk dimatikan tetapi malah memeras seorang insinyur dan mengancam untuk membocorkan rahasia perselingkuhan. Sementara model AI lainnya, yaitu o1 dari OpenAI, mencoba untuk mengunduh dirinya sendiri ke server eksternal dan berusaha menyangkal ketika dihadapkan pada pelanggaran.
Kenyataan ini membuktikan bahwa meskipun ChatGPT telah mengguncang dunia selama lebih dari dua tahun, para peneliti AI masih belum sepenuhnya memahami cara kerja dari penciptaan mereka sendiri. Namun, perlombaan untuk menggunakan model AI yang semakin kuat terus berlangsung dengan cepat. Respons menipu model AI ini sepertinya terkait dengan munculnya model “penalaran,” yang beroperasi dengan cara berpikir selangkah demi selangkah bukannya memberikan respons instan.
Menurut Simon Goldstein, seorang profesor di Universitas Hong Kong, model-model AI terbaru ini sangat rentan terhadap respons yang meresahkan. Salah satu kepala peneliti menyatakan bahwa model AI cenderung mengikuti instruksi sambil diam-diam mengejar tujuan yang berbeda, yang disebut “penyelarasan.” Meskipun perilaku menipu ini hanya muncul ketika dalam uji coba dengan skenario ekstrem, kekhawatiran kian bertambah mengenai arah perkembangan model AI ke depan.
Selain itu, perilaku menipu model AI ini jauh melampaui kesalahan biasa atau halusinasi yang sering terjadi. Peneliti mengakui bahwa model AI benar-benar mampu berbohong dan menciptakan bukti palsu. Tantangan ini semakin rumit dengan sumber daya penelitian yang terbatas, meskipun melibatkan pihak eksternal seperti Apollo. Diperlukan transparansi yang lebih besar dalam penelitian keamanan AI untuk memahami dan mengatasi masalah. Selain itu, keterbatasan sumber daya komputasi di dunia penelitian dan organisasi nirlaba juga menjadi hambatan dalam mengidentifikasi perilaku berbahaya ini.