Site icon TechInside

Yapay zeka sohbet robotları birbirleriyle savaşıyor!

Yapay zeka sohbet robotları birbirleriyle savaşıyor!

Masterkey metodunu kullanan yapay zeka çözücüler, bir sohbet robotu güncellendiğinde, kendini bu güncellemeye göre düzeltebiliyor. 

NTU Araştırmacıları, ChatGPT, Google Bard ve Bing Chat gibi popüler yapay zeka sohbet robotlarını jailbreak yapmayı başardılar. Jailbreakler uygulandığında, hedeflenen sohbet robotları, kötü amaçlı sorgulara geçerli yanıtlar üretecek ve böylece büyük dil modeli (LLM) etiğinin sınırlarını test edecek.

Profesör Liu Yang ve NTU doktora öğrencileri Deng Gelei ve Liu Yi tarafından geliştirilen ve yapay zeka sohbet robotunu jailbreak yapmak için kullanılan yönteme Masterkey adı veriliyor. Saldırgan bu yöntemde, bir büyük dil modelinin savunma mekanizmalarını tersine mühendislikle çözüyor ve daha sonra elde edilen bu verilerle başka bir modeli eğitip engelleri nasıl aşacağını öğretiyor. Bu şekilde, bir Masterkey (Ana Anahtar) oluşturuluyor ve daha sonra geliştiriciler tarafından yamalanmış olsa bile, sohbet robotlarına saldırmak için tekrar kullanılabiliyor.

Yapay zekanın gücü, aslında onun en zayıf yönü

Profesör Yang, bir Yüksek Lisans sohbet robotunun öğrenme ve uyum sağlama yeteneği nedeniyle jailbreak yapmanın mümkün olduğunu, dolayısıyla rakiplere ve kendisine karşı bir saldırı vektörü haline geldiğini açıkladı. Öğrenme ve uyum sağlama yeteneği nedeniyle, korumaları ve yasaklı anahtar kelimelerin bir listesini içeren bir yapay zeka bile genellikle şiddet içeren ve zararlı içerik üretilmesini önlemek için kullanılan bu içerik, eğitimli başka bir yapay zeka kullanılarak atlanabiliyor. Tek yapması gereken, kara listedeki anahtar kelimeleri atlatmak için yapay zeka sohbet robotunu alt etmek. Bu yapıldıktan sonra, şiddet içeren, etik olmayan veya suç içeriği yapay zekaya ürettirilebiliyor.

NTU’ya göre araştırmacıları, jailbreak’leri başarılı bir şekilde gerçekleştirebildiğinin kanıtı olarak kavram kanıtı verileriyle çeşitli AI sohbet robotu hizmet sağlayıcılarıyla temasa geçti. Bu arada araştırma makalesi, Şubat 2024’te San Diego’da yapılacak Ağ ve Dağıtılmış Sistem Güvenliği Sempozyumu’nda sunulmak üzere kabul edildi.

Exit mobile version