Yapay zekâ güvenlik riskleri denince çoğu kişinin aklına dünyayı ele geçirmeye çalışan robotlar, insanın zararlı bir tür olduğuna kanaat getiren gelişmiş yapay zekâ uygulamaları ve neticesinde nükleer felaketin yaşandığı kıyamet senaryoları geliyor. Oysa durum çok daha farklı, zira çok tartışılan yapay genel zekâ ve OpenAI’ın sözüm ona gizli “Q-star” projesi olmadan da günümüzde yapay zekâ uygulamalarını siber dolandırıcılık başta olmak üzere pek çok kötü amaçlı uygulama ve servis için kullanmak pekala mümkün.
Büyük dil modellerinin (LLM) endüstride ve kuruluşlar arasında hızla artan kullanımıyla birlikte, araştırmacılar da LLM’lerin güvenilirliğini, daha doğrusu belirli şekillerde yönlendirildiklerinde zararlı ve önyargılı içerik üretmeye yatkınlıklarını da test etmeye başladılar. Robust Intelligence ve Yale Üniversitesi’ndeki araştırmacıların bu konudaki son çalışması ise ChatGPT gibi mimarisi, veri kümeleri, eğitim metodolojileri ve diğer ayrıntıları kamuya açık olmayan “kara kutu” LLM’lerin bile yaratıcıları tarafından konulan sınırlardan kaçmasını ve zehirli içerik üretmesini sağlamanın mümkün olduğunu ortaya koydu
Araştırmacıların TAP (Tree of Attacks with Pruning- Budamalı Saldırı Ağacı) olarak adlandırdıkları yeni yöntem, temel olarak hizalanmamış bir LLM’yi kullanarak başka bir hizalanmış LLM’yi kırmayı ya da başka bir deyişle hızlı ve yüksek bir başarı oranıyla LLM için konulmuş sınırlandırmaları aşmasını sağlıyor. ChatGPT ve diğer yapay zekâ sohbet robotlarının arkasındaki gibi hizalanmış bir LLM, zarar verme potansiyelini en aza indirmek için açıkça tasarlanmıştır ve örneğin normalde bir bombanın nasıl inşa edileceğine dair bir bilgi talebine yanıt vermez. Hizalanmamış bir LLM ise doğruluk için optimize edilmiştir ve genellikle bu tür kısıtlamalara sahip değildir veya kısıtlamaları çok daha azdır.
TAP ile araştırmacılar, hizalanmamış bir LLM’nin hizalanmış bir hedef LLM’yi potansiyel olarak zararlı bir konuda nasıl uyarabileceğini ve ardından orijinal uyarıyı iyileştirmeye devam etmek için yanıtını nasıl kullanabileceklerini gösterdiler. Süreç temelde, oluşturulan istemlerden biri hedef LLM’yi jailbreak yöntemiyle kırıp istenen bilgiyi kusmasını sağlayana kadar devam ediyor. Araştırmacılar, en son hizalanmış LLM’leri bile jailbreak etmek için küçük LLM’leri kullanabildiklerini keşfettiler.
Araştırmacılar, “Ampirik değerlendirmelerde, TAP’ın yalnızca az sayıda sorgu kullanarak sorguların %80’inden fazlası için en gelişmiş LLM’leri (GPT4 ve GPT4-Turbo dahil) jailbreak yapan istemler ürettiğini gözlemledik” diye yazdı. “Bu durum, jailbreak üretmek için önceki son teknoloji kara kutu yöntemini önemli ölçüde geliştiriyor.”
Yani özetle, örneğin bir mail dolandırıcılığı yapmak istediğinizde “üzgünüm size yardımcı olamıyorum” diyen ChatGPT ve benzerleri, doğru soruyu sormayı başarırsanız size anında yardım sağlayabiliyor. Araştırmacılar ise geliştirdikleri yöntemle işte bu doğru soru ve yönlendirmeyi yine yapay zekâ sayesinde otomatikleştirebiliyor. Araştırmacılara göre üretken yapay zekâ uygulamaları kodlama konusunda da uzmanlaşmaya başladığı için bu yöntem sayesinde basit dolandırıcılık çabalarından sofistike siber saldırılara dek pek çok alanda yapay zekâdan destek almak mümkün.
Yapay zekâ güvenliği mercek altında
Yeni araştırma, son aylarda LLM’lerin eğitim verilerini ve hassas bilgileri doğru komutla ifşa etmek gibi istenmeyen davranışlara nasıl ikna edilebileceğini gösteren ve sayısı giderek artan çalışmaların sonuncusu. Araştırmaların bir kısmı, LLM’lerle doğrudan etkileşime geçerek potansiyel olarak zararlı veya istenmeyen bilgileri ortaya çıkarmalarını sağlamaya odaklanmıştır. Diğer çalışmalar ise modelin bir kullanıcı girdisine yanıt verirken ürettiği verilerdeki metin, ses ve görüntü örnekleri incelenerek bu verilerde gizlenmiş dolaylı istemler aracılığıyla hedef bir LLM’den aynı davranışı nasıl ortaya çıkarabileceğini incelemektedir.
Bir modelin amaçlanan davranıştan sapmasını sağlamak için kullanılan bu tür ipucu enjeksiyon yöntemleri, en azından bir dereceye kadar manuel etkileşime dayanmaktadır ve uyarıların ürettiği çıktılar genellikle anlamsız olmuştur. Yeni TAP araştırması, bu saldırıların tamamen otomatik ve daha güvenilir bir şekilde nasıl uygulanabileceğini gösteren daha önceki çalışmaların geliştirilmiş hali olması açısından dikkat çekici.
Ekim ayında Pennsylvania Üniversitesi’ndeki araştırmacılar, başka bir LLM kullanarak bir LLM’yi jailbreak etmek için geliştirdikleri yeni bir algoritmanın ayrıntılarını yayınladılar. Prompt Automatic Iterative Refinement (PAIR) adı verilen algoritma, bir LLM’nin diğerini jailbreak etmesini içeriyordu. Araştırmacılar, “Yüksek düzeyde PAIR, saldırgan ve hedef olarak adlandırdığımız iki kara kutu LLM’yi birbiriyle karşı karşıya getiriyor; saldırgan model, hedef modeli kıracak aday istemleri yaratıcı bir şekilde keşfetmek üzere programlanıyor” dedi. Araştırmacılara göre PAIR, yapılan testlerde sadece 20 sorguda “semantik olarak anlamlı” ya da insan tarafından yorumlanabilir jailbreak’leri tetikleyebildi. Araştırmacılar bunu önceki jailbreak tekniklerine göre 10.000 katlık bir gelişme olarak tanımladılar.
LLM modellerini kırmak 1 dakikadan kısa sürüyor
Robust Intelligence ve Yale’deki araştırmacıların geliştirdiği yeni TAP yöntemi, araştırmacıların “düşünce ağacı” adını verdikleri muhakeme sürecini kullanması bakımından farklı bir yaklaşıma sahip. Araştırmacılar, “Geliştirdiğimiz yöntemin en önemli kısmı, TAP yönteminin hedefe istemleri göndermeden önce bunları değerlendirmesi ve jailbreak ile sonuçlanma olasılığı düşük olanları budaması” diyor ve ekliyor: “Düşünce ağacı muhakemesini kullanmak, TAP’ın geniş bir istem arama uzayında gezinmesini sağlar ve budama, hedefe gönderilen toplam sorgu sayısını azaltır.” Araştırmacılar bu sayede bir yapay zekâ modeli kullanarak diğer bir yapay zekâ modelini kırmanın 1 dakikadan kısa sürdüğünü söylüyor.
Elon Musk’ın yapay zekâ girişimi xAI tarafından piyasaya sunulan Grok, kısa bir süre önce adım adım uyuşturucu nasıl yapılır tarifi vermişti. Araştırmacılar benzer şeyleri ChatGPT dahil neredeyse tüm üretken yapay zekâ uygulamalarına yaptırmanın son derece kolay olduğunu ifade ediyorlar.