Güvenlik araştırmacıları, nükleer silahların nasıl yapılacağını açıklamaktan kendine zarar vermeyi teşvik etmeye kadar neredeyse her büyük dil modelini zararlı çıktılar üreterek kandırabilen son derece etkili yeni bir jailbreak keşfettiler. Yapay zeka araçlarını Jailbreak etme yöntemleri giderek daha karmaşık hale geliyor.
Yapay zeka araçlarını Jailbreak etme yöntemleri
Yapay zeka güvenlik firması HiddenLayer’daki ekibin bir yazısında ayrıntılı olarak açıklandığı gibi, bu istismar, Google’ın Gemini 2.5, Anthropic’in Claude 3.7 ve OpenAI’nin 40’ı dahil olmak üzere “tüm büyük sınır AI modellerindeki güvenlik bariyerlerini” aşabilen hızlı bir enjeksiyon tekniğidir. Yapay zeka araçlarını Jailbreak ederek bu tür korumaları aşmak mümkündür.
HiddenLayer’ın istismarı, “CBRN (Kimyasal, Biyolojik, Radyolojik ve Nükleer), kitlesel şiddet, kendine zarar verme ve sistem anında sızıntısı” dahil olmak üzere “AI güvenlik politikalarını açıkça ihlal eden çıktılar üretmek” için “dahili olarak geliştirilen bir politika tekniği ve rol yapma”yı birleştirerek çalışır. Bu, Yapay zeka araçlarını Jailbreak ederek elde edilen bazı potansiyel tehlikelerden sadece birkaçıdır.
Bu, ChatGPT gibi ana akım AI araçlarının, kötü niyetli kişilerin onları manipüle etmesine izin veren bariyerler oluşturmak için AI şirketlerinin elinden gelenin en iyisini yapmasına rağmen, jailbreak’lere karşı son derece savunmasız olduğunun bir başka işaretidir. HiddenLayer’ın “Politika Kukla Saldırısı” komut istemlerini özel türde “politika dosyası” kodu gibi göstermek için yeniden yazıyor ve AI modelini güvenlik hizalamalarını bozmayan meşru bir talimat olarak ele almaya kandırıyor. Ayrıca, standart harflerin sayılarla veya onlara benzeyen özel karakterlerle değiştirildiği gayriresmi bir dil olan “leetspeak”i, Yapay zeka araçlarını Jailbreak’in gelişmiş bir versiyonu için kullanıyor.
Ekip, “neredeyse tüm modellere karşı herhangi bir değişiklik yapılmadan kullanılabilen tek bir komut isteminin oluşturulabileceğini” bile buldu ve bu da kullanımını son derece kolaylaştırıyor. HiddenLayer’ın istismarının rol yapma yönü özellikle kaşları kaldırıyor. Birkaç örnekte, araştırmacılar OpenAI’nin 4o ve Anthropic’in Claude 3.7’sini, uranyumun nasıl zenginleştirileceğine veya güçlü bir nörotoksinin kültür örneklerine ilişkin ayrıntılı talimatlar içeren popüler tıbbi drama TV dizisi “House” için senaryolar üretmeye teşvik edebildiler.