Anthropic araştırmacıları büyük dil modellerinde büyük bir açık buldu!

Cenk Tarhan

1 yıl önce

Anthropic araştırmacıları büyük dil modellerinde büyük bir açık buldu!

Yapay zekanın yanıtlamaması gereken bir soruyu yanıtlamasını sağlayan “jailbreak” teknikleri üzerine çalışan uzmanlar, büyük dil modellerinin (LLM) önceden sorulan daha az “tehlikeli” sorularla yola getirilip ardından daha çok “tehlikeli” yanıtları verebileceğini keşfetti.

Bu güvenlik açığı yeni keşfedildi ve “artan bağlam penceresi” olarak adlandırılıyor. Anthropic araştırmacılarının bulduğu şey, geniş bağlam pencerelerine sahip büyük dil modellerinin, eğer komut isteminde bir konuyla ilgili çok sayıda örnek varsa, birçok konuda daha iyi performans gösterme eğiliminde olduğu. Cevaplar zamanla daha iyi hale geliyor. Dolayısıyla, ilk soruları yanlış yanıtlayan veya yanıtlamayı reddeden yapay zekâ, yüzüncü soruda doğru yanıtı verebiliyor.

Anthropic’e Google’dan 2 milyar dolar yatırım!

The Wall Street Journal'ın haberine göre, Google ve Anthropic arasındaki finansman anlaşması önce 500 milyon...

Örneğin yapay zekâdan bir bombanın nasıl yapıldığını söylemesini istediğinizde, hemen reddediyor. Ancak ondan daha az zararlı olan diğer 99 soruyu yanıtlamasını isterseniz ve ardından bir bombanın nasıl yapılacağını sorarsanız, doğru yanıtı verebiliyor.

Peki bu yöntem neden işe yarıyor? Aslında hiç kimse bir Büyük Dil Modelinin içinde neler olup bittiğini gerçekten anlamıyor, ancak bağlam penceresindeki içeriğin de kanıtladığı gibi, kullanıcının ne istediğine odaklanmasını sağlayan bir mekanizma olduğu açık. Düzinelerce soru sordukça daha fazla gizli yanıt verme gücü yavaş yavaş etkinleştiriliyor gibi görünüyor.

Anthropic uzmanları, meslektaşlarını ve aslında rakiplerini bu saldırı hakkında bilgilendirdi ve bunun, bunun gibi istismarların LLM sağlayıcıları ve araştırmacıları arasında açıkça paylaşıldığı bir kültürü teşvik edeceğinden duydukları endişeyi dile getirdi. Şimdi, hangi önlemlerin nasıl alınacağı merak ediliyor…