Teknoloji uzmanları, eğitim algoritmaları otomatik olarak interneti ve diğer yerleri içerik için tarayan üretken yapay zeka (genAI) araçlarıyla, sanatçıların fikri mülkiyet (IP) hırsızlığı olarak gördükleri şeye karşı mücadele etmelerine yardımcı oluyor.
Çevrimiçi olarak bulunan içeriğin adil kullanımının nelerden oluştuğuna ilişkin mücadele, süregelen mahkeme savaşının merkezinde yer alıyor. Mücadele, sanat eserinin ötesine geçerek Microsoft ve ortağı OpenAI gibi genAI şirketlerinin yazılım kodlarını ve diğer yayınlanmış içerikleri modellerine dahil edip edemeyeceğine kadar uzanıyor.
Birçoğu üniversitelerin bilgisayar bilimleri bölümlerinden olan yazılım mühendisleri, mücadeleyi kendi ellerine aldılar. Dijital “filigranlar”, benzersiz sanat eserleri veya diğer içerikler üzerinde yazarlık iddiasında bulunmak için oluşturulan seçeneklerden biri.
Ancak dijital filigranlama yöntemleri geçmişte ağ parametrelerini değiştirerek davetsiz misafirlerin içeriği kendilerine aitmiş gibi talep etmelerine olanak tanıyan geliştiriciler tarafından engellendi. Bu tür geçici çözümleri önlemek için yeni teknikler ortaya çıktı, ancak bu sürekli gelişen bir mücadele.
Yeni bir yöntem, genAI eğitim verilerini manipüle etmek ve makine öğrenimi modellerine beklenmedik davranışlar kazandırmak için ” veri zehirlenmesi saldırılarını ” kullanıyor. Nightshade adı verilen teknoloji, genAI eğitim algoritmasını gerçekte tamamen farklı bir şeyi yutarken bir şeyi aldığına inandırmak için “gizleme“yi kullanıyor.
İlk olarak MIT’in Teknoloji İncelemesinde bildirilen Nightshade, esas olarak yapay zeka modellerinin bir görüntüyü gerçekte gösterdiğinden farklı bir şey olarak yorumlamasını sağlıyor.
Nightshade bir genAI kabusu mu?
Teknoloji, AI büyük dil modeli (LLM) eğitim verilerini bozarak görüntü üreten genAI araçlarına zarar verebilir; bu da DALL-E, Midjourney ve Stable Diffusion gibi platformların hatalı resim veya videolar yayınlamasına yol açar. Örneğin yapay zeka tarafından araba olarak yorumlanan bir fotoğraf aslında bir tekne olabilir; bir ev muza dönüşür; bir kişi balinaya dönüşür vb..
Nightshade, Chicago Üniversitesi araştırmacıları tarafından bilgisayar bilimi profesörü Ben Zhao yönetiminde geliştirildi. Zhao, okulun SAND Laboratuvarı’nda yüksek lisans öğrencileriyle çalıştı; bu laboratuvar da bu yılın başlarında kendi IP’lerini maskeleyerek genAI modelleri tarafından kazınmaması için Glaze adlı ücretsiz bir hizmeti başlattı. Zhao’ya göre Nightshade teknolojisi sonunda Glaze’e entegre edilecek.
Avivah Litan, konuyla ilgili “Nightshade gibi bir araç çok gerçek ve benzer araçlar, bilgisayar korsanları ve suçlular tarafından model eğitim verilerini kendi çıkarları doğrultusunda zehirlemek için (örneğin, bir uydu veya GPS sistemini kandırmak ve böylece düşman tespitini önlemek için) yıllardır kullanılıyor.” dedi.
“Dönüştürücüler” olarak da bilinen temel modeller, binlerce, hatta milyonlarca parça ham, etiketlenmemiş veri üzerinde eğitilmiş büyük ölçekli üretken yapay zeka modelleri. Modeller, kullanıcılardan yanıt üretmek veya soruları çözmek için internetten ve satın alınan veri kümeleri de dahil olmak üzere diğer yerlerden derledikleri verilerden bilgi ediniyor.
Peki veri zehirlenmesi etik değil mi?
Şirketlerin alana özel kullanım için Yüksek Lisans (LLM) geliştirmelerine yardımcı olan bir girişim olan Snorkel AI’nin teknoloji başkanı ve kurucu ortağı Bradon Hancock, Nightshade’in AI geliştiricileri tarafından veri kazımasını engellemek için başka çabaları teşvik edebileceğine inanıyor. Veri kazımaya karşı birçok teknolojik savunmanın geçmişi 2018’e kadar uzanıyor olsa da Nightshade, daha önce görülmemiş bir şey.
Bu tür araçların kullanımının etik olup olmadığı, bunların nereye yönelik olduğuna bağlı olduğunu söyledi.
Hancock, “Bunun etik olmayan kullanımları olduğunu düşünüyorum; örneğin, sürücüsüz araçların dur işaretlerini ve hız sınırı işaretlerini tanımalarına yardımcı olan verilerini zehirlemeye çalışıyorsanız.” dedi. “Amacınız daha çok ‘beni kazıma’ yönündeyse ve aktif olarak bir modeli mahvetmeye çalışmıyorsanız, sanırım benim için çizgi burada.“
Araştırma firması IDC’de başkan yardımcısı analisti olan Ritu Jyoti, konuyu Nightshade’in ne olduğuyla ilgili bir sorudan ziyade etikle ilgili bir soru olarak görüyor. “Bu benim verilerim veya sanat eserim.” dedi. “Bunu kamuoyuna açıkladım ve bir şeyle maskeledim. Yani benim iznim olmadan alıyorsan bu senin sorunun.“
Jyoti’ye göre şirketler, binlerce ve hatta milyonlarca lisanslı veya lisanssız çalışmanın yer aldığı veri göllerini kullanarak yapay zeka içerik oluşturma araçlarını rutin olarak eğitiyor. Örneğin, bir görüntü lisanslama hizmeti olan Getty Images, bu yılın başlarında AI sanat aracı Stable Diffusion’a karşı, fotoğraflarının uygunsuz şekilde kullanıldığı ve hem telif hakkı hem de ticari marka haklarını ihlal ettiği iddiasıyla dava açtı.
Google şu anda, şirketin genAI sistemlerini eğitmek için veri toplamasının milyonlarca insanın mahremiyetini ve mülkiyet haklarını ihlal ettiğini iddia eden bir toplu davada yer alıyor. 2015 yılında Google, kütüphane kitaplarını dijitalleştirmesine izin veren önemli bir mahkeme kararını kazandı.