The New York Times, materyallerini lisanslama potansiyeli konusunda OpenAI ile pazarlık yaptığını bildirdi, ancak bu görüşmeler sorunsuz gitmedi. Şirketin dava açmayı düşündüğünün bildirilmesinin sekiz ay sonrasında nihayet dava açıldı.
The New York Times, OpenAI şemsiyesi altındaki çeşitli şirketlerin yanı sıra, hem Copilot hizmetini güçlendirmek için kullanan hem de GPT Büyük Dil Modelini eğitmek için altyapı sağlamaya yardımcı olan Microsoft’u hedefliyor.
Ancak dava, OpenAI destekli yazılımın Times’ın ödeme duvarını mutlu bir şekilde aşacağını ve Times’a halüsinasyonlu yanlış bilgi atfedeceğini iddia ederek, eğitimde telif hakkıyla korunan materyallerin kullanımının çok ötesine geçiyor.
Davada, The Times’ın, diğer şeylerin yanı sıra, muhabirleri çok çeşitli konularda görevlendirmek ve önemli araştırmacı gazetecilik yapmak gibi şeyler yapmasına olanak tanıyan geniş bir kadroya sahip olduğu belirtiliyor. Bu yatırımlar nedeniyle gazete çoğu zaman birçok konuda yetkili bir kaynak olarak görülüyor.
Bunların hepsi paraya mal oluyor ve The New York Times bunu, güçlü bir ödeme duvarı aracılığıyla haberlerine erişimi sınırlandırarak kazanıyor. Ek olarak, her basılı baskının bir telif hakkı bildirimi vardır; Times’ın hizmet koşulları, yayınlanan herhangi bir materyalin kopyalanmasını ve kullanımını sınırlandırır ve hikayelerini nasıl lisanslayacağı konusunda seçici olabilir. Bu kısıtlamalar, geliri artırmanın yanı sıra, çalışmalarının nasıl göründüğünü de kontrol ederek yetkili bir ses olarak itibarını korumasına da yardımcı oluyor.
Dava, OpenAI tarafından geliştirilen araçların tüm bunları baltaladığını iddia ediyor. Davada, “Davalıların araçları, Times içeriğini The Times’ın izni veya yetkilendirmesi olmadan sağlayarak, The Times’ın okuyucularıyla olan ilişkisini baltalıyor ve zarar veriyor; The New York Times’ı abonelik, lisanslama, reklam ve ortaklık gelirinden mahrum bırakıyor.“
The New York Times’ın iddia ettiği izinsiz kullanımın bir kısmı GPT’nin çeşitli versiyonlarının eğitimi sırasında gerçekleşti. GPT-3.5’ten önce eğitim veri kümesine ilişkin bilgiler kamuya açıklanıyordu. Kullanılan kaynaklardan biri, davanın The New York Times tarafından yayınlanan sitelerdeki 16 milyon benzersiz kayıttan bilgi içerdiğini iddia ettiği “Common Crawl” adı verilen geniş bir çevrimiçi materyal koleksiyonudur.
Bu, Times’ı Wikipedia ve ABD patentleri veri tabanının ardından en çok başvurulan üçüncü kaynak haline getiriyor.
OpenAI artık son GPT sürümlerinin eğitimi için kullanılan verilerin ayrıntılarını açıklamıyor, ancak tüm göstergeler tam metin The New York Times makalelerinin hala bu sürecin bir parçası olduğunu gösteriyor. Eğitim bilgilerine erişim bekliyoruz, bu davanın ilerlemesi halinde keşif sırasında büyük bir sorun olacak.
Sadece antrenman değil
Yapay zeka sistemlerinin eğitimi sırasında telif hakkıyla korunan materyallerin kullanımına ilişkin çok sayıda dava açıldı.
Ancak The New York Times’ın davası bunun çok ötesine geçerek eğitim sırasında yutulan malzemenin kullanım sırasında nasıl geri dönebileceğini gösteriyor. Davada, “Sanıkların GenAI araçları, Times’ın içeriğini kelimesi kelimesine aktaran, onu yakından özetleyen ve çok sayıda örnekle gösterildiği gibi ifade tarzını taklit eden çıktılar üretebilir.” iddiasında bulunuyor.
Dava, GPT destekli sistemlerin normalde Times’ın ödeme duvarı tarafından korunan içerik sunmasını sağlamanın komik derecede kolay olduğunu iddia ediyor. Dava, makalelerin büyük bölümlerini neredeyse kelimesi kelimesine yeniden üreten bir dizi GPT-4 örneğini gösteriyor.
Dava, ChatGPT’ye The New York Times’ta bir makalenin başlığının verildiği ve ilk paragrafın istendiği ekran görüntülerini içeriyor. Sonraki metni almak, görünüşe göre bir sonraki paragrafı tekrar tekrar istemek kadar basit.
Görünüşe göre ChatGPT, davanın hazırlığı ile şimdiki zaman arasındaki boşluğu kapatmış.Ancak tüm boşluklar kapatılmadı. Takım aynı zamanda Copilot olarak yeniden markalandığından beri Bing Chat’ten gelen çıktıları da gösteriyor. The New York Times’da belirli bir makalenin ilk paragrafının sorulmasının Copilot’un makalenin ilk üçte birini çoğaltmasına neden olduğunu doğrulayabildik.
Dava, bunu bir adil kullanım biçimi olarak meşrulaştırmaya yönelik girişimleri reddediyor. Davada, “Kamuoyuna göre, Davalılar, GenAI modellerini eğitmek için telif hakkıyla korunan içeriği lisanssız kullanmalarının yeni bir ‘dönüştürücü’ amaca hizmet etmesi nedeniyle davranışlarının ‘adil kullanım’ olarak korunduğunda ısrar ediyorlar.” “Fakat The Times’ın içeriğini para ödemeden kullanarak The Times’ın yerini alacak ürünler yaratmanın ve izleyicileri ondan uzaklaştırmanın ‘dönüştürücü’ hiçbir yanı yok.“
İtibar ve diğer zararlar
AI’de yaygın olan halüsinasyonlar da, Times’ın itibarının değerine zarar verme ve muhtemelen bir yan etki olarak insan sağlığına zarar verme potansiyeli nedeniyle davada eleştirildi.
Times materyalinde olduğu gibi, Copilot’un büyük miktarda Wirecutter makalesi sunmasının mümkün olduğu iddia ediliyor. Ancak dava, bu makale alıntılarının bağlı kuruluş bağlantılarının çıkarıldığını ve bu durumun Wirecutter’ı ana gelir kaynağından uzak tuttuğunu belirtiyor.
Dava, yazılımı geliştirmek için çeşitli OpenAI şirketlerinin yanı sıra, hem OpenAI destekli hizmetler sunan hem de telif hakkıyla korunan materyalin eğitim sırasında alınmasını sağlayan bilgisayar sistemlerini geliştiren Microsoft’u hedef alıyor. İddialar arasında doğrudan, katkıda bulunulan ve dolaylı telif hakkı ihlalinin yanı sıra DMCA ve ticari marka ihlalleri de yer alıyor. Son olarak, “Kötüye Kullanım Yoluyla Ortak Hukukta Haksız Rekabet” iddiasında bulunuyor.
Dava, tarafların The New York Times’tan alınan materyali kullanarak eğittiği GPT örneklerinin silinmesini ve eğitim için kullanılan veri kümelerinin imha edilmesini amaçlıyor.
Ayrıca gelecekte benzer davranışların önlenmesi için daimi tedbir talebinde bulunuluyor. The Times ayrıca para, çok ama çok para istiyor.