Altta yatan sorun tamamen anlaşılabilir olsa da, Google, modeli aşırı hassas olmakla suçluyor. Ama model bunu kendi kendine yapmadı.
Söz konusu yapay zeka sistemi, şirketin öncü konuşma tabanlı yapay zeka platformu olan Gemini’dir. Talep üzerine görüntüler oluşturmak için bir versiyonu olan Imagen 2 modeline başvurduğunda kullanılır.
Ancak son zamanlarda insanlar, belirli tarihsel koşulların veya insanların görüntülerini oluşturmasını istemenin gülünç sonuçlar ürettiğini buldular. Örneğin, beyaz köle sahibi olduğunu bildiğimiz Kurucu Babalar, renkli insanlar da dahil olmak üzere çok kültürlü bir grup olarak işlendi.
Bu utanç verici ve kolayca çoğaltılan sorun, çevrimiçi yorumcular tarafından hızla alay konusu haline getirildi. Ayrıca, tahmin edilebileceği gibi; çeşitlilik, eşitlik ve kapsayıcılık hakkında devam eden tartışmaya (şu anda itibari bir yerel minimumda) bağlandı ve zaten liberal teknoloji sektörüne daha da nüfuz eden uyanık zihin virüsünün kanıtı olarak uzmanlar tarafından ele geçirildi.
DEI çıldırdı, bariz bir şekilde endişeli vatandaşlar bağırdı. Ancak teknolojiye aşina olan herkesin size söyleyebileceği gibi ve Google’ın bugün oldukça sefil küçük özür dileme bitişiği gönderisinde açıkladığı gibi, bu sorun eğitim verilerinde sistemik önyargı için oldukça makul bir geçici çözümün sonucuydu.
Bir pazarlama kampanyası oluşturmak için Gemini’yi kullanmak istediğinizi ve ondan “parkta köpek gezdiren bir kişinin” 10 resmini oluşturmasını istediğinizi söyleyin. Kişi, köpek veya park türünü belirtmediğiniz için, bu satıcının seçimidir; üretken model en aşina olduğu şeyi ortaya koyacaktır. Ve çoğu durumda, bu gerçekliğin değil, her türlü önyargının pişirilebileceği eğitim verilerinin bir ürünüdür.
Modelin yuttuğu binlerce ilgili görüntüde ne tür insanlar ve bu konuda köpekler ve parklar en yaygın olanıdır? Gerçek şu ki, beyaz insanlar bu görüntü koleksiyonlarının çoğunda (stok görüntüler, haksız fotoğrafçılık, vb.) fazla temsil ediliyor ve sonuç olarak, belirtmezseniz; model, birçok durumda beyaz insanları varsayılan olarak ayarlayacaktır.
Bu sadece eğitim verilerinin bir eseri, ancak Google’ın belirttiği gibi, “Kullanıcılarımız dünyanın her yerinden geldiği için herkes için iyi çalışmasını istiyoruz. Futbolcuların veya köpeği gezdiren birinin resmini isterseniz, bir dizi insanı almak isteyebilirsiniz. Muhtemelen sadece bir tür etnik kökene (veya başka bir özelliğe) sahip insanların görüntülerini almak istemezsiniz.”
Bir banliyö parkında golden retriever’la yürüyen beyaz bir adamın resmini çekmekte yanlış bir şey yok. Ama 10’u istersen ve hepsi banliyö parklarında altınlar yürüyen beyaz adamlarsa? Ve insanların, köpeklerin ve parkların hepsinin farklı göründüğü Fas’ta mı yaşıyorsun? Bu arzu edilen bir sonuç değil. Birisi bir özellik belirtmezse, eğitim verilerinin nasıl önyargılı olabileceğine rağmen, model homojenliği değil çeşitliliği tercih etmeli.
Bu, her türlü üretken medyada yaygın bir sorun. Ve basit bir çözüm yok. Ancak özellikle hassas olan Google, OpenAI, Anthropic ve benzeri gibi şirketler görünmez bir şekilde model için ekstra talimatlar içerir.
Bu tür örtük öğretimin ne kadar yaygın olduğunu yeterince vurgulayamıyorum. Tüm LLM ekosistemi örtük talimatlar üzerine inşa edilmiştir; bazen adlandırıldığı gibi, her konuşmadan önce modele “özlü ol”, “küfür etme” ve diğer yönergeler gibi şeylerin verildiği sistem istemleri. Bir şaka istediğinizde, ırkçı bir şaka yapmazsınız; çünkü model binlercesini yutmuş olmasına rağmen, çoğumuz gibi, bunları söylememek için de eğitilmiştir. Bu gizli bir gündem değil, altyapı.
Google’ın modelinin yanlış gittiği yer, tarihsel bağlamın önemli olduğu durumlar için örtük talimatlara sahip olamamasıydı.
Google Kıdemli Başkan Yardımcısı Prabhakar Raghavan’ın dediği gibi:
İlk olarak, Gemini’nin çeşitli insanları göstermesini sağlamak için yaptığımız ayarlama, net bir şekilde çeşit göstermemesi gereken durumları hesaba katmadı. Ve ikinci olarak, zamanla, model istediğimizden çok daha temkinli hale geldi ve bazı tamamen masum ipuçlarını hassas olarak yanlış yorumlayarak bazı soruları tamamen yanıtsız bıraktı.
Bu iki durum, modelin bazı durumlarda aşırı telafi etmesine ve diğerlerinde aşırı muhafazakâr olmasına neden oldu, bu da utanç verici ve yanlış resimlere yol açtı.
Bazen “üzgünüm” demenin ne kadar zor olduğunu biliyorum, bu yüzden Raghavan’ı kısa sürede durduğu için affediyorum. Daha da önemlisi, oradaki ilginç bir dil var: “Model, amaçladığımızdan çok daha temkinli hale geldi.“
Şimdi, bir model nasıl bir şey “olur”? Bu bir yazılım. Binlerce Google mühendisi olan biri onu inşa etti, test etti, üzerinde yineledi. Birisi, bazı cevapları iyileştiren ve diğerlerinin komik bir şekilde başarısız olmasına neden olan örtük talimatları yazdı. Bu başarısız olduğunda, birisi tam istemi inceleyebilseydi, muhtemelen Google’ın ekibinin yaptığı şeyi yanlış bulurlardı.
Google, modeli “olması amaçlanmadığı” bir şey “olmak”la suçluyor. Ama modeli yaptılar! Sanki bir bardak kırdılar ve “düştük” demek yerine “düştü” diyorlar.
Bu modellerin hataları kesinlikle kaçınılmazdır. Halüsinasyon yaparlar, önyargıları yansıtırlar, beklenmedik şekillerde davranırlar. Ancak bu hataların sorumluluğu modellere ait değildir; onları yapan insanlara aittir. Bugün bu, Google. Yarın OpenAI olacak. Ertesi gün ve muhtemelen birkaç ay boyunca X.AI olacak.
Bu şirketler, sizi yapay zekanın kendi hatalarını yaptığına ikna etmekle güçlü bir çıkarı var. Onlara izin verme.