Anthropic, BT sektöründeki en şeffaf, güvenliğe odaklı AI firmalarından biri olarak ün kazandı. Buna uygun olarak şirket, sohbet robotu Claude’un ahlak matrisini yakalamaya çalıştı. Anthropic yapay zeka ahlak matrisi oluşturmak için kullanıcılar ve Claude arasındaki 300.000 anonim konuşmanın analizini yayınladı. Öncelikle Claude 3.5 modelleri Sonnet ve Haiku ve Claude 3. “Doğadaki değerler” başlıklı makale, Claude’un ahlakını, 3.307 “AI değeri”ni ortaya çıkaran etkileşimlerdeki kalıplar aracılığıyla haritalıyor.
Anthropic yapay zeka ahlak matrisi
Makalede, Anthropic’in, çeşitli akademik metinleri temel alarak, bu yapay zeka değerlerini, bir modelin “bir yanıt hakkında nasıl akıl yürüttüğünü veya yanıt üzerinde nasıl karar kıldığını” yönlendiren unsurlar olarak tanımladığı ve bunun da yapay zekanın “kullanıcı değerlerini onayladığı ve kullanıcının bunlara ulaşmasına yardımcı olduğu, yeni değer değerlendirmeleri getirdiği veya talepleri yeniden yönlendirerek veya seçimleri çerçevelendirerek değerleri ima ettiği” anlarla gösterildiği belirtiliyor. Örneğin, bir kullanıcı Claude’a işinde tatmin olmadığından şikayet ederse, sohbet robotu kullanıcıyı rolünü yeniden şekillendirmesi veya yeni beceriler öğrenmesi için savunuculuk yapmaya teşvik edebilir. Anthropic yapay zeka ahlak matrisi buna örnek olarak “kişisel faaliyet” ve “mesleki gelişim” açısından değer gösterme olarak sınıflandırmıştır.
İnsan değerlerini belirlemek için araştırmacılar, kullanıcıların doğrudan ifadelerinden “sadece açıkça belirtilen değerleri” çıkardılar. Kullanıcı gizliliğini korumak için Anthropic, herhangi bir kişisel bilgi olmadan hem AI hem de insan değerleri verilerini çıkarmak için Claude 3.5 Sonnet’i kullandı. Anthropic AI ahlak matrisi çalışması bu konuda önemli bir adım olarak değerlendirildi.
Sonuç olarak, Anthropic beş makro kategoriden oluşan hiyerarşik bir değerler taksonomisi keşfetti: Pratik (en yaygın), Epistemik, Sosyal, Koruyucu ve Kişisel (en az yaygın) değerler. Bu kategoriler daha sonra “profesyonel ve teknik mükemmellik” ve “eleştirel düşünme” gibi değerlere ayrıldı. Anthropic AI ahlak matrisi bu değerleri detaylı bir şekilde inceledi.