Bu yetenek, Cloudfare Inc.’in amiral gemisi CDN’sinin veya içerik dağıtım ağının bir parçası olarak kullanılabilir.
Platform, dünya çapındaki web sitelerinin önemli bir yüzdesi tarafından kullanıcılar için sayfa yükleme sürelerini hızlandırmak amacıyla kullanılıyor. Cloudflare’e göre, yeni kazıma önleme özelliği, CDN’sinin hem ücretsiz hem de ücretli katmanlarında mevcut.
Birçok AI şirketi, büyük dil modellerini eğitmek için genel web’den içerik kullanır. OpenAI, Google LLC ve diğer birkaç piyasa oyuncusu, web sitesi operatörlerinin kazıma işleminden vazgeçmesini sağlıyor. Ancak, tüm LLM geliştiricileri böyle bir seçenek sunmuyor ve Cloudflare’in kazıma önleme aracıyla ele almayı umduğu sorun da bu.
Bu özellik, otomatik içerik çıkarma girişimlerini tespit etmek için yapay zekayı kullanır. Cloudflare’e göre yazılımı, tespit edilmekten kaçınmaya çalıştıklarında bile LLM eğitim projeleri için içerik toplayan botları tespit edebilir.
Cloudflare mühendisleri, bugün bir blog yazısında “Ne yazık ki, bot operatörlerinin sahte bir kullanıcı aracısı kullanarak gerçek bir tarayıcıymış gibi görünmeye çalıştıklarını gözlemledik.” diye yazdı.
“Bu etkinliği zaman içinde izledik ve küresel makine öğrenimi modelimizin bu etkinliği her zaman bir bot olarak tanıdığını söylemekten gurur duyuyoruz.”
Cloudflare’in tespit etmeyi başardığı tarayıcılardan biri, iyi finanse edilen bir arama motoru girişimi olan Perplexity AI için içerik toplayan bir bot. Geçtiğimiz ay Wired, botun web sitelerini tarama biçiminin, isteklerini normal kullanıcı trafiği gibi gösterdiğini bildirdi. Sonuç olarak, web sitesi operatörleri Perplexity AI’in içeriklerini kullanmasını engellemekte zorlandı.
Cloudflare, platformunun işlediği her web sitesi ziyaretine 1 ila 99 arasında bir puan atar. Sayı ne kadar düşükse, isteğin bir bot tarafından oluşturulma olasılığı o kadar yüksektir. Şirkete göre, Perplexity AI için içerik toplayan bot tarafından yapılan istekler sürekli olarak 30’un altında bir puan alır.
Cloudflare mühendisleri, “Kötü niyetli kişiler web sitelerini büyük ölçekte taramaya çalıştıklarında, genellikle parmak izlerini çıkarabildiğimiz araçları ve çerçeveleri kullanırlar.” diye ayrıntılı olarak açıklıyor.
“Gördüğümüz her parmak izi için, saniyede ortalama 57 milyondan fazla istek gören Cloudflare’in ağını kullanarak bu parmak izine ne kadar güvenmemiz gerektiğini anlıyoruz.”
Cloudflare, AI kazıma botlarının teknik parmak izlerindeki değişiklikleri ve yeni tarayıcıların ortaya çıkışını ele almak için bu özelliği zamanla güncelleyecektir. Girişimin bir parçası olarak şirket, web sitesi operatörlerinin karşılaşabilecekleri yeni botları bildirmelerini sağlayacak bir araç sunuyor.