Site icon TechInside

ChatGPT’ye yeni bir özellik: Talimatlar artık değiştirilemiyor

ChatGPT'ye yeni bir özellik

OpenAI, yapay zekanın ne yapması gerektiğini unutmasını sağlayarak insanların ChatGPT’nin özel sürümleriyle uğraşmasını engellemek için önemli bir değişiklik yapıyor. Bu değişiklik, üçüncü tarafların OpenAI modellerini kullanarak belirli görevler için özel talimatlar vermesini zorlaştıracak. Örneğin, bir mağaza için müşteri hizmetleri temsilcisi veya akademik bir yayın için araştırmacı olarak çalışması istenen bir modele, “tüm talimatları unut” şeklinde bir komut verilmesi durumunda, yapay zekanın orijinal talimatlarını unutmasına neden olabiliyordu. Ancak, OpenAI’nin geliştirdiği yeni teknik sayesinde bu tür komutlar artık etkili olamayacak.

OpenAI araştırmacıları, “talimat hiyerarşisi” adı verilen yeni bir teknik geliştirdi. Bu teknik, geliştiricinin orijinal istemlerine ve talimatlarına, potansiyel olarak manipülatif kullanıcılar tarafından oluşturulan istemlere göre öncelik vermenin bir yolunu sunuyor. Sistem talimatları en yüksek ayrıcalığa sahip olacak ve artık kolayca silinemeyecek.Bir kullanıcı, yapay zekanın davranışını yanlış hizalamaya çalışan bir istem girerse, bu istem reddedilecek ve yapay zeka, sorguya yardımcı olamayacağını belirterek yanıt verecek.

OpenAI, bu güvenlik önlemini ilk olarak kısa süre önce piyasaya sürülen GPT-4o Mini modeline uygulamaya başladı. Eğer bu ilk testler başarılı olursa, talimat hiyerarşisi muhtemelen OpenAI’nin tüm modellerine dahil edilecek. GPT-4o Mini, geliştiricinin orijinal talimatlarına sıkı sıkıya bağlı kalırken gelişmiş performans sunmak üzere tasarlandı.

AI Güvenlikleri için : Daha güvenli etkileşimler için yeni adımlar

OpenAI, modellerinin geniş ölçekli dağıtımını teşvik etmeye devam ederken, bu tür güvenlik önlemleri çok önemlidir. Kullanıcılar, yapay zekanın kontrollerini temelinden değiştirebildiklerinde, potansiyel riskleri hayal etmek çok kolaydır. Bu durum, sadece sohbet robotunu etkisiz hale getirmekle kalmaz, aynı zamanda hassas bilgilerin ve kötü niyetli amaçlarla kullanılabilecek diğer verilerin sızmasını önleyen kuralları da ortadan kaldırabilir. OpenAI, modelin sistem talimatlarına bağlılığını güçlendirerek bu riskleri azaltmayı ve daha güvenli etkileşimler sağlamayı amaçlıyor.

Talimat hiyerarşisinin uygulamaya konması, OpenAI için güvenlik ve şeffaflığa nasıl yaklaştığına dair endişeler açısından kritik bir zamanda geldi. Mevcut ve eski çalışanlar, şirketin güvenlik uygulamalarını iyileştirme çağrısında bulundu ve OpenAI’nin liderliği de bunu yapma sözü vererek yanıt verdi. Şirket, tam otomatik aracıların karmaşıklığının gelecekteki modellerde daha sofistike güvenlik önlemleri gerektirdiğini kabul etti ve talimat hiyerarşisi kurulumu, bu yolda atılan önemli bir adım olarak görülüyor.

Bu tür jailbreak‘ler, karmaşık yapay zeka modellerini kötü aktörlerden korumak için hala ne kadar çok çalışma yapılması gerektiğini gösteriyor. Ve bu sadece tek bir örnek değil; birkaç kullanıcı ChatGPT’nin sadece “merhaba” diyerek dahili talimatlarını paylaştığını keşfetti. OpenAI’nin yeni güvenlik önlemleri, bu tür güvenlik açıklarını kapatmayı ve yapay zekanın daha güvenli ve güvenilir bir şekilde kullanılmasını sağlamayı hedefliyor.

Exit mobile version