Techinside Google News
Techinside Google News

Yapay zeka kodlama sorunlarını çözemiyor

OpenAI araştırmasına göre henüz yapay zeka kodlama sorunlarını çözemiyor. En iyi modeller bile insan kodlayıcıların gerisinde kalıyor.
- Advertisement -

OpenAI araştırmacıları en iyi yapay zekanın bile kodlama sorunlarının “çoğunluğunu çözemediğini” buldu. OpenAI araştırmacıları, en gelişmiş yapay zeka modellerinin bile insan kodlayıcılarla baş edemediğini itiraf ettiler. CEO Sam Altman, bu yıl sonuna kadar ” alt seviye ” yazılım mühendislerini yenebileceklerini söylüyor.

Yapay zeka kodlama konusunda beklentiyi karşılamıyor

Araştırmacılar, serbest çalışan sitesi Upwork’ten 1.400’den fazla yazılım mühendisliği görevi üzerine inşa edilmiş SWE-Lancer adlı yeni geliştirilmiş bir kıyaslama kullandılar. Kıyaslamayı kullanarak OpenAI, üç büyük dil modelini (LLM) — kendi o1 akıl yürütme modeli ve amiral gemisi GPT-4o ve Anthropic’in Claude 3.5 Sonnet’ini — teste tabi tuttu.

Özellikle, yeni ölçüt, LLM’lerin Upwork’teki iki tür görevle ne kadar iyi performans gösterdiğini değerlendirdi: hataları çözmeyi ve bunlara düzeltmeler uygulamayı içeren bireysel görevler veya modellerin uzaklaşıp daha üst düzey kararlar almaya çalışmasını sağlayan yönetim görevleri içeriyordu. Modellerin internete erişmesine izin verilmiyordu. Bu da çevrimiçi olarak yayınlanmış benzer cevapları kopyalayamayacakları anlamına geliyordu. Modeller, Upwork’te toplamda yüz binlerce dolar değerinde görevler üstlendiler, ancak yalnızca yüzeysel yazılım sorunlarını çözebildiler ve daha büyük projelerdeki hataları veya bunların temel nedenlerini gerçekten bulamadılar. Bu kalitesiz ve yarı pişmiş “çözümler”, daha yakından incelendiğinde genellikle dağılan, kendinden emin görünen bilgileri tükürmede harika olan AI ile çalışan herkese muhtemelen tanıdık gelecektir.

Makalede, her üç LLM’nin de “bir insandan çok daha hızlı” çalışabildiği belirtiliyor. Ancak, hataların ne kadar yaygın olduğunu kavrayamadıkları veya bunların bağlamını anlayamadıkları, “yanlış veya yeterince kapsamlı olmayan çözümlere yol açtığı” belirtiliyor.

Araştırmacıların açıkladığı gibi, Claude 3.5 Sonnet, kendisine karşı çıkan iki OpenAI modelinden daha iyi performans gösterdi ve o1 ve GPT-4o’dan daha fazla para kazandı. Yine de, cevaplarının çoğu yanlıştı ve araştırmacılara göre, gerçek hayattaki kodlama görevlerinde güvenilir olmak için herhangi bir modelin “daha yüksek güvenilirliğe” ihtiyacı olacaktı. Daha açık bir ifadeyle, makale bu öncü modellerin hızlı çalışıp yakınlaştırılmış görevleri çözebilmelerine rağmen, bunları insan mühendisler kadar yetenekli olmadıklarını gösteriyor.

Siz bu konu hakkında ne düşünüyorsunuz? Görüşlerinizi yorumlarda paylaşın!

SON VİDEO

TÜMÜ
00:18:30

KOSGEB Girişimlerini Seçiyor!

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

İlginizi çekebilir