Dünyadaki bazı teknolojik gelişmeler ile alakalı özel mücadeleler söz konusu. Örneğin Google’ın Ay’a bir araç indirme ile alakalı
Google Lunar X Prize, Qualcomm’un Star Trek’dekine benzer şekilde hastalıkları tedavi edebilecek bir cihaz için
Qualcomm Tricorder X Prize gibi ödüllü yarışları bulunuyor. İşin doğrusu her ne kadar bu hedefler kısa sürede elde edilemeyecek bile olsalar teknolojinin geliştirilmesi için sarf edilen çabanın ortaya konması ve sürekli yenilikçiliğin sürdürülmesi için önemli birer kulvar oluşturuyorlar.
Makine görüntüleme teknolojilerinde ise
2005 yılından bu yana düzenlenen bir mücadele söz konusu.
2005 yılından itibaren
2012‘ye kadar düzenlenen
PASCAL VOC ve 2010 yılından itibaren düzenlenen
ImageNet Large-Scale Visual Recognition Challenge.

Bu yarışmalara katılan uygulama ve sistemlerin yapması gereken iki basit işlev bulunuyor. Birincisi gösterilen herhangi bir fotoğrafın içinde belirli bir objenin bulunup bulunmadığını tespit etmek. Örneğin bir fotoğrafta arabaların olduğunu ama kaplanların olmadığını anlamak gösterilebilir. İkincisi ise sadece belirli bir nesneyi bularak bu nesneyi kare ile işaretlemek. Ancak işin kendisi burada yazdığı kadar kolay değil.
Bu mücadeleye katılan sistemlerin
1.000 farklı kategoride bir milyondan fazla fotoğraf içinde bu görevleri başarıyla
tamamlaması gerekiyor.
2012 yılına gelinene kadar bu mücadelenin gerçekten kayda değer bir ilerleme elde ettiğini söylemek oldukça güçtü. ancak 2012’de
Toronto Üniversitesi’nden
SuperVision adında bir algoritma ile mücadeleye katılan ekip tarihte görülen en büyük başarıyı elde etti.
SuperVision “
deep convolutional neural networks” adı verilen bir yapay sinir ağları teknolojisi kullanarak bu başarıyı yakalıyor. Başarı oranını rakamsal olarak ifade etmek gerekirse mücadeleye katılan en iyi takım 2010 yılında
yüzde 28,2 hata payına sahipti. Bu rakam
2011’de yüzde 25,8’e düştü. Ancak 2012 yılında
SuperVision bu hata oranını
yüzde 16,4’e çekmişti. O günden bu yana bu teknoloji geliştirilmeye devam ediyor.

Aslında bu teknik yeni değil. 1980’li yıllarda keşfedilmiş olmasına rağmen bilgisayarların bu işin altından kalkabilecek noktaya gelmesi 20 yıl zaman aldı.
SuperVision beş katmanlı bir yapıda
650,000 nörona sahip ve fotoğrafları tanımak için yaklaşık
60 milyon parametrenin düzgün şekilde ayarlanmış olması gerekiyor. Elbette bu işlem insanlar tarafından değil yine uygulamanın kendisi tarafından yapılıyor.

2012 yılından bu yana SuperVision teknolojisi farklı gruplar tarafından geliştirilmeye devam ediyor. Bu sene Google mühendislerinin oluşturduğu
GoogLeNet ekibi hata payını
yüzde 6,7’ye düşürmeyi başardı. Burada esas sorulması gereken soru şu;
bu hata payı bir insandan ne kadar iyi?
Yapılan çalışmalar eğitimli bir insan gözünün
GoogLeNet tarafından elde edilen başarıdan
sadece yüzde 1,7 oranla daha iyi olduğunu ortaya koyuyor. Kısacası
makineler artık insan kadar iyi görüntüyü algılayabiliyor ve yorumlayabiliyor. Çok kısa bir süre içinde insanlardan daha iyi hale gelmiş olacaklar.
Şimdi sorulması gereken soru şu oluyor;
bu teknoloji neden bu kadar önemli?
Bu soruya cevap vermeden önce sizinle bir haber paylaşalım. Yaklaşık 24 saat önce
Qualcomm Avrupa merkezli bir girişim olan
Euvision Technologies firmasını satın aldığını açıkladı.
Amsterdam Üniversitesi‘nde ortaya çıkıp geliştirdikleri bir
yapay zeka uygulaması sayesinde bu noktaya gelen
Euvision firmasının
iOS ve
Android için
Impala adında bir uygulaması bulunuyor. Bu uygulama telefonunuzdaki fotoğrafları tarayarak farklı kategorilerde gruplayabiliyor. Üstelik bunu telefonunuzun içinde gerçekleştiriyor, bulut servislerine gerek duymuyor.

Şimdi sorumuza geri dönelim;
Görüntü algılama teknolojisi neden bu kadar önemli?
Genel olarak günlük hayatta gerçekleştirdiğimiz işlemlerin
yüzde 90’nında gözlerimizi kullanıyoruz. İnsan için bu denli önemli olan bir organın karar verme mekanizmalarımız üzerindeki etkisini göz önüne aldığımızda aslında nihai hedef öncelikle görüntüleme teknolojilerini ticari amaçlar için kullanmak ancak hedefler bunun ile sınırlı değil.
Savunma sektöründen,
sağlık sektörüne,
güvenlikten,
trafik kontrole kadar görüntüleme teknolojileri hayatımızın her alanında uzun süredir kullanılıyorlar. Bu etki gelecek günlerde giderek artacak.
Bizlerin sorması gereken soru bu teknolojinin neden önemli olduğu değil. Cep telefonlarımızın, gözlüklerimizin veya ceket düğmelerimizin baktığımız, gördüğümüz, fotoğrafladığımız her şeyi bizden daha iyi tanır hale gelip anlamlandırdığı bir dünyada
bu yetenek nasıl servislere dönüştürülebilir? Bu sorunun cevabını verecek kişi ve işletmeler gelecek yıllara şekil verecek.