Dünyadaki bazı teknolojik gelişmeler ile alakalı özel mücadeleler söz konusu. Örneğin Google’ın Ay’a bir araç indirme ile alakalı Google Lunar X Prize, Qualcomm’un Star Trek’dekine benzer şekilde hastalıkları tedavi edebilecek bir cihaz için Qualcomm Tricorder X Prize gibi ödüllü yarışları bulunuyor. İşin doğrusu her ne kadar bu hedefler kısa sürede elde edilemeyecek bile olsalar teknolojinin geliştirilmesi için sarf edilen çabanın ortaya konması ve sürekli yenilikçiliğin sürdürülmesi için önemli birer kulvar oluşturuyorlar.
Makine görüntüleme teknolojilerinde ise 2005 yılından bu yana düzenlenen bir mücadele söz konusu. 2005 yılından itibaren 2012‘ye kadar düzenlenen PASCAL VOC ve 2010 yılından itibaren düzenlenen ImageNet Large-Scale Visual Recognition Challenge.
Bu yarışmalara katılan uygulama ve sistemlerin yapması gereken iki basit işlev bulunuyor. Birincisi gösterilen herhangi bir fotoğrafın içinde belirli bir objenin bulunup bulunmadığını tespit etmek. Örneğin bir fotoğrafta arabaların olduğunu ama kaplanların olmadığını anlamak gösterilebilir. İkincisi ise sadece belirli bir nesneyi bularak bu nesneyi kare ile işaretlemek. Ancak işin kendisi burada yazdığı kadar kolay değil.
Bu mücadeleye katılan sistemlerin 1.000 farklı kategoride bir milyondan fazla fotoğraf içinde bu görevleri başarıyla tamamlaması gerekiyor.
2012 yılına gelinene kadar bu mücadelenin gerçekten kayda değer bir ilerleme elde ettiğini söylemek oldukça güçtü. ancak 2012’de Toronto Üniversitesi’nden SuperVision adında bir algoritma ile mücadeleye katılan ekip tarihte görülen en büyük başarıyı elde etti.
SuperVision “deep convolutional neural networks” adı verilen bir yapay sinir ağları teknolojisi kullanarak bu başarıyı yakalıyor. Başarı oranını rakamsal olarak ifade etmek gerekirse mücadeleye katılan en iyi takım 2010 yılında yüzde 28,2 hata payına sahipti. Bu rakam 2011’de yüzde 25,8’e düştü. Ancak 2012 yılında SuperVision bu hata oranını yüzde 16,4’e çekmişti. O günden bu yana bu teknoloji geliştirilmeye devam ediyor.
Aslında bu teknik yeni değil. 1980’li yıllarda keşfedilmiş olmasına rağmen bilgisayarların bu işin altından kalkabilecek noktaya gelmesi 20 yıl zaman aldı.
SuperVision beş katmanlı bir yapıda 650,000 nörona sahip ve fotoğrafları tanımak için yaklaşık 60 milyon parametrenin düzgün şekilde ayarlanmış olması gerekiyor. Elbette bu işlem insanlar tarafından değil yine uygulamanın kendisi tarafından yapılıyor.
2012 yılından bu yana SuperVision teknolojisi farklı gruplar tarafından geliştirilmeye devam ediyor. Bu sene Google mühendislerinin oluşturduğu GoogLeNet ekibi hata payını yüzde 6,7’ye düşürmeyi başardı. Burada esas sorulması gereken soru şu; bu hata payı bir insandan ne kadar iyi?
Yapılan çalışmalar eğitimli bir insan gözünün GoogLeNet tarafından elde edilen başarıdan sadece yüzde 1,7 oranla daha iyi olduğunu ortaya koyuyor. Kısacası makineler artık insan kadar iyi görüntüyü algılayabiliyor ve yorumlayabiliyor. Çok kısa bir süre içinde insanlardan daha iyi hale gelmiş olacaklar.
Şimdi sorulması gereken soru şu oluyor; bu teknoloji neden bu kadar önemli?
Bu soruya cevap vermeden önce sizinle bir haber paylaşalım. Yaklaşık 24 saat önce Qualcomm Avrupa merkezli bir girişim olan Euvision Technologies firmasını satın aldığını açıkladı. Amsterdam Üniversitesi‘nde ortaya çıkıp geliştirdikleri bir yapay zeka uygulaması sayesinde bu noktaya gelen Euvision firmasının iOS ve Android için Impala adında bir uygulaması bulunuyor. Bu uygulama telefonunuzdaki fotoğrafları tarayarak farklı kategorilerde gruplayabiliyor. Üstelik bunu telefonunuzun içinde gerçekleştiriyor, bulut servislerine gerek duymuyor.
Şimdi sorumuza geri dönelim; Görüntü algılama teknolojisi neden bu kadar önemli?
Genel olarak günlük hayatta gerçekleştirdiğimiz işlemlerin yüzde 90’nında gözlerimizi kullanıyoruz. İnsan için bu denli önemli olan bir organın karar verme mekanizmalarımız üzerindeki etkisini göz önüne aldığımızda aslında nihai hedef öncelikle görüntüleme teknolojilerini ticari amaçlar için kullanmak ancak hedefler bunun ile sınırlı değil.
Savunma sektöründen, sağlık sektörüne, güvenlikten, trafik kontrole kadar görüntüleme teknolojileri hayatımızın her alanında uzun süredir kullanılıyorlar. Bu etki gelecek günlerde giderek artacak. Bizlerin sorması gereken soru bu teknolojinin neden önemli olduğu değil. Cep telefonlarımızın, gözlüklerimizin veya ceket düğmelerimizin baktığımız, gördüğümüz, fotoğrafladığımız her şeyi bizden daha iyi tanır hale gelip anlamlandırdığı bir dünyada bu yetenek nasıl servislere dönüştürülebilir? Bu sorunun cevabını verecek kişi ve işletmeler gelecek yıllara şekil verecek.