Grok artık görselleri “anlıyor”

Cenk Tarhan

5 ay önce

Elon Musk'ın şirketi tarafından geliştirilen yapay zeka chatbot'u, bilgi yüklü diyagramlar ve grafikler dahil olmak üzere görselleri artık anlayabiliyor

Grok-1.5V veya Grok 1.5 Vision olarak adlandırılan bu “ilk nesil çoklu modal model” şirkete göre sadece yüklenen resimlerinize ve ekran görüntülerinize yanıt vermekle kalmayacak, aynı zamanda karmaşık belgeler, bilim diyagramları, grafikler, ekran görüntüleri ve fotoğraflardan da anlam çıkarabiliyor.

Şirket duyurusunda ayrıca, Grok-1.5V’nin kullanıcıları tarafından yüklenen görüntülerde tasvir edilen fiziksel dünyayı daha iyi anlayabilmek için “gerçek dünya uzamsal anlayışı” kazanacağını belirtti. Duyuruda, “Hem çoklu modal anlama hem de üretme yeteneklerimizi geliştirmek, evreni anlayabilen faydalı bir Yapay Genel Zekası (YGZ) oluşturmak için önemli adımlar” deniyor. “Önümüzdeki aylarda, görüntü, ses ve video gibi çeşitli yöntemlerde her iki yetenekte de önemli gelişmeler kaydetmeyi bekliyoruz.”

Grok 1.5V can

– Generate code from diagrams.
– Calculate calories from nutritional fact images.
– Craft bedtime stories from children's drawings.
– Interpret memes.
– Convert tables into CSV files.
– Gather insights from real-life scenario images.
– Resolve coding issues. pic.twitter.com/8liDRscFWY
— X Daily News (@xDaily) April 13, 2024

Örnek kullanım senaryoları arasında bir diyagramı Python koduna çevirmek, bir çocuğun çizimini bir yatak odası hikayesine dönüştürmek, çok sayıdaki nesne arasında en büyüğünü tespit etmek ve sürücüye bir engelin etrafından dolanabilecek kadar yeri olup olmadığını söylemek yer alıyor.

Grok-1.5V, diğer GenAI modellerini Grok’un gerçek dünya akıl yürütmesine karşı test etmek için tasarlanmış bir görüntü ve prompt veri seti olan xAI’ın RealWorldQA ile birlikte yayınlanacak. Grok-1.5V, kısa süre içinde erken test kullanıcıları ve seçili kullanıcılar için kullanılabilir olacak.