Microsoft Research tarafından bilhassa Windows PC platformunda yapay zeka tahlillerini test etmek için bir kıyaslama (benchmark) geliştirdiğini duyurdu. Microsoft’un GitHub sayfasında açıklanan kıyaslama, Windows Agent Arena olarak isimlendiriliyor.
Windows Agent Arena, yapay zeka casuslarının insanların ekseriyetle kullandığı Windows uygulamalarıyla ne kadar uygun ve ne kadar süratli etkileşim kurabileceğini test etmek için tasarlandı. Windows Agent Arena’da yapay zeka casuslarıyla test edilen uygulamalar listesi ortasında Microsoft Edge ve Google Chrome üzere web tarayıcıları, Belge Gezgini Ayarları üzere işletim sistemi fonksiyonları, Visual Studio Code üzere kodlama uygulamaları, Not Defteri, Saat ve Paint üzere kolay evvelden yüklenmiş Windows uygulamaları ve VLC Player ile görüntü izleme yer alıyor.
Microsoft’un açıklaması şu halde: “OSWorld çerçevesini, planlama, ekran manaya ve araç kullanımında casus yetenekleri gerektiren temsili tesir alanlarında 150’den fazla farklı Windows misyonu oluşturmak için uyarlıyoruz. Kıyaslama ölçütümüz de ölçeklenebilir ve 20 dakika üzere kısa bir müddette tam bir kıyaslama değerlendirmesi için Azure’da meselesiz bir halde paralelleştirilebilir.”
Microsoft Research ayrıyeten Windows Agent Arena karşılaştırma ölçütünde test etmek için Navi isimli kendi çok modlu casusunu oluşturdu. “Baktığım web sitesini bir PDF evrakına dönüştürebilir ve ana ekranıma, yani Masaüstüne koyabilir misin?” üzere makul metin istemleriyle vazifeler gerçekleştirmesi istendi. Şirket, Navi’nin ortalama %19,5’lik bir performans muvaffakiyet oranına sahip olduğunu buldu. Öte yandan bu, %74,5’lik insan performans oranına kıyasla hala epey düşük.
Windows Agent Arena üzere bir karşılaştırma ölçütüne sahip olmak, yapay zeka casuslarının oluşturulması için büyük bir gelişme olabilir. Böylelikle casuslar iyileştirilebilir ve insan performansına daha yakın performans gösterebilirler.
Kıyaslama ölçütünün koduyla birlikte tam makaleyi GitHub üzerinden inceleyebilirsiniz.
Dead Rising Deluxe Remaster, NVIDIA GeForce NOW Kütüphanesine Ekleniyor
Veri politikasındaki amaçlarla sınırlı ve mevzuata uygun şekilde çerez konumlandırmaktayız. Detaylar için veri politikamızı inceleyebilirsiniz.