Microsoft, yapay zeka ile görsel üretim tarafında bu sefer kendi modelini öne çıkarıyor. MAI-Image-2 ismi verilen yeni metinden görsele model, Arena.ai sıralamasında kısa müddette üst sıralara yerleşirken bilhassa fotogerçekçilik ve görsel içi metin üretimiyle dikkat çekiyor.
İşin dikkat çeken yanı sırf manzara kalitesi değil. Microsoft’un daha evvel Copilot ve Bing Image Creator tarafında dış ortakların modellerinden yararlanması, bu hamleyi eser stratejisi açısından da değerli hale getiriyor. Tekrar de birinci tablo kusursuz değil. Sıkı içerik filtreleri, kullanım hudutları ve eksik düzenleme araçları modelin önüne şimdiden kimi sonlar koyuyor.
10 Saniyede Özet
MAI-Image-2, Microsoft’un kendi geliştirdiği yeni metinden görsele üretim modeli olarak kullanıma açıldı.
Model, gerçekçilik ve görsel içi metin üretiminde güçlü sonuçlar veriyor.
1:1 çıktı mecburiliği, üretim kotası ve düzenleme araçlarının eksikliği kullanım alanını daraltıyor.
MAI-Image-2 şu anda MAI Playground üzerinden erişilebiliyor. Copilot ve Bing Image Creator tarafında kademeli dağıtım sürerken, API erişimi de şimdilik seçili kurumsal müşterilerle sonlu tutuluyor. Daha geniş erişimin ilerleyen devirde Microsoft Foundry üzerinden açılması planlanıyor.

Modelin geliştirme tarafında öne çıkarılan üç temel maksat var: daha güçlü fotogerçekçilik, görsel içindeki metinleri daha dengeli üretebilme ve daha detaylı sahneler kurabilme. Aslında metinden görsele sistemlerde yarış da büyük ölçüde bu başlıklarda dönüyor. Sırf hoş görünen bir sonuç üretmek yetmiyor, komutu ne kadar yanlışsız anladığı, metni ne kadar pak yazdığı ve görsel tertibi ne kadar sağlam kurduğu da artık en az kalite kadar kıymetli.
Fotogerçekçilik ve metin üretimi öne çıkıyor
İlk izlenim tarafında modelin en güçlü olduğu alan fotogerçekçilik. Doğal ışık kullanımı, yüzey dokuları ve objeler ortasındaki mekansal bağ üzere noktalarda güçlü bir performans sergilediği aktarılıyor. Karmaşık ve mantık hudutlarını zorlayan sahnelerde bile vücut oranları, uzuv pozisyonları, derinlik hissi ve sahne yerleşimi üzere ayrıntıları dengeli biçimde koruyabildiği belirtiliyor.



Bir öteki güçlü taraf ise görsel içi metin üretimi. Posterler, tabelalar ve büyük metin blokları içeren dizaynlarda, benzeri araçlarda sık görülen bozulmaların burada daha hudutlu kaldığı söz ediliyor. Çok lisanlı denemelerde birtakım Çince hanzi karakterlerinin de üretilebildiği, fakat doğruluğun kusursuz olmadığı belirtiliyor. Buna karşın, tipografi tarafındaki bu düzey bile modeli birçok kullanım senaryosunda daha dikkat cazibeli hale getiriyor.
Stil geçişlerinde de misal bir tablo var. Fotogerçekçi karelerden grafik tasarım estetiğine, oradan illüstratif biçime geçerken komutları dikkatle takip edebildiği ve farklı görsel lisanlar ortasında daha az sürtünmeyle hareket ettiği söyleniyor. Bilhassa tek modelle farklı üretim biçimlerini denemek isteyen kullanıcılar için bu esneklik kıymetli.
Kullanım tarafında tablo o kadar parlak değil
Teknik güç tarafı dikkat çekse de eser tecrübesi şimdilik daha hudutlu görünüyor. Model epeyce sıkı filtrelerle çalışıyor. Verilen örneklerden birinde bir örümceğin bir bayanı kovaladığı çizgi fotoğraf isteğinin bile reddedildiği aktarılıyor. Bu da sırf şiddet yahut açık içerik üzere bariz alanlarda değil, daha gri kabul edilen yaratıcı taleplerde de sistemin erken fren yapabildiğini gösteriyor.

Kullanım hudutları da benzeri ölçüde katı. Her üretimden sonra 30 saniyelik bekleme müddeti var. 15 görselin akabinde ise 24 saatlik erişim kilidi devreye giriyor. Kısa denemeler için bu yapı tolere edilebilir görünse de nizamlı üretim yapan, çok sayıda varyasyon deneyen ya da iş akışını sürat üzerine kuran kullanıcılar için önemli bir fren manasına geliyor.
1:1 oran ve eksik düzenleme araçları dikkat çekiyor
Şimdilik sadece 1:1 oranında çıktı alınabilmesi, modelin en besbelli eksiklerinden biri. Yatay ya da dikey format sunulmaması, bilhassa toplumsal medya, kapak görselleri ve farklı yayın formatları için üretim yapan kullanıcıları direkt etkiliyor. Yeni üretken görsel araçlarında artık kalite kadar oran seçenekleri de temel beklenti haline gelmiş durumda.
Bunun yanında sistem sadece text-to-image olarak çalışıyor. Image-to-image takviyesi yok. Inpainting, outpainting ve referans görsel dayanağı de bulunmuyor. Bu da aracı fikir üretimi ve birinci görsel oluşturma için kullanışlı kılsa da düzenleme, revizyon ve yaratıcı denetim tarafında rakiplerinin sunduğu daha geniş araç setinin gerisinde bırakıyor.
Bir diğer değerli nokta da modelin Copilot içinde şimdi tam olarak yer almıyor olması. Dağıtım süreci başlamış olsa da, kullanıcıların bu teknolojiyi en görünür formda karşısında görmeyi beklediği eserlerde tecrübe şimdi tam oturmuş değil. Bu nedenle MAI-Image-2 şu basamakta güçlü bir teknik temel sunuyor, lakin günlük kullanım pahası tarafında tıpkı ölçüde ikna edici bir tablo çizmiyor.
Microsoft’un burada verdiği asıl bildiri, görsel üretimde artık sadece dış ortakların teknolojisine yaslanmak istememesi. MAI-Image-2’nin güçlü istikametleri bunu teknik olarak destekliyor. Ancak bu alanda artık sırf model kalitesi değil, kullanım özgürlüğü ve iş akışına ahenk da en az sonuç kalitesi kadar belirleyici hale gelmiş durumda.
iOS 26.4 RC ile can sıkan sorun çözüldü!
1
NVIDIA Studio’da Yaratıcılığı ve İnovasyonu Destekleyen Yeni Uygulamalar
9559 kez okundu
2
LG DukeBox ve CineBeam Qube CES 2024’te Uzunluk Gösterecek
4181 kez okundu
3
300 Milyon Bireye İlişkin Bilgileri Ruslara Satan Ukraynalı Hacker Tutuklandı
3885 kez okundu
4
ABD Kongresinden Filistin-İsrail meselesinde ‘iki devletli çözüme’ destek
2339 kez okundu
5
ABD Kongresinden Filistin-İsrail meselesinde ‘iki devletli çözüme’ destek tasarısı
1341 kez okundu
Veri politikasındaki amaçlarla sınırlı ve mevzuata uygun şekilde çerez konumlandırmaktayız. Detaylar için veri politikamızı inceleyebilirsiniz.