Mnoho z nás opravdu překvapily schopnosti AI generující obrazové výstupy, ale už teď je jasné, že se nacházíme teprve na počátku a možnosti se zdaleka neuzavírají. Očekávat lze masivní vzestup této technologie i její brzké nasazení do běžné praxe.
Nový nástroj využívající umělé inteligence pro úpravu a manipulaci s obrázky, o kterém se dnes zmíníme, je prozatím ve fázi vývoje, působí však opravdu dobře, tak trochu jako Photoshop na steroidech, ale s neuvěřitelnými možnostmi. Nejde totiž jen o rozmazávání existujících pixelů, ale integraci umělé inteligence k přegenerování základního objektu. Obrázky je možné dokonce otáčet, jako by se jednalo o 3D modely.
Nejnovější příklad je prozatím ve fázi výzkumu, rozhodně však nepostrádá skutečnou působivost. Umožňuje uživatelům jednoduše přetahovat prvky obrázku a měnit jejich vzhled i proporce. To možná takto na první pohled nezní až tak vzrušujícím dojmem, ale podívejte se na níže uvedené příklady a možná změníte názor a zároveň si uděláte představu o tom, čeho všeho je systém schopen.
Nejenže můžete jednoduchým kliknutím a tažením změnit rozměry auta nebo zmanipulovat úsměv na zamračený výraz, ale objektem na obrázku lze také otáčet v prostoru a provádět nejrůznější modelování, takže není problém například změnit směr, kterým se někdo dívá. Jedna ukázka dokonce ukazuje, jak uživatel několika kliknutími upravuje odrazy na jezeře a výšku horského masivu.
Tyto výstupy pocházejí z domovské stránky výzkumného týmu, kde je možné se seznámit s detaily, i když ta v poslední době čelí velké zátěži, vzhledem k enormnímu zájmu. Na projekt upozornil uživatel Twitteru @_akhaliq, který se zaměřuje na zajímavé práce v oblasti umělé inteligence.
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
paper page: https://t.co/Gjcm1smqfl pic.twitter.com/XHQIiMdYOA
— AK (@_akhaliq) May 19, 2023
To, co je zde opravdu zajímavé, nemusí být nutně samotná manipulace s obrázky, ale uživatelské rozhraní. Již nějakou dobu můžeme využívat nástroje umělé inteligence typu GAN, k vytváření realistických obrázků, ale většině metod chybí flexibilita a přesnost. Generátoru obrázků s umělou inteligencí můžete říct „vytvoř obrázek lva slídícího savanou“ a dostanete ho, ale nemusí to být přesně ta póza, kterou chcete nebo potřebujete. Tento model s názvem DragGAN nabízí jasné řešení tohoto problému. Rozhraní je naprosto stejné jako u tradiční deformace obrázků, ale namísto prostého rozmazávání a rozmělňování existujících pixelů model vytváří objekt nově.
Ano, zatím se jedná pouze o ukázku a není možné tuto technologii zodpovědně zhodnotit například stran kvality a realističnosti výsledných snímků, je to však další příklad zpřístupnění manipulace s obrázky, který by mohl mít skutečný potenciál.