Adobe Firefly

Adobe Firefly
Vývojář	Adobe
Typ softwaru	generativní umělá inteligence a artificial intelligence model
Web	firefly.adobe.com?media=featured
	Některá data mohou pocházet z datové položky.

Adobe Firefly je sada generativních AI modelů zaměřených na tvorbu digitálního obsahu, vyvinutých společností Adobe. Firefly využívá pokročilé techniky strojového učení a hlubokých neuronových sítí k tvorbě a úpravě vizuálních a multimediálních materiálů.^[1]

Za první rok od vydání (březen 2023) prvního veřejného pojetí generativní umělé inteligence (GAI) od Adobe – Firefly Image 2 bylo skrz tuto službu vygenerováno přes 6,5 miliardy obrázků ve více než 100 světových jazycích.^[2]^[3]

Rozsah a možnosti výstupů

Generování obrazu

Firefly dokáže na základě textových zadání nebo referenčních obrazových vstupů generovat rozmanitou škálu statických obrazů. To zahrnuje různé styly, textury a kompozice, které mohou být použity pro vysoce personalizovaný grafický design, ilustrace, marketingové materiály a další.

Možnosti referenčních obrazů

Sada modelů umožňuje využití referenčních obrazů pro přesnější zadání. Využívá „Scene composer“ se sémantickou syntézou obrazu na několika stupních.^[4]

Text to image (Text → obraz) – různě podrobná textová zadání, jednoslovné pokyny ani nevyhodnotí.
Segmentation to image (Segmentace → obraz) – tvorba obrázků na základě segmentačních map, scéna je rozdělena na různé oblasti, které mají být jednotné celky nebo mít společné vlastnosti (např. konkrétní objekty, pozadí, světelný zdroj).
Scene-based Text to Image (Text → obraz založený na scéně) – kombinace obou zmíněných metod, rozvržení generované kompozice je doplněno o textové instrukce blíže popisující charakter objektů a celkovou atmosféru scény.^[4]

Tyto metody se dají kombinovat a referenčních obrázků lze zadat více, např. jeden pro hrubé rozmístění tvarů nebo textu a druhý pro jejich texturu nebo styl.^[4]

Integrace v rámci Adobe Creative Cloud

Adobe Firefly je implementován i přímo v rozhraní rodiny aplikací Adobe, zpřístupňuje generativní možnosti jako rozšíření obrazu, odstranění nebo přidání prvků a objektů (Adobe Photoshop).^[5] Podobně lze pracovat s výtvory autentické a editovatelné vektorové grafiky (Adobe Illustrator).

Momentálně je ve vývoji i rozšíření pro Adobe Premiere Pro. Video model by měl být schopen vytvářet chytré masky pro sledování (trackování) objektů a přidávat nebo odstraňovat potřebné prvky i v rámci sekvence snímků.^[6]

V rámci výzkumu částečně fundovaného Adobe vznikají i metody na pokročilou práci s generativním zvukem. Např. metody pro tvorbu hudby na základě syntézy textového zadání (žánr, nástroje…) a analýzy referenčního videa (podobnost videa pro které je hudba generována s již vyhodnocenými videi v databázi).^[7]

Na druhé straně Adobe buduje ve spolupráci s americkou Stanford University velké data sety zvuků reálných objektů (počasí, citoslovce, zvuky přírody, aut…) a snaží se o jejich přesvědčivé doplnění do videa (nejen generovaného).^[8]

B2B implementace

Adobe rozšířili Firefly i jako B2B produkt a nabízí implementaci a ohýbání modelů pro potřeby komerční a sériové produkce. Data set lze rozšířit o interní data nebo požadavky na konsistenci / firemní identitu.^[9]^[10]

Technické specifikace

Architektura a technologie hlubokého učení

Firefly Image 3 je postaven na základech pokročilých generativních předtrénovaných transformátorů (GPT). Modely jsou „předtrénovány“ na velkých datových sadách a pomocí metod jako je samořízené učení a generativní modelování se učí hledat spojitosti a podobnosti na těchto datech.^[11]^[1]

Firefly staví na populárních frameworcích pro „hluboké učení“ (deep learning) TensorFlow (Google)^[12] a PyTorch (Facebook AI Research).^[13]

Výpočetně náročný proces trénování vizuálních modelů Firefly se opírá o výkonné GPU clustery (soustava výpočetních jednotek, více GPU „spřažených“ dohromady) a cloudové služby, jako jsou AWS (Amazon) a Azure (Microsoft).^[14]

Pro korekci biasu a optimalizaci v průběhu učení jsou tvořeny adaptivní momentové odhady (Adam). Přesněji Firefly pracuje s algoritmy upravujícími rychlost učení pro každý parametr modelu na základě historie gradientů (spekulace na chybovost a její minimalizace). Model se tak učí z vlastních chyb a v čase efektivněji.^[15]

Trénovací datová sada

Samotná datová sada pro Adobe Firefly je tvořena z portfolia řádově stamilionů obrazových materiálů. Konkrétně z dat ze služby Adobe Stock, kde všichni přispěvatelé v rámci obchodních podmínek Adobe poskytují licenci mimo jiné právě pro trénink AI modelů.^[16]^[17] Data jsou nejrůznějšího typu (texty, fonty, vektorová, bitmapová grafika, fotografie, animace, audiovizuální díla). A jsou navíc rozšířena o díla veřejných licencí (public domain).^[1]^[18]

Generativní modely

Firefly z podstaty generativních modelů vytváří nové datové instance – na základě datových sad a výše popsaného učení vytváří unikátní nové výtvory (byť inspirované / ovlivněné rozsahem a povahou tréninkových dat).^[2] Adobe pro svou GAI využívá primárně 2 modely:

Variational Autoencoders (VAEs), model analyzuje a reprezentuje data v nižší dimenzi a na tomto základu generuje nové datové instance z této reprezentace (kritérium četnosti, vlastností dat, statistika atd.).^[19]

Generative Adversarial Networks (GANs), principově představují neustálý boj (konkurenci) generátoru, který tvoří nové datové instance a diskriminátoru, který je kritériem věrnosti generovaných výstupů v porovnání s ukázkovým data setem nebo již evaluovanými AI výtvory. Generátor se neustále zlepšuje ve vytváření nových instancí dat, které jsou čím dál blíže těm skutečným, zatímco diskriminátor se zlepšuje v jejich rozpoznávání.^[20]

Srovnání s dalšími běžnými visual modely

Kromě Adobe Firefly jsou na trhu další GAI, svou povahou a rozšířeností jsou např. srovnatelné modely DALL-E 3 (OpenAI) nebo Midjourney (nezávislý vývoj).^[21]

Je nutné říci, že objektivně komparovat modely je velice složité. Vždy záleží na konkrétním zadání pro GAI a kritériu srovnání. Nějaké trendy a obecnější závěry stejně pozorovat můžeme, např. podle testů AI Specialisty Chase Leana pro žurnál Shotkit, které srovnávaly právě 3 výše zmíněné GAI modely a jejich výkon pro různé případy užití.^[22]

Se stejnými prompty Adobe Firefly překonávalo oba dříve zmíněné modely v oblasti realistických obrazů (největší detail, lepší rozlišení, realističtější světla a stíny). Naopak s textovými, kaligrafickými a jinými výstupy, které mají obsahovat typografii Firefly neobstál (písmena, tedy čitelnost, nebyla zachována), jediné DALL-E 3 v rámci testu, zapracovalo text v jeho původní podobě. Co se generování produktových fotografií a fotografií krajiny týče byl rozdíl v kvalitě menší.^[22]

Midjourney může být uživatelsky méně přívětivé vzhledem k tomu, že jako hlavní rozhraní využívá aplikaci Discord, se kterou nejsou všichni uživatelé seznámeni.^[23]

Firefly má díky velké platformě Adobe zapracovanou komplexnější integraci a provázanost mezi různými AI nástroji. Na druhé straně je Firefly vyčítáno, že i předplatitelé celého Creative Cloudu mají omezený počet „Generativních kreditů“ (promptů), byť na výstupech není vodoznak (varianta zdarma).^[24]^[25]

Ukázky Firefly generovaného obsahu

Ukázky generované Adobe Firefly Image 3, Text to image zadání.^[26] Obrázky jsou výhradně pro ukázku různých výstupů generovaných Adobe Firefly, nijak nehodnotí kvalitu zpracování. Ani se stejným promptem nevznikne stejný obrázek.

Prompt 1: „Hyperrealistic young woman, holding dog with detailed fur, during golden hour, as realistic highlights and shadows as possible“ | Nejnižší hodnota vizuální intenzity, foto-realistický režim.

Prompt 2: „Artistic handwritten-like typography logo with exact letter by letter text "Adobe Firefly" | Vizuální intenzita 50%, umělecký režim (grafiky, ilustrace).

Prompt 3: „Paradise looking, but believable mountain landscape from drone perspective, sun is shining right over the edge of the highest mountain with snow on top“ | Vizuální intenzita 30%, foto-realistický režim.

Reference

↑ ^a ^b ^c Adobe Research is helping shape the future of generative AI for creative expression with Firefly. Adobe Research [online]. [cit. 2024-06-15]. Dostupné online. (anglicky)
↑ ^a ^b COSTIN, Alexandru. Firefly at one: Enhancing experimentation, ideation, and exploration for creators of all levels | Adobe Blog. blog.adobe.com [online]. [cit. 2024-06-15]. Dostupné online.
↑ Umělá inteligence od Adobe. www.adobe.com [online]. [cit. 2024-06-15]. Dostupné online.
↑ ^a ^b ^c ZENG, Yu; LIN, Zhe; ZHANG, Jianming. SceneComposer: Any-Level Semantic Image Synthesis. In: [s.l.]: IEEE, 2023-06. Dostupné online. ISBN 979-8-3503-0129-8. doi:10.1109/CVPR52729.2023.02152. S. 22468–22478.
↑ A Value-Oriented Investigation of Photoshop’s Generative Fill. arxiv.org [online]. [cit. 2024-06-15]. Dostupné online. (anglicky)
↑ FRANKIE, Tobin. Adobe Previews Breakthrough AI Innovations to Advance Professional Video Workflows Within Adobe Premiere Pro. Adobe News [online]. Adobe Inc., 2024-04-15 [cit. 2024-06-15]. Dostupné online.
↑ MCKEE, Daniel; SALAMON, Justin; SIVIC, Josef. Language-Guided Music Recommendation for Video via Prompt Analogies. In: [s.l.]: IEEE, 2023-06. Dostupné online. ISBN 979-8-3503-0129-8. doi:10.1109/CVPR52729.2023.01420. S. 14784–14793.
↑ CLARKE, Samuel; GAO, Ruohan; WANG, Mason. REALIMPACT: A Dataset of Impact Sound Fields for Real Objects. In: [s.l.]: IEEE, 2023-06. Dostupné online. ISBN 979-8-3503-0129-8. doi:10.1109/CVPR52729.2023.00152. S. 1516–1525.
↑ Firefly pro podniky – Adobe. www.adobe.com [online]. [cit. 2024-06-15]. Dostupné online.
↑ NELLIS, Stephen. Adobe pushes Firefly AI into big business, with financial cover. Reuters [online]. 2023-06-08 [cit. 2024-06-15]. Dostupné online.
↑ CARVALKO, Joseph. GPT -- A Paradigm Shift for the Twenty-First Century - TechRxiv. www.techrxiv.org [online]. [cit. 2024-06-15]. Dostupné online. doi:10.36227/techrxiv.23690874.v1.
↑ TensorFlow: A system for large-scale machine learning. research.google [online]. [cit. 2024-06-15]. Dostupné online.
↑ CHINTALA, Soumith; LERER, Adam; STEINER, Benoit, et. al. PyTorch: An Imperative Style, High-Performance Deep Learning Library. Research paper [online]. Meta, FAIR, NeurIPS, 2019-12-02 [cit. 2024-06-15]. Dostupné online.
↑ KUMAR, Yogesh; KAUL, Surabhi; SOOD, Kanika. Effective Use of the Machine Learning Approaches on Different Clouds. SSRN Electronic Journal. 2019. Dostupné online [cit. 2024-06-15]. ISSN 1556-5068. doi:10.2139/ssrn.3355203. (anglicky)
↑ KINGMA, Diederik P.; LEI BA, Jimmy. Adam: A Method for Stochastic Optimization. Conference paper at ICLR 2015 [online]. International Conference on Learning Representations, 2015-03-09 [cit. 2024-06-15]. Dostupné online.
↑ PH.D, Karthik Karunakaran. The Ethical Dilemma of Adobe Firefly: AI Training on Adobe Stock Images Raises Concerns [online]. 2023-06-23 [cit. 2024-06-15]. Dostupné online. (anglicky)
↑ Firefly FAQ for Adobe Stock Contributors. Adobe Support FAQ [online]. Adobe Inc., 2023-10-04 [cit. 2024-06-15]. Dostupné online.
↑ Adobe CEO on new era of generative AI and tackling misinformation. Washington Post. 2024-03-05. Dostupné online [cit. 2024-06-15]. ISSN 0190-8286. (anglicky)
↑ WIPF, David; BIN, Dai. Diagnosing and Enhancing VAE Models. arxiv.org [online]. Institute for Advanced Study Tsinghua University Beijing, China, Microsoft research, 2019-03-14 [cit. 2024-06-15]. Dostupné online.
↑ BENGESI, Staphord; EL-SAYED, Hoda; SARKER, MD Kamruzzaman. Advancements in Generative AI: A Comprehensive Review of GANs, GPT, Autoencoders, Diffusion Model, and Transformers. IEEE Access. 2024, roč. 12, s. 69812–69837. Dostupné online [cit. 2024-06-15]. ISSN 2169-3536. doi:10.1109/ACCESS.2024.3397775.
↑ The Best AI Image Generators: DALL-E vs Midjourney vs Others. AltexSoft [online]. [cit. 2024-06-15]. Dostupné online. (anglicky)
↑ ^a ^b GUPTA, Yatharth. Adobe FireFly vs Midjourney vs DALL-E for AI Image Generation. Shotkit [online]. 2024-01-22 [cit. 2024-06-15]. Dostupné online. (anglicky)
↑ Discord Interface. Midjourney Documentation [online]. Midjourney [cit. 2024-06-15]. Dostupné online.
↑ S.R.O, oXy Online. Nadlimitní užívání generativní AI Adobe Firefly se bude platit: 4,99 USD/100 snímků. Digimanie.cz [online]. [cit. 2024-06-15]. Dostupné online.
↑ Generativní kredity. Adobe Support [online]. Adobe Inc. [cit. 2024-06-15]. Dostupné online.
↑ Adobe Firefly. firefly.adobe.com [online]. [cit. 2024-06-15]. Dostupné online.