Adobe Firefly
Adobe Firefly je sada generativních AI modelů zaměřených na tvorbu digitálního obsahu, vyvinutých společností Adobe. Firefly využívá pokročilé techniky strojového učení a hlubokých neuronových sítí k tvorbě a úpravě vizuálních a multimediálních materiálů.[1] Za první rok od vydání (březen 2023) prvního veřejného pojetí generativní umělé inteligence (GAI) od Adobe – Firefly Image 2 bylo skrz tuto službu vygenerováno přes 6,5 miliardy obrázků ve více než 100 světových jazycích.[2][3] Rozsah a možnosti výstupůGenerování obrazuFirefly dokáže na základě textových zadání nebo referenčních obrazových vstupů generovat rozmanitou škálu statických obrazů. To zahrnuje různé styly, textury a kompozice, které mohou být použity pro vysoce personalizovaný grafický design, ilustrace, marketingové materiály a další. Možnosti referenčních obrazůSada modelů umožňuje využití referenčních obrazů pro přesnější zadání. Využívá „Scene composer“ se sémantickou syntézou obrazu na několika stupních.[4]
Tyto metody se dají kombinovat a referenčních obrázků lze zadat více, např. jeden pro hrubé rozmístění tvarů nebo textu a druhý pro jejich texturu nebo styl.[4] Integrace v rámci Adobe Creative CloudAdobe Firefly je implementován i přímo v rozhraní rodiny aplikací Adobe, zpřístupňuje generativní možnosti jako rozšíření obrazu, odstranění nebo přidání prvků a objektů (Adobe Photoshop).[5] Podobně lze pracovat s výtvory autentické a editovatelné vektorové grafiky (Adobe Illustrator). Momentálně je ve vývoji i rozšíření pro Adobe Premiere Pro. Video model by měl být schopen vytvářet chytré masky pro sledování (trackování) objektů a přidávat nebo odstraňovat potřebné prvky i v rámci sekvence snímků.[6] V rámci výzkumu částečně fundovaného Adobe vznikají i metody na pokročilou práci s generativním zvukem. Např. metody pro tvorbu hudby na základě syntézy textového zadání (žánr, nástroje…) a analýzy referenčního videa (podobnost videa pro které je hudba generována s již vyhodnocenými videi v databázi).[7] Na druhé straně Adobe buduje ve spolupráci s americkou Stanford University velké data sety zvuků reálných objektů (počasí, citoslovce, zvuky přírody, aut…) a snaží se o jejich přesvědčivé doplnění do videa (nejen generovaného).[8] B2B implementaceAdobe rozšířili Firefly i jako B2B produkt a nabízí implementaci a ohýbání modelů pro potřeby komerční a sériové produkce. Data set lze rozšířit o interní data nebo požadavky na konsistenci / firemní identitu.[9][10] Technické specifikaceArchitektura a technologie hlubokého učeníFirefly Image 3 je postaven na základech pokročilých generativních předtrénovaných transformátorů (GPT). Modely jsou „předtrénovány“ na velkých datových sadách a pomocí metod jako je samořízené učení a generativní modelování se učí hledat spojitosti a podobnosti na těchto datech.[11][1] Firefly staví na populárních frameworcích pro „hluboké učení“ (deep learning) TensorFlow (Google)[12] a PyTorch (Facebook AI Research).[13] Výpočetně náročný proces trénování vizuálních modelů Firefly se opírá o výkonné GPU clustery (soustava výpočetních jednotek, více GPU „spřažených“ dohromady) a cloudové služby, jako jsou AWS (Amazon) a Azure (Microsoft).[14] Pro korekci biasu a optimalizaci v průběhu učení jsou tvořeny adaptivní momentové odhady (Adam). Přesněji Firefly pracuje s algoritmy upravujícími rychlost učení pro každý parametr modelu na základě historie gradientů (spekulace na chybovost a její minimalizace). Model se tak učí z vlastních chyb a v čase efektivněji.[15] Trénovací datová sadaSamotná datová sada pro Adobe Firefly je tvořena z portfolia řádově stamilionů obrazových materiálů. Konkrétně z dat ze služby Adobe Stock, kde všichni přispěvatelé v rámci obchodních podmínek Adobe poskytují licenci mimo jiné právě pro trénink AI modelů.[16][17] Data jsou nejrůznějšího typu (texty, fonty, vektorová, bitmapová grafika, fotografie, animace, audiovizuální díla). A jsou navíc rozšířena o díla veřejných licencí (public domain).[1][18] Generativní modelyFirefly z podstaty generativních modelů vytváří nové datové instance – na základě datových sad a výše popsaného učení vytváří unikátní nové výtvory (byť inspirované / ovlivněné rozsahem a povahou tréninkových dat).[2] Adobe pro svou GAI využívá primárně 2 modely:
Srovnání s dalšími běžnými visual modelyKromě Adobe Firefly jsou na trhu další GAI, svou povahou a rozšířeností jsou např. srovnatelné modely DALL-E 3 (OpenAI) nebo Midjourney (nezávislý vývoj).[21] Je nutné říci, že objektivně komparovat modely je velice složité. Vždy záleží na konkrétním zadání pro GAI a kritériu srovnání. Nějaké trendy a obecnější závěry stejně pozorovat můžeme, např. podle testů AI Specialisty Chase Leana pro žurnál Shotkit, které srovnávaly právě 3 výše zmíněné GAI modely a jejich výkon pro různé případy užití.[22] Se stejnými prompty Adobe Firefly překonávalo oba dříve zmíněné modely v oblasti realistických obrazů (největší detail, lepší rozlišení, realističtější světla a stíny). Naopak s textovými, kaligrafickými a jinými výstupy, které mají obsahovat typografii Firefly neobstál (písmena, tedy čitelnost, nebyla zachována), jediné DALL-E 3 v rámci testu, zapracovalo text v jeho původní podobě. Co se generování produktových fotografií a fotografií krajiny týče byl rozdíl v kvalitě menší.[22] Midjourney může být uživatelsky méně přívětivé vzhledem k tomu, že jako hlavní rozhraní využívá aplikaci Discord, se kterou nejsou všichni uživatelé seznámeni.[23] Firefly má díky velké platformě Adobe zapracovanou komplexnější integraci a provázanost mezi různými AI nástroji. Na druhé straně je Firefly vyčítáno, že i předplatitelé celého Creative Cloudu mají omezený počet „Generativních kreditů“ (promptů), byť na výstupech není vodoznak (varianta zdarma).[24][25] ![]() ![]() ![]() Ukázky Firefly generovaného obsahuUkázky generované Adobe Firefly Image 3, Text to image zadání.[26] Obrázky jsou výhradně pro ukázku různých výstupů generovaných Adobe Firefly, nijak nehodnotí kvalitu zpracování. Ani se stejným promptem nevznikne stejný obrázek. Prompt 1: „Hyperrealistic young woman, holding dog with detailed fur, during golden hour, as realistic highlights and shadows as possible“ | Nejnižší hodnota vizuální intenzity, foto-realistický režim. Prompt 2: „Artistic handwritten-like typography logo with exact letter by letter text "Adobe Firefly" | Vizuální intenzita 50%, umělecký režim (grafiky, ilustrace). Prompt 3: „Paradise looking, but believable mountain landscape from drone perspective, sun is shining right over the edge of the highest mountain with snow on top“ | Vizuální intenzita 30%, foto-realistický režim. Reference
Externí odkazy
|