Google nemá nejlepší výsledky, pokud jde o AI pro generování obrázků.
V únoru bylo zjištěno, že generátor obrázků zabudovaný do Gemini, chatbota Google poháněného umělou inteligencí, náhodně vkládá genderovou a rasovou rozmanitost do výzev o lidech, což vede k obrázkům rasově odlišných nacistů, mezi jinými urážlivými nepřesnostmi.
Google stáhl generátor a slíbil, že jej vylepší a případně znovu vydá. Zatímco čekáme na jeho návrat, společnost spouští vylepšený nástroj pro generování obrázků, Imagen 2 , uvnitř své vývojářské platformy Vertex AI – i když je to nástroj rozhodně více zaměřený na podniky.
Poděkování za obrázky: Frederic Lardinois/Gadget Insider
Poděkování za obrázky: Frederic Lardinois/Gadget Insider
ocenění střešního materiálu
Imagen 2 – což je ve skutečnosti rodina modelů, která byla uvedena v prosinci poté, co byla ukázána na konferenci Google I/O v květnu 2023 – dokáže vytvářet a upravovat obrázky po zadání textové výzvy, jako jsou DALL-E a Midjourney od OpenAI. Pro firemní typy je zajímavý, že Imagen 2 dokáže vykreslovat text, emblémy a loga ve více jazycích, volitelně překrývat tyto prvky ve stávajících obrázcích – například na vizitky, oblečení a produkty.
Google představuje Imagen 2 s generováním textu a loga
Po prvním spuštění v náhledu je nyní úprava obrázků pomocí Imagen 2 obecně dostupná ve Vertex AI spolu se dvěma novými funkcemi: malování a překreslování. Inpainting a outpainting, funkce, které již nějakou dobu nabízejí jiné oblíbené generátory obrázků, jako je DALL-E, lze použít k odstraněnínechtěné části obrazu, přidejte nové komponenty a rozšiřte okraje obrazu, abyste vytvořili širší zorné pole.
Ale skutečným základem upgradu Imagen 2 je to, co Google nazývá obrázky text-to-live.
Imagen 2 nyní dokáže vytvářet krátká, čtyřsekundová videa z textových výzev, po vzoru nástrojů pro generování klipů s umělou inteligencí, jako je např. Přistávací dráha , Dlouho a Irreverent Labs . V souladu s firemním zaměřením Imagen 2 nabízí Google živé obrázky jako nástroj pro marketéry a kreativce, jako je generátor GIF pro reklamy zobrazující přírodu, jídlo a zvířata – předmět, na který byl Imagen 2 doladěn.
Google říká, že živé obrázky mohou zachytit řadu úhlů kamery a pohybůpodporuje konzistenci v celé sekvenci. Ale zatím jsou v nízkém rozlišení: 360 x 640 pixelů. Google slibuje, že se to v budoucnu zlepší.
Aby zmírnil (nebo se alespoň pokusil rozptýlit) obavy z potenciálu vytvářet deepfakes, Google říká, že Imagen 2 použije SynthID , přístup vyvinutý společností Google DeepMind, k aplikaci neviditelných, kryptografických vodoznaků na živé obrázky.Detekce těchto vodoznaků – o kterých Google tvrdí, že jsou odolné vůči úpravám, včetně komprese, filtrů a úprav barevného tónu – samozřejmě vyžaduje nástroj od společnosti Google, který není dostupný třetím stranám.
A nepochybně touží vyhnout se další generativní mediální kontroverzi, Google zdůrazňuje, že generace živých obrázků budou z důvodu bezpečnosti filtrovány. Mluvčí řekl Gadget Insider e-mailem: TheModel Imagen 2 ve Vertex AI nezaznamenal stejné problémy jako aplikace Gemini. Pokračujeme v rozsáhlém testování a spolupracujeme s našimi zákazníky.
Poděkování za obrázky: Frederic Lardinois/Gadget Insider
Poděkování za obrázky: Frederic Lardinois/Gadget Insider
Ale velkoryse za předpokladu, že technologie vodoznaků Google, zmírnění zkreslení a filtry jsou tak účinné, jak tvrdí, jsou živé obrázky dokonce konkurenční s nástroji pro generování videa již existují?
Spíš ne.
Runway dokáže generovat 18sekundové klipy v mnohem vyšším rozlišení. Nástroj pro tvorbu videoklipů Stability AI, Stable Video Diffusion, nabízí větší přizpůsobitelnost (pokud jde o snímkovou frekvenci). A Sora od OpenAI – která samozřejmě ještě není komerčně dostupná – se zdá být připravena strhnout konkurenci fotorealismem, kterého může dosáhnout.
Jaké jsou tedy skutečné technické výhody živých obrazů? opravdu si nejsem jistý. A nemyslím si, že bych byl příliš přísný.
Koneckonců, Google stojí za skutečně působivou technologií generování videa, jako je Imagen Video a Phenaki. Phenaki, jeden ze zajímavějších experimentů Googlu v oblasti převodu textu na video, mění dlouhé, podrobné výzvy na filmy v délce dvou minut – s výhradou, že klipy mají nízké rozlišení, nízkou snímkovou frekvenci a jsou jen trochu koherentní.
Ve světle nedávných zpráv naznačujících, že generativní revoluce AI zaskočila generálního ředitele Google Sundara Pichaie nepřipraveného a že společnost se stále snaží udržet krok s konkurencí , není divu, že produkt, jako jsou živé obrázky, působí jako také běžící. Ale i tak je to zklamání. Nemohu se ubránit dojmu, že ve skunkworks Google číhá – nebo byl – působivější produkt.
Modely jako Imagen jsou trénovány na obrovském množství příkladů, které obvykle pocházejí z veřejných stránek a datových sad na webu. Mnoho prodejců generativní umělé inteligence považuje tréninková data za konkurenční výhodu, a proto je a související informace uchovávají blízko hrudníku. Podrobnosti o školeních jsou však také potenciálním zdrojem soudních sporů souvisejících s IP, což je další překážka k odhalení mnoha věcí.
Zeptal jsem se, jako vždy kolem oznámení týkajících se generativních modelů umělé inteligence, na data, která byla použita k trénování aktualizovaného Imagen 2, a na to, zda tvůrci, jejichž práce mohla být v procesu trénování modelu smetena, se budou moci odhlásit. v nějakém budoucím bodě.
Google mi řekl pouze to, že jeho modely jsou trénovány především na veřejných webových datech, čerpaných z blogových příspěvků, přepisů médií a veřejných konverzačních fór. Které blogy, přepisy a fóra? Je to odhad kohokoli.
Mluvčí poukázal na ovládací prvky webového vydavatele společnosti Google, které webmasterům umožňují zabránit společnosti ve stahování dat, včetně fotografií a uměleckých děl, z jejich webových stránek. Google se však nezavázal k uvolnění nástroje pro odhlášení nebo alternativně kompenzaci tvůrců za jejich (nevědomé) příspěvky – což je krok, který učinilo mnoho jeho konkurentů, včetně OpenAI, Stability AI a Adobe.
checkr.io
Další bod, který stojí za zmínku: Na obrázky typu Text-to-live se nevztahují zásady společnosti Google pro generativní odškodnění AI, které chrání zákazníky Vertex AI před nároky na autorská práva související s používáním školicích dat a výstupů jejích generativních modelů AI společností Google. Je to proto, že obrázky s živým textem jsou technicky v náhledu; zásady se vztahují pouze na generativní produkty umělé inteligence v obecné dostupnosti (GA).
Regurgitace neboli situace, kdy generativní model chrlí zrcadlovou kopii příkladu (např. obrázku), na kterém byl trénován, je právem předmětem zájmu firemních zákazníků. Studuje obojí neformální a akademický ukázaly, že Imagen první generace vůči tomu nebyl imunní a chrlil identifikovatelné fotografie lidí, umělecká díla chráněná autorským právem a další, když byl k tomu vyzván konkrétním způsobem.
S výjimkou kontroverzí, technických problémů nebo některých jiných velkých nepředvídaných překážek se do GA někde v řadě začnou zobrazovat obrázky s živým textem. Ale s živými obrázky, jak existují dnes, Google v podstatě říká: používejte na vlastní nebezpečí.