Zjistil jsem docela zajímavou věc. Na internetech (převážně socky/blogy, ale sem tam i serióznější články) se s jistou pravidelností řešívá bias generativních modelů, zejména v kontextu etnicity, genderu a tak. U novějších modelů se biasy prý trochu zlepšují - například když si necháte vygenerovat asiatku, je prý menší šance, že bude pokaždé poodhalená a vyzývavá. Články jsou obvykle trochu hysterické, tak místo toho zabrušme do nekontroverzních a možná zajímavějších neb méně prozkoumaných témat:
Zdá se, že nikdo moc nesleduje, jaké vznikají u nových verzí nové nekontroverzní ale klidně i silnější biasy, které u ranějších verzí, co používaly méně sofistikované metody trénování a méně filtrované datasety, neexistovaly.
Tak například: pomocí Stable Diffusion SDXL se zdá být zcela nemožné vytvořit fotku velkoměsta, která neobsahuje žádná auta. Pro starou verzi 1.5 to není žádný problém, na první dobrou dostanete několik (méně fotorealistických) variant New York City bez jediného auta. Ale v SDXL se mi to nepodařilo ani jednou, dokonce se mi ani moc nedařilo snížit jejich počet. Zkoušel jsem Prahu, která není tak známá vysokým provozem ale spíše starými uličkami, které se fotografové často snaží fotit spíše bez aut, a podařilo se mi udělat obrázek staré ulice s málo auty, ale úplně bez aut taky ne.
Takže podobně jako si AI představuje generickou asiatku jako sexy odhalenou kočenu a doktora jako bílého muže středního věku, tak si představuje NYC jako plné aut? To je v pořádku protože to je v souladu s realitou, ne? No, ne tak docela, protože sexy asiatky a bílé doktory lze pomocí přesněji definovaného promptu ve většině případů přerazit, ale tohle se zdá být úplně neprůstřelné.
Dall-E 3 na to trpí taky. Trochu pomáhá fakt, že mu při prvním pokusu (který je plný aut) řeknete "ne, to je špatně, jsou tu auta, chci to pičo bez aut!", a on pak vytvoří další obrázek, kde je aut méně (ale jsou tam). Ale zase čím větší dáváte fokus na absenci aut, tím míň je to pak celé realistické a tím míň to vypadá jako NYC.
Midjourney nemám a nemohu otestovat, klidně to někdo zkuste, docela by mě zajímalo jestli na tom jsou líp.
A stejně tak mě zajímá, jestli jste narazili na nějaká jiná nečekaná omezení.