Vyšel Stable Diffusion 2.0. Zatím jsem ho nezkoušel, není to jen nový model ale i trošku jiný software okolo a dokud ho nezačne podporovat nějaké rozumné GUI, tak jsem na to moc líný.
Změny:
- dvě verze, jedna pro 512x512 obrázky, druhá pro 768x768 obrázky
- vyměněná ta část modelu, která řeší porozumění textu: měla by být kvalitnější a přesnější, ale bude vyžadovat trochu se přeučit psát prompty
- profiltrovaný dataset obrázků, na kterých se trénuje s cílem zvýšit kvalitu protože je tam obecně hromada bordelu (nekvalitní a blbě ořezané obrázky či vyloženě nesmysly)
- CENZURA. Z datasetu zmizel všechen NSFW obraz, některé celebrity a současní umělci jako třeba nonstop propíraný Greg Rutkowski.
Na jednu stranu si tu skoro zlomyslně mnu ruce protože už mám po krk lidí na redditu co jsou furt dokola hrozně nadšení z toho jak se jim podařilo vygenerovat buchtu s pěkným obličejíkem a obříma prsama by Greg Rutkowski. Na druhou stranu tohle samozřejmě omezí i generování různejch morbidních bizárů anebo třeba obrazů ve stylu H. R. Gigera.
Emad ze Stability AI nicméně tvrdí, že účelem tohohle (a dalších vydaných) modelů je sloužit jako základ pro další dotrénování a že mají v plánu učinit komunitní trénování snadnějším a rychlejším. Taky říká, že tímhle vyřešením celebrit a NSFW byla odšpuntovaná jejich fronta modelů k vydání a nové verze budou vycházet častěji. K tomu prvnímu jsem trochu skeptický, protože jestli dotrénovávání modelu správně chápu, tak čím víc (i méně kvalitních) dat v modelu už je, tím snadnější je ho dotrénovat k lepšímu, takže například udělat ze SFW modelu NSFW bude v tomhle případě možná výrazně náročnější, ale to asi brzo zjistíme.