Vyšla už i verze 2.1 Stable Diffusion, která má taky z trénovacího datasetu odstraněné NSFW obrázky, ale to omezení je mnohem míň drastické než u 2.0, kde to bylo navržené vyloženě blbě. Testoval jsem to a na prdel jsem si z toho nesednul - v něčem je to určitě lepší, plus to má opět i 768x768 px verzi (takže se dají dělat větší obrázky s méně zdvojovacími artefakty), ale kvůli změně CLIP části to některé věci podobně jako ve 2.0 dělá hůř, některé umělce to hůř chápe (a nemyslím Rutkowskiho) a tak. Je potřeba prompty vymýšlet jinak. Na druhou stranu se mi méně často stává, že to nějakou část promptu ignoruje, a to i u negative prompts.
Lidi říkají, že se na 2.1 mnohem lépe vytvářejí embeddings, tj. lépe se neuronka učí nové věci pomocí textual inversion. Nevýhoda embeddings je, že textual inversion myslím pořád potřebuje víc VRAM, zatímco někdo psal že nejnovější verze Dreambooth potřebují jen 6 GB. Výhoda je, že embeddingy jsou malé (stovky kilobajtů) a dají se kombinovat.
----
Ta cenzura je na prd, ale po hraní si s ChatGPT jsem rád, že máme aspoň tohle - model zcenzurovaný ale otevřený a trénovatelný.
ChatGPT je nepochopitelně dobrá (uzavřená) technologie která podle mě povede ke společenským změnám srovnatelným s dostupností generování obrázků nebo větším, ale defaultní nastavení sluníčkovosti je na takové úrovni, že když jí zadáte "napiš krátkou povídku ve stylu Bukowskiho", dostanete pozitivní příběh s ponaučením na jeden a půl normostrany, o alkoholikovi kterému náhodná žena v baru poradila ať se stane spisovatelem, že každý v sobě máme něco dobrého, a on díky tomu svůj život otočil o 180 stupňů a byl šťastný a veselý až do smrti. Dostat zní z hlediska kreativity něco fakt zajímavýho, divnýho, drsnýho, surovýho, nechutnýho nebo jinak vybočujícího je skoro nemožný. Představa internetu (i dalších médií) zahlcenýho takhle vyčištěným a "bezpečným" contentem je fakt hrozná.