VOZKA: Dodatky z toho co psal Emad od vydání na discordu a někdo to vytípal na reddit:
- 512x512 px verze dává o něco lepší výsledky než 768x768 px
- Jestli to chápu správně, tak celebrity a umělci nezmizeli záměrně ale proto, že 2.0 používá jiný jazykový model, který je na rozdíl od toho předchozího taky otevřený, takže jim dává větší kontrolu při trénování, ale některé věci které byly v tom předchozím (někdy i nepoměrně silně zastoupeny, jako třeba ten Rutkowski) neobsahuje.
- Má ale díky tomu menší overfitting, tj. když budete chtít nakreslit Monu Lisu v bazénu, je větší šance že to fakt udělá, zatímco předchozí verze vám typicky vracely něco velmi podobného samotnému obrazu Mony Lisy protože fráze "mona lisa" a obraz s ní asociovaný kvůli overfittingu zastínila všechny ostatní části promptu.
- Díky tomu by měl lépe chápat delší a podrobnější prompty.
- Taky by díky tomu mělo být snadnější a účinnější ho naučit nové věci, takže doučit umělce, celebrity nebo lepší anatomii (která je teď zhoršená kvůli absenci NSFW obrázků) prý určitě půjde.
- Snažili se tedy vytvořit model, který má lepší architekturu a bude sloužit jako kvalitnější základ pro další zpracování, a to za cenu toho, že takhle v základu jsou výstupy v něčem lepší a v něčem horší a pro spoustu lidí to působí jako krok zpět.
Jinak říká, že do konce roku plánují vydat několik dalších free modelů a že budou brzy i prodávat nějaké vlastní licencované finetuned modely, ale tyhle základní zůstanou zdarma a myslí si, že s komunitním dotrénováním se s nimi půjde přiblížit novému Midjourney a Dall-E.