• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    KERRAYAI Art - Tvorba za pomocí umělé inteligence: Midjourney, Nanobanana, ComfyUI, Suno
    Vše ohledně umění tvořeného pomocí umělé inteligence - obrázky, 'fotky', galerie, hudba, video, text + články, novinky apod.

    NSFW obsah prosím obalit spoiler tagem - <div class="spoiler">obrázek</spoiler>, a nemá to tu být klub na roštěnky a nahotinky bez nějaké přidané hodnoty

    Příbuzné diskuze:
    - [DALL·E mini je mrtvé, Dejve, ať žije Craiyon, mage.space, Stable Diffusion atd. - having sex with AI since [date format unknown]]
    - [I Hope This Does Not Exist ​ ​ ​ ▌​ ​ Vedlejší efekty v AI visuálech]
    - AI obecně [Artificial Intelligence AI]
    - Vtipy [Umělá inteligence, chatboti - vtipné konverzace aneb "Hoří hovno?"]
    - [generativní modely] Jak konstruovat prompty, kde získat váhy i jak to vše interpretovat


    Prosím zkusme pro vkládanou tvorbu používat tagy
    #galerie (2-3 obrázky na ukázku, další po rozkliku) #obrázek #video #hudba #text #hry #původní (pro vlastní tvorbu) #roštěnky

    #článek #nástroj

    (návrhy na další tagy apod. vítány)

    Texty, programování: https://beta.openai.com/playground | https://chat.openai.com/
    Obrázky online: https://www.midjourney.com/ | https://beta.dreamstudio.ai/
    Lokálně: Webui-Forge https://github.com/lllyasviel/stable-diffusion-webui-forge | ComfyUI https://github.com/comfyanonymous/ComfyUI | Civitai repository custom modelů pro SD
    AI na vytvoření textového zadání z existujícího obrázku: https://huggingface.co/spaces/pharma/CLIP-Interrogator
    rozbalit záhlaví
    MINER
    MINER --- ---
    MINER: Korekce: Google upscale neni dobrej na fotky se složitější strukturou, takže 4k nebrat ani v AI studio.

    Nejlepší kvalita bez Comfy: 2k (4Mpx) model + Photoshop Generative Upscale – ten je fakt dobrej.

    A teď už dám pokoj a jdu porovnat, kam to jde posunout s Comfy:)
    SLL_QUY
    SLL_QUY --- ---
    RUDOLF: Vyzkousej placene Meshy, ten jejich free model nedava pouzitelne vysledky, ten placeny je pro muj use-case vlastne flawless.
    ICE
    ICE --- ---
    MINER: jj existuji flux2 nebo ultra flux(4K), nicemene defaultni vystupy maji na urovni prvniho sdxl (meky roztekly visual). IMO s nadeji koukam na z-image, protoze ve spojeni s text enkoderem qwen3 dava supr vysledky - drzi promt jako zadny jiny model (+text lepe nez flux). Bouzel rozliseni je klasicke a vysledny obraz je potreba prohnat pres "hi-res optimalizery" ;).
    ICE
    ICE --- ---
    MINER: problem je velky pracovni rozliseni protoze generativni modely jsou omezeny na +- 1024x1024. Vetsi obrazky se pak generuji img2img upscalingem -bud specialnim upscalerem (remacri, sia, ultrasharp atd.) ktery umi vetsi vystup. tahle metoda ti ale neprida nic kontextoveho, pracuje jen s daty v puvodnim obrazku a snazi se najit hrany a patricne je zjemnit. Druha metoda generuje nove detaily v kontextu - a to je klasicky generativni model se znamym omezenim velikosti. Takze musis obrazek rezat na dlazdice (1024x1024) a urzet model v patricnych mezich aby ti kazdou dlazdici nedelal tak trochu jinak. ;)
    Tudiz tve workflow bude muset obsahovat metody jako: zamaskovat objekt s prechodem do okoli, zmensit na generativni velikost, generovat inpaint metodou, upscalovat (tiling), placnout do hires obrazku. Muze existovat i lepsi postup, zkus pohledat comfyu fora. Tohle se vyvyji strasne rychle.
    LOJZA
    LOJZA --- ---
    MINER: Lehce off-topic, ale řešil jsem teď podobnou situaci: portrétová fotka od profi fotografa cca 5000 x 5000 px, kde potřebuju dogenerovat okraje po pravé a levé straně (kusy lehce rozmlženého pozadí - les, tráva...), abych mohl tisknout v potřebném poměru stran na velké plátno. Online "unclipperů" a "extenderů" je hromada, ale 99 % z nich má za sebou evidentně napojené nějaké API na standardního "velkého" provozovatele nějakého generativního modelu. Ve výsledku fotku "extendují", ale redukují rozměry na cca 1000 x 1000 px (např. Kling), v lepším případě 2000 x 2000 px (např. https://airbrush.com/). Překvapilo mě, že to takto redukuje právě i ten Kling, který se očividně snaží pozicovat jako jeden z leaderů (alespoň co se videa týče). Ztráta kvality samozřejmě nepřijatelná. Našel jsem jediný nástroj, který rozměr umí zachovat - https://www.pixelcut.ai/. Model, který za tím je, ale není zase až tak super, takže dogenerované pozadí vypadá dost "namalovaně". Takže zatím meh výsledky...
    MINER
    MINER --- ---
    KERRAY: Potřebuju právě lepší kvalitu. A to i zpracování, nejen rozlišení.

    Používám modely v Photoshopu: tam je Banán i Flux a jde to aplikovat jen na selekci, což hodně usnadňuje editace objekt po objektu, ladění a undo.

    Jenže tak kvalita neni ono.

    Bánán Pro se snaží, ale mění charakter víc, než bych potřeboval, a to třeba i trochu rozměr, tvar a okolí objektu tak, že jsou tam vidět deformace. A dělá tam i to, co nechci.

    Flux je realističtější, ale nezvládá texty. A v Adobe můžu použít jen Pro model, asi dokud neupgradnu na vyšší tarif.

    Přišlo by mi dobrý moci si vybrat model.
    Nutnost je pracovat jen se selekcí, ale chtělo by to mít v editoru s undo a ideálně i vrstvama, ne to furt pastovat a vyřezávat, protože to ty modely nezvládnou na jednu iteraci.
    Možnost plácnout na objekt jinej obrázek by se hodila.

    Jako pomalu se posunuju dál a kvalita se zlepšuje, ale trvá to a určitě to zatim nepoiužívám optimálně.
    MORPHLER
    MORPHLER --- ---
    VINC: za me to je spise o modelu. veo 3.x ... např. https://firefly.adobe.com/ ti umozni (v placne verzi) pouzit jak ruzna veo, tak soru 2, tak jejich model..... https://runwayml.com/ vydalo ted taky novy model (taky pristupny i jinde)
    ICE
    ICE --- ---
    KAJJAK: ty potrebujes hlavne kvalitni pracovni nastroj a to je ComfyU. Mrkni na web(primo comfy.org nebo civitai.com), stahni si do nej workflow ktery bude umet delat co potrebujes. Metoda (co popisujes ze potrebujes s obrazkem udelat) se nazyva "outpaint".
    Resp. programu ktery muzes pouzit je vic. ComfyU je v soucasne chvili nejvariabilnejsi (pouziva nody ktery propojujes, udelas v tom cokoli s cimkoli:), ale musis se s tim seznamit, anebo pouzit uz hotovy workflow. Kdyz budes chtit jednoduche reseni bez moznosti vetsi kontroly co model/lora/atd dela, zkus treba program Amuse. Rychly vysledek, minimum nastaveni, minimum kontroly.
    KILLUA
    KILLUA --- ---
    KERRAY: To máš, ale podobné s difusníma obrázkovejma modelama. Často jedu v nějaké zajeté koleji (a ostatní na internetu taky) a pak zadáš úplně jiný prompt a model udělá naprosto jiný styl a říkáš si najednou jak moc všestraný vlastně je. Ostatní to třeba tak nemaj já se teda občas divím :)
    PRAASHEK
    PRAASHEK --- ---
    TENCOSNI: jaký má ten zonerai.com model placený vs neplacený přístup - jaké jsou hlavní omezení free verze? Sorry že otravuju, ale radši si to přečtu od uživatele než na webu (na kterém jsem to zatím nenašel :))
    SALAM
    SALAM --- ---
    #obrázek #nástroj
    konecne rozumny model na generovanie a upravu obrazkov, ktora zachovava povodny vstupny image.
    super rychly (cca par sekund na image), plne textova editace - tj. zvlada slovne instrukcie "vymen X za Y" "otoc kameru z ineho pohladu" "odstran text" atd.

    Narozdiel od Chatgpt (Imagen) ktory dokaze upravovat kontextualne tiez (uz nejaku dobu), je flux.kontext ale milionkrat rychlejsi, a zdrojovy input nemeni. Tj realne zachova face, postavu, scenu, atd.
    How to Use Flux Kontext for Image Editing (with AI Comparisons)
    How to Use Flux Kontext for Image Editing (with AI Comparisons)
    https://www.youtube.com/watch?v=_vIKdFYQBks&t=1s
    KERRAY
    KERRAY --- ---
    #nástroj #tts Meet Eleven v3 - The most expressive Text to Speech model.
    Eleven v3 (alpha) — The most expressive Text to Speech model
    https://elevenlabs.io/v3
    THEODORT
    THEODORT --- ---
    LOJZA: https://github.com/coqui-ai/TTS
    Možná když to zkopirujes 2x za sebe.. cca
    GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
    https://github.com/coqui-ai/TTS#example-voice-cloning-together-with-the-voice-conversion-model
    KERRAY
    KERRAY --- ---
    další #původní #midjourney #galerie id STRYX
    Jan Dřevíkovský - Midjourney potichu zmenila model 7 za...
    https://www.facebook.com/share/p/1ANzz7ZTRS/
    KILLUA
    KILLUA --- ---
    PRAASHEK: Nový obrázkový model GPT. Prompt ti moc nepomůže tohle sem "modeloval" na základě asi 20 iterací. Musel sem si uvědomit věci jako osvětlení ze shora, ambientní tmu a pomalu měnit a vylepšovat iterováním a zkoušením.
    Mám hlavně radost, že to opravdu vypadá jako "Avatar" nějakého démona v jeho chrámu a snad to jako opravdu nahání trochu strach když si představíš že tam stojíš a ono to začne mluvit...

    Začal sem s tímhle.
    In a shadowy cavern, demonic face looms. The jagged rock walls surrounding it echo the statue's malevolent presence, while two mysterious doorways stand as silent sentinels to either side, and a weathered stone pedestal rests nearby, bathed in the ambient light.
    KERRAY
    KERRAY --- ---
    #nástroj #midjourney začaly testy v7 a "draft mode" #

    We're now beginning to alpha-test a new V7 image Model. It's our smartest, most beautiful, and most coherent model yet. Give it a shot by using --v 7

    V7 is the first model to have model personalization turned on by default. You must unlock your personalization to use it. This takes ~5 minutes. You can toggle it on/off at any time.

    "Draft Mode" is another new feature. Draft mode is half the cost, 10 times the speed, and it might be the best way to iterate on ideas ever. Try it with voice on the web, or by using --draft on Discord.
    BAT
    BAT --- ---
    DOUPLE: Me by pro zajimavost zajimalo, jak by to dopadlo, kdyby byl model natrenovany na obrazkach nakreslenych v tom stylu, ale jinym autorem, jenz by s uzitim pro trenovani AI (a dalsim, s tim souvisejicim pouzitim) souhlasil.

    Nic o tom nevim, ale divil bych se, kdyby byl "styl" nejak chraneny.
    Jakoze chapu, ze nemuzu nikde publikovat postavicku Mickey Mouse (mimo tech opravdu starych co jsou snad uz v PD), ale kdyz stejnym stylem nakreslim postavicku co jsem si ja vymyslel (Roger Rat), tak...
    no, asi by to dopadlo tak, ze by se Disney stejne soudil, a kdo na to ma, ze... ale teoreticky by to melo byt v poho ne?

    Pominme fakt, ze tvuj priklad s politickou stranou by byl asi vniman par lidmi negativne, ale v ramci autorskych zakonu a kyho certa? to by asi bylo cajk, ne?
    DOUPLE
    DOUPLE --- ---
    DOUPLE: :)
    Chatgpt: Styl studia Ghibli je natolik specifický a charakteristický, že když AI vygeneruje něco podobného, už to překračuje hranici mezi "inspirací" a "napodobováním". A pokud politická strana použije takový obrázek ve své kampani, může to být vnímáno jako zneužití estetického jazyka Ghibli k účelům, které s jejich tvorbou nemají nic společného.

    Tohle je přesně ten typ situace, kde se etika a autorské právo setkávají s limity AI generace. Technicky vzato by se Ghibli mohlo bránit, pokud by dokázali, že AI model byl natrénován na jejich dílech nebo že výstup je příliš blízký jejich stylu. A i kdyby právně nešlo o přímé porušení autorských práv, pořád je tu otázka etiky a respektu k umělcům.

    Osobně mi to taky nepřijde moc košer. Přijde mi to podobné, jako kdyby někdo vzal Miyazakiho film, přemaloval ho AI a pak ho použil v kampani, aniž by k tomu měl svolení. Je zajímavé, že si tohle dovolí například i politická strana – obvykle bývají dost opatrné, aby se vyhnuly právním problémům. Možná si neuvědomili, jak kontroverzní to může být.
    KILLUA
    KILLUA --- ---
    THEODORT: Nezkoušel, protože obecně nemám "resoning" modly tak rád, protože mám rád rychlou odezvu. Používám max o3 když chci poradit s něčím těžkým. Ale QwQ má zajímavé nápady když brainstormuju něco mimo programování, připadá mi že je jednoduše unikátní.

    Deep seek sem zkoušel i plnej ale nezačal jsem ho používat nějak více.

    ICE: Jako je to spíš jednodušší model, ale snaží se no :)
    KILLUA
    KILLUA --- ---
    BAT: Za mě je lokálně dobře použitelnej 32B QwQ, je to reasoning model a v programování docela silnej. Ale co sem pochopil ty nemáš dost ramky na něj. Proto sem doporučil ten 14B deep seek, protože je to taky reasoning model a je to postavené na 14B Qwen modelu :)
    Vlastně jen naučili qwen model přemýšlet.

    Zkoušel sem ještě nejnovější 24B mistral small 2501 a narozdíl od své starší verze a nejspíš i codestralu je za mě o dost lepší.

    Ale to víš na Clauda to úplně nemá.
    Kliknutím sem můžete změnit nastavení reklam