• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    KERRAYAI Art - Tvorba za pomocí umělé inteligence: Midjourney, DALL·E 2, Stable Diffusion, OpenAI
    Vše ohledně umění tvořeného pomocí umělé inteligence - obrázky, 'fotky', galerie, hudba, video, text + články, novinky apod.

    NSFW obsah prosím obalit spoiler tagem - <div class="spoiler">obrázek</spoiler>, a nemá to tu být klub na roštěnky a nahotinky bez nějaké přidané hodnoty

    Příbuzné diskuze:
    - [DALL·E mini i Craiyon - having sex with AI since [date format unknown]]
    - [I Hope This Does Not Exist ​ ​ ​ ▌​ ​ Vedlejší efekty v AI visuálech]
    - AI obecně [Artificial Intelligence AI]
    - Vtipy [Umělá inteligence, chatboti - vtipné konverzace aneb "Hoří hovno?"]
    - [generativní modely] Jak konstruovat prompty, kde získat váhy i jak to vše interpretovat


    Prosím zkusme pro vkládanou tvorbu používat tagy
    #galerie (2-3 obrázky na ukázku, další po rozkliku) #obrázek #video #hudba #text #hry #původní (pro vlastní tvorbu) #roštěnky

    #článek #nástroj

    (návrhy na další tagy apod. vítány)

    Texty, programování: https://beta.openai.com/playground | https://chat.openai.com/
    Obrázky online: https://www.midjourney.com/ | https://beta.dreamstudio.ai/
    Lokálně: https://github.com/AUTOMATIC1111/stable-diffusion-webui | https://github.com/invoke-ai/InvokeAI | Civitai repository custom modelů pro SD
    AI na vytvoření textového zadání z existujícího obrázku: https://huggingface.co/spaces/pharma/CLIP-Interrogator
    rozbalit záhlaví
    MEDWYN
    MEDWYN --- ---
    KERRAY: Jojo.. clovekem predcitane audioknihy uz to maji za pár.
    KERRAY
    KERRAY --- ---
    #audio #text sice to samozřejmě nebude umět česky, ale je to teda drsný
    Notion – The all-in-one workspace for your notes, tasks, wikis, and databases.
    https://suno-ai.notion.site/Bark-Examples-5edae8b02a604b54a42244ba45ebc2e2

    Bark is a transformer-based text-to-audio model created by Suno. Bark can generate highly realistic, multilingual speech as well as other audio - including music, background noise and simple sound effects. The model can also produce nonverbal communications like laughing, sighing and crying. To support the research community, we are providing access to pretrained model checkpoints ready for inference.

    GitHub - suno-ai/bark: 🔊 Text-prompted Generative Audio Model
    https://github.com/suno-ai/bark
    KERRAY
    KERRAY --- ---
    KAJJAK: jo, máš to celý v jiné složce, maximálně si přilinkuješ existujícího modely a extensions
    KAJJAK
    KAJJAK --- ---
    KERRAY: a jde se pak jeste jednoduse vratit ke staremu ui?
    KERRAY
    KERRAY --- ---
    #nástroj #stablediffusion prý dobré lokální UI, jdu vyzkoušet
    GitHub - anapnoe/stable-diffusion-webui-ux: Stable Diffusion web UI
    https://github.com/anapnoe/stable-diffusion-webui-ux
    KERRAY
    KERRAY --- ---
    #nástroj #text #hry
    vida, GPT-4 umí přímo generovat skripty pro "vyber si vlastní dobrodružství" systém Ink, stačí zkompilovat v Inky - a text klidně může být i v češtině. Musel jsem mu předhodit pár chyb, ale sám došel k fungujícímu výsledku - tomu by šlo hodně pomoct nějakou existující ukázkou.

    room
    https://kerray.cz/files/room_ink/

    room
    https://kerray.cz/files/praha_ink/

    KERRAY
    KERRAY --- ---
    #nástroj
    https://twitter.com/EMostaque/status/1648892123893178368
    DUKON
    DUKON --- ---
    od: Martin Jurica
    DAVE2
    DAVE2 --- ---
    WADER23: Kdyby vyhrála fotka a později se ukázalo, že to byla jenom koláž vytvořená někým ve Photoshopu, tak by dotyčného jednoduše vyloučili a nic by se neřešilo. Když místo Photoshopu použil AI, tak je to zpráva dne...
    E2E4
    E2E4 --- ---
    LOJZA: on to dělá naslepo, ale asi celkem dobře rozumí jak to obecně funguje, a jak asi tak zhruba vypadá dřívější verze. prostě vidí v těch slovech jiný souvislosti než my..
    MICHIGAN
    MICHIGAN --- ---
    E2E4: on to hlavne taky neni midjourney prompt
    LOJZA: tohle az bude fungovat, tak to bude nejvetsi boom AI vubec. v podstate to bude znamenat, ze vezmes jakykoliv video treba z youtube a prelozis si ho v AI do svyho jazyka (a klidne by pro zacatek stacily jen ty titulky).
    casem pak automaticky prekladace fungujici realtime (neco malo uz existuje i dneska, ale dost spatne a bez vnitrni logiky)
    KERRAY
    KERRAY --- ---
    LOJZA: jo, a prostě když budeš dost dlouho zkoušet, a tak něco zajímavýho vygeneruješ...
    LOJZA
    LOJZA --- ---
    E2E4: To vypadá dobře. Vyzkouším, díky.
    E2E4
    E2E4 --- ---
    LOJZA: vygooglil jsem ti toto: https://sonix.ai/translation

    jinak pro obejiti limitu na velikost soouboru u moznosti #2 muzes re-encodovat na nizsi kvalitu, prelozit a pak k tomu zas pridat puvodni stopu..
    NUSPHIR
    NUSPHIR --- ---
    posun v oblasti text 2 video, image to video, resp. úprava zdrojového videa do nové podoby podle promptu,

    Dreamix
    https://www.youtube.com/watch?v=i5sO-BOFVoo
    LOJZA
    LOJZA --- ---
    Ještě to tu lehce zaspamuju svým praktickým dotazem; pardon.

    Mám vyšší desítky hodin nahrávek školení v češtině. Jde o záznamy z Teams workshopů, čili videa. Potřeboval bych k tomu udělat anglický voiceover.

    Jak nejlépe postupovat s využitím AI a MacOS? Máte někdo zkušenost?

    Co jsem prozatím vyzkoušel:
    1) přes Adapter jsem si extrahoval zvukovou stopu do mp3.
    2) přes API OpenAI (Whisper) jsem si nechal vygenerovat "srt" titulky rovnou v angličtině. Cool, ale ne tak cool. S mluvenou češtinou si sice báječně poradí a anglický překlad nevypadá vůbec zle, ale je tu tvrdý limit na 1 soubor 25 MB, což v lepším případě pobere tak 30 minut záznamu. Což znamená u dvouhodinových školení řezat na čtyřikrát a pak ještě posouvat časové indexy v "srt" souborech. A ve finále se tím nedostávám k voiceoveru...
    3) nezávisle na předchozím jsem si vyzkoušel jednoduchý voiceover přes "say" v MacOS terminálu. Fajn výstup, ale nerozumí si to s časováním, takže je potřeba ručně ošetřovat text, vkládat příkazy pro pauzu... prostě nepoužitelné pro hromadné zpracování, byť strojového překladu.

    Long story short: nenapadá vás nějaký způsob, jak zpracovat třeba 100 hodin videí v češtině tak, že k nim dostanu synchronizované audio stopy v angličtině a zároveň mi to nezabere víc, než třeba 2 dny práce a náklady budou do cca 300 USD..? Díky.
    E2E4
    E2E4 --- ---
    LOJZA: super, diky moc. Holt na automatickou tvorbu infografik to jeste neni. :)
    LOJZA
    LOJZA --- ---
    LOJZA: Aha, tak ne, blbě jsem slovo "Sexual" detekoval já, protože jsem hledal case-sensitive :)

    Každopádně, z výsledku nadšený nebudeš:

    LOJZA
    LOJZA --- ---
    E2E4: Zkus si ten prompt ještě trochu ošetřit.

    Pokus 1, pokus 2 (viz screenshoty) a pokus 3 skončil s 5 minutovým banem :/

    Midjourney zřejmě nějak blbě detekuje slovo "sexual" i tam, kde už není...

    Poslední zkoušený prompt:

    Create a detailed and visually appealing schematic of the Plasmodium lifecycle in a circular format. Position each phase its development along the outline of the circle, with clear and distinct arrows connecting one phase to the next in a clockwise direction. The phases should be represented by descriptive labels or icons, and the transitions between phases should be emphasized using arrows with a consistent style. Start with the "Sporozoites" phase at the top of the circle, where a female Anopheles mosquito injects sporozoites into a human host during a blood meal. Use an icon or illustration of a mosquito to represent this phase. Proceed clockwise to the "Liver Stage (Exoerythrocytic schizogony)" phase, where the sporozoites travel to the liver and enter hepatocytes. Visually represent the liver and liver cells in this phase. Next, illustrate the "Blood Stage (Erythrocytic schizogony)" phase. In this phase, merozoites emerge from liver cells, enter the bloodstream, and enter red blood cells. Show merozoites entering red blood cells and developing into ring-stage trophozoites. Continue to the "Gametocytes" phase, where some merozoites develop into male and female gametocytes within red blood cells. Depict the differentiation of these male and female forms of the Plasmodium. Move to the "Mosquito takes a blood meal" phase, where an mosquito without Plasmodium ingests gametocytes during a blood meal from a human that has Plasmodium. Include an illustration of a mosquito feeding on a human. Finally, illustrate the "Sexual Reproduction Stage" phase. In this phase, gametocytes mature into male and female gametes within the mosquito's midgut, fertilization occurs, and new sporozoites are formed. Show the fertilization process and the development of sporozoites. Connect the final phase back to the first "Sporozoites" phase with an arrow, completing the circle and emphasizing the cyclical nature of the Plasmodium lifecycle. Make sure to use a harmonious color palette, clear typography, and visually consistent icons or illustrations for each phase. The schematic should be easy to understand and visually engaging.

    LOJZA
    LOJZA --- ---
    KERRAY: Mno, v zásadě to dokazuje, že stávající image-generative AI umí i méně hyperrealistické obrázky... Vadí mi na tom asi tolik, že to autor podává tak, že mu ChatGPT udělala "early feeling", jakoby chápala, co to "early feeling" vlastně je. Jenže ChatGPT nemá třeba o nejnovějším Midourney modelu IMHO ani potuchy. Čili prompt, který mu ChatGPT vygenerovala, je v zásadě střelba naslepo, resp. autor musel ChatGPT dobře vysvětlit, co vlastně chce. Takže taková AI pro AI, resp. autorovi se nechtělo vymýšlet prompt, tak si ho popsal pro ChatGPT. Že by to ale znamenalo, že jedna AI umí přesvědčit jinou AI, aby se chovala "jako dřív", tak to bych řekl, že ani omylem :/
    Kliknutím sem můžete změnit nastavení reklam