• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    RUDOLFMachine Learning | Strojové učení | In Machines We Trust | Víra v mechanickou bestii
    Pokec kolem machine learning.

    Machine learning komunita v čechách žije kolem MLMU.
    http://www.mlmu.cz
    http://www.meetup.com/Prague-Machine-Learning/

    Kurzy
    https://www.coursera.org/courses?query=machine%20learning
    rozbalit záhlaví
    KYRKYJ
    KYRKYJ --- ---
    ICARUS: Před nějakou dobou jsme dělal finetuning BERTa, používal jsme na to transformers knihovnu: https://github.com/huggingface/transformers, ta obsahuje i GPT-2.
    Předtím jsem zkoušel implementaci BERTa v tensorflow, a ta při tréninku potřebovala výrazně víc paměti než ty transformers v pytorchi. To je nejspíš tím, že velkou část paměti spotřebuje první embedding vrstva (token do vektoru). Tensorflow si nejprve připraví celý výpočetní graf, tj. alokuje paměť pro gradient u každého token embeddingu. Pytorch naopak výpočetní graf vytváří "define-by-run" přístupem, tj. alokuje pameť jen když jí bude používat. Při každém batchi použiješ jen pár tokenů -> pytorch potřeboval výrazně méně paměti (asi 6GB vs 16GB).
    Asi by to šlo udělat i v tensorflow (2.0) použitím eager execution.
    Jinak těch 300$ jsi spočítal z toho že víš jak dlouho chceš trénovat? Na AWS je gpu instance s Teslou asi od 1$ / hod. myslím, na google cloudu to bude podobně. Existují i tzv. spot instance (https://aws.amazon.com/ec2/spot/pricing/), které jsou několikrát levnější, ale nemáš zaručené že ti jí během běhu neshodí (ale když pořešíš nějaké průběžné ukládání pro tento případ, tak asi můžeš dost ušetřit.)
    ICARUS
    ICARUS --- ---
    Mate nekdo zkusenost s finetuningem GPT-2? Mam tu cca 20M text, pres ktery bych chtel GPT-2 preucit a nasledne pouzivat na generovani textu. Zatim pouzivam skvely python wrapper gpt-2-simple, ale momentalne bojuji s HW. Mam tu 2070, na ktere (pres Docker) provozuju Tensorflow, ale jsem schopen pouzit jen zakladni 124M model. Uz 355M model je znacne nestabilni, protoze se mi nevejde do VRAM.

    Premyslel jsem, ze bych zkusil finetuning nekde v Cloudu, nejspis na Google Compute Engine, ale ty ceny jsou dost krvave (Za Teslu T4 chteji asi $300). Mate s tim nekdo prakticke zkusenosti?
    CUCHULAIN
    CUCHULAIN --- ---
    MART1NKA: jo, Morphoditu jsem taky zkoušel :)
    SOPTIK
    SOPTIK --- ---
    JINX: Nz :-) ale bacha na ty ruzne kaggle datasety, spoustu z nich ma chyby v anotacich.
    JINX
    JINX --- ---
    SOPTIK: To je skvele! Diky :-)
    SOPTIK
    SOPTIK --- ---
    JINX: Kdyz hledam nejake nestandardni datasety, tak vetsinou zacinam tu https://toolbox.google.com/datasetsearch
    MART1NKA
    MART1NKA --- ---
    CUCHULAIN: Jee potešil si :). Lematizér češtiny sa dá vyriešiť nástrojom of ÚFALu, ktorý tiež dodáva Geneea. Na komerčné účely najľahšou cestou so mnou v pošte. http://ufal.mff.cuni.cz/morphodita Má ale jednu vadu, je to robené na prehistorickom korpuse. Ak to má byť language independent, môžeme poskytnúť konzultáciu.
    JINX
    JINX --- ---
    KYRKYJ: Potrebuju na jedne siti naucit X datasetu, zajima me jenom co nejvetsi variabilita.
    KYRKYJ
    KYRKYJ --- ---
    JINX: ImageNet je největší dostupný dataset na klasifikaci, je to standart. Záleží o co se pokoušíš / co tvůj model má umět. Pokud je to klasifikace na co největším datasetu, tak nic lepšího než ImageNet neseženeš, pokud máš nějaký jiný cíl, tak záleží co konkrétně chceš.
    JINX
    JINX --- ---
    Mate nekdo tip na podobne kvalitni dataset jako MS-COCO ale vhodny pro klasifikaci? (Zkousim ImageNet ale ty obrazky se mi moc nelibi).
    CUCHULAIN
    CUCHULAIN --- ---
    TUSIL: třeba tutaj pražáci :)
    Geneea - Text Analytics
    https://www.geneea.com/
    demo - https://demo.geneea.com/

    nebo sám. já to řešil přes TensorFlow + Keras + bow. akorát je potřeba vyřešit lematizaci slov.
    TUSIL
    TUSIL --- ---
    Ahoj, snazim se najit nejaky zpusob, jak ziskat informace o tiskovych zpravach, ktere mi dorazi emailem a napadla me cesta ML, se kterym ale nemam moc zkusenosti. Cilem je zjistit nasledujici:
    • ktere spolecnosti se tiskova zprava tyka
    • produkt/sluzba/udalost ktere se tyka
    • rozdeleni prichozi zpravy na casti, ze kterych se bezne sklada (nazev, obsah, informace o spolecnosti, kontakty pro novinare atd), ale v kazdem emailu je to trochu jinak

    Co jsem se snazil googlit, tak jako nejzajimavejsi mi prisla sluzba Amazon Comprehend, protoze jsem vyvojar, ktery nema moc zkusenosti s ML. Bohuzel ale neni dostupna pro cestinu, takze predpokladam, ze budu muset jit do ML a napadlo me, ze bych se tu zeptal, jestli by me nekdo nemohl nasmerovat kudy se vydat?:) Diky
    SOPTIK
    SOPTIK --- ---
    JINX: Ja byl minuly rok, letos mi to nevyjde z casovych duvodu, jinak bych sel. Mne se minuly rok prednasky libily, kazdopadne letos je vetsi tlak na to, aby prispevky byly vice odborny, tak jsem zvedavy.
    PJOTRIK
    PJOTRIK --- ---
    JINX: Trochu necekane tam budu, tak by bylo fajn se s nekym potkat
    JINX
    JINX --- ---
    PJOTRIK: Byl jsem tam minuly rok a letos to asi vynecham. Proc se ptas?
    PJOTRIK
    PJOTRIK --- ---
    Chystate se nekdo na ML Prague v unoru?
    SAL2040
    SAL2040 --- ---
    má tu prosím někdo zkušenosti s n-gramovými modely? potřeboval bych poradit s iplementací Kneser-Nay smoothing.
    klidně do pošty.
    DAVESADE
    DAVESADE --- ---
    Nemel by nekdo zajem o koupi AWS Deep Racer? Ofiko v prodeji od brezna 2019, ale vyhral jsem v soutezi dev kousek a nemam pro nej prakticke vyuziti.
    HANT
    HANT --- ---
    Humble Book Bundle: Machine Learning by O'Reilly (pay what you want and help charity)
    https://www.humblebundle.com/...8_08_27_essentialknowledge_bookbundle&linkID=&utm_content=cta_button
    P0CIN
    P0CIN --- ---
    SH_PANDA: samozrejme bych rad, ale podle SZ se ukazuje ze to tak uplne neni binarni klasifikace zprav tykajici se politky (doufal jsem v neco pikantniho tykajici se Babis/SPD vs normalni lidi :-))) )
    ale je to neco krapet komplikovanejsi, takze na to spise nebudu mit kapacitu
    MART1NKA
    MART1NKA --- ---
    ZONICEK: Záleží na viac faktoroch. Ak vieš trošku robiť s pythonom, môžem poprípade poskytnúť nejaké vzorové notebooky na sentiment. Napíš mi do pošty. Chcela by som nejaké zmysluplné dáta a je možnosť, ak máš teda čas a nepotrebuješ to zajtra, že by som ti to urobila za symbolickú cenu v rámci vlastného vzdelávania.
    Kliknutím sem můžete změnit nastavení reklam