Machine Learning | Strojové učení | In Machines We Trust

Machine Learning | Strojové učení | In Machines We Trust | Víra v mechanickou bestii

ROXTYDY_A_BIBOB --- --- 14:40:09 10.8.2021

zdravím, máme aktuálně dva projekty na rozpoznávání / trackování / matchování obrazů a dat (jak z kamer, tak 2D scannerů) v těžkém průmyslu (sochory 1000+°C). Vypadá to na skutečně zajímavé a složité akce - jsem si skoro jistý, že ve střední Evropě realizované poprvé;) Pokud víte o někom, koho by to mohlo zajímat (samozřejmě za odpovídající úplatu), tak prosím do pošty. Budeme to jinak asi dělat s ČVUT, ale pokud by to bylo možné, tak bych se tomu rád vyhnul:) díky! případně, pokud víte o lepším auditku, kam to napsat...

JINX --- --- 9:05:56 17.1.2021

Rad bych zalozil auditko souvisejici s vyvojem a provozem AI platformy Jetson od Nvidie [ JINX @ nyx :: kluby :: hardware ] - pokud vas to nekoho zaujalo muzete prosim prihodit hlas?

RUDOLF --- --- 20:13:21 4.11.2020

Hele, jedete někdo AWS SageMaker?

Máme CI/CD na AWS na testování naší platformy. Dost často tam vytváříme SM Notebook instanci, ale občas nabíhá ukrutně pomalu. Tak mě napadlo, že je to tím, že používáme burstovatelné T instance a jelikož je furt zapínáme a vypínáme, tak nemáme kredit. Chtěl jsem si to potvrdit, ale SM notebook instance zdá se nepushují žádné metriky do CloudWatch. Je mé sledování správné?

THEODORT --- --- 10:19:44 1.7.2020

MATHEZ: jsem myslel ze tam delas prave taky.. :D

MATHEZ --- --- 10:19:12 1.7.2020

1 odpověď

THEODORT: no ja to prodavam, udelali to kluci z DataVision :]

THEODORT --- --- 1:08:28 1.7.2020

1 odpověď

MATHEZ: v angularu ez af.. ;D
tedy server, na nem par api napojenych na db - lokal/private/cloud/whatever, k tomu lehci overload frontendu potrebnejma js knihovnama typu d3, three kterej zajisti jak upravy datasetu , anotaci, tak upload, pripadne cokoliv k cemu si kdyztak dodelas dalsi api..
Halcon netusim, to vite vy..

vzdyt to mas celkem vymysleny jak to tak ctu :)

MATHEZ --- --- 0:34:03 1.7.2020

1 odpověď +1

THEODORT: tak jasne databaze, myslim to tak mit mongo v kontejneru s GUIckem pro
- definici a nastaveni jakou strukturu ma mit tvuj dataset (n obrazku na objekt + JSON)
- lokalne/privatne nebo v GCP nebo AWS pro prohlizeni datasetu a jeho anotaci uzivateli ve vrstvach nad obrazky, nejaky user management
- prostredi pro easy upload aktualizaci&testovani jak lokalne tak v cloudu
- gateway do Halconu

tohle cely jako service

THEODORT --- --- 17:20:22 30.6.2020

1 odpověď

MATHEZ: jak to presne myslis? urcite databaze, kazdopadne s par detailama, ktery jsou klicovy pro cokoliv dalsiho. tzn napr hlavni db kde mas cesty k fs, nejaky zakladni info o tom kam to vede.. a na to navazany ty tvy datasety.. nasledne mas pomerene rozsahle moznosti jak jedno ci druhe dostat k userum. Ale mozna se ptas taky na neco trochu jineho? kdyztak posta nebo kafe ;D

btw pro nas chudy delny lid je zpravidla dobry si takovyhle veci nejdriv testovat napriklad v google cloud platform, free tier.. https://cloud.google.com/free tak jestli to nema nejaky pruseciky trebas

MATHEZ --- --- 16:48:53 30.6.2020

1 odpověď +1

cus, muzu se zeptat jak si resite praci s datasety co obsahuji obrazova data?
ukladani, anotaci, testovani na edgi a v cloudu, vyhledavani, atp
Pripravujeme launch puvodne interniho nastroje a pomaloucku polehoucku zaciname hledat uzivatele.

JINX --- --- 17:57:47 21.4.2020

Existuje nejaky tool/scheduler pro spousteni kodu napsaneho v TF nebo PyTorch? Predstavuju si to nejak tak, ze mam sadu experimentu, ty poslu na stroj. Ten je bude postupne vykonavat a postupne mi vracet vystupy pro jednotlive experimenty. Jde mi o co nejjednodussi automatizaci.

MATHEZ --- --- 11:50:25 3.4.2020

SOPTIK: brutalni chyby, datasety s rentgenama jsou dobry pro stavbu generatoru nesmyslu :]

KYRKYJ --- --- 13:51:46 4.3.2020

ICARUS: Před nějakou dobou jsme dělal finetuning BERTa, používal jsme na to transformers knihovnu: https://github.com/huggingface/transformers, ta obsahuje i GPT-2.
Předtím jsem zkoušel implementaci BERTa v tensorflow, a ta při tréninku potřebovala výrazně víc paměti než ty transformers v pytorchi. To je nejspíš tím, že velkou část paměti spotřebuje první embedding vrstva (token do vektoru). Tensorflow si nejprve připraví celý výpočetní graf, tj. alokuje paměť pro gradient u každého token embeddingu. Pytorch naopak výpočetní graf vytváří "define-by-run" přístupem, tj. alokuje pameť jen když jí bude používat. Při každém batchi použiješ jen pár tokenů -> pytorch potřeboval výrazně méně paměti (asi 6GB vs 16GB).
Asi by to šlo udělat i v tensorflow (2.0) použitím eager execution.
Jinak těch 300$ jsi spočítal z toho že víš jak dlouho chceš trénovat? Na AWS je gpu instance s Teslou asi od 1$ / hod. myslím, na google cloudu to bude podobně. Existují i tzv. spot instance (https://aws.amazon.com/ec2/spot/pricing/), které jsou několikrát levnější, ale nemáš zaručené že ti jí během běhu neshodí (ale když pořešíš nějaké průběžné ukládání pro tento případ, tak asi můžeš dost ušetřit.)

ICARUS --- --- 12:59:34 4.3.2020

1 odpověď

Mate nekdo zkusenost s finetuningem GPT-2? Mam tu cca 20M text, pres ktery bych chtel GPT-2 preucit a nasledne pouzivat na generovani textu. Zatim pouzivam skvely python wrapper gpt-2-simple, ale momentalne bojuji s HW. Mam tu 2070, na ktere (pres Docker) provozuju Tensorflow, ale jsem schopen pouzit jen zakladni 124M model. Uz 355M model je znacne nestabilni, protoze se mi nevejde do VRAM.

Premyslel jsem, ze bych zkusil finetuning nekde v Cloudu, nejspis na Google Compute Engine, ale ty ceny jsou dost krvave (Za Teslu T4 chteji asi $300). Mate s tim nekdo prakticke zkusenosti?

CUCHULAIN --- --- 16:19:36 30.12.2019

MART1NKA: jo, Morphoditu jsem taky zkoušel :)

SOPTIK --- --- 15:57:51 27.12.2019

1 odpověď +1

JINX: Nz :-) ale bacha na ty ruzne kaggle datasety, spoustu z nich ma chyby v anotacich.

JINX --- --- 13:00:21 27.12.2019

1 odpověď

SOPTIK: To je skvele! Diky :-)

SOPTIK --- --- 12:29:24 27.12.2019

1 odpověď +1

JINX: Kdyz hledam nejake nestandardni datasety, tak vetsinou zacinam tu https://toolbox.google.com/datasetsearch

MART1NKA --- --- 0:08:13 27.12.2019

1 odpověď

CUCHULAIN: Jee potešil si :). Lematizér češtiny sa dá vyriešiť nástrojom of ÚFALu, ktorý tiež dodáva Geneea. Na komerčné účely najľahšou cestou so mnou v pošte. http://ufal.mff.cuni.cz/morphodita Má ale jednu vadu, je to robené na prehistorickom korpuse. Ak to má byť language independent, môžeme poskytnúť konzultáciu.

JINX --- --- 8:28:46 26.12.2019

1 odpověď

KYRKYJ: Potrebuju na jedne siti naucit X datasetu, zajima me jenom co nejvetsi variabilita.

KYRKYJ --- --- 21:42:44 25.12.2019

1 odpověď

JINX: ImageNet je největší dostupný dataset na klasifikaci, je to standart. Záleží o co se pokoušíš / co tvůj model má umět. Pokud je to klasifikace na co největším datasetu, tak nic lepšího než ImageNet neseženeš, pokud máš nějaký jiný cíl, tak záleží co konkrétně chceš.

Kliknutím sem můžete změnit nastavení reklam

přezdívka
heslo


pamatuj si mě
registrace
ztracené heslo?