Machine Learning | Strojové učení | In Machines We Trust

Machine Learning | Strojové učení | In Machines We Trust | Víra v mechanickou bestii

RUDOLF --- --- 13:17:51 26.9.2016

OK all is dead, budu sem zatím sázet nějé zajímavosti

https://flipboard.com/...-facebook-has-built-a-world-class-murder/f-2cd418b4c4%2Fbusinessinsider.com

RUDOLF --- --- 8:45:14 6.8.2016

Než nasadím text na správný klasifikátor, potřebuju rozdělit textový dokumenty podle jazyka.

Na první jsem našel google implementaci v java
GitHub - shuyo/language-detection: This is a language detection library implemented in plain Java. (aliases: language identification, language guessing)
https://github.com/shuyo/language-detection

a případně v pythonu.
langdetect 1.0.6 : Python Package Index
https://pypi.python.org/pypi/langdetect?

RUDOLF --- --- 8:39:55 6.8.2016

Sů z komunity kolem web archivingu, tak mám minimální ML znalost. Ale pro výzkumníky/veřejnost potřebujeme generovat užitečné sety dat. Např. Internet Archive má službu Archive-It Reaserch Service, připravují tři typy setů. Graf odkazů v čase, Extrakci metadat z archivních balíčků a dataset s jmenýma entitama. Pro rozpoznání entit používají Standfor NRE: http://nlp.stanford.edu/software/CRF-NER.shtml

Pro český jazyk se mi zdá ideání NameTag: http://ufal.mff.cuni.cz/nametag -- vytvoříme s ním mnohem komplexnější datový set, který musí být z menší části anonymizován (tel. čísla, maily, možná adresy). Primárně budou sety ke stažení pro URL+Timestamp.

Kliknutím sem můžete změnit nastavení reklam

přezdívka
heslo


pamatuj si mě
registrace
ztracené heslo?