• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    RUDOLFMachine Learning | Strojové učení | In Machines We Trust | Víra v mechanickou bestii
    RUDOLF
    RUDOLF --- ---
    RUDOLF
    RUDOLF --- ---
    Než nasadím text na správný klasifikátor, potřebuju rozdělit textový dokumenty podle jazyka.

    Na první jsem našel google implementaci v java
    GitHub - shuyo/language-detection: This is a language detection library implemented in plain Java. (aliases: language identification, language guessing)
    https://github.com/shuyo/language-detection

    a případně v pythonu.
    langdetect 1.0.6 : Python Package Index
    https://pypi.python.org/pypi/langdetect?

    RUDOLF
    RUDOLF --- ---
    Sů z komunity kolem web archivingu, tak mám minimální ML znalost. Ale pro výzkumníky/veřejnost potřebujeme generovat užitečné sety dat. Např. Internet Archive má službu Archive-It Reaserch Service, připravují tři typy setů. Graf odkazů v čase, Extrakci metadat z archivních balíčků a dataset s jmenýma entitama. Pro rozpoznání entit používají Standfor NRE: http://nlp.stanford.edu/software/CRF-NER.shtml

    Pro český jazyk se mi zdá ideání NameTag: http://ufal.mff.cuni.cz/nametag -- vytvoříme s ním mnohem komplexnější datový set, který musí být z menší části anonymizován (tel. čísla, maily, možná adresy). Primárně budou sety ke stažení pro URL+Timestamp.
    Kliknutím sem můžete změnit nastavení reklam