• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    RUDOLFMachine Learning | Strojové učení | In Machines We Trust | Víra v mechanickou bestii
    RUDOLF
    RUDOLF --- ---
    Sů z komunity kolem web archivingu, tak mám minimální ML znalost. Ale pro výzkumníky/veřejnost potřebujeme generovat užitečné sety dat. Např. Internet Archive má službu Archive-It Reaserch Service, připravují tři typy setů. Graf odkazů v čase, Extrakci metadat z archivních balíčků a dataset s jmenýma entitama. Pro rozpoznání entit používají Standfor NRE: http://nlp.stanford.edu/software/CRF-NER.shtml

    Pro český jazyk se mi zdá ideání NameTag: http://ufal.mff.cuni.cz/nametag -- vytvoříme s ním mnohem komplexnější datový set, který musí být z menší části anonymizován (tel. čísla, maily, možná adresy). Primárně budou sety ke stažení pro URL+Timestamp.
    Kliknutím sem můžete změnit nastavení reklam