Sů z komunity kolem web archivingu, tak mám minimální ML znalost. Ale pro výzkumníky/veřejnost potřebujeme generovat užitečné sety dat. Např. Internet Archive má službu Archive-It Reaserch Service, připravují tři typy setů. Graf odkazů v čase, Extrakci metadat z archivních balíčků a dataset s jmenýma entitama. Pro rozpoznání entit používají Standfor NRE:
http://nlp.stanford.edu/software/CRF-NER.shtml
Pro český jazyk se mi zdá ideání NameTag:
http://ufal.mff.cuni.cz/nametag -- vytvoříme s ním mnohem komplexnější datový set, který musí být z menší části anonymizován (tel. čísla, maily, možná adresy). Primárně budou sety ke stažení pro URL+Timestamp.