• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    PANTARILDistribuované vyhledávací systémy - YaCy, FAROO a další. Pojďme postavit otevřenou a necenzurovanou variantu Googlu.
    _BENNY
    _BENNY --- ---
    NEKROMANT: anebo si to proste zacalujes, kdyz to tak strasne moc potrebujes ;)
    NEKROMANT
    NEKROMANT --- ---
    Škoda že není nějaká debata o Distribuované vyhledávacích systémech mimo NYX :)
    Protože na nyxu nejde (krom jiného) obsah bez příplatku pořádně prohledávat :(
    "musíte zadat jméno autora - hledání bez udání autora je k dispozici pouze v prémiové verzi"

    PS: doufám že nedostanu BAN, ale když dostanu tak mě to alespoň ten systém tady nebude štvát a o obsah který je jen tu hold přijdu.. (nebo si pod další IP založím další účet s vycucanými údaji a budu tu pouze prohlížet a nebudu tvořit sám obsah jak to dělám na jiných uzavřených webech, forech a sociálních sítí které mě štvou, ale je tam zajímavý obsah..) :)
    XCHAOS
    XCHAOS --- ---
    jo, máš pravdu... počet dostupných nodů zase rychle klesl... jinak já si dnes pohrál s rankingem výsledků, nějak se mi ten přednastavený vůbec nelíbí. hledaná fráze v titulku nebo textu odkazu mě přijde daleko důležitější, než třeba v URL, apod.

    crawl po restartu mi kdysi taky blbnul, ale teď prostě jede. čas od času ale musím mazat data ukládaná do /var/lib/yacy/něco (takhle z hlavy nevím)
    PANTARIL
    PANTARIL --- ---
    XCHAOS: taky sem upgradoval, predtim jsem si znovu prosel yacy nastaveni, zapnul jsm tu heuristiku jak pisu nize, publikoval jsem DHT seed file, cims se ze me stal principal peer a v Performance -> Online Caution Settings jsem zkratil na polovinu zpozdeni, ktere se vkladaly mezi ruzne requesty, aby nedoslo k pretizeni.

    Ja vidim celkem 121 aktivnich a 282 pasivnich peeru a celkem 998,805,074 indexovanych dokumentu.

    Hral jsem si trochu s nastavenim vlastniho crawleru, ale trochu mi to zlobi. Poprve po restartu yacy se mi crawl spusti bez problemu, ale kdyz ho zkusim spustit podruhe, potreti atd, tak se mi proste neinicalizuje. V sheduleru je napsano ze crawl instance running, ale zadne url ve fronte nejsou. Kdyz yacy restartuju, tak to zas jednou funguje a pak nic. Ale nezkousel jsem to jeste v aktualni verzi po upgradu:)

    Nicmene jsem povoli zpracovavani remote crawl requestu, coz funguje dobre, takze crawler se mi nudit nebude.
    PANTARIL
    PANTARIL --- ---
    XCHAOS: samozrejme s yacy nemuzu microsoft moc kruitizovat, protoze delam to same:)

    V nastaveni heuristiky jsem povolil volby:

    scroogle: load external search result list from scroogle
    When using this heuristic, then every search request line is used for a call to scroogle. 20 results are taken from scroogle and loaded simultanously, parsed and indexed immediately.

    blekko: load external search result list from blekko
    When using this heuristic, then every search request line is used for a call to blekko. 20 results are taken from blekko and loaded simultanously, parsed and indexed immediately.
    PANTARIL
    PANTARIL --- ---
    XCHAOS: moc silly mi to neprijde, microsoft zneuzival svoje zakazniky, kteri pouzivaji explorer a google. Pokud zakaznik vyhledal neco v googlu a klikl na vysledek, microsoft si ulozil relaci vyhledavaci dotaz => vysledek.

    To pak pouzival ve svem vyhledavaci bing.
    Google ho nachytal tak, ze do sveho vyhledavace podstrcil nesmyslnou relaci "delhipublicschool40 chdjob" => "Credit Union website" a tato se opravdu dostala do Bingu.

    Silly mi prijdou reakce microsoftu a "expertu", kteri se to snazi bagatelizovat.
    XCHAOS
    XCHAOS --- ---
    wow, dneska po upgradu a restartu spadlého Yacy vidím online 173 nodů a indexuje to 1.2 miliardy stránek... to není zlé.
    XCHAOS
    XCHAOS --- ---
    PANTARIL
    PANTARIL --- ---
    Taky jsem updatnul, zatim mi to krome toho jednoho padu drzi ale odezvy jsou dost pomale, o relevanci a pouzitelnosti vysledku hledani radsi ani nemluvim:)

    XCHAOS
    XCHAOS --- ---
    po dnešní aktualizaci 0.99/7463 - upgradnul jsem při příležitosti dalšího pádu.

    je to děs... ale pořád mi přijde, že se to chová výrazně "ukázněněji", než ta verze instalovaná před několika měsíci.
    XCHAOS
    XCHAOS --- ---
    já mám Process 0.99/7457
    XCHAOS
    XCHAOS --- ---
    dnes mi to spadlo, nová verze přitom uvolněná nebyla, po prostém restartu se to chytlo
    PANTARIL
    PANTARIL --- ---
    XCHAOS: me to zatim taky drzi.. jakou ze to mas tu verzi? ja mam 0.99/7455 (viz zalozka system update v administraci)
    XCHAOS
    XCHAOS --- ---
    Tak dneska reinstalovaný Yacy prozatím drží a vrací relativně zajímavější výsledky než dříve... ale nevím čím to je, ale počet dostupných nodů mi zase klesl někam k hodnotě 60 a počet dostupných stránek pod 1 miliardu. mám několik teorií... jedna z nich je, že ten program je prostě pořád příliš náročný péči administrátora... a i když po po vlně zájmu v důsledku zpráv o cenzurování výsledků Googlu počet nodů krátkodobě vzrostl, tak bohužel celková nepraktičnost toho programu většinu z těchto zvědavých betatesterů zase odradila.

    Každopádně se zdá, že lokální dotazy mají vliv na DHT transfer i Remote crawling, pokud to někoho zajímá po technické stránce.
    XCHAOS
    XCHAOS --- ---
    jinak http://teckacz.arachne.cz:8080/ snad už dneska nepadá, takže koho to odradilo včera, tak může testovat.
    XCHAOS
    XCHAOS --- ---
    Tak tohle mě fakt u nové verze příjemně překvapilo - zatímco dříve v téhle statistice byly nesmysly, tak teď ke mě DHT ukládá hashe z domén, které skutečně mají nějaký informační obsah. (možná to má souvislost s dotazy, které předtím vzešly z mého node ?)

    3) Results for Index Transfer

    The url fetch was initiated and executed by other peers. These links here have been transmitted to you because your peer is the most appropriate for storage according to the logic of the Global Distributed Hash Table.

    Statistics about 100 domains in this stack:
    Domain URLs
    de.wikipedia.org 20018
    www.mininova.org 17506
    en.wikipedia.org 12271
    www.sciencedaily.com 10426

    VOZKA: hustý... to ovšem může být prostě jen nepodepsaný https:// content uvnitř IFRAME... to je celkem normální...
    VOZKA
    VOZKA --- ---
    NEKROMANT: Tento rámec byl blokován, protože obsahuje určitý nezabezpečený obsah.
    NEKROMANT
    NEKROMANT --- ---
    XCHAOS
    XCHAOS --- ---
    PANTARIL: já nakonec celý balík odinstaloval (apt-get remove) a pak znovu nainstaloval. zajímavé je, že teď je to (po promazání všech dat nahromaděných za nekolik měsíců) výrazně rychlejší. (ale paměť už tomu zase stačila dojít :-) ale zafungoval restart přes web, což v mi předchozí instalované verzi nešlo)

    akorát jsem node musel přejmenovat - jméno teckacz je už natrvalo zabrané tou původní instalací, kterou jsem ale smazal :-)
    PANTARIL
    PANTARIL --- ---
    XCHAOS: jo tak se mi to pres noc dostalo do podobneho stavu, java proces bezel, ale nepsal nic do logu, nesel slusne sestrelit a requesty samozrejme nespracovaval. Musel jsem ho nasilne killnout a znovu spustit.

    S takovou to moc nema smysl pouzivat, zkusim updatovat na nejnovejsi verzi pomoci toho jejich auto-updatu a pokud to nepomuze, tak par tydnu / mesicu pockam, nez se to dostane do stavu, kdy to aspon nebude padat.
    Kliknutím sem můžete změnit nastavení reklam