• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    PANTARILDistribuované vyhledávací systémy - YaCy, FAROO a další. Pojďme postavit otevřenou a necenzurovanou variantu Googlu.
    XCHAOS
    XCHAOS --- ---
    YaCy 'teckacz': Search Page
    http://teckacz.arachne.cz:8080/
    dnes po upgradu a restartu jede, vidím 1.4 miliardy stránek a dále indexuju
    XCHAOS
    XCHAOS --- ---
    tak http://teckacz.arachne.cz:8080 mi už poslední dobou nepadá tak často.
    dnes vidím 1.3 miliardy stránek.
    NEKROMANT
    NEKROMANT --- ---
    Zajímavé je že dlouhou dobu to umí také seznam, na rozdíl od googlu, který to neumí, stejěn tak neumí podcasty/vcasty z youtube :)
    XCHAOS
    XCHAOS --- ---
    VITEX: max. počet stránek indexovaných za minutu se dá hodně omezit, případně vůbec sám necrawlovat a pouze přijímat Distributed Hash Transfery.

    jinak spolupráci na vývoji klienta napsaného v C je právě to, k čemu bych schopnější lidi v tomhle klubu třeba časem rád vyhecoval :-) minimálně bude potřeba zjistit, jaké existují hotové knihovny a kde se dá nastudovat jejich API... víceméně, na C je tu teda i jiný klub, ale tam s tebou nejdřív všichni budou polemizovat, že to vlastně vůbec není potřeba psát: [ ANSI C/C99 (specifikace), GNU C (gcc, glibc), Tiny C (tcc) a POSIX - ne nutně C++,g++,libstdc++ nebo Win32 API ] - prostě ten klub není úplně zralý.

    kdyby tady proběhla diskuze,co přesně nás štve na Yacy, a jak to vlastně asi celé funguje - tak by pak mělo smysl v klubu o ANSI C začít debatovat, jak by se to dalo zoptimalizovat implementací v C...
    VITEX
    VITEX --- ---
    Stále čekám na klienta napsaného v C. Jelikož používám na serveru openfire, obávám se že nemám dostatečný výkon na provoz druhé javové zběsilosti...
    XCHAOS
    XCHAOS --- ---
    Poslední dobou se Yacy stabilně drží na cca 1.3 miliardy stránek - zřejmě někdo spustil nějaký velký výkonný node. počet nodů pořád hodně osciluje, cca mezi 90-120.

    nadále mi to padá asi tak obden.
    XCHAOS
    XCHAOS --- ---
    Yacy: dnes > 130 dosažitelných nodů a > 1.3 miliardy indexovaných stránek. to je docela rekord...
    XCHAOS
    XCHAOS --- ---
    PANTARIL: takhle ... 100-150 nodů je to, s kolika navážeš přímé spojení... ale celková velikosti sítě je podle mě větší....

    každopádně souhlasím, že by se do projektu muselo zapojít tak 1000x víc lidí, aby to za něco stálo
    PANTARIL
    PANTARIL --- ---
    XCHAOS: nahodou ty posledni verze uz mi vubec nepadaji, akorat ta relevance vysledku je mizerna, ale to je dano nejspis tim, ze je nutno nacrawlovat miliardy stranek a ulozit petabyty dat aby to za neco stalo, a na to tech 150 domacich nodu nemuze mit nikdy kapacity. Takze je potreba rozsirit uzivatelskou zakladnu:)

    Je dobre ze vyvoj ocividne nestoji, od posledne zas pribyl novy release.
    XCHAOS
    XCHAOS --- ---
    PANTARIL: no, bejt nima, tak radši chodím kanálama :-)
    XCHAOS
    XCHAOS --- ---
    dneska vidím 157 aktivních nodů a 1.2 miliardy stránek, paráda :-). je vidět, že o službu je velký zájem, a že kdyby to jen trochu fungovalo, tak zájemců ochotných provozovat nody sítě budou okamžitě tisíce...

    ale nevím, jestli za to vděčíme vychytání bugů v kódu: když jsem se podíval, jak si Yacy vede, hlásil akorát nějaký Java heap space error (ale zase i to je pokrok - starší verze prostě jen potichu tuhly...)

    a musel jsem opět přejmenovat svůj node....
    NEKROMANT
    NEKROMANT --- ---
    _BENNY: Nebudu platit za něco s čím nesouhlasím, to raději pošlu peníze vývojařům YaCy a přeložím si anglické forum google překladačem :D
    PS: nechci prudit, svůj názor jsem vyjádřil a přesto že se mi NYX nelíbí tak tu teď píšu..
    PANTARIL
    PANTARIL --- ---
    NEKROMANT: hodil jsem na minhome odkaz na yacy eng. forum: http://www.yacy-forum.org/

    Je tam pry mozno sehnat vetsinu vyvojaru.
    _BENNY
    _BENNY --- ---
    NEKROMANT: anebo si to proste zacalujes, kdyz to tak strasne moc potrebujes ;)
    NEKROMANT
    NEKROMANT --- ---
    Škoda že není nějaká debata o Distribuované vyhledávacích systémech mimo NYX :)
    Protože na nyxu nejde (krom jiného) obsah bez příplatku pořádně prohledávat :(
    "musíte zadat jméno autora - hledání bez udání autora je k dispozici pouze v prémiové verzi"

    PS: doufám že nedostanu BAN, ale když dostanu tak mě to alespoň ten systém tady nebude štvát a o obsah který je jen tu hold přijdu.. (nebo si pod další IP založím další účet s vycucanými údaji a budu tu pouze prohlížet a nebudu tvořit sám obsah jak to dělám na jiných uzavřených webech, forech a sociálních sítí které mě štvou, ale je tam zajímavý obsah..) :)
    XCHAOS
    XCHAOS --- ---
    jo, máš pravdu... počet dostupných nodů zase rychle klesl... jinak já si dnes pohrál s rankingem výsledků, nějak se mi ten přednastavený vůbec nelíbí. hledaná fráze v titulku nebo textu odkazu mě přijde daleko důležitější, než třeba v URL, apod.

    crawl po restartu mi kdysi taky blbnul, ale teď prostě jede. čas od času ale musím mazat data ukládaná do /var/lib/yacy/něco (takhle z hlavy nevím)
    PANTARIL
    PANTARIL --- ---
    XCHAOS: taky sem upgradoval, predtim jsem si znovu prosel yacy nastaveni, zapnul jsm tu heuristiku jak pisu nize, publikoval jsem DHT seed file, cims se ze me stal principal peer a v Performance -> Online Caution Settings jsem zkratil na polovinu zpozdeni, ktere se vkladaly mezi ruzne requesty, aby nedoslo k pretizeni.

    Ja vidim celkem 121 aktivnich a 282 pasivnich peeru a celkem 998,805,074 indexovanych dokumentu.

    Hral jsem si trochu s nastavenim vlastniho crawleru, ale trochu mi to zlobi. Poprve po restartu yacy se mi crawl spusti bez problemu, ale kdyz ho zkusim spustit podruhe, potreti atd, tak se mi proste neinicalizuje. V sheduleru je napsano ze crawl instance running, ale zadne url ve fronte nejsou. Kdyz yacy restartuju, tak to zas jednou funguje a pak nic. Ale nezkousel jsem to jeste v aktualni verzi po upgradu:)

    Nicmene jsem povoli zpracovavani remote crawl requestu, coz funguje dobre, takze crawler se mi nudit nebude.
    PANTARIL
    PANTARIL --- ---
    XCHAOS: samozrejme s yacy nemuzu microsoft moc kruitizovat, protoze delam to same:)

    V nastaveni heuristiky jsem povolil volby:

    scroogle: load external search result list from scroogle
    When using this heuristic, then every search request line is used for a call to scroogle. 20 results are taken from scroogle and loaded simultanously, parsed and indexed immediately.

    blekko: load external search result list from blekko
    When using this heuristic, then every search request line is used for a call to blekko. 20 results are taken from blekko and loaded simultanously, parsed and indexed immediately.
    PANTARIL
    PANTARIL --- ---
    XCHAOS: moc silly mi to neprijde, microsoft zneuzival svoje zakazniky, kteri pouzivaji explorer a google. Pokud zakaznik vyhledal neco v googlu a klikl na vysledek, microsoft si ulozil relaci vyhledavaci dotaz => vysledek.

    To pak pouzival ve svem vyhledavaci bing.
    Google ho nachytal tak, ze do sveho vyhledavace podstrcil nesmyslnou relaci "delhipublicschool40 chdjob" => "Credit Union website" a tato se opravdu dostala do Bingu.

    Silly mi prijdou reakce microsoftu a "expertu", kteri se to snazi bagatelizovat.
    Kliknutím sem můžete změnit nastavení reklam