Distribuované vyhledávací systémy - YaCy, FAROO a další. Pojďme postavit otevřenou a necenzurovanou variantu Googlu.

XCHAOS --- --- 17:42:59 24.11.2011

YaCy 'teckacz': Search Page
http://teckacz.arachne.cz:8080/
dnes po upgradu a restartu jede, vidím 1.4 miliardy stránek a dále indexuju

XCHAOS --- --- 11:03:17 22.8.2011

tak http://teckacz.arachne.cz:8080 mi už poslední dobou nepadá tak často.
dnes vidím 1.3 miliardy stránek.

NEKROMANT --- --- 16:01:23 16.8.2011

Zajímavé je že dlouhou dobu to umí také seznam, na rozdíl od googlu, který to neumí, stejěn tak neumí podcasty/vcasty z youtube :)

XCHAOS --- --- 15:56:52 15.4.2011

nejnovější verze Yacy umí vrátit výsledky vyhledávání jako RSS feed - viz např.:

http://teckacz.arachne.cz:8080/yacysearch.rss?query=dragon+spacecraft&Enter=search+again&contentdom=text&former=dragon+spacecraft&maximumRecords=10&startRecord=0&verify=ifexist&resource=global&nav=hosts%2Cauthors%2Cnamespace%2Ctopics&urlmaskfilter=.*&prefermaskfilter=&depth=0&cat=href&constraint=&meanCount=5

XCHAOS --- --- 17:15:09 19.3.2011

VITEX: max. počet stránek indexovaných za minutu se dá hodně omezit, případně vůbec sám necrawlovat a pouze přijímat Distributed Hash Transfery.

jinak spolupráci na vývoji klienta napsaného v C je právě to, k čemu bych schopnější lidi v tomhle klubu třeba časem rád vyhecoval :-) minimálně bude potřeba zjistit, jaké existují hotové knihovny a kde se dá nastudovat jejich API... víceméně, na C je tu teda i jiný klub, ale tam s tebou nejdřív všichni budou polemizovat, že to vlastně vůbec není potřeba psát: [ ANSI C/C99 (specifikace), GNU C (gcc, glibc), Tiny C (tcc) a POSIX - ne nutně C++,g++,libstdc++ nebo Win32 API ] - prostě ten klub není úplně zralý.

kdyby tady proběhla diskuze,co přesně nás štve na Yacy, a jak to vlastně asi celé funguje - tak by pak mělo smysl v klubu o ANSI C začít debatovat, jak by se to dalo zoptimalizovat implementací v C...

VITEX --- --- 17:05:18 19.3.2011

1 odpověď

Stále čekám na klienta napsaného v C. Jelikož používám na serveru openfire, obávám se že nemám dostatečný výkon na provoz druhé javové zběsilosti...

XCHAOS --- --- 17:04:17 19.3.2011

Poslední dobou se Yacy stabilně drží na cca 1.3 miliardy stránek - zřejmě někdo spustil nějaký velký výkonný node. počet nodů pořád hodně osciluje, cca mezi 90-120.

nadále mi to padá asi tak obden.

XCHAOS --- --- 18:19:50 13.2.2011

Yacy: dnes > 130 dosažitelných nodů a > 1.3 miliardy indexovaných stránek. to je docela rekord...

XCHAOS --- --- 21:40:32 9.2.2011

PANTARIL: takhle ... 100-150 nodů je to, s kolika navážeš přímé spojení... ale celková velikosti sítě je podle mě větší....

každopádně souhlasím, že by se do projektu muselo zapojít tak 1000x víc lidí, aby to za něco stálo

PANTARIL --- --- 22:05:29 8.2.2011

1 odpověď

XCHAOS: nahodou ty posledni verze uz mi vubec nepadaji, akorat ta relevance vysledku je mizerna, ale to je dano nejspis tim, ze je nutno nacrawlovat miliardy stranek a ulozit petabyty dat aby to za neco stalo, a na to tech 150 domacich nodu nemuze mit nikdy kapacity. Takze je potreba rozsirit uzivatelskou zakladnu:)

Je dobre ze vyvoj ocividne nestoji, od posledne zas pribyl novy release.

XCHAOS --- --- 20:59:38 8.2.2011

1 odpověď

PANTARIL: no, bejt nima, tak radši chodím kanálama :-)

XCHAOS --- --- 20:59:08 8.2.2011

dneska vidím 157 aktivních nodů a 1.2 miliardy stránek, paráda :-). je vidět, že o službu je velký zájem, a že kdyby to jen trochu fungovalo, tak zájemců ochotných provozovat nody sítě budou okamžitě tisíce...

ale nevím, jestli za to vděčíme vychytání bugů v kódu: když jsem se podíval, jak si Yacy vede, hlásil akorát nějaký Java heap space error (ale zase i to je pokrok - starší verze prostě jen potichu tuhly...)

a musel jsem opět přejmenovat svůj node....

NEKROMANT --- --- 15:06:18 8.2.2011

_BENNY: Nebudu platit za něco s čím nesouhlasím, to raději pošlu peníze vývojařům YaCy a přeložím si anglické forum google překladačem :D
PS: nechci prudit, svůj názor jsem vyjádřil a přesto že se mi NYX nelíbí tak tu teď píšu..

PANTARIL --- --- 20:12:09 6.2.2011

1 odpověď

NEKROMANT: hodil jsem na minhome odkaz na yacy eng. forum: http://www.yacy-forum.org/

Je tam pry mozno sehnat vetsinu vyvojaru.

_BENNY --- --- 18:53:50 6.2.2011

1 odpověď

NEKROMANT: anebo si to proste zacalujes, kdyz to tak strasne moc potrebujes ;)

NEKROMANT --- --- 18:27:22 6.2.2011

2 odpovědi -1

Škoda že není nějaká debata o Distribuované vyhledávacích systémech mimo NYX :)
Protože na nyxu nejde (krom jiného) obsah bez příplatku pořádně prohledávat :(
"musíte zadat jméno autora - hledání bez udání autora je k dispozici pouze v prémiové verzi"

PS: doufám že nedostanu BAN, ale když dostanu tak mě to alespoň ten systém tady nebude štvát a o obsah který je jen tu hold přijdu.. (nebo si pod další IP založím další účet s vycucanými údaji a budu tu pouze prohlížet a nebudu tvořit sám obsah jak to dělám na jiných uzavřených webech, forech a sociálních sítí které mě štvou, ale je tam zajímavý obsah..) :)

XCHAOS --- --- 19:39:57 5.2.2011

jo, máš pravdu... počet dostupných nodů zase rychle klesl... jinak já si dnes pohrál s rankingem výsledků, nějak se mi ten přednastavený vůbec nelíbí. hledaná fráze v titulku nebo textu odkazu mě přijde daleko důležitější, než třeba v URL, apod.

crawl po restartu mi kdysi taky blbnul, ale teď prostě jede. čas od času ale musím mazat data ukládaná do /var/lib/yacy/něco (takhle z hlavy nevím)

PANTARIL --- --- 12:51:11 5.2.2011

XCHAOS: taky sem upgradoval, predtim jsem si znovu prosel yacy nastaveni, zapnul jsm tu heuristiku jak pisu nize, publikoval jsem DHT seed file, cims se ze me stal principal peer a v Performance -> Online Caution Settings jsem zkratil na polovinu zpozdeni, ktere se vkladaly mezi ruzne requesty, aby nedoslo k pretizeni.

Ja vidim celkem 121 aktivnich a 282 pasivnich peeru a celkem 998,805,074 indexovanych dokumentu.

Hral jsem si trochu s nastavenim vlastniho crawleru, ale trochu mi to zlobi. Poprve po restartu yacy se mi crawl spusti bez problemu, ale kdyz ho zkusim spustit podruhe, potreti atd, tak se mi proste neinicalizuje. V sheduleru je napsano ze crawl instance running, ale zadne url ve fronte nejsou. Kdyz yacy restartuju, tak to zas jednou funguje a pak nic. Ale nezkousel jsem to jeste v aktualni verzi po upgradu:)

Nicmene jsem povoli zpracovavani remote crawl requestu, coz funguje dobre, takze crawler se mi nudit nebude.

PANTARIL --- --- 12:29:17 5.2.2011

XCHAOS: samozrejme s yacy nemuzu microsoft moc kruitizovat, protoze delam to same:)

V nastaveni heuristiky jsem povolil volby:

scroogle: load external search result list from scroogle
When using this heuristic, then every search request line is used for a call to scroogle. 20 results are taken from scroogle and loaded simultanously, parsed and indexed immediately.

blekko: load external search result list from blekko
When using this heuristic, then every search request line is used for a call to blekko. 20 results are taken from blekko and loaded simultanously, parsed and indexed immediately.

PANTARIL --- --- 12:27:18 5.2.2011

XCHAOS: moc silly mi to neprijde, microsoft zneuzival svoje zakazniky, kteri pouzivaji explorer a google. Pokud zakaznik vyhledal neco v googlu a klikl na vysledek, microsoft si ulozil relaci vyhledavaci dotaz => vysledek.

To pak pouzival ve svem vyhledavaci bing.
Google ho nachytal tak, ze do sveho vyhledavace podstrcil nesmyslnou relaci "delhipublicschool40 chdjob" => "Credit Union website" a tato se opravdu dostala do Bingu.

Silly mi prijdou reakce microsoftu a "expertu", kteri se to snazi bagatelizovat.

Kliknutím sem můžete změnit nastavení reklam

přezdívka
heslo

pamatuj si mě
registrace
ztracené heslo?