• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    PADSpolecenska media, web X.0, socialni site, jejich analyza, komunity na webu
    • Jak vyuzivat data ze spolecenskych medii? Jake jsou nove metody data miningu, analyzy a vizualizace techto dat? Jak je vyuzit? Na co se ptat?
    • Co Vam na soucasnych nastrojich k tomu urcenych, jako napr. Nyx, Twitter, nebo Facebook, vadi, chybi, nebo se naopak libi?
    • Jake jsou nove trendy v teto oblasti? Jak je vyuzit? Jak je zachytit?
    • Jak tyto nove formy komunikace ovlivni spolecnost? Blizime se k ere globalniho mozku? Anebo uz v ni jsme? Bude jednou Internet mysli? Nebo uz ji je? A jsme vubec schopni to z pozice pouheho elementu tohoto systemu vubec zachytit?
    Tahle diskuze by tedy mela byt jak technickeho razeni, tzn. algoritmy dolovani a vizualizace, tak i filozofickeho charakteru, tj. co vsecko to vlastne znamena a kam to smeruje. Snad se tu najde dost lidi s podobnymi zajmy:]
    rozbalit záhlaví
    FRAKTALEK
    FRAKTALEK --- ---
    TSCHIKO: vyborne, diky
    TSCHIKO
    TSCHIKO --- ---
    FRAKTALEK: v Hubu na Andelu byvaji podobne akce
    BARD
    BARD --- ---
    FRAKTALEK: rado se stalo
    FRAKTALEK
    FRAKTALEK --- ---
    BARD: super, wikipedia miner jsem neznal. diky!
    FRAKTALEK
    FRAKTALEK --- ---
    BARD: jasne, chapu

    vidis, na OpenCalais jsem pozapomnel...mozna by to slo nejak chytre pouzit k postaveni vlastniho tezauru
    BARD
    BARD --- ---
    FRAKTALEK: nekde jsme museli zacit, pak uz to jelo samo. byl to prvni set

    Na kategorizaci jsme si museli sami napsat, pro anglictinu je prima zaklad OpenCalais

    FRAKTALEK
    FRAKTALEK --- ---
    BARD: tweety jsou anotovane geo-lokaci? pokud ano, tak asi ne vsechny, ne?


    docela by me zajimalo, jake nastroje mate na kategorizaci. Shanel jsem nejaky tezaurus nebo aspon slovnik zajmu a dovednosti v anglictine, ale nic volne dostupneho jsem nenasel. Nejake komercni moznosti existuji, ale ty jsou momentalne mimo muj dosah.
    BARD
    BARD --- ---
    FRAKTALEK: zacali jsme setem uzivatelu podle toho, ze Twittovali z uzemi CR a SR a indetifikovali, zda si alespon jednou za cas pipnou cesky nebo slovensky. Po tomhle setu jsme uz pak jen crawlovali jejich followery a jejcih followingy a opakovali detekce. V tuhle chvili mame 5 IP adres na WHitelistu Twitteru, takze se to dela vyrazne prijemneji. Na kategorazace mame nastroje, ale nemame zatim cas, protoze se ted soustredime hlavne na Facebook.
    FRAKTALEK
    FRAKTALEK --- ---
    BARD: prozradis, jak jste identifikovali cesky a slovensky twitter?

    Mate ho rozdeleny treba i podle kategorii, napr. zajmu jednotlivych uzivatelu?
    BARD
    BARD --- ---
    at tak nebo tak, jdu do toho
    ALMAD
    ALMAD --- ---
    SATAI: Na druhou stranu, pro nas co kupujeme ebooky, na MBRBG je tam dlouhodoba akce "buy 1, get 1 free".
    SATAI
    SATAI --- ---
    FYI:
    Dnes na http://oreilly.com/ s kodem "DDSCW" za polovic:
    21 Recipes for Mining Twitter, Matthew Russell on Mining the Social Web, Mining the Social Web
    BARD
    BARD --- ---
    PAD: pro vymenu a storovani dat pouzivam GraphML. Pokud jde o db, tak v tuhle chvili vyslovene zadnou graphdb nepouzivam, vyuzivam Redis a Ruby. Nicmene se chystam napsat si nad tim jednoduch DSL, ktere budu postupne podle potreby rozsirovat. Zakladni implementace v Pythonu existuje od nekoho jineho a vali se nekde na Gitu.
    PAD
    PAD --- ---
    FRAKTALEK: jde mi predevsim o interoperabilitu - nekdy potrebuju spis batch processing, tzn. natahnout cely graf do pameti a pak s nim pracovat, jindy potrebuju traverzovani ... momentalne pouzivam JUNG, ale neco v nem chybi a hodilo by se spis Gephi (hlavne na vizualizace) a asi by se hodilo se obcas dotazovat i pres sparql ... momentalne mi prijde jako dobry napad jako api pouzivat ty blueprinty s tim, ze jako backend muze byt treba neo4j nebo sail (sesame rdf store), pripadne to lze vylit do toho xml, ktere zase umi cist gephi. kdybych si napsal adapter blueprints-gephi, tak bych pak mohl pouzivat v podstate cokoliv, co je tak nejak pro javu k dispozici ...

    moje otazka byla minena tak, ze treba nekdo uz neco podobneho resil a treba vi o lepsim zpusobu ...
    FRAKTALEK
    FRAKTALEK --- ---
    PAD: rikal a vysvetlil jsem jak jsem to myslel, viz treba http://www.graph-database.org/implementations/

    nejde o terminologii, jde o ten rozdil a ten je potreba zduraznit

    co se ukladani tyce, tak prece opet jde o to, co s tim chces delat a jake nastroje mas k dispozici. Vzhledem k tomu, ze tu vetsinou zminujes velky site, tak bych si na xml asi dal pozor... pracovat s XML soubory vetsimi nez par desitek MB muze byt neprijemny.
    PAD
    PAD --- ---
    a vubec - me to privadi k otazce: co pouzivate/jestli pouzivate na ukladani siti? nejaky spolecny format jako graphml? nebo (jako ja momentalne) je proste ukladate do relacni databaze? pripadne nejake grafove db?

    ptam se proto, ze zacinam pocitovat potrebu mit nejaky jednotny format, se kterym budu pracovat ... premyslim o graphml, protoze je to xml, ktery se ztransformovat v pripade potreby, a je podporovano Blueprints (neco jako JDBC pro grafove databaze), takze pak ty grafy by sly i naloadovat do nejakych triplestoru, neo4j apod...
    PAD
    PAD --- ---
    FRAKTALEK: neni. druha veta mluvi o triple storech jako o specializovanych graph databases, coz je treba i ta jena sdb/tdb, o kterych jsi rikal, ze grafovymi databazemi nejsou.
    --

    uprimne receno, myslim, ze je to uplne jedno. muzeme si kazdy myslet, ze grafova databaze je treba i tuzka a papir, kdyz na to prijde; podstatne spis je, co vlastne BARD chtel delat s grafama, ze se ptal na databazi? ukladat ten twitri cs/sk graf?;)
    FRAKTALEK
    FRAKTALEK --- ---
    PAD: myslim, ze to je konzistentni s tim, co rikam:

    "A graph database is a database that uses graph structures with nodes, edges, and properties to represent and store information. "
    PAD
    PAD --- ---
    samozrejme na to muzes (a zjevne mas) jinej nazor:
    "A graph database is a database that uses graph structures with nodes, edges, and properties to represent and store information. General graph databases that can store any graph are distinct from specialized graph databases such as triplestores and network databases."

    Graph database - Wikipedia, the free encyclopedia
    http://en.wikipedia.org/wiki/Graph_database
    PAD
    PAD --- ---
    PAD: sorry. mel jsem na mysli, ze pokud to omezis na traversing, pak neni graph database, samozrejme (ackoliv s tim nesouhlasim)

    jena nepouziva jen relacni databazi (mrkni na TDB) - a higher level api je v podstate stejne (dostanes implementaci Model/u)

    SPARQL je taky "v podstate jen" high level pohled na RDF data... - no a? muj point je proste to, ze at uz pouzivas traversing, nebo pattern matching, porad muzes mluvit o grafove databazi - jde jen o to, co potrebujes resit
    Kliknutím sem můžete změnit nastavení reklam