• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    SALVATORCentrála pro rovnoměrnou distribuci mírně zajímavých faktů
    AVATAR
    AVATAR --- ---
    XCHAOS: de soto provedl loupeznou vypravu pri ktere s cca 650 vojakama vyvrazdil vyssi tisicovky domorodcu. Neslo o kolonizaci ani dobyvani. Byl to takovej viking v puvodnim slova smyslu ;)
    XCHAOS
    XCHAOS --- ---
    JON: +/- 1200-1300 lidí. ovšem fakt ty klienti jsou všech druhů, od geeků, přes důchodce a svobodné matky a normální rodiny a celé rodiné domy až po firmy a firmy přes několik pater kanclů. V době, kdy byla konektivita vzácná, jsem se dozvěděl o existenci Paretova pravidla (ono je to už asi 20 let, skoro) a udělal si nějaký statistiky, a i když vlastně nebyl žádný důvod, proč se to tím pravidlem mělo řídit, tak se to řídilo. Ale v průběhu let přestalo. Nevím, může v tom hrát roli třeba to, že IPTV jde mimo bránu a do statistik se nezapočítává, ono to je asi 10% provozu, dohromady, tak možná, že kdybych si dal práci a připočítal IPTV jednotlivých klientům k internetové konektivitě, že to spadlo zpátky k Paretovu rozdělení.

    Asi už to tím tady nechci spamovat. Ale prostě zatímco ještě dovedu pochopit, že když "příroda" (nebo naše "stroječky") sčítaj, že je z toho Gauss a tedy Zemanova "zhruba polovina lidí, co má podporůměrnou inteligenci" (což je asi jediný ze všech jeho bonmotů, který mi když přišel marginálně vtipný) a když příroda nebo mozek násobí, tak je z toho Zipf - tak u toho Paretova pravidla jsem úplně v koncích. (a proč by moji klienti měli spadat do Paretova pravidla a ne Zipfa nebo Gausse, a proč by se třeba velikost měst v zemi neměla řídit paretovým pravidlem, apod.? Ten internet teda ani nesčítá, ani nenásobí, ale ... ehm, Paretuje? :-)
    JON
    JON --- ---
    XCHAOS: jak cca velky vzorek mas na ty uzivatele? Tusim, ze provozujes nejakeho komunitniho ISP, ne? Nemuze to vychtleni byt tim, ze vas spis vyuzijou geekove, nez bezny bfucka, a geekove maj vetsi datove prenosy?

    Plus teda u tech velkych mest mi prijde celkem logicke, ze "priroda nasobi", cim vetsi mesto, tim vic lidi z okoli stahne.

    V tomhle bude imho strasne zajimave pozorovat vyvoj Vidne a Bratislavy bez zelezne opony.
    XCHAOS
    XCHAOS --- ---
    BBR:
    GUMBA: tohle všechno je hezké povídání, ale vlastně to je jen chození okolo horké kaše a konstatování, že "prostě to tak je a basta". Co je ale opravdu zajímavé, je ptát se, jaké jsou ty ekonomické, sociální a bůhvíjaké důvody, které vedou k tomu, že se velikosti sídel mají tendenci organizovat podle tohohle rozdělení...

    U toho jazyka si troufám, že by to šlo zdůvodnit nějak informační teorií. Informační obsah (počet bitů) krátkých slov je zkrátka nižší, než u dlouhých slov. Pokud současně délku slova použijeme jako určitý "index", nebo spíš podtabulku, který mozek použije k jakémusi "indexování slovníku". Z hlediska programátora je to něco, jako kdyby řekli, že pro každou délku slova alokujeme další pole, takže (pro anglickou abecedu - v praxi bude asi mozek pracovat spíš s vyslovitelnými slabikami, než se samotnými znaky) bude mít první slovník max. 26 položek, druhý 26^2, třetí 26^3, apod. Pořád tam ale bude ještě nějaká tendence řadit dál v těch slovnících nejčastěji používaná slova na začátek a málo používaná někam na konec, ovšem vzhledem k dostupnému počtu vyslovitelných kombinací budou ty slovníky pro delší znova obsahovat daleko více záznamů a z lokiky věci se mozku (či spíše než jednomu mozku - komunitě mozků společně formujících mluvený jazyk) nebude chtít často používané a důležité termíny zařazovat do rozsáhlých slovníků, jejichž prohledávání je celkově náročnějí (at' už je ta technologie toho prohledávání jakákoliv).

    Jazyky, které by tu rycholost prohledávání slovníku slov mozkem nezohlednily, by měly evolučně nižší šanci na přežití. Tak například, kdy se místo jednoslabičného tříznakového slova "šíp" použilo nějaké mnohoslabičné slovo, které se vyslovuje daleko dýl, tak může šíp během obléhání přiletět dřív, než někdo stihne vykřiknout varování. Tedy pochopitelně, jazyky, které tohle odhadly špatně, evolučně vyhynuly :-) Ale v rámci té evoluce se stejně slova navíc ještě vrstvila podle Zipfova zákona.

    Ovšem to, že je mi víceméně nějak "pseudoprogramátorsky" jasné, proč se takhle zorganizoval jazyk, neznamená, že mi je jasné, proč se takhle zformovaly velikostí sídel. A stejně tak mi to není jasné u řek - žádná řeka nemůže vědět, jak velká v pořadí v rámci daného povodí je, takže tam musí být ve hře nějaký náhodný mechanismus, kdy si řeka hází kostkou, jestli zahnout doleva a udělat soutok s jinou řekou, nebo zahnout doprava ještě se chvíli klikatit. A tenhle mechanismus sám o sobě bude evolučně konvergovat k tomu zipfovu rozdělení: asi by to šlo nasimulovat opět softwareově nějakým rekurzivním "kreslítkem řek", které by v základních rysech kopírovala geologická pravidla.

    V zásadě při pozorování světa kolem sebe bychom se mohli naučit rozlišovat, jestli příroda zrovna "sčítá", nebo "násobí". Když ale jdu po břehu řeky, tak si fakt neumím nijak jednoduše představit, že zrovna délky řek se rozloží podle Zipfa a ne podle Gausse :-) (nebo Pareta :-). Mimochodem, já jsem se takhle snažil klasifikovat klienty Internetu podle objemu přenesených dat, a před lety to začalo podle Parteova zákona (rozdělení) - ale pak to zdegenerovalo, že místo aby 20% klientů dělalo 80% přenosů, tak to posledních několik let asi 30% zákazníků dělá 80% přenosů - a u tohohle rozdělení se to setrvale drží úplně bez ohledu na technologie, podíl velkých a malých zákazníků, vývoj ceníku, apod. (ono i 30% místo 20% je obchodně dost šílených, ale budiž..)

    Takže asi bych to shrnul, že zatímco některá tahle rozdělení jsou nějak "představitelná" (třeba u toho různého informačního obsahu slov podle délky), i když třeba je ta představa chybná, tak si jde udělat - tak u jiných rozdělení je to zkrátka WTF a nemáme nejmenší ponětí, proč se tak svět chová. (Ale kdychom to ponětí měli, tak bychom třeba uměli navrhovat zajímavější datové struktury, jako programátoři, apod. - tady si myslím, že jsme úplně na začátku, protože příroda zásadně vše "programuje" vysoce paralelizovaně, zatímco v prvních desetiletích programování převažovaly hodně "jednovláknové" algoritmy a uvažovat, jak efektivně využít víc vláken je trochu jinýc level, apod.)
    XCHAOS
    XCHAOS --- ---
    NJAL:
    MATEEJ: myslím, že skutečně nejvýstižnější shrnutí mírně zajímavého faktu, který jsem se snažil sdělit, je skutečně tohle: severoameričtí domorodci v době příchodu Španělů měli blíž ke středoamerickým kulturám, než k domorodcům, kteří tam žili v podější éře kolonizace ostatními Evropany. Stačilo asi 100-200 let a tahle kultura úplně zmizela; nejspíš za to můžou nakažlivé choroby zavlečené Evropany, ale úplně přesně to stejně nevíme.
    NJAL
    NJAL --- ---
    MATEEJ: Karel May, ba dokonce i zapadonemecke pseudomayovky umistily Apace do puebel. Coz si nejsem jist, ze byl historicky zrovna jejich pripad, ale neslo vzdy jen o bydleni v typi.
    XCHAOS
    XCHAOS --- ---
    MATEEJ: jo, to bude ten de Soto, který se tam trmácel několik let. s Vikingama to souvisí fakt volně - jde o to, že vlastně moc nevíme, na jaké domorodce v tom Vinlandu (který asi víme, kde byl, protože jedna osada se našla) narazili, protože ty kultury se tam měnily rychle. Každopádně Vinland potřebovali, protože v Gronsku neměli dřevo a nemohli tím pádem zpracovávat železo a stavět lodi. Navzdory takhle silné motivaci se ale nedokázali na pobřeží Severní Ameriky trvale uchytit - v podstatě tam vždycky zajeli nařezat dříví a vykovat si nějaké hřebíky nebo něco, a pak zase rychle utekli...
    XCHAOS
    XCHAOS --- ---
    AVATAR: ta část se španělskou expedií po severní Americe, která našla úplně jiné civilizace, než prérijní indiány, a my vlastně nevíme, co se tam mezitím odehrálo, se dá najít snadno. Myslím, že to jméno je Hernando de Soto, a prošel přes teritorium 10 soudobých amerických států:
    North American Journey – Georgia Historical Society
    https://georgiahistory.com/education-outreach/online-exhibits/featured-historical-figures/hernando-de-soto/north-american-journey/
    https://en.wikipedia.org/wiki/Hernando_de_Soto#De_Soto's_exploration_of_North_America

    Ve skutečnosti je to dost zahalené v mlze a i když to historicky spadá do éry novověku a "objevené" Ameriky, na rozdíl od Vikingů a jejich kontaktu ve Vinlandu, tak je to fakt zajímavé, protože popisujou usedlé zemědělce a větší osídlení domorodců. Jenže tyhle původní obyvatele vyhubily nešt'ovice, které s sebou zavlekli do země Španělé. Pozdější setkání s prérijními kočovnými kmeny tedy nemá tak docela vypovídající hodnotu o tom, jak vypadalo osídlení severní Ameriky v době příchodu prvních Evropanů na kontinent: o tom máme tohle jediné svědectví a pak je třeba minimálně 100 let pauza...
    AVATAR
    AVATAR --- ---
    MATEEJ: tak pokud znalosti prumernyho cecha vychazi z vychodonemeckych filmu ze sedmdesatek, tak panbu s nami.

    Nicmene mezi mayovkama a kolonizaci mezoameriky uplynulo 300 let, behem kterych se demografie ameriky naprosto zmenila. A spojuje udalosti od sebe vzdaleny deset tisic kilaku nebo kolik. Proste meh :D
    NJAL
    NJAL --- ---
    AVATAR: Vikingove si rikali "vikingove", ale víkingr bylo oznaceni zamestnani, nikoliv etnika. Dneska bychom rekli "najezdnik". Manik se par let mohl venovat vikingovani, a kdyz byl uspesny a prezil, potom si mohl treba koupit pozemek a farmarit.
    MATEEJ
    MATEEJ --- ---
    AVATAR:

    K bodům 4 a 5 - XCHAOS ale nepíše o Střední Americe, ale o jižní části Severní Ameriky (kde, podle představ průměrného Čecha, tj. ne XCHAOSe nebo tebe, žili karlomayovští Indiáni v týpkách).

    K bodu 3 - Já myslím, že Španělé měli naprosto bez problémů lidi i zdroje na to, aby mohli kolonizovat jižní části dnešních USA, nebo alespoň do poloviny 16. století. A také se o to snažili. Ale s těmi snahami to bylo složitější.

    O kolonizaci nových území určitě usiloval španělský král. Ten chtěl nové kolonie, tedy města, pevnosti, přístavy, obchod. Ale samotní velitelé expedicí byli motivováni spíš představou rychlého lootu, přičemž jackpot pro ně představovalo objevení El Dorada, které tehdy nebylo považováno za mýtus, ale za reálně existující místo. Proto, místo aby založili pevný opěrný bod a postupně rozšiřovali sféru vlivu na nejbližší okolí, pořádali dlouhé a riskantní objevitelské výpravy pevninou. Během kterých se ovšem dostali do kontaktu s mississippskou mohylovou kulturou, tedy poznali i jiné než mezoamerické kultury (byť ta mississippská kultura měla blíž k mezoamerickým než k indiánským kmenům ještě dále na severu).


    Narváez expedition - Wikipedia
    https://en.wikipedia.org/wiki/Narv%C3%A1ez_expedition

    Hernando de Soto - Wikipedia
    https://en.wikipedia.org/wiki/Hernando_de_Soto#De_Soto's_exploration_of_North_America
    AVATAR
    AVATAR --- ---
    Vikingové jsou dobře známý,
    - samotny pojmenovani vikingove je obecne spatne, nerikali si tak a bylo to mnoho severskych kmenu. Samotny Leif Eriksson se narodil na islandu.

    akorát z toho zkrátka nic moc nevyplývá - ani není jasný, na jaký typ domorodců v té době přesně narazili,
    - z archeologickych nalezu pochopitelne vime, jakym stylem mistni kmeny na newfoundlandu zily. Byli tam napr. Beothukove, Dorsetove nebo Inuite. Je to sever severni ameriky.

    protože jedním mírně zajímavým faktem - a to sem teda patří taky - je, že když se severní Ameriku pokusila dobýt španělská expedice cca v éře dobývání Ameriky střední a posléze jižní
    - spanele se dostali s kolonizaci nekam na uroven floridy. Na vic nemeli zdroje / lidi. Nikdy se severni ameriku dobyt nesnazili a nedostali se z dosahu mezoamerickych kultur.

    tak nenarazila na kočovné kmeny, které si jako "indiány" před příchodem Evropanů představujeme dnes, pod dojmem setkání vpozdějších staletích
    - fakt nevim, co si xchaos predstavuje, ale mezoamericke kultury byly vsechno, jen ne kocovne kmeny. Kocovnici zili v americe jen na severu, kde pres zimu nebylo dost potravy. Na jihu severni ameriky byly kultury srovnatelne s evropskymi (dokonce vetsi mesta a lepsi zemedelstvi)

    ale narazila na rozsáhlé usedlé zemědělské kultury, které se jí tehdy nepodařilo nijak podmanit a měli problém vůbec v tom prostředí přežít.
    - nevim o cem pise. Spanele si evidentne podmanili celou stredni ameriku. Prohravali az proti anglicanum a proto se na floride nemluvi spanelsky. Ale treba to podpori nejakym zdrojem :)
    AVATAR
    AVATAR --- ---
    SALVATOR: na to se ani neda nijak rozumne reagovat., ale budiz, zkusim to :D
    SALVATOR
    SALVATOR --- ---
    AVATAR: No a nechceš si zahrát na Kancelář pro uvádění nyxích omylů na pravou míru?
    AVATAR
    AVATAR --- ---
    XCHAOS: nedari se mi najit jedinou vetu v tvym komentari, na kterou bych souhlasne prikyvnul. Dostuduj se a treba si pak dnes nebudes predstavovat nesmysly :D
    XCHAOS
    XCHAOS --- ---
    MEJLA77: Vikingové jsou dobře známý, akorát z toho zkrátka nic moc nevyplývá - ani není jasný, na jaký typ domorodců v té době přesně narazili, protože jedním mírně zajímavým faktem - a to sem teda patří taky - je, že když se severní Ameriku pokusila dobýt španělská expedice cca v éře dobývání Ameriky střední a posléze jižní - tak nenarazila na kočovné kmeny, které si jako "indiány" před příchodem Evropanů představujeme dnes, pod dojmem setkání vpozdějších staletích - ale narazila na rozsáhlé usedlé zemědělské kultury, které se jí tehdy nepodařilo nijak podmanit a měli problém vůbec v tom prostředí přežít.
    GUMBA
    GUMBA --- ---
    Taky si dovolím menší zamyšlení na toto téma, dozajista zodpovím mnoho otázek, které nikoho nezajímaly, a zdistribuuji několik mírně, ale opravdu jen mírně zajímavých faktů :)
    Těch rozličných zákonů (obvykle empiricky vypozorovaných v nějakém odvětví lidské činnosti) je poměrně velké množství, jsou pojmenovány po mnoha různých lidech (o tom že leckdy nesprávně hodím poznámku závěrem), mají však mnohé společné, protože v pozadí se opakují jisté základní principy, které se zde pokusím nastínit. Omlouvám se za trochu delší text :)

    Kratší úvod, který znalejší statistiky mohou přeskočit. Předpokládám, že většina diskutujících tady (přinejmenším intuitivně) chápe, co je to populace (soubor) nějakých jedinců (prvků), a že u takové populace mohu statisticky vyšetřovat nějakou vlastnost, tj. mohu přiřadit každému jedinci (prvku) nějaké číslo. Např. mám populaci 100 lidí a každý má nějakou výšku. Mohu tedy takovou populaci popsat stovkou číselných údajů - výšek těch lidí. A můžu to nějak matematicky uchopit, třeba spočítat jejich průměr ... a vyjde mi průměrná výška té populace. Co mají statistici (a leckteré příbuzné obory) rádi, je z těch dat udělat histogram, neboli vzít tu vlastnost (zde číslem vyjádřenou výšku člověka) a vynést ji na vodorovnou osu s nějakým krokem (třeba jeden cm) v intervalu od minimální do maximální hodnoty, která se v populaci vyskytla. Tím na té ose vznikne nějaké množství "chlívečků" (říká se jim biny), do kterých mohu ty jednotlivé číselné hodnoty umisťovat. Na svislé ose tak měřím počet jedinců z populace, kteří mají výšku v daném rozmezí, např. v chlívečku 178-179 cm. Čím větší bude populace (resp. z ní zkoumaný vzorek), tím hladší a hodnověrnější bude výsledný histogram. Když místo 100 lidí použiji 10 000, už budu mít poměrně dobrou představu o tom, jak jsou různé výšky v populaci rozděleny. Rozdělení pravděpodobnosti, to je přesně to, co mají statistici ze všeho nejraději. Vznikne z histogramu, kam nasypu tu populaci, když ty počty v jednotlivých binech vydělím celkovou populací (čímž vznikne normovaný histogram, místo počtů budu mít na svislé ose relativní četnosti, plocha vzniklého histogramu bude jednotková, a bude tedy mít význam pravděpodobnosti).

    Vsuvka: Např. u biologických populací bývá obecně zažité, že takto vzniklý obrázek (rozdělení pravděpodobnosti) připomíná normální rozdělení (aka Gaussovo rozdělení, Gaussovka). Pravdou je, že ve skutečnosti je v biologii normální rozdělení poměrně vzácné (nepopisuje přesně tedy ani tu zmíněnou výšku v lidské populaci; určitou výjimkou je IQ, které je ale jako veličina s normálním rozdělením schválně zavedena a IQ testy jsou podle toho nadesignovány).

    Statistici (a matematici, fyzici, chemici, ekonomové, sociologové, lékaři, ...) mohou tímto způsobem - pomocí nástroje rozdělení pravděpodobnosti*) - matematicky popisovat různorodá data a zejména ta data kloudně zpracovat.
    *) Správně je pojem rozdělení pravděpodobnosti pouze pro veličiny, které jsou matematicky řečeno "diskrétní" (nabývají pouze určitých oddělených hodnot - např. počet něčeho na kusy). Pro "spojité" veličiny je správný pojem hustota pravděpodobnosti, jinak by ta matematická stránka nefungovala správně. Nicméně v češtině se často pro obojí používá pojem rozdělení pravděpodobnosti.
    Lze tedy mít nějakou veličinu x (třeba tu výšku lidí v cm) a znát její rozdělení pravděpodobnosti f(x), což je funkce, která dané hodnotě x přiřadí pravděpodobnosti, s jakou jedince s takovou výškou x dané populaci nalezneme. (Opět: pro spojité je f(x) správně hustota pravděpodobnosti a až nějaký interval ve veličině x vyjadřuje pravděpodobnost.)

    Jak jednou známe f(x), máme úplný popis chování té náhodné veličiny x. Víme, jak se statisticky chová a můžeme se o ní leccos dozvědět - výpočtem. Např. jak už bylo zmíněno výše, můžeme spočítat aritmetický průměr té populace. Aritmetický průměr x̄ nějaké veličiny x, je (matematickou řečí) "první moment" funkce f(x), a má význam "očekávané hodnoty". Tj. hodnoty, která poměrně vhodně charakterizuje výšku celé populace. Prostě průměr. Můžeme spočítat také vyšší momenty f(x), např. druhý (centrální) moment má význam disperze (D, také variance, česky též rozptyl), a říká nám, jak jsou hodnoty x rozloženy okolo očekávané hodnoty (aritmetického průměru). Odmocninou z disperze D = σ2 je standardní odchylka σ. (Třetí a vyšší momenty ponechme stranou.)

    Pojďme pomalu k tématu, ale ještě ne úplně :)
    Mám tedy náhodnou veličinu x, kterou mám popsanou pomocí f(x), a mohu ji charakterizovat nějakými základními charakteristikami, např. tím průměrem x̄ a disperzí σ2. Matematická statistika disponuje řadou zajímavých tvrzení, které tyto dvě charakteristiky a chování náhodné veličiny x svazují. Dvě z nich mohou být pro laika velmi překvapivá. Pravděpodobnost, že se nějaká hodnota x (v celé populaci) nachází dále od střední hodnoty x̄ než je nějaký k-násobek standardní odchylky σ, je menší než 1/k2; např. pravděpodobnost, že bych nalezl nějakou hodnotu dále než 5 standardních odchylek je menší 1/25 = 0.02 = 2 %. Říká se tomu Čebyševova nerovnost a platí pro libovolné rozdělení f(x). (Stačí, že má definovány střední hodnotu x̄ a disperzí σ2.) Z Čebyševovy nerovnosti lze odvodit jiné zajímavé tvrzení, centrální limitní větu, která říká pro naši svatou trojici f(x), x̄ a σ2 následující: když budu ty veličiny x n-krát losovat (nebo nějak jinak generovat), a budu je průměrovat, tak mi místo x vznikne jiná náhodná veličina, označím ji třeba y. Pokud to n bude dostatečně velké, vzniklá veličina y bude mít normální rozdělení (gaussovka) se střední hodnotou x̄ a disperzí disperzí σ2/n. A opět na původním rozdělení f(x) té průměrované veličiny nebude záležet. Vše zprůměrováním skončí jako gaussovka.

    (Už se pomalu dostávám k tématu!) Jak už přívlastky centrální a normální v názvu tvrzení a gaussovky napovídají, mají ve statistice svou důležitost. Normálně, tj. gaussovsky, se chová průměrování čehokoliv (až na výjimky, jeden patologický příklad uvádím úplně na konci) ... stačí, když to sčítáme dostatečně dlouho. Klasickým příkladem je difuse (např. Brownův pohyb). Zrníčko barviva nebo třeba čaje je obklopeno molekulami vody. Ty mají náhodné rychlosti (dané Maxwellovým-Boltzmannovým rozdělením, ale to není podstatné, protože centrální limitní větě je to jedno a stejně z toho vyrobí gaussovku) a naráží jich velké množství. Z jedné strany, z druhé strany atd ... vše se vektorově posčítá. Zprůměrovaný efekt těch mnoha srážek molekul se zrníčkem čaje bude ten, že mu bude udělena (náhodná) rychlost, která má normální rozdělení. (A to lze i dobře experimentálně ověřit, i za běžných podmínek difuse pěkně splňuje 2. Fickův zákon, kde vystupuje gaussovka v příslušné dimenzi - podle toho jde-li o 2D nebo 3D difusi).

    Zcela zásadním pozorováním zde je, že průměrování velkého počtu aditivních veličin vedlo ke vzniku gaussovky.
    Všude, kde těch vlivů je hodně a jsou aditivní (prostě splňují předpoklady centrální limitní věty), někde na konci toho procesu čeká gaussovka. Proto ty výše zmíněné biologické systémy často mívají rozdělení hodně podobná gaussovce: mnoho vlivů, které se sčítají. Výšku člověka neovlivňuje jediný gen nebo podobný vliv. Kromě velkého množství genů (náhodně popárované od rodičů) také další vlivy (např. výživa) během růstu jedince. Do značné míry jsou jejich účinky aditivní a výsledkem je přibližně gaussovka.

    V jiných oblastech se normální rozdělení (gaussovka) tak moc často nenachází, čím to? No ve skutečnosti jsou totiž ty efekty aditivní jen málokdy, mnohem mnohem mnohem častěji jsou totiž multiplikativní. Dost často se věci mají tendenci měnit úměrně své velikosti. Průměrujeme-li opět mnoho vlivů, tentokrát však multiplikativních místo aditivních (matematicky geometrický místo aritmetického průměru), obdržíme místo normálního rozdělení rozdělení lognormální. (Logaritmus krásně z násobení dělá sčítání.) A lognormální rozdělení tak nacházíme v mnoha procesech v přírodě, společnosti atd. Velká planeta (nebo velká hrouda hlíny) se stává větší, protože má větší gravitační pole (resp. větší povrch na který se může lepit další hlína). Pohyby na burze jsou také samozřejmě multiplikativní, vydělám a prodělám 1 %, ať mám investováno hodně nebo málo. Populární výrobek/služba/firma osloví více zákazníků úměrně své velikosti.

    A tedy k tématu těch různých zákonů. Gaussovku a lognormální pozná každý a je u nich jasný ten "základní princip", kdy u gaussovky je za tím aditivita těch vlivů, u lognormálního jsou vlivy multiplikativní - pěkným příkladem je zde již někým zmíněný Benfordův zákon (ve skutečnosti prvně popsaný daleko dříve Newcombem, který si údajně povšiml více ohmataných stránek logaritmických tabulek pro čísla začínající 1 a 2), tam to lognormální rozdělení krásně vystupuje v četnosti počátečních cifer zápisu takřka čehokoliv. Od délek řek nebo velikostí planet až po velikosti populací obcí (používá se to např. v testování falšování volebních výsledků).
    Problém samozřejmě je, když se to rozdělení chová nějak výrazně jinak, ten "základní princip" na pozadí bývá těžké určit. Velmi zajímavým nástrojem je potom, co uvidím za obrázek, když graf funkce rozdělení pravděpodobnosti f(x) nějak vhodně ztransformuji, obvykle zlogaritmuji. Např. místo f(x) bude f(log(x)), čímž třeba z té zmíněné gaussovky udělám lognormální rozdělení. Často se zlogaritmují obě osy, svislá i vodorovná. Když dostanu (na relevantním úseku) lineární závislost nebo něco podobně pěkného, obvykle to něco důležitého o chování systému prozrazuje a velmi často to někdo už v minulosti pozoroval a pojmenoval, obvykle v různých oblastech lidské činnosti několikrát nezávisle na sobě :)
    Lineární úsek zpravidla znamená tendenci k paretovskému chování (třída rozdělění odvozených z Paretova rozdělení). Asi nejznámější je Paretovo rozdělení popisující známý princip (nerovného) rozložení bohatství v populaci. Matematicky je to příbuzné s již zmíněným Zipfovým zákonem, souvisí s tím Giniho koeficient, Bradfordův zákon, efekt sv. Matouše, a mrtě dalších statistik v ekonomii, sociologii, a dalších oblastech.
    Na podobném principu se ve fyzice analyzují power laws (mocninné zákony či jak se to překládá) kdy po vhodné transformaci os (zlogaritmování, reciproké osy apod.) vyplavou na povrch souvislosti mezi veličinami a "základní principy". Od dispersních sil (Van der Waals) po distribuci hmoty v populacích hvězd, vyšetřuje se tím rozpad turbulence (Kolmogorovovo spektrum) a spousty dalších věcí ve fyzice kondenzovaných látek ....



    Dvě malé poznámky závěrem, jedná se stále o mírně zajímavá fakta, takže snad nejsem OT:
    Výše jsem popisoval, jak funguje centrální limitní věta. Jedním z rozdělení, na které se aplikovat nedá, (protože nemá definovanou střední hodnotu) je Cauchyho rozdělení. (Ve fyzice se mu častěji říká Lorentzovo, v částicové fyzice také Breitovo-Wignerovo, a popisuje rezonanční chování - klasický oscilátor, přirozený tvar spektrálních čar ve spektroskopiích atd.) Vtipným důsledkem je, jak takový patologický případ odporuje naší každodenní zkušenosti. Intuitivně totiž centrální limitní větu (resp. zákon velkých čísel) chápeme a nevědomky používáme: když mě zajímá průměrná hodnota něčeho, vím, že přesnějšího výsledku dosáhnu, když budu brát průměr z co největší populace (nebo měrit/středovat delší čas apod.). Když hodím kostkou 6x, asi se nebudu divit, že nepadne šestka ani jednou. Když hodím 6-milionkrát, tak by mě to asi už zarazilo. Nebo třeba chci změřit tloušťku papíru, tak místo jediného papíru jich změřím celý balík 500 kusů a vydělím to 500. No a Cauchyho/Lorentzovo rozdělení se chová tak, že tohle nikterak nepomůže. Měřit něco jednou je v jeho případě úplně stejně přesné jako to měřit milionkrát a pak zprůměrovat; jsem na tom stále stejně.

    A druhá poznámka se týká pojmenovávání zákonů. Je zajímavé, že velká část zákonů je pojmenovaná po někom jiném, než kdo tu danou zákonitost či souvislost poprvé objevil či popsal (např. ten zmíněný efekt nazvaný Benfordův zákon objevil astronom Newcomb o desítky let dříve). Téhle velmi časté historické nepřesnosti v pojmenovávání si samozřejmě už někdo všiml, jmenuje se Stiglerův zákon ("žádný věděcký objev se nejmenuje po původním objeviteli"). Úsměvné je, že Stiglerův zákon splňuje sám sebe, neboť tohle chování bylo popsáno sociologem Mertonem (byť to odvozoval od efektu sv. Matouše).
    BBR
    BBR --- ---
    NIKDAS: Stručná přednáška ze zeměpisu k Zipfovu pravidlu a velikosti měst (sorry za délku):
    Zipfovo pravidlo (v zeměpise se pojem užívá spíš než zákon, někdy taky rank-size rule) je spíš aproximací a zeměpisci kdysi tvrdili, že víceméně platí v "přirozeně se vyvíjejících sídelních systémech". Jelikož definovat či jen zhruba vymezit přirozeně se vyvíjející sídelní systém není snadné, lze se na "nepřirozenost vývoje" sídelního systému vymluvit vždy, když empirické pozorování teoretický předpoklad velikostní distribuce sídel nepotvrdí. Podstatný závěr/poznatek o světě, vycházející z Zipfova pravidla je, že komplexní či semikomplexní systémy (ve smyslu komplexity jak ji chápou zeměpisci) v nichž je větší počet jednotek, např. sídla v nějakém větším území, kraj v Česku už stačí, firmy v ekonomice, ale třeba i mzdy lidí či bohatství lidí (pokud mzdy či bohatství nejsou přehnaně regulovány), nebo hory/pohoří nebo řeky a říční soustavy, neomezuje se to jen na sociální/ekonomické znaky/jevy mají tendenci ke krajně asymetrické distribuci, na rozdíl od distribuce normální (Gaussovy).

    Čili krajně asymetrické rozdělení je pro určitý druh jevů/znaků přirozené ve smyslu typické, a je opakovaně porozorované. Neplatí to absolutně, na obou koncích křivky jsou často různé odchylky. Je málo velkých měst a tak nějak se s pořadím zřetelně zmenšují, ale jejich rozdělení nemusí příliš odpovídat Zipfovu pravidlu v jeho čistě matematickém vyjádření. Na opačném konci je málo těch úplně nejmenších vesnic, ale jen u trochu větších už ta pravidelnost platit zase začíná. Na konci velkých selků vizte česká krajská města, Praha 1,6 mil. (nebo i víc, podle toho, co z té sídelní kaše kolem do Prahy započítáte), Brno něco přes 400 tis., Ostrava přes 300 tis. (snad ještě, za bolševika bývala druhá před Brnem), dále Plzeň, která kol sebe má suburbánní sídelní kaše docela málo, ale má cca 150 tis. lidí, a pak 6 krajských měst, která mají všechna kolem 100 tis., když přidáte zázemí, počet obyvatel se zvětší, ale zase budou vycházet víceméně stejná. Když pohlédnete do jiných zemí, je to poněkud jiné, ale ta podobnost v nepodobnosti platí i tam.

    Pravidlo krajně asymetrického rozložení pro mnoho znaků/jevů, které kolem sebe pozorujeme má důležité důsledky. Jedním z nich je to, že takové rozdělení nerepresentuje příliš dobře průměr. Zpravidla se používá medián, případně doplněný nějakými dalšími percentily.

    Praktickým důsledkem je nesmyslnost tvrzení, na které často můžete narazit v médiích, že "více než polovina lidí v Česku má podprůměrnou mzdu/plat", s explicitním či implicitním dovětkem, jaká je to hrůza. Není to hrůza. Je to normální a v normálním světě a v normální společnosti to tak bude vždycky, právě proto, že to vyplývá z toho pravidla krajně asymetrické distribuce tohoto jevu.

    Učenější diskuse a učenější vysvětlení, s menším důrazem na zeměpis, je zde. Jen neberte moc vážně ta tvrzení ve druhém odkazu v pořadí, že při "přirozeném vymezení městských/urbanizovaných/metropolitních areálů" je Zipfovo pravidlo potvrzeno. Neprověřoval jsem tu studii, ale mám pochybnost z důvodů uvedených výše.
    Rank–size distribution - Wikipedia
    https://en.wikipedia.org/wiki/Rank%E2%80%93size_distribution
    https://en.wikipedia.org/wiki/Gibrat%27s_law
    MEJLA77
    MEJLA77 --- ---
    MEJLA77: respektive asi raději anglicky:
    Vinland - Wikipedia
    https://en.wikipedia.org/wiki/Vinland
    MEJLA77
    MEJLA77 --- ---
    Kliknutím sem můžete změnit nastavení reklam