Taky si dovolím menší zamyšlení na toto téma, dozajista zodpovím mnoho otázek, které nikoho nezajímaly, a zdistribuuji několik mírně, ale opravdu jen mírně zajímavých faktů :)
Těch rozličných zákonů (obvykle empiricky vypozorovaných v nějakém odvětví lidské činnosti) je poměrně velké množství, jsou pojmenovány po mnoha různých lidech (o tom že leckdy nesprávně hodím poznámku závěrem), mají však mnohé společné, protože v pozadí se opakují jisté základní principy, které se zde pokusím nastínit. Omlouvám se za trochu delší text :)
Kratší úvod, který znalejší statistiky mohou přeskočit. Předpokládám, že většina diskutujících tady (přinejmenším intuitivně) chápe, co je to populace (soubor) nějakých jedinců (prvků), a že u takové populace mohu statisticky vyšetřovat nějakou vlastnost, tj. mohu přiřadit každému jedinci (prvku) nějaké číslo. Např. mám populaci 100 lidí a každý má nějakou výšku. Mohu tedy takovou populaci popsat stovkou číselných údajů - výšek těch lidí. A můžu to nějak matematicky uchopit, třeba spočítat jejich průměr ... a vyjde mi průměrná výška té populace. Co mají statistici (a leckteré příbuzné obory) rádi, je z těch dat udělat histogram, neboli vzít tu vlastnost (zde číslem vyjádřenou výšku člověka) a vynést ji na vodorovnou osu s nějakým krokem (třeba jeden cm) v intervalu od minimální do maximální hodnoty, která se v populaci vyskytla. Tím na té ose vznikne nějaké množství "chlívečků" (říká se jim biny), do kterých mohu ty jednotlivé číselné hodnoty umisťovat. Na svislé ose tak měřím počet jedinců z populace, kteří mají výšku v daném rozmezí, např. v chlívečku 178-179 cm. Čím větší bude populace (resp. z ní zkoumaný vzorek), tím hladší a hodnověrnější bude výsledný histogram. Když místo 100 lidí použiji 10 000, už budu mít poměrně dobrou představu o tom, jak jsou různé výšky v populaci rozděleny. Rozdělení pravděpodobnosti, to je přesně to, co mají statistici ze všeho nejraději. Vznikne z histogramu, kam nasypu tu populaci, když ty počty v jednotlivých binech vydělím celkovou populací (čímž vznikne normovaný histogram, místo počtů budu mít na svislé ose relativní četnosti, plocha vzniklého histogramu bude jednotková, a bude tedy mít význam pravděpodobnosti).
Vsuvka: Např. u biologických populací bývá obecně zažité, že takto vzniklý obrázek (rozdělení pravděpodobnosti) připomíná normální rozdělení (aka Gaussovo rozdělení, Gaussovka). Pravdou je, že ve skutečnosti je v biologii normální rozdělení poměrně vzácné (nepopisuje přesně tedy ani tu zmíněnou výšku v lidské populaci; určitou výjimkou je IQ, které je ale jako veličina s normálním rozdělením schválně zavedena a IQ testy jsou podle toho nadesignovány).
Statistici (a matematici, fyzici, chemici, ekonomové, sociologové, lékaři, ...) mohou tímto způsobem - pomocí nástroje rozdělení pravděpodobnosti*) - matematicky popisovat různorodá data a zejména ta data kloudně zpracovat.
*) Správně je pojem rozdělení pravděpodobnosti pouze pro veličiny, které jsou matematicky řečeno "diskrétní" (nabývají pouze určitých oddělených hodnot - např. počet něčeho na kusy). Pro "spojité" veličiny je správný pojem hustota pravděpodobnosti, jinak by ta matematická stránka nefungovala správně. Nicméně v češtině se často pro obojí používá pojem rozdělení pravděpodobnosti.
Lze tedy mít nějakou veličinu x (třeba tu výšku lidí v cm) a znát její rozdělení pravděpodobnosti f(x), což je funkce, která dané hodnotě x přiřadí pravděpodobnosti, s jakou jedince s takovou výškou x dané populaci nalezneme. (Opět: pro spojité je f(x) správně hustota pravděpodobnosti a až nějaký interval ve veličině x vyjadřuje pravděpodobnost.)
Jak jednou známe f(x), máme úplný popis chování té náhodné veličiny x. Víme, jak se statisticky chová a můžeme se o ní leccos dozvědět - výpočtem. Např. jak už bylo zmíněno výše, můžeme spočítat aritmetický průměr té populace. Aritmetický průměr x̄ nějaké veličiny x, je (matematickou řečí) "první moment" funkce f(x), a má význam "očekávané hodnoty". Tj. hodnoty, která poměrně vhodně charakterizuje výšku celé populace. Prostě průměr. Můžeme spočítat také vyšší momenty f(x), např. druhý (centrální) moment má význam disperze (D, také variance, česky též rozptyl), a říká nám, jak jsou hodnoty x rozloženy okolo očekávané hodnoty (aritmetického průměru). Odmocninou z disperze D = σ2 je standardní odchylka σ. (Třetí a vyšší momenty ponechme stranou.)
Pojďme pomalu k tématu, ale ještě ne úplně :)
Mám tedy náhodnou veličinu x, kterou mám popsanou pomocí f(x), a mohu ji charakterizovat nějakými základními charakteristikami, např. tím průměrem x̄ a disperzí σ2. Matematická statistika disponuje řadou zajímavých tvrzení, které tyto dvě charakteristiky a chování náhodné veličiny x svazují. Dvě z nich mohou být pro laika velmi překvapivá. Pravděpodobnost, že se nějaká hodnota x (v celé populaci) nachází dále od střední hodnoty x̄ než je nějaký k-násobek standardní odchylky σ, je menší než 1/k2; např. pravděpodobnost, že bych nalezl nějakou hodnotu dále než 5 standardních odchylek je menší 1/25 = 0.02 = 2 %. Říká se tomu Čebyševova nerovnost a platí pro libovolné rozdělení f(x). (Stačí, že má definovány střední hodnotu x̄ a disperzí σ2.) Z Čebyševovy nerovnosti lze odvodit jiné zajímavé tvrzení, centrální limitní větu, která říká pro naši svatou trojici f(x), x̄ a σ2 následující: když budu ty veličiny x n-krát losovat (nebo nějak jinak generovat), a budu je průměrovat, tak mi místo x vznikne jiná náhodná veličina, označím ji třeba y. Pokud to n bude dostatečně velké, vzniklá veličina y bude mít normální rozdělení (gaussovka) se střední hodnotou x̄ a disperzí disperzí σ2/n. A opět na původním rozdělení f(x) té průměrované veličiny nebude záležet. Vše zprůměrováním skončí jako gaussovka.
(Už se pomalu dostávám k tématu!) Jak už přívlastky centrální a normální v názvu tvrzení a gaussovky napovídají, mají ve statistice svou důležitost. Normálně, tj. gaussovsky, se chová průměrování čehokoliv (až na výjimky, jeden patologický příklad uvádím úplně na konci) ... stačí, když to sčítáme dostatečně dlouho. Klasickým příkladem je difuse (např. Brownův pohyb). Zrníčko barviva nebo třeba čaje je obklopeno molekulami vody. Ty mají náhodné rychlosti (dané Maxwellovým-Boltzmannovým rozdělením, ale to není podstatné, protože centrální limitní větě je to jedno a stejně z toho vyrobí gaussovku) a naráží jich velké množství. Z jedné strany, z druhé strany atd ... vše se vektorově posčítá. Zprůměrovaný efekt těch mnoha srážek molekul se zrníčkem čaje bude ten, že mu bude udělena (náhodná) rychlost, která má normální rozdělení. (A to lze i dobře experimentálně ověřit, i za běžných podmínek difuse pěkně splňuje 2. Fickův zákon, kde vystupuje gaussovka v příslušné dimenzi - podle toho jde-li o 2D nebo 3D difusi).
Zcela zásadním pozorováním zde je, že průměrování velkého počtu aditivních veličin vedlo ke vzniku gaussovky.
Všude, kde těch vlivů je hodně a jsou aditivní (prostě splňují předpoklady centrální limitní věty), někde na konci toho procesu čeká gaussovka. Proto ty výše zmíněné biologické systémy často mívají rozdělení hodně podobná gaussovce: mnoho vlivů, které se sčítají. Výšku člověka neovlivňuje jediný gen nebo podobný vliv. Kromě velkého množství genů (náhodně popárované od rodičů) také další vlivy (např. výživa) během růstu jedince. Do značné míry jsou jejich účinky aditivní a výsledkem je přibližně gaussovka.
V jiných oblastech se normální rozdělení (gaussovka) tak moc často nenachází, čím to? No ve skutečnosti jsou totiž ty efekty aditivní jen málokdy, mnohem mnohem mnohem častěji jsou totiž multiplikativní. Dost často se věci mají tendenci měnit úměrně své velikosti. Průměrujeme-li opět mnoho vlivů, tentokrát však multiplikativních místo aditivních (matematicky geometrický místo aritmetického průměru), obdržíme místo normálního rozdělení rozdělení lognormální. (Logaritmus krásně z násobení dělá sčítání.) A lognormální rozdělení tak nacházíme v mnoha procesech v přírodě, společnosti atd. Velká planeta (nebo velká hrouda hlíny) se stává větší, protože má větší gravitační pole (resp. větší povrch na který se může lepit další hlína). Pohyby na burze jsou také samozřejmě multiplikativní, vydělám a prodělám 1 %, ať mám investováno hodně nebo málo. Populární výrobek/služba/firma osloví více zákazníků úměrně své velikosti.
A tedy k tématu těch různých zákonů. Gaussovku a lognormální pozná každý a je u nich jasný ten "základní princip", kdy u gaussovky je za tím aditivita těch vlivů, u lognormálního jsou vlivy multiplikativní - pěkným příkladem je zde již někým zmíněný Benfordův zákon (ve skutečnosti prvně popsaný daleko dříve Newcombem, který si údajně povšiml více ohmataných stránek logaritmických tabulek pro čísla začínající 1 a 2), tam to lognormální rozdělení krásně vystupuje v četnosti počátečních cifer zápisu takřka čehokoliv. Od délek řek nebo velikostí planet až po velikosti populací obcí (používá se to např. v testování falšování volebních výsledků).
Problém samozřejmě je, když se to rozdělení chová nějak výrazně jinak, ten "základní princip" na pozadí bývá těžké určit. Velmi zajímavým nástrojem je potom, co uvidím za obrázek, když graf funkce rozdělení pravděpodobnosti f(x) nějak vhodně ztransformuji, obvykle zlogaritmuji. Např. místo f(x) bude f(log(x)), čímž třeba z té zmíněné gaussovky udělám lognormální rozdělení. Často se zlogaritmují obě osy, svislá i vodorovná. Když dostanu (na relevantním úseku) lineární závislost nebo něco podobně pěkného, obvykle to něco důležitého o chování systému prozrazuje a velmi často to někdo už v minulosti pozoroval a pojmenoval, obvykle v různých oblastech lidské činnosti několikrát nezávisle na sobě :)
Lineární úsek zpravidla znamená tendenci k paretovskému chování (třída rozdělění odvozených z Paretova rozdělení). Asi nejznámější je Paretovo rozdělení popisující známý princip (nerovného) rozložení bohatství v populaci. Matematicky je to příbuzné s již zmíněným Zipfovým zákonem, souvisí s tím Giniho koeficient, Bradfordův zákon, efekt sv. Matouše, a mrtě dalších statistik v ekonomii, sociologii, a dalších oblastech.
Na podobném principu se ve fyzice analyzují power laws (mocninné zákony či jak se to překládá) kdy po vhodné transformaci os (zlogaritmování, reciproké osy apod.) vyplavou na povrch souvislosti mezi veličinami a "základní principy". Od dispersních sil (Van der Waals) po distribuci hmoty v populacích hvězd, vyšetřuje se tím rozpad turbulence (Kolmogorovovo spektrum) a spousty dalších věcí ve fyzice kondenzovaných látek ....
Dvě malé poznámky závěrem, jedná se stále o mírně zajímavá fakta, takže snad nejsem OT:
Výše jsem popisoval, jak funguje centrální limitní věta. Jedním z rozdělení, na které se aplikovat nedá, (protože nemá definovanou střední hodnotu) je Cauchyho rozdělení. (Ve fyzice se mu častěji říká Lorentzovo, v částicové fyzice také Breitovo-Wignerovo, a popisuje rezonanční chování - klasický oscilátor, přirozený tvar spektrálních čar ve spektroskopiích atd.) Vtipným důsledkem je, jak takový patologický případ odporuje naší každodenní zkušenosti. Intuitivně totiž centrální limitní větu (resp. zákon velkých čísel) chápeme a nevědomky používáme: když mě zajímá průměrná hodnota něčeho, vím, že přesnějšího výsledku dosáhnu, když budu brát průměr z co největší populace (nebo měrit/středovat delší čas apod.). Když hodím kostkou 6x, asi se nebudu divit, že nepadne šestka ani jednou. Když hodím 6-milionkrát, tak by mě to asi už zarazilo. Nebo třeba chci změřit tloušťku papíru, tak místo jediného papíru jich změřím celý balík 500 kusů a vydělím to 500. No a Cauchyho/Lorentzovo rozdělení se chová tak, že tohle nikterak nepomůže. Měřit něco jednou je v jeho případě úplně stejně přesné jako to měřit milionkrát a pak zprůměrovat; jsem na tom stále stejně.
A druhá poznámka se týká pojmenovávání zákonů. Je zajímavé, že velká část zákonů je pojmenovaná po někom jiném, než kdo tu danou zákonitost či souvislost poprvé objevil či popsal (např. ten zmíněný efekt nazvaný Benfordův zákon objevil astronom Newcomb o desítky let dříve). Téhle velmi časté historické nepřesnosti v pojmenovávání si samozřejmě už někdo všiml, jmenuje se Stiglerův zákon ("žádný věděcký objev se nejmenuje po původním objeviteli"). Úsměvné je, že Stiglerův zákon splňuje sám sebe, neboť tohle chování bylo popsáno sociologem Mertonem (byť to odvozoval od efektu sv. Matouše).