Jaký je rozdíl mezi Bayesovským a častým přístupem pro laiky?


Odpověď 1:

Otázka: Kolik frekventantů potřebuje výměnu žárovky? A: No, existují různé obhajitelné odpovědi ...

Otázka: Kolik Bayesiánů trvá, než vyměníte žárovku? A: Vše záleží na vašem předchozím!

Vypravěč: Nechť p je neznámé rozdělení pravděpodobnosti. Odhadovač je funkce, která se pokusí odpovědět na otázku o p, vzhledem k datovému souboru, který byl odebrán z p.

Statistiky se týkají hlavně návrhu a analýzy odhadců ...

Freddy the Frequentist: Tady je odhadce, kterého jsem si vymyslel! A mohu dokázat, že pro jakékoli p v této rodině distribucí můj odhadce „funguje dobře“.

Vypravěč: Vysvětlete prosím našemu publiku „funguje dobře“. Můžete mávat rukama.

Freddy (mává rukama): Bez ohledu na to, co je p, můj odhadce obecně dá docela přesné odpovědi na datové sady vzorkované z p. Samozřejmě, že to selže na příležitostném nereprezentativním datasetu, ale není tu žádná smůla.

Basia Bayesian: Gratulujeme! Je optimální „pracovat dobře“? Vždycky chci optimální.

Freddy: Ne, pro tento problém neexistuje jediný nejlepší odhadce. Ale alespoň dokážu, že můj je „přípustný“. To znamená, že nějaký jiný odhadce by mohl porazit můj odhad pro některé p, ale ne pro všechny p.

Basia: Dobře ... tak co rozdělení, které očekáváte v praxi? Je váš odhadce obzvláště vhodný pro ty?

Freddy: Kdo ví, co bude v praxi vznikat?

Basia: Zřejmě ano. Už jste předpokládali, že p pochází z určité rodiny. Pokud tomu tak není, váš odhadce nemá žádné záruky.

Freddy: Dobře, máš mě. Ale můj předpoklad je docela mírný. Lidé mají často dobré důvody (např. Centrální věta o limitu), aby věřili, že jejich distribuce generující data pochází víceméně od mé rodiny. Chci, aby můj odhadce fungoval dobře, dokud je p v této rodině.

Basia: Ale dostanete skutečný datový soubor od vědců. Nebudou mít konkrétnější vědecké pocity ohledně toho, co bude pravděpodobně p? Pak byste mohli získat lepší výsledky tím, že to vezmete v úvahu.

Freddy: To zní podezřelě. Vědci chtějí objektivní závěry, nikoli závěry, které odrážejí jejich stávající předpoklady.

Basia: Cíl ?? Antropologové a novináři říkají, že neexistuje nic takového jako objektivní hledisko: jako ve fyzice vždy přinášíte svůj vlastní referenční rámec. Data, která pro vás mohou nejvíce udělat, je aktualizovat vaše stávající přesvědčení. Nevěnovali jste pozornost ve třídě filozofie? Skeptici nám říkají, že neexistuje způsob, jak určitě něco vědět. Existencialisté nám říkají, že se nemůžete vzdát své svobodné vůle, stejně jako byste chtěli. Můžete se pokusit zbavit této odpovědnosti přijetím nějakého principu, jako je zákon, loajalita nebo náboženství - nebo častost! - ale to je jen nepřímý způsob, jak se rozhodovat.

Freddy: Blah bla bla. Statistika je matematika, ne filozofie.

Basia: Statistika je aplikovaná epistemologie. Vy a já pokračujeme ve staré filosofické konverzaci: jak můžeme z dat správně dospět k závěru? Ano, naše moderní matematické nástroje nám umožňují důsledně odvodit přesné závěry, ale teprve poté, co jsme učinili předpoklady. Dokonce i matematici musí předpokládat některé axiomy. Když se zabýváme daty, musíme také učinit předpoklady o tom, odkud data pocházejí. Žádné předpoklady, žádné závěry. Život tak saje.

Freddy: Ale už jsem udělal mírný předpoklad a vymyslel dobrý odhadce! Všechny vaše porážkové řeči mi nedávají lepší.

Basia: Ne, nedám ti jeden odhadce. Dal jsem vám způsob, jak automaticky odvodit lepší odhadce tím, že více předpokladů. Vaše je zaručeno, že bude fungovat docela dobře pro všechny p v rodině, ale moje bude fungovat lépe pro typické p.

Freddy: Typické ?? Dělám nejhorší případovou analýzu. Chcete provést analýzu průměrného případu, tak jaký je průměrný případ? Mám se průměrovat stejně přes všechny p?

Basia: Stačí si poznamenat svou předchozí distribuci na p, což odráží vaše skutečné přesvědčení - před experimentem - o tom, kde by p mohlo padnout. Pokud si opravdu nejste jisti, pak by váš předchozí měl být „plochý“ a chovat se ke všem p víceméně stejně.

Freddy: A jakmile jsem napsal předchozí distribuci ...?

Basia: Potom Bayesovský odhadce vypadne! Nic nezbývá na design. Při daném datovém souboru Bayesovský odhadce jen znovu váží vaši předchozí víru v každou hypotézu p podle pravděpodobnosti této hypotézy generování datového souboru. Máte-li funkci ztráty, pak optimální rozhodnutí vypadnou z nových přesvědčení, opět bez dalšího designu, díky bayesovské teorii rozhodování.

Freddy: "Optimální" rozhodnutí ... pokud věříte předchozímu.

Basia: Hej, připustil jsi, že nemáš principiální způsob, jak si vybrat mezi přijatelnými odhady. Různí odhadci také vytvářejí různé předpovědi.

Musím uvést svou předchozí. Nemám principiální způsob, jak si vybrat mezi různými předchůdci; Jen jsem měl mít předchozí víru. Ale aspoň jsem o tom výslovný! Kdokoli čte můj dokument, tak může přesně vidět, co vedlo k mým závěrům. Nejsem svažující se s různými odhadci. Můj odhadce trvá na použití všech údajů. Podle Bayesovských principů vedou data a předchozí neodvolatelně k závěrům.

Moji čtenáři se se mnou samozřejmě mohou dohadovat o tom, zda můj předchozí reprezentuje současný stav vědeckých znalostí. Můžeme otestovat, jak by různé závěry ovlivnily závěry.

Vypravěč: Děkuji za podnětnou diskusi! To je velmi tl; dr. Publikum je nyní zdarma k odchodu.

Freddy: Vidím, že opravdu chcete vytlačit každou kapku hodnoty z dat. Ale proč se pokusit definovat Jeden skutečný odhadce? Důl je dost dobrý. Mohu svázat předpojatost a rozptyl svého odhadu jako funkci velikosti datové sady, takže vám mohu dokázat, že velké chyby nejsou pro praktické datové sady příliš pravděpodobné.

Prakticky je můj odhad také snadno spočítatelný. Ve skutečnosti jsem s tím přišel: předpokládal jsem jednoduchý rozumný postup a poté jsem dokázal, že má dobré vlastnosti. Váš Bayesovský odhadce byl dostatečně snadný, aby se matematicky zapisoval, ale možná je to peklo na kolečkách, které lze vypočítat, což také ztěžuje analýzu.

Basia: To je fér. Ve skutečnosti obvykle nemám žádný praktický způsob, jak to přesně spočítat. Musím navrhnout randomizovaný algoritmus nebo variační aproximaci. Takže moje praktické závěry nevycházejí neodmyslitelně z dat plus předchozí. Jsou také ovlivněni výpočtovou aproximací.

Ale pravděpodobně by z toho mělo být výpočetně náročné vyvodit přesné závěry z dat. Vědecké zdůvodnění je docela zapojeno, když to lidé dělají. Vědecké procesy jsou složité, což vede ke složitým rodinám modelů. Vědecké experimenty produkují heterogenní, hlučné a neúplné údaje.

Bayesovský přístup zvládne tuto složitost bez problémů. Jakmile svůj model navrhnete, Bayesianismus se skládá z jediného jednoduchého statistického principu, který v praxi podporuje knihovna výpočetních triků.

Freddy: Přiznávám vám, že v těchto fantazijních situacích by se i výpočetní náklady staly častějšími odhadci. Také přiznávám, že by pro mě bylo obtížné navrhnout odhadce pro takovou situaci (natož pro mnoho souvisejících situací), která měla prokazatelně dobré časté vlastnosti.

Pravděpodobně bych se vrátil k odhadu maximální pravděpodobnosti. Je to jako sloučená verze vašeho Bayesovského odhadu, takže je alespoň možné provést výpočet. A nepotřebuje předchozí.

Basia: Nejsem blázen do maximální pravděpodobnosti. Ignoruje předchozí informace. A dává pouze odhad hloupého bodu, místo toho, aby představoval zadní nejistotu. To vás povede k horším rozhodnutím.

Freddy: Takže možná přidám regularizér. Bez ohledu na to se účinek vašeho předchozího s rostoucím datovým souborem snižuje, stejně jako vaše zadní nejistota. Takže alespoň se budeme navzájem dohodnout v limitu nekonečných dat. A v tom okamžiku také souhlasíme s pravdou: Nejsem blázen ani odhadem maximální pravděpodobnosti, ale alespoň je to konzistentní.

Vypravěč: Dobře! Rád vás vidím po dohodě.

Freddy: Ahoj, laické publikum! Doufám, že jste se bavili. Můžete nás vylepšit cestou ven.

Ale Basia, mezi námi dvěma, pořád nesdílím tvůj filozofický postoj k tomu, co chceme od odhadce. Přestaňme fantazii nekonečných dat. Budeme mít konečná data, takže chceme, aby se riziko odhadce rychle snížilo v závislosti na velikosti datové sady. Kdybych zvažoval odhadce pro komplikovaný model, pokusil bych se dokázat, že to udělal pro jakoukoli distribuci v rodině. To by nevyžadovalo žádné předchozí.

Basia: Co tím myslíš „nějaká distribuce v rodině“? Je to u složitých modelů dokonce přirozený koncept? Dovolte mi načrtnout základní hierarchický bayesovský model:

  1. čerpat některé hyperparametry z předchozích parametrů distribuce čerpání z distribucí řízených hyperparametry čerpání dat z distribucí ovládaných parametry

Co je tady rodina?

Freddy: Zde bych zacházel s hyperparametry a parametry odlišně. Jsem ochoten předpokládat, že p má vaši hierarchickou podobu: jak jste již dříve zdůraznil, přijímám tvrdá omezení na p. Vyhodím tvoje dřívější před hyperparametry, což je na straně p. Každé nastavení hyperparametrů je jiné distribuce p, takže chci navrhnout frekvenční metodu, která dobře funguje pro každé takové nastavení.

Basia: Ale nevyhodili jste distribuce, které generují parametry.

Freddy: Správně. Takže musím považovat tyto parametry v kroku 2 za nepozorovaná data, která se generují modelem po cestě ke kroku 3. Jsou to „obtěžující“ proměnné. Takže když průměruji přes náhodné datové sady, dělám také analýzu průměrných případů. Ale protože se snažím ukázat, že tato analýza přichází dobře pro jakoukoli distribuci, dělám nejhorší případovou analýzu hyperparametrů.

Basia: Jaká je vaše motivace k tomu, abyste s těmito dvěma úrovněmi zacházeli tak odlišně?

Freddy: Oh, vždy rozlišuji dvě úrovně. Existuje několik distribucí. Pro každou distribuci v sadě se chci v průměru dobře činit.

Basia: Podíváte se na tento tříúrovňový hierarchický model a vidíte sadu distribucí přes distribuce. Použitím předchozího nad hyperparametry jsem to proměnil v rozdělení přes distribuce přes distribuce. Nebo rovnocenně, jedna velká distribuce. Takže jen analyzuji všechno v průměrném případě. Nechápu, proč byste nakreslili zvláštní čáru mezi úrovněmi 1 a 2 mého modelu.

Freddy: Ale nemusím to tam kreslit. Mohu to nakreslit kamkoli si vyberu. Chcete úplně vyhodit nejhorší případovou analýzu. Ale nejsem schopen kombinovat analýzu nejhoršího a průměrného případu různými způsoby.

Když nakreslím čáru nad úrovní 1., pak je vše průměrné a moje analýza je nerozeznatelná od Bayesovské. V tomto případě rodina obsahuje pouze jednu distribuci p, která generuje hyperparametry, parametry a data. Můj odhadce tedy ne odhaduje vlastnosti p, které jsou známé. Jedná se o imputující hodnoty rušivých proměnných, dané p a pozorovaný datový soubor.

A zde riziko mého odhadce již nezávisí na výběru p. Je to průměr nad vším, včetně hyperparametrů.

Basia: Dobře! To je to, co vždy minimalizuji. Můj odhadce je výslovně definován tak, aby minimalizoval Bayesovo riziko - tj. Očekávanou ztrátu predikce, podle zadaného zadaného datového souboru. Protože můj odhadce minimalizuje Bayesovo riziko pro jakýkoli datový soubor, který je uveden, pak také minimalizuje časté riziko, o kterém mluvíte, což navíc průměruje všechny možné datové sady.

Freddy: Ano, váš odhadce vypadá jako ideální řešení, pokud nakreslím čáru nad úrovní 1 a přijme vaši předchozí jako součást samotného modelu. Ale to je jediný, spíše slabý výsledek. Tím, že jsem se rozhodl nakreslit čáru na jiných místech, jsem také formuloval další věty o odhadcích. Věty, které obsahují ∀ symboly, protože dělají nejhorší případovou analýzu.

Basia: Tento „slabý výsledek“ je v praxi vše, co jsem kdy potřeboval. Vaše další věty jsou dost pravdivé, ale jak vám mohou pomoci?

Freddy: No, pohodlněji doporučuji vědcům odhadce. Umím jim říct, jaké známé vlastnosti má, včetně různých druhů nejhorších vlastností.

Basia: Ale jiný frekventant může stejně dobře doporučit odlišného odhadce, který má také dobré vlastnosti, ale provede jiné předpovědi.

Vaše věty jsou pouhé řeči; zaměňují problém. Nepotřebuji žádné věty, abych mohl doporučit. Moje Bayesovské doporučení je odvodit odhadce přímo z vašich vědeckých předpokladů a technických cílů. Vždy budu vědcům říkat, aby použili zobecněné Bayesovo pravidlo: pokud skutečně věří svému modelu a předchozímu, pak nejlepší předpovědí z údajů je ta, která minimalizuje Bayesovo riziko.

Freddy: Myslím, že se vlastně opíráte o celou třídu věty. Cítíte, že řeší všechny statistiky. Co tedy děláš celý den? Musí to být chytrá práce.

Basia: No, pomáhám vědcům formalizovat jejich model, předchozí a ztrátovou funkci. To nevyžaduje nové statistické věty - ale stále je třeba dělat matematiku. Možná budu muset navrhnout a analyzovat nové rozdělení pravděpodobnosti. Navrhuji a analyzuji také algoritmy, které pomáhají vědcům vypočítat nejlepší předpověď.

Freddy: Zaslouží si vědět, zda tato „nejlepší předpověď“ bude dobrá. Možná bych měl udělat častou analýzu vašeho Bayesovského odhadu.

Basia: Proč se obtěžovat? Jen bych je upozornil na Bayesovo riziko jejich skutečné predikce. Toto číslo je velmi užitečnou informací, protože je podmínkou jejich skutečného souboru dat.

Vaše častá analýza by věnovala stejnou pozornost distribucím p, které jsou vyloučeny jejich skutečným datovým souborem. Koho to zajímá dobře? Obzvláště když „se vede dobře“ znamená průměrný výkon nad mnoha smyšlenými datovými soubory. To je irelevantní.

Freddy: Ale co když vědci ještě nemají „skutečný dataset“? Budou analyzovat mnoho datových sad. Musí se předem rozhodnout. Za prvé, měli by přijmout váš statistický software? Za druhé, kolik dat by měli shromažďovat?

To jsou opravdu otázky o tom, jak dobře se váš software - nebo moje - povede v průměrném datovém souboru velikosti n, pro řadu distribucí. Každá softwarová krabička by měla mít nálepku „nutriční informace“ s odpověďmi na tyto otázky.

Basia: Dobře, ale ta samolepka se nemusí zaměřovat na nejhorší případ. Vědci mají před více než p. Můj software konzultuje předchozí a váš ne. Ale v každém případě vědci chtějí vědět, jak dobře bude software fungovat při distribucích p vybraných z jejich předchozích. To jsem pro ně mohl odhadnout vzorkováním distribucí a datových souborů z jejich předchozích.

Freddy: V zásadě bys mohl. V praxi však budete chtít nálepku publikovat dříve, než budete vědět, kdo bude software používat. Časté věty jsou tak hezké a přenosné - stejně jako nutriční štítky, mají za cíl pomáhat mnoha různým uživatelům, kteří mohou mít jiné předchozí zkušenosti.

Můžeme sformulovat odhadce pro časté uživatele, aniž bychom věděli o předchozím uživateli. A my můžeme zveřejnit jeho nejhorší případové riziko, aniž bychom o tom předem věděli. Uživatel ví, že nejhorší riziko je alespoň horní mez jejich průměrného rizika, bez ohledu na to, jak dávají přednost průměrnému.

Basia: Myslím, že vaše námitka opět klesá na výpočetní potíže! Chcete vymyslet obecné odhadce a dokázat obecné věty ... abyste se vyhnuli konkrétním výpočtům, které by vám poskytly nejlepší možnou odpověď ve vaší přesné situaci.

Není divu, že se statistika historicky zaměřila na obecné věty. Nebylo výpočetně proveditelné udělat víc. Možná jsem Bayesián, protože jsem dospěl, obklopený výpočetní mocí a technikami, jako je MCMC. Respektuji obecnost a eleganci teoretických mezí, v jednoduchých případech, kde je můžete získat. Oceňuji však také strojové učení, které se zaměřuje spíše na měření a maximalizaci výkonu konkrétních prediktivních systémů, než na prokazování širších vět o slabších systémech.


Odpověď 2:

Všechny zajímavé a většinou velmi platné odpovědi.

Přidám toto:

Když například chcete vyhrát válku, najít novou drogu, vydělat peníze na akciovém trhu, předpovídat počasí nebo předpovídat výsledek voleb, nejlepší je použít Bayesanský přístup.

Jinými slovy, bayesovský přístup je ten, který opravdu funguje. (za předpokladu, že jej nakrmíte svými nejlepšími znalostmi o modelech, které se mají použít, a hodnotami parametrů v něm).

Vysvětlení je, že šance je o modelování reality, a Baysian přístup vám dává lepší modelovací sílu.


Odpověď 3:

Myslím, že ostatní přesně odpověděli na konkrétní otázku, ale dodal bych také, že Bayesian je více v souladu s tím, jak všichni skutečně zpracováváme nové informace .... i když jste ve skutečnosti ... časté.

Řekněme, že známý odborník v oblasti východu slunce říká, že predikční model (algoritmus), který právě vytvořila, říká, že východ slunce začne přicházet mnohem později, než se očekávalo. Ve skutečnosti do týdne očekává východ slunce v 8:00. Vaše přirozená a logická reakce na to spočívá v tom, abyste pochopili své stávající porozumění (východ slunce bylo v poslední době kolem 6 hodin) a upravili vaše očekávání východního týdne.

To provedete, i když se zdá, že model používá zvukovou matematiku a nemůžete najít žádné díry logiky v algoritmu ani na vstupech. Máte roky pozorovaných „dat“, která vám říkají, že příští týden bude východ slunce kolem 6 hodin.

Toto je němá verze bayesovského přístupu bez matematiky.

Dokonce i ti, kteří mohou najít nález v absolutním vyjádření, mají s největší pravděpodobností v jádru bayesovskou víru.