kategórie
...

Regresná analýza je štatistická metóda na štúdium závislosti náhodnej premennej na premenných

V štatistickom modelovaní je regresná analýza štúdia, ktorá sa používa na hodnotenie vzťahu medzi premennými. Táto matematická metóda zahŕňa mnoho ďalších metód na modelovanie a analýzu niekoľkých premenných, keď sa kladie dôraz na vzťah medzi závislou premennou a jednou alebo viacerými nezávislými. Presnejšie povedané, regresná analýza pomáha pochopiť, ako sa mení typická hodnota závislej premennej, ak sa zmení jedna z nezávislých premenných, zatiaľ čo ostatné nezávislé premenné zostávajú pevné.

Regresná analýza

Vo všetkých prípadoch je cieľový odhad funkciou nezávislých premenných a nazýva sa regresná funkcia. V regresnej analýze je tiež zaujímavé charakterizovať zmenu závislej premennej ako funkciu regresie, ktorú možno opísať pomocou rozdelenia pravdepodobnosti.

Úlohy regresnej analýzy

Táto metóda štatistického výskumu sa široko používa na predpovedanie, kde jej použitie má významnú výhodu, ale niekedy môže viesť k ilúziám alebo klamným vzťahom, preto sa odporúča opatrne ju používať v tomto probléme, pretože napríklad korelácia neznamená príčinný vzťah.

Na vykonávanie regresnej analýzy bolo vyvinutých veľké množstvo metód, ako je lineárna a obyčajná regresia najmenších štvorcov, ktoré sú parametrické. Ich podstatou je, že regresná funkcia je definovaná ako konečný počet neznámych parametrov, ktoré sa odhadujú z údajov. Neparametrická regresia umožňuje, aby jej funkcie spočívali v určitom súbore funkcií, ktoré môžu byť nekonečné.

Ako metóda štatistického výskumu regresná analýza v praxi závisí od formy procesu generovania údajov a toho, ako súvisí s regresným prístupom. Pretože skutočná forma dátového procesu spravidla generuje neznáme číslo, regresná analýza údajov často do istej miery závisí od predpokladov týkajúcich sa tohto procesu. Tieto predpoklady sa niekedy overujú, ak je k dispozícii dostatok údajov. Regresné modely sú často užitočné, aj keď sú predpoklady mierne porušené, hoci nemôžu pracovať pri maximálnej účinnosti.

V užšom zmysle sa regresia môže týkať konkrétne posudzovania premenných nepretržitej odozvy, na rozdiel od diskrétnych premenných odozvy použitých v klasifikácii. Prípad premennej nepretržitého výstupu sa tiež nazýva metrická regresia, aby sa odlíšila od súvisiacich problémov.

Príbeh

Najskoršou formou regresie je známa metóda najmenších štvorcov. Publikoval ho Legendre v roku 1805 a Gauss v roku 1809. Legendre a Gauss použili túto metódu na stanovenie orbitálnych telies okolo Slnka (hlavne komét, ale novoobjavených menších planét) z astronomických pozorovaní. Gauss publikoval ďalší vývoj teórie najmenších štvorcov v roku 1821, vrátane verzie Gauss-Markovovej vety.

Metóda štatistického výskumu

Termín „regresia“ vytvoril Francis Galton v 19. storočí, aby opísal biologický fenomén. Pointa bola, že rast potomkov z rastu predkov sa spravidla ustupuje na normálny priemer.Pre Galtona mala regresia iba tento biologický význam, ale neskôr jeho práca pokračovala Udney Yule a Karl Pearson a priniesla všeobecnejší štatistický kontext. V práci Yule a Pearsona sa spoločná distribúcia premenných odozvy a vysvetľujúcich premenných považuje za gaussovskú. Fisher tento predpoklad odmietol v dielach 1922 a 1925. Fisher navrhol, že podmienené rozdelenie premennej odozvy je gaussovské, ale spoločné rozdelenie by nemalo byť. V tomto ohľade je Fischerov predpoklad bližšie k Gaussovej formulácii z roku 1821. Až do roku 1970 trvalo niekedy až 24 hodín, kým sa získal výsledok regresnej analýzy.

Analýza údajov o regresii

Metódy regresnej analýzy sú naďalej oblasťou aktívneho výskumu. V posledných desaťročiach boli vyvinuté nové metódy spoľahlivej regresie; regresia zahŕňajúca korelované reakcie; regresné metódy prispôsobujúce rôzne typy chýbajúcich údajov; neparametrická regresia; Bayesovské regresné metódy; regresie, pri ktorých sa predikčné premenné merajú s chybou; regresie s viac prediktormi ako pozorovaniami, ako aj kauzálne závery s regresiou.

Regresné modely

Modely regresnej analýzy zahŕňajú tieto premenné:

  • Neznáme parametre, označené ako beta, ktoré môžu byť skalárne alebo vektorové.
  • Nezávislé premenné, X.
  • Závislé premenné, Y.

V rôznych vedných odboroch, v ktorých sa používa regresná analýza, sa namiesto závislých a nezávislých premenných používajú rôzne termíny, ale vo všetkých prípadoch sa regresný model týka Y funkcií X a β.

Aproximácia má zvyčajne formu E (Y | X) = F (X, P). Na vykonanie regresnej analýzy sa musí určiť typ funkcie f. Menej často sa zakladá na znalosti vzťahu medzi Y a X, ktoré sa nespoliehajú na údaje. Ak takéto znalosti nie sú k dispozícii, vyberie sa flexibilná alebo pohodlná forma F.

Závislá premenná Y

Teraz predpokladajme, že vektor neznámych parametrov ß má dĺžku k. Na vykonanie regresnej analýzy musí užívateľ poskytnúť informácie o závislej premennej Y:

  • Ak existujú N dátové body tvaru (Y, X), kde N
  • Ak sa pozoruje presne N = K a funkcia F je lineárna, potom je možné rovnicu Y = F (X, β) vyriešiť presne a nie približne. To sa obmedzuje na riešenie množiny N-rovníc s N-neznámymi (elementy β), ktoré majú jedinečné riešenie, pokiaľ je X lineárne nezávislé. Ak F nie je lineárne, nemusí existovať riešenie alebo môže existovať mnoho riešení.
  • Najbežnejšia je situácia, keď sú pozorované N> body k údajom. V tomto prípade je v dátach dostatok informácií na vyhodnotenie jedinečnej hodnoty pre p, ktorá sa najlepšie zhoduje s údajmi, a regresný model, keď sa na dáta použije, možno v p považovať za predurčený systém.

V druhom prípade poskytuje regresná analýza nástroje na:

  • Nájdenie riešení pre neznáme parametre β, ktoré napríklad minimalizujú vzdialenosť medzi nameranými a predpokladanými hodnotami Y.
  • Za určitých štatistických predpokladov používa regresná analýza prebytočné informácie na poskytnutie štatistických informácií o neznámych parametroch p a predpokladaných hodnotách závislej premennej Y.

Potrebný počet nezávislých meraní

Zoberme si regresný model, ktorý má tri neznáme parametre: β0, β1 a p2, Predpokladajme, že experimentátor vykoná 10 meraní v rovnakej hodnote nezávislej premennej vektora X.V tomto prípade regresná analýza neposkytuje jedinečný súbor hodnôt. Najlepšia vec, ktorú môžete urobiť, je vyhodnotiť strednú a štandardnú odchýlku závislej premennej Y. Meraním dvoch rôznych hodnôt X rovnakým spôsobom môžete získať dostatok údajov na regresiu s dvoma neznámymi, ale nie pre tri alebo viac neznámych.

Príklad regresnej analýzy

Ak boli merania experimentátora vykonané pri troch rôznych hodnotách nezávislej premennej vektora X, potom regresná analýza poskytne jedinečnú sadu odhadov pre tri neznáme parametre v p.

V prípade všeobecnej lineárnej regresie je vyššie uvedené vyhlásenie rovnocenné s požiadavkou, aby matica XTX je reverzibilný.

Štatistické predpoklady

Ak je počet meraní N väčší ako počet neznámych parametrov k a chyba merania εja, potom sa spravidla prebytok informácií obsiahnutých v meraniach rozdelí a použije na štatistické predpovede týkajúce sa neznámych parametrov. Tento nadbytok informácií sa nazýva stupeň slobody regresie.

Základné predpoklady

Klasické predpoklady pre regresnú analýzu zahŕňajú:

  • Vzorka predstavuje predpoveď predpovede.
  • Chyba je náhodná premenná s priemernou hodnotou nula, ktorá je podmienená vysvetľujúcimi premennými.
  • Nezávislé premenné sa merajú bez chyby.
  • Ako nezávislé premenné (prediktory) sú lineárne nezávislé, to znamená, že nie je možné vyjadriť žiadneho prediktora vo forme lineárnej kombinácie ostatných.
  • Chyby sú nekorelované, t.j. kovariančná matica diagonálnych chýb a každý nenulový prvok sú rozptylom chyby.
  • Rozptyl chyby je podľa pozorovaní konštantný (homoskedasticita). Ak nie, môžete použiť metódu vážených najmenších štvorcov alebo iné metódy.

Tieto postačujúce podmienky na odhad najmenších štvorcov majú požadované vlastnosti, najmä tieto predpoklady znamenajú, že odhady parametrov budú objektívne, konzistentné a účinné, najmä ak sa zohľadnia v triede lineárnych odhadov. Je dôležité poznamenať, že dôkazy zriedka spĺňajú podmienky. To znamená, že metóda sa používa, aj keď predpoklady nie sú pravdivé. Variácia predpokladov sa niekedy môže použiť ako miera užitočnosti tohto modelu. Mnohé z týchto predpokladov možno zmierniť pokročilejšími metódami. Štatistické štatistické správy obvykle zahŕňajú analýzu testov založených na údajoch zo vzorky a metodológii užitočnosti modelu.

Okrem toho premenné sa v niektorých prípadoch vzťahujú na hodnoty namerané v miestach. Môžu existovať priestorové trendy a priestorová autokorelácia v premenných, ktoré porušujú štatistické predpoklady. Geograficky vážená regresia je jedinou metódou, ktorá sa zaoberá takýmito údajmi.

Lineárna regresná analýza

Pri lineárnej regresii je vlastnosťou závislá premenná, ktorou je Yjaje lineárna kombinácia parametrov. Napríklad v jednoduchej lineárnej regresii sa na modelovanie n-bodov používa jedna nezávislá premenná xjaa dva parametre, p0 a p1.

Lineárna regresná analýza

Pri viacnásobnej lineárnej regresii existuje niekoľko nezávislých premenných alebo ich funkcií.

S náhodným výberom vzorky z populácie jej parametre umožňujú získať príklad lineárneho regresného modelu.

Z tohto hľadiska je metóda najmenších štvorcov najobľúbenejšia. Pri jeho použití sa získajú odhady parametrov, ktoré minimalizujú súčet zvyškov na druhú. Tento druh minimalizácie (ktorá je charakteristická pre lineárnu regresiu) tejto funkcie vedie k množine normálnych rovníc a množine lineárnych rovníc s parametrami, ktoré sú riešené na získanie odhadov parametrov.

Pri ďalšom predpoklade, že sa chyba populácie zvyčajne šíri, môže výskumník použiť tieto odhady štandardných chýb na vytvorenie intervalov spoľahlivosti a na testovanie hypotéz o svojich parametroch.

Nelineárna regresná analýza

Príklad, keď funkcia nie je s ohľadom na parametre lineárna, naznačuje, že súčet štvorcov by sa mal minimalizovať pomocou iteračného postupu. To predstavuje veľa komplikácií, ktoré určujú rozdiely medzi lineárnymi a nelineárnymi metódami najmenších štvorcov. V dôsledku toho sú výsledky regresnej analýzy pomocou nelineárnej metódy niekedy nepredvídateľné.

Výsledky regresnej analýzy

Výpočet sily a veľkosti vzorky

Tu spravidla neexistujú žiadne konzistentné metódy týkajúce sa počtu pozorovaní v porovnaní s počtom nezávislých premenných v modeli. Prvé pravidlo navrhli Good a Hardin a vyzerá to, že N = t ^ n, kde N je veľkosť vzorky, n je počet nezávislých premenných a t je počet pozorovaní potrebných na dosiahnutie požadovanej presnosti, ak model mal iba jednu nezávislú premennú. Napríklad vedecký pracovník zostavuje model lineárnej regresie pomocou súboru údajov, ktorý obsahuje 1 000 pacientov (N). Ak sa vedec rozhodne, že na presné určenie čiary (m) je potrebných päť pozorovaní, potom maximálny počet nezávislých premenných, ktoré model podporuje, sú 4.

Iné metódy

Napriek skutočnosti, že parametre regresného modelu sa zvyčajne odhadujú pomocou metódy najmenších štvorcov, existujú aj iné metódy, ktoré sa používajú oveľa menej často. Ide napríklad o tieto metódy:

  • Bayesovské metódy (napr. Bayesovská metóda lineárnej regresie).
  • Percentuálna regresia, ktorá sa používa v situáciách, keď sa zníženie percentuálnych chýb považuje za vhodnejšie.
  • Najmenšie absolútne odchýlky, ktoré sú stabilnejšie v prítomnosti odľahlých hodnôt vedúce k kvantilovej regresii.
  • Neparametrická regresia, ktorá si vyžaduje veľké množstvo pozorovaní a výpočtov.
  • Vzdialenosť učiacej sa metriky, ktorá sa študuje pri hľadaní významnej metrickej vzdialenosti v danom vstupnom priestore.

Modely regresnej analýzy

softvér

Všetky hlavné štatistické softvérové ​​balíky sa vykonávajú pomocou regresnej analýzy najmenších štvorcov. Jednoduchú lineárnu regresiu a viacnásobnú regresnú analýzu možno použiť v niektorých tabuľkových aplikáciách, ako aj v niektorých kalkulačkách. Aj keď veľa štatistických softvérových balíkov môže vykonávať rôzne typy neparametrickej a spoľahlivej regresie, tieto metódy sú menej štandardizované; rôzne softvérové ​​balíky implementujú rôzne metódy. Špecializovaný regresný softvér bol vyvinutý na použitie v oblastiach, ako sú vyšetrovacie analýzy a neuroimaging.


Pridajte komentár
×
×
Naozaj chcete odstrániť komentár?
vymazať
×
Dôvod sťažnosti

obchodné

Príbehy o úspechu

zariadenie