kategorije
...

Regresijska analiza je statistička metoda za proučavanje ovisnosti slučajne varijable o varijablama

U statističkom modeliranju regresijska analiza je studija koja se koristi za procjenu odnosa između varijabli. Ova matematička metoda uključuje mnoge druge metode za modeliranje i analizu nekoliko varijabli, kada je žarište na odnosu između ovisne varijable i jedne ili više neovisnih. Regresijska analiza pomaže da shvatimo kako se mijenja tipična vrijednost ovisne varijable ako se jedna od nezavisnih varijabli promijeni, dok ostale neovisne varijable ostanu fiksne.

Regresijska analiza

U svim slučajevima, ciljna procjena je funkcija neovisnih varijabli i naziva se regresijska funkcija. U regresijskoj analizi je također zanimljivo karakterizirati promjenu zavisne varijable kao funkciju regresije, koja se može opisati korištenjem distribucije vjerojatnosti.

Zadaci regresijske analize

Ova metoda statističkog istraživanja naširoko se koristi za predviđanje, gdje njegova upotreba ima značajnu prednost, ali ponekad može dovesti do iluzija ili lažnih odnosa, pa se preporučuje pažljivo koristiti u ovom izdanju, jer, primjerice, povezanost ne znači uzročno-posljedični odnos.

Razvijen je veliki broj metoda za provođenje regresijske analize, poput linearne i obične regresije najmanjeg kvadrata, koje su parametrične. Njihova suština je da se regresijska funkcija definira u konačnom broju nepoznatih parametara koji se procjenjuju iz podataka. Neparametrična regresija omogućava da njegove funkcije leže u određenom skupu funkcija, koje mogu biti beskonačno dimenzionalne.

Kao metoda statističkog istraživanja regresijska analiza u praksi ovisi o obliku procesa generiranja podataka i povezanosti s regresijskim pristupom. Budući da pravi oblik procesa podataka generira, u pravilu, nepoznati broj, regresijska analiza podataka često u određenoj mjeri ovisi o pretpostavkama o ovom procesu. Te se pretpostavke ponekad provjeravaju ako ima na raspolaganju dovoljno podataka. Regresijski su modeli često korisni čak i kad su pretpostavke umjereno kršene, iako ne mogu raditi s maksimalnom učinkovitošću.

U užem smislu, regresija se može posebno odnositi na procjenu varijabli kontinuiranog odziva, za razliku od varijabli diskretnih odgovora koje se koriste u klasifikaciji. Slučaj kontinuirane izlazne varijable naziva se i metrička regresija kako bi se razlikovao od srodnih problema.

Priča

Najraniji oblik regresije je poznata metoda najmanje kvadrata. Objavili su ga Legendre 1805. i Gauss 1809. Legendre i Gauss primijenili su metodu na zadatak utvrđivanja iz astronomskih promatranja orbite tijela oko Sunca (uglavnom kometa, ali kasnije i novootkrivenih manjih planeta). Gauss je 1821. objavio daljnji razvoj teorije najmanje kvadrata, uključujući verziju Gauss-Markov teorema.

Metoda statističkog istraživanja

Izraz "regresija" skovao je Francis Galton u 19. stoljeću da bi opisao biološki fenomen. Suština je bila da se rast potomaka od rasta predaka, u pravilu, smanjuje na normalan prosjek.Za Galtona, regresija je imala samo to biološko značenje, no kasnije su njegov rad nastavili Udney Yule i Karl Pearson i doveli u općenitiji statistički kontekst. U radu Yulea i Pearsona, zajednička raspodjela varijabli odgovora i objašnjavajućih varijabli smatra se Gaussovom. Fisher je ovu pretpostavku odbacio u djelima 1922. i 1925. Fisher je sugerirao da je uvjetna raspodjela varijable odziva Gaussova, ali zajednička distribucija ne bi trebala biti. U tom je pogledu Fischerova pretpostavka bliža Gaussovoj formulaciji iz 1821. godine. Do 1970. godine trajalo je do 24 sata da bi se dobio rezultat regresijske analize.

Regresijska analiza podataka

Metode regresijske analize i dalje su područje aktivnog istraživanja. Posljednjih desetljeća razvijene su nove metode za pouzdanu regresiju; regresija koja uključuje korelirane odgovore; regresijske metode za smještaj različitih vrsta podataka koji nedostaju; neparametrična regresija; Bayesove regresijske metode; regresije u kojima se varijable predviđanja mjere pogreškom; regresije s više prediktora nego opažanja, kao i kauzalni zaključci s regresijom.

Regresijski modeli

Modeli regresijske analize uključuju sljedeće varijable:

  • Nepoznati parametri, označeni kao beta, što može biti skalar ili vektor.
  • Nezavisne varijable, X.
  • Zavisne varijable, Y.

U raznim poljima znanosti gdje se primjenjuje regresijska analiza, umjesto ovisnih i neovisnih varijabli koriste se različiti izrazi, ali u svim se slučajevima regresijski model odnosi na Y na funkcije X i β.

Aproksimacija obično ima oblik E (Y | X) = F (X, β). Za provođenje regresijske analize mora se odrediti tip funkcije f. Rjeđe se temelji na poznavanju odnosa između Y i X koji se ne oslanjaju na podatke. Ako takvo znanje nije dostupno, odabire se fleksibilan ili prikladan oblik F.

Zavisna varijabla Y

Sada pretpostavimo da vektor nepoznatih parametara β ima duljinu k. Za obavljanje regresijske analize, korisnik mora dati informacije o ovisnoj varijabli Y:

  • Ako postoji N podatkovnih točaka oblika (Y, X), gdje je N
  • Ako se promatra točno N = K, a funkcija F je linearna, jednadžba Y = F (X, β) se može točno riješiti, a ne približno. To se svodi na rješavanje skupa N-jednadžbi s N-nepoznanicama (elementi β), koje imaju jedinstveno rješenje sve dok je X linearno neovisan. Ako je F nelinearno, rješenje možda ne postoji ili može postojati mnogo rješenja.
  • Najčešća je situacija u kojoj se opažaju N> točke na podatke. U ovom slučaju, postoji dovoljno podataka u podacima za procjenu jedinstvene vrijednosti za β koji najbolje odgovara podacima, a regresijski model, kada se primijeni na podatke, može se smatrati pretjerano određenim sustavom u β.

U potonjem slučaju, regresijska analiza pruža alate za:

  • Pronalaženje rješenja za nepoznate parametre β, koji će, na primjer, umanjiti udaljenost između izmjerenih i predviđenih vrijednosti Y.
  • Pod određenim statističkim pretpostavkama, regresijska analiza koristi višak informacija za pružanje statističkih informacija o nepoznatim parametrima β i predviđenim vrijednostima ovisne varijable Y.

Potreban broj neovisnih mjerenja

Razmotrimo regresijski model koji ima tri nepoznata parametra: β0, β1 i β2, Pretpostavimo da eksperimentator provede 10 mjerenja u istoj vrijednosti neovisne varijable vektora X.U ovom slučaju, regresijska analiza ne daje jedinstven skup vrijednosti. Najbolje što možete učiniti je procijeniti srednje i standardno odstupanje ovisne varijable Y. Mjereći dvije različite X vrijednosti na isti način, možete dobiti dovoljno podataka za regresiju s dvije nepoznanice, ali ne i za tri ili više nepoznanica.

Primjer regresijske analize

Ako su eksperimentalna mjerenja provedena na tri različite vrijednosti nezavisne varijable vektora X, tada će regresijska analiza pružiti jedinstven skup procjena za tri nepoznata parametra u β.

U slučaju opće linearne regresije, gornja izjava jednaka je zahtjevu da matrica XTX je reverzibilan.

Statističke pretpostavke

Kad je broj mjerenja N veći od broja nepoznatih parametara k i pogreške mjerenja εja, tada se u pravilu višak podataka sadržanih u mjerenjima distribuira i koristi za statističke prognoze u vezi s nepoznatim parametrima. Taj višak informacija naziva se stupnjem slobode regresije.

Temeljne pretpostavke

Klasične pretpostavke za regresijsku analizu uključuju:

  • Uzorak je reprezentativan za predviđanje zaključaka.
  • Pogreška je slučajna varijabla sa prosječnom vrijednošću nula, koja je uvjetovana eksplanatorima.
  • Nezavisne varijable mjere se bez pogreške.
  • Kao neovisne varijable (prediktori) linearno su neovisne, to jest, nije moguće izraziti nijedan prediktor u obliku linearne kombinacije ostalih.
  • Pogreške su neusklađene, to jest, kovarijantna matrica dijagonalnih pogrešaka i svaki ne-nulte element su varijacija pogreške.
  • Varijacija pogreške je konstantna prema opažanjima (homoskedastičnost). Ako ne, možete koristiti metodu najmanjih ponderiranih kvadrata ili druge metode.

Ovi dovoljni uvjeti za procjenu najmanje kvadrata posjeduju tražena svojstva, posebno te pretpostavke znače da će procjene parametara biti objektivne, dosljedne i učinkovite, posebno ako se uzmu u obzir u klasi linearnih procjena. Važno je napomenuti da dokazi rijetko ispunjavaju uvjete. Odnosno, metoda se koristi čak i ako pretpostavke nisu istinite. Varijacija pretpostavki ponekad se može koristiti kao mjera koliko je ovaj model koristan. Mnoge od tih pretpostavki mogu se ublažiti naprednijim metodama. Izvješća o statističkoj analizi obično uključuju analizu testova temeljenih na uzorcima i metodologiji korisnosti modela.

Osim toga, varijable se u nekim slučajevima odnose na vrijednosti izmjerene na točkama. Mogu postojati prostorni trendovi i prostorna autokorelacija u varijablama koje krše statističke pretpostavke. Geografska ponderirana regresija jedina je metoda koja se bavi takvim podacima.

Analiza linearne regresije

U linearnoj regresiji značajka je da ovisna varijabla, koja je Yjaje linearna kombinacija parametara. Na primjer, u jednostavnoj linearnoj regresiji jedna se nezavisna varijabla, x, koristi za modeliranje n-točakaja, i dva parametra, β0 i β1.

Analiza linearne regresije

S višestrukom linearnom regresijom, postoji nekoliko neovisnih varijabli ili njihovih funkcija.

Sa nasumičnim uzorkovanjem iz neke populacije, njezini parametri omogućuju dobivanje primjera linearnog regresijskog modela.

U tom je aspektu najpopularnija metoda najmanje kvadrata. Pomoću nje se dobivaju procjene parametara koje umanjuju zbroj ostataka kvadratnih. Ova vrsta minimiziranja (koja je karakteristična za linearnu regresiju) ove funkcije dovodi do skupa normalnih jednadžbi i skupa linearnih jednadžbi s parametrima koji su riješeni za dobivanje procjene parametara.

Pod daljnjom pretpostavkom da se greška populacije obično širi, istraživač može pomoću ovih procjena standardnih pogrešaka stvoriti intervale pouzdanosti i testirati hipoteze o svojim parametrima.

Nelinearna regresijska analiza

Primjer kada funkcija nije linearna s obzirom na parametre pokazuje da zbroj kvadrata treba minimizirati pomoću iterativnog postupka. Ovo uvodi mnogo komplikacija koje određuju razlike između metoda linearnih i nelinearnih najmanjih kvadrata. Stoga su rezultati regresijske analize nelinearnom metodom ponekad nepredvidivi.

Rezultati regresijske analize

Proračun snage i veličine uzorka

Ovdje u pravilu ne postoje konzistentne metode u pogledu broja opažanja u usporedbi s brojem neovisnih varijabli u modelu. Prvo pravilo predložili su Good i Hardin i izgleda kao N = t ^ n, gdje je N veličina uzorka, n je broj neovisnih varijabli i t je broj promatranja potrebnih za postizanje željene točnosti ako bi model imao samo jednu neovisnu varijablu. Na primjer, istraživač gradi model linearne regresije koristeći skup podataka koji sadrži 1000 pacijenata (N). Ako istraživač odluči da je potrebno pet promatranja za točno određivanje pravca (m), tada je maksimalni broj neovisnih varijabli koje model može podržati 4.

Ostale metode

Unatoč činjenici da se parametri regresijskog modela obično procjenjuju metodom najmanje kvadrata, postoje i druge metode koje se koriste puno rjeđe. Na primjer, to su sljedeće metode:

  • Bayesove metode (npr. Bayesova metoda linearne regresije).
  • Procentualna regresija koja se koristi u situacijama kada se smanjenje postotka pogrešaka smatra prikladnijim.
  • Najmanja apsolutna odstupanja, koja je stabilnija u prisustvu outliersa koji dovode do kvantitativne regresije.
  • Neparametrična regresija, koja zahtijeva veliki broj opažanja i izračuna.
  • Udaljenost metrike učenja koja se proučava u potrazi za značajnom metričkom udaljenošću u određenom ulaznom prostoru.

Modeli regresijske analize

softver

Svi glavni statistički softverski paketi izvode se primjenom regresijske analize najmanje kvadrata. Jednostavna linearna regresija i analiza višestruke regresije mogu se koristiti u nekim aplikacijama za proračunske tablice, kao i na nekim kalkulatorima. Iako se mnogim statističkim softverskim paketima mogu izvoditi različite vrste neparametrijske i pouzdane regresije, ove su metode manje standardizirane; različiti softverski paketi implementiraju različite metode. Specijalizirani regresijski softver razvijen je za upotrebu u područjima kao što su analiza pregleda i neuroimaging.


Dodajte komentar
×
×
Jeste li sigurni da želite izbrisati komentar?
izbrisati
×
Razlog za žalbu

posao

Priče o uspjehu

oprema