În modelarea statistică, analiza de regresie este un studiu utilizat pentru a evalua relația dintre variabile. Această metodă matematică include multe alte metode de modelare și analiză a mai multor variabile, când accentul este pus pe relația dintre variabila dependentă și una sau mai multe dintre cele independente. Mai precis, analiza de regresie ajută la înțelegerea modului în care o valoare tipică a unei variabile dependente se schimbă dacă una dintre variabilele independente se schimbă, în timp ce celelalte variabile independente rămân fixe.
În toate cazurile, estimarea țintă este o funcție a variabilelor independente și se numește funcția de regresie. În analiza regresiei, este de asemenea interesat să caracterizăm schimbarea variabilei dependente ca o funcție de regresie, care poate fi descrisă folosind o distribuție de probabilitate.
Sarcini de analiză a regresiei
Această metodă de cercetare statistică este utilizată pe scară largă pentru prognoză, unde utilizarea sa are un avantaj semnificativ, dar uneori poate duce la iluzii sau relații false, de aceea se recomandă utilizarea cu atenție în această problemă, deoarece, de exemplu, corelația nu înseamnă o relație cauzală.
Un număr mare de metode au fost dezvoltate pentru efectuarea analizei de regresie, cum ar fi regresia liniară și ordinară a celor mai mici pătrate, care sunt parametrice. Esența lor este că funcția de regresie este definită în termeni de un număr finit de parametri necunoscuți care sunt estimate din date. Regresia nonparametrică permite funcțiilor sale să se bazeze într-un anumit set de funcții, care pot fi infinit-dimensionale.
Ca metodă de cercetare statistică, analiza regresiei depinde de forma procesului de generare a datelor și de modul în care se raportează la abordarea de regresie. Întrucât adevărata formă a procesului de date generează, de regulă, un număr necunoscut, analiza de regresie a datelor depinde adesea într-o oarecare măsură de presupunerile despre acest proces. Aceste ipoteze sunt uneori verificate dacă există suficiente date disponibile. Modelele de regresie sunt adesea utile chiar și atunci când presupunerile sunt încălcate moderat, deși nu pot funcționa la o eficiență maximă.
Într-un sens mai restrâns, regresia se poate referi în mod specific la evaluarea variabilelor de răspuns continuu, în contrast cu variabilele de răspuns discrete utilizate în clasificare. Cazul unei variabile de ieșire continuă se mai numește regresie metrică pentru a o distinge de problemele conexe.
Povestea
Cea mai timpurie formă de regresie este metoda binecunoscută a celor mai mici pătrate. A fost publicată de Legendre în 1805 și Gauss în 1809. Legendre și Gauss au aplicat metoda la sarcina de a determina din observații astronomice orbitele corpurilor din jurul Soarelui (în principal comete, dar mai târziu recent descoperite planete minore). Gauss a publicat o dezvoltare ulterioară a teoriei celor mai puțin pătrate în 1821, inclusiv o versiune a teoremei Gauss-Markov.
Termenul „regresie” a fost inventat de Francisc Galton în secolul 19 pentru a descrie un fenomen biologic. Concluzia a fost că, de regulă, creșterea descendenților din creșterea strămoșilor, se reduce până la media normală.Pentru Galton, regresiunea a avut doar această semnificație biologică, dar ulterior activitatea sa a fost continuată de Udney Yule și Karl Pearson și adusă într-un context statistic mai general. În lucrarea lui Yule și Pearson, distribuția comună a variabilelor de răspuns și a variabilelor explicative este considerată gaussiană. Această presupunere a fost respinsă de Fisher în lucrările din 1922 și 1925. Fisher a sugerat că distribuția condiționată a variabilei de răspuns este Gaussian, dar distribuția comună nu ar trebui să fie. În această privință, presupunerea lui Fischer este mai aproape de formularea Gauss din 1821. Până în 1970, uneori a durat până la 24 de ore pentru a obține rezultatul unei analize de regresie.
Metodele de analiză a regresiei continuă să fie o zonă de cercetare activă. În ultimele decenii, au fost dezvoltate noi metode pentru regresia fiabilă; regresie care implică răspunsuri corelate; metode de regresie care adaptează diferite tipuri de date lipsă; regresie nonparametrică; Metode de regresie bayesiană; regresii în care variabilele predictoare sunt măsurate cu o eroare; regresii cu mai mulți predictori decât observațiile, precum și inferențe cauzale cu regresie.
Modele de regresie
Modelele de analiză de regresie includ următoarele variabile:
- Parametri necunoscuți, desemnați ca beta, care pot fi un scalar sau un vector.
- Variabile independente, X.
- Variabile dependente, Y.
În diferite domenii ale științei, unde se aplică analiza regresiei, se folosesc diverși termeni în loc de variabile dependente și independente, dar în toate cazurile modelul de regresie se raportează Y la funcțiile X și β.
Aproximarea de obicei ia forma E (Y | X) = F (X, β). Pentru a efectua o analiză de regresie, trebuie determinat tipul funcției f. Mai puțin frecvent, se bazează pe cunoașterea relației dintre Y și X care nu se bazează pe date. Dacă aceste cunoștințe nu sunt disponibile, atunci se alege o formă F flexibilă sau convenabilă.
Variabilă Y dependentă
Să presupunem acum că vectorul parametrilor necunoscuți β are lungimea k. Pentru a efectua o analiză de regresie, utilizatorul trebuie să furnizeze informații despre variabila Y dependentă:
- Dacă există N puncte de date ale formei (Y, X), unde N
- Dacă se observă exact N = K și funcția F este liniară, atunci ecuația Y = F (X, β) poate fi rezolvată exact, și nu aproximativ. Acest lucru se reduce la rezolvarea unui set de ecuații N cu N-necunoscute (elemente ale β), care are o soluție unică atâta timp cât X este liniar independent. Dacă F este neliniară, este posibil ca soluția să nu existe, sau să existe multe soluții.
- Cea mai frecventă este situația în care se observă că N> indică datele. În acest caz, există suficiente informații în date pentru a evalua valoarea unică pentru β care se potrivește cel mai bine cu datele, iar modelul de regresie, atunci când este aplicat la date, poate fi considerat ca un sistem supra-determinat în β.
În ultimul caz, analiza de regresie oferă instrumente pentru:
- Găsirea de soluții pentru parametrii necunoscuți β, care, de exemplu, va minimiza distanța dintre valorile măsurate și cele prevăzute de Y.
- În conformitate cu anumite ipoteze statistice, analiza de regresie utilizează informații în exces pentru a furniza informații statistice despre parametrii necunoscuți β și valorile previzionate ale variabilei Y dependente.
Numărul necesar de măsurători independente
Luați în considerare un model de regresie care are trei parametri necunoscuți: β0, β1 și β2. Să presupunem că experimentatorul efectuează 10 măsurători cu aceeași valoare a variabilei independente a vectorului X.În acest caz, analiza de regresie nu oferă un set unic de valori. Cel mai bun lucru pe care îl puteți face este să evaluați media și abaterea standard a variabilei dependente Y. Măsurând două valori X diferite în același mod, puteți obține suficiente date pentru o regresie cu două necunoscute, dar nu pentru trei sau mai multe necunoscute.
Dacă măsurătorile experimentatorului au fost efectuate la trei valori diferite ale variabilei independente a vectorului X, atunci analiza de regresie va oferi un set unic de estimări pentru trei parametri necunoscuți în β.
În cazul regresiei liniare generale, afirmația de mai sus este echivalentă cu cerința că matricea XTX este reversibil.
Ipoteze statistice
Când numărul de măsurători N este mai mare decât numărul de parametri necunoscuți k și eroarea de măsurare εeu, apoi, de regulă, excesul de informații conținut în măsurători este apoi distribuit și utilizat pentru prognoze statistice privind parametrii necunoscuți. Acest exces de informații se numește gradul de libertate de regresie.
Ipoteze fundamentale
Ipotezele clasice pentru analiza regresiei includ:
- Eșantionul este reprezentativ pentru predicția inferenței.
- Eroarea este o variabilă aleatorie cu o valoare medie de zero, care este condiționată de variabilele explicative.
- Variabilele independente sunt măsurate fără eroare.
- Ca variabile independente (predictori), acestea sunt liniar independente, adică nu este posibilă exprimarea niciunui predictor sub forma unei combinații liniare a celorlalte.
- Erorile sunt necorelate, adică matricea de covarianță a erorilor diagonale și fiecare element diferit de zero este variația erorii.
- Varianța erorii este constantă conform observațiilor (homoskedasticitate). Dacă nu, puteți utiliza metoda cu cele mai puține pătrate sau alte metode.
Aceste condiții suficiente pentru estimarea celor mai puțin pătrate posedă proprietățile necesare, în special, aceste ipoteze înseamnă că estimările parametrilor vor fi obiective, consecvente și eficiente, mai ales atunci când sunt luate în considerare în clasa estimărilor liniare. Este important de menționat că probele îndeplinesc rar condițiile. Adică, metoda este folosită chiar dacă presupunerile nu sunt adevărate. O variație de presupuneri poate fi uneori folosită ca o măsură a utilității acestui model. Multe dintre aceste presupuneri pot fi atenuate prin metode mai avansate. Rapoartele de analiză statistică includ de obicei analiza testelor bazate pe date de eșantion și metodologie pentru utilitatea modelului.
În plus, variabilele, în unele cazuri, se referă la valori măsurate la locațiile punctului. Pot exista tendințe spațiale și autocorelație spațială în variabile care încalcă presupunerile statistice. Regresia geografică ponderată este singura metodă care se ocupă cu astfel de date.
Analiza regresiei liniare
În regresie liniară, o caracteristică este aceea că variabila dependentă, care este Yeueste o combinație liniară de parametri. De exemplu, într-o regresie liniară simplă, se folosește o variabilă independentă, x, pentru modelarea punctelor neu, și doi parametri, β0 și β1.
Cu regresie liniară multiplă, există mai multe variabile independente sau funcțiile lor.
Cu o eșantionare aleatorie de la o populație, parametrii acesteia fac posibilă obținerea unui exemplu de model de regresie liniară.
În acest aspect, cea mai populară metodă este cea mai puțin pătrată. Folosind acesta, se obțin estimări ale parametrilor care reduc la minimum suma reziduurilor pătrate. Acest tip de minimizare (care este caracteristic unei regresii liniare) a acestei funcții duce la un set de ecuații normale și la un set de ecuații liniare cu parametri care sunt rezolvați pentru a obține estimări ale parametrilor.
Sub presupunerea suplimentară că, de obicei, se răspândește o eroare a populației, cercetătorul poate utiliza aceste estimări ale erorilor standard pentru a crea intervale de încredere și a testa ipoteze despre parametrii săi.
Analiza regresiei neliniare
Un exemplu în care funcția nu este liniară în raport cu parametrii indică faptul că suma pătratelor ar trebui să fie redusă la minimum folosind o procedură iterativă. Aceasta introduce numeroase complicații care determină diferențele dintre metodele liniare și cele nelimitate de pătrate. În consecință, rezultatele analizei de regresie folosind metoda neliniară sunt uneori imprevizibile.
Calcularea puterii și a mărimii eșantionului
Aici, de regulă, nu există metode coerente cu privire la numărul de observații în comparație cu numărul de variabile independente din model. Prima regulă a fost propusă de Good și Hardin și arată ca N = t ^ n, unde N este dimensiunea eșantionului, n este numărul de variabile independente și t este numărul de observații necesare pentru a obține precizia dorită dacă modelul are o singură variabilă independentă. De exemplu, un cercetător construiește un model de regresie liniară folosind un set de date care conține 1000 de pacienți (N). Dacă cercetătorul decide că sunt necesare cinci observații pentru a determina cu exactitate linia (m), atunci numărul maxim de variabile independente pe care modelul le poate susține este de 4.
Alte metode
În ciuda faptului că parametrii modelului de regresie sunt de obicei estimate prin metoda celor mai mici pătrate, există alte metode care sunt utilizate mult mai rar. De exemplu, acestea sunt următoarele metode:
- Metode bayesiene (de exemplu, metoda de regresie liniară bayesiană).
- Regresie procentuală, utilizată pentru situațiile în care reducerea procentului de erori este considerată mai potrivită.
- Cele mai mici abateri absolute, care este mai stabilă în prezența valorilor exterioare care duc la regresie cuantică.
- Regresie neparametrică, necesitând un număr mare de observații și calcule.
- Distanța metricii de învățare, care este studiată în căutarea unei distanțe metrice semnificative într-un spațiu de intrare dat.
software-ul
Toate pachetele software statistice majore sunt efectuate folosind analiza de regresie a pătratelor cel puțin. Analiza de regresie liniară simplă și de regresie multiplă pot fi utilizate în unele aplicații cu foi de calcul, precum și pe unele calculatoare. Deși multe pachete software statistice pot efectua diferite tipuri de regresie nonparametrică și fiabilă, aceste metode sunt mai puțin standardizate; pachete software diferite implementează diferite metode. Un software specializat de regresie a fost dezvoltat pentru utilizare în domenii precum analiza examinării și neuroimagistica.