Nagłówki
...

Analiza korelacji i regresji: przykład, zadania, zastosowanie. Metoda analizy korelacji i regresji

Analiza regresji korelacji - Jest to jedna z najczęstszych metod badania związku między wartościami liczbowymi. Jego głównym celem jest znalezienie związku między dwoma parametrami i jego stopniem z późniejszym wyprowadzeniem równania. Na przykład mamy studentów, którzy zdali egzamin z matematyki i języka angielskiego. Możemy użyć korelacji, aby ustalić, czy sukces jednego testu wpływa na wyniki z innego przedmiotu. Jeśli chodzi o analizę regresji, pomaga przewidzieć stopnie matematyczne na podstawie punktów uzyskanych na egzaminie z języka angielskiego i odwrotnie.

analiza regresji korelacji

Co to jest wykres korelacji?

Każda analiza rozpoczyna się od zebrania informacji. Im więcej, tym dokładniej wynik uzyskany na końcu. W powyższym przykładzie mamy dwie dyscypliny, w których uczniowie muszą zdać egzamin. Ich wskaźnik sukcesu jest wartością szacunkową. Analiza regresji korelacji pokazuje, czy wynik jednego pacjenta wpływa na punkty uzyskane w drugim egzaminie. Aby odpowiedzieć na to pytanie, konieczne jest równoległe przeanalizowanie ocen wszystkich uczniów. Ale najpierw musisz zdecydować o zmiennej zależnej. W tym przypadku nie jest to takie ważne. Załóżmy, że egzamin z matematyki odbył się wcześniej. Punkty na nim są zmienną niezależną (są one przesunięte wzdłuż odciętej). Angielski jest w harmonogramie później. Dlatego oparte na nim szacunki są zmienną zależną (są wykreślane wzdłuż rzędnej). Im bardziej wykres w ten sposób wygląda jak linia prosta, tym silniejsza korelacja liniowa między dwiema wybranymi wartościami. Oznacza to, że uczniowie matematyki częściej dostają piątki na egzaminie z języka angielskiego.

Założenia i uproszczenia

Metoda analizy korelacji i regresji polega na znalezieniu związku przyczynowego. Jednak na pierwszym etapie musisz zrozumieć, że zmiany w obu wielkościach mogą wynikać z jakiejś trzeciej, nieuwzględnionej jeszcze przez badacza. Pomiędzy zmiennymi mogą również występować nieliniowe relacje, dlatego uzyskanie współczynnika równego zeru nie jest końcem eksperymentu.

przykład analizy regresji korelacji

Korelacja liniowa Pearsona

Współczynnik ten można zastosować z zastrzeżeniem dwóch warunków. Po pierwsze - wszystkie wartości zmiennych są liczbami wymiernymi, po drugie - oczekuje się, że wartości zmieniają się proporcjonalnie. Współczynnik ten zawsze wynosi od -1 do 1. Jeśli jest większy od zera, wówczas istnieje zależność wprost proporcjonalna, mniej - odwrotnie, równa - te wartości nie wpływają na siebie w żaden sposób. Możliwość obliczenia tego wskaźnika stanowi podstawę analizy korelacji i regresji. Po raz pierwszy współczynnik ten opracował Karl Pearson w oparciu o ideę Francisa Galtona.

Właściwości i przestrogi

Współczynnik korelacji Pearsona jest potężnym narzędziem, ale należy go również stosować ostrożnie. W użyciu są następujące ostrzeżenia:

  1. Współczynnik Pearsona wskazuje na obecność lub brak zależności liniowej. Analiza korelacji-regresji nie kończy się na tym, może się okazać, że zmienne są jednak ze sobą powiązane.
  2. Należy ostrożnie interpretować wartość współczynnika. Można znaleźć korelację między wielkością nogi a poziomem IQ.Ale to nie znaczy, że jeden wskaźnik determinuje inny.
  3. Współczynnik Pearsona nie mówi nic o związku przyczynowym między wskaźnikami.

metoda analizy regresji korelacji

Współczynnik korelacji rang Spearmana

Jeśli zmiana wartości jednego wskaźnika prowadzi do wzrostu lub spadku wartości innego wskaźnika, oznacza to, że są one powiązane. Analiza regresji korelacji, której przykład zostanie podany poniżej, jest ściśle związana z takimi parametrami. Współczynnik rangi pozwala uprościć obliczenia.

Analiza korelacji i regresji: przykład

Załóżmy, że istnieje ocena skuteczności dziesięciu przedsiębiorstw. Mamy dwóch sędziów, którzy przyznają im punkty. Analiza korelacji i regresji przedsiębiorstwa w tym przypadku nie może być przeprowadzona na podstawie liniowego współczynnika Pearsona. Nie interesuje nas związek między ocenami sędziów. Rangi przedsiębiorstw według sędziów są ważne.

Ten rodzaj analizy ma następujące zalety:

  • Nieparametryczna forma zależności między badanymi wielkościami.
  • Łatwość użycia, ponieważ stopnie można przypisać zarówno w kolejności rosnącej, jak i malejącej.

Jedynym wymogiem tego typu analizy jest potrzeba konwersji danych źródłowych.

podstawy analizy regresji korelacji

Problemy z aplikacją

Analiza korelacji i regresji opiera się na następujących założeniach:

  • Obserwacje są uważane za niezależne (pięciokrotna utrata „orła” nie wpływa na wynik następnego rzutu monetą).
  • W analizie korelacji obie zmienne są uważane za losowe. W regresji - tylko jeden (zależny).
  • Podczas testowania hipotezy należy przestrzegać rozkładu normalnego. Zmiana zmiennej zależnej powinna być taka sama dla każdej wartości odciętej.
  • Diagram korelacji jest tylko pierwszym testem hipotezy o związku między dwoma seriami parametrów, a nie końcowym wynikiem analizy.

zastosowanie analizy regresji korelacji

Zależność i związek przyczynowy

Załóżmy, że obliczyliśmy współczynnik korelacji wielkości eksportu i PKB. Okazało się, że jest równe jedności modulo. Czy do końca przeprowadziliśmy analizę korelacji i regresji? Oczywiście że nie. Uzyskany wynik wcale nie oznacza, że ​​PKB można wyrazić poprzez eksport. Nie udowodniliśmy jeszcze związku przyczynowego między wskaźnikami. Analiza korelacji-regresji - prognozowanie wartości jednej zmiennej na podstawie drugiej. Musisz jednak zrozumieć, że często na parametr wpływa wiele czynników. Eksport determinuje PKB, ale nie tylko. Istnieją inne czynniki. Istnieje korelacja i związek przyczynowy, choć skorygowany o inne składniki produktu krajowego brutto.

Inna sytuacja jest znacznie bardziej niebezpieczna. W Wielkiej Brytanii przeprowadzono badanie, które wykazało, że dzieci, których rodzice palili, były częściej przestępcami. Wniosek ten opiera się na silnej korelacji między wskaźnikiem. Ale czy on ma rację? Po pierwsze, zależność może być odwrotna. Rodzice mogliby zacząć palić z powodu stresu wynikającego z faktu, że ich dzieci ciągle popadają w zmiany i łamią prawo. Po drugie, oba parametry mogą wynikać z trzeciego. Takie rodziny należą do niskich klas społecznych, które charakteryzują oba problemy. Dlatego na podstawie korelacji nie można stwierdzić, że istnieje związek przyczynowy.

prognozowanie analizy regresji korelacji

Dlaczego warto korzystać z analizy regresji?

Zależność korelacyjna polega na znalezieniu związków między wielkościami. Związek przyczynowy w tym przypadku pozostaje za kulisami. Zadania analizy korelacji i regresji są zbieżne jedynie w zakresie potwierdzenia istnienia zależności między wartościami dwóch wielkości. Początkowo jednak badacz nie zwraca uwagi na możliwość związku przyczynowego. Analiza regresji ma zawsze dwie zmienne, z których jedna jest zależna. Odbywa się to w kilku etapach:

  1. Wybór odpowiedniego modelu przy użyciu metody najmniejszych kwadratów.
  2. Wyprowadzenie równania opisującego wpływ zmiany zmiennej niezależnej na inną.

Na przykład, jeśli zbadamy wpływ wieku na wzrost człowieka, analiza regresji może pomóc przewidzieć zmiany na przestrzeni lat.

analiza korelacji przedsiębiorstwa

Regresja liniowa i wielokrotna

Załóżmy, że X i Y to dwie powiązane zmienne. Analiza regresji pozwala nam przewidzieć wielkość jednego z nich na podstawie wartości drugiego. Na przykład dojrzałość i wiek są objawami zależnymi. Zależność między nimi odzwierciedla się za pomocą regresji liniowej. W rzeczywistości możesz wyrazić X przez Y lub odwrotnie. Ale często tylko jedna z linii regresji jest poprawna. Sukces analizy zależy w dużej mierze od poprawnego określenia zmiennej niezależnej. Na przykład mamy dwa wskaźniki: wydajność i opady. Na podstawie codziennych doświadczeń staje się jasne, że pierwsze zależy od drugiego, a nie odwrotnie.

Regresja wielokrotna pozwala obliczyć nieznaną wartość na podstawie wartości trzech lub więcej zmiennych. Na przykład wydajność ryżu na akr ziemi zależy od jakości ziarna, żyzności gleby, nawozów, temperatury i opadów deszczu. Wszystkie te parametry wpływają na ogólny wynik. Aby uprościć model, zastosowano następujące założenia:

  • Zależność między cechami niezależnymi a wpływającymi jest liniowa.
  • Wieloliniowość jest wykluczona. Oznacza to, że zmienne zależne nie są ze sobą powiązane.
  • Homoskedastyczność i normalność szeregu liczb.

Zastosowanie analizy korelacji i regresji

Istnieją trzy główne przypadki użycia tej metody:

  1. Testowanie przypadkowych związków między ilościami. W takim przypadku badacz określa wartości zmiennej i dowiaduje się, czy wpływają one na zmianę zmiennej zależnej. Na przykład możesz podawać ludziom różne dawki alkoholu i mierzyć ciśnienie krwi. W takim przypadku badacz wie na pewno, że pierwszy jest przyczyną drugiego, a nie odwrotnie. Analiza regresji korelacji pozwala wykryć bezpośrednio proporcjonalną liniową zależność między tymi dwiema zmiennymi i wyprowadzić wzór, który ją opisuje. W takim przypadku można porównać wartości wyrażone w całkowicie różnych jednostkach miary.
  2. Znalezienie związku między dwiema zmiennymi bez rozszerzania na nie związku przyczynowego. W tym przypadku nie ma różnicy, jaki rozmiar nazywa badacz. Co więcej, w rzeczywistości może się okazać, że na obie wpływa trzecia zmienna, dlatego zmieniają się proporcjonalnie.
  3. Obliczanie wartości jednej wielkości na podstawie innej. Opiera się na równaniu, w którym znane liczby są podstawiane.

Zatem analiza korelacji polega na znalezieniu związku (nie przyczynowego) między zmiennymi, a analiza regresji wyjaśnia to, często za pomocą funkcji matematycznej.


Dodaj komentarz
×
×
Czy na pewno chcesz usunąć komentarz?
Usuń
×
Powód reklamacji

Biznes

Historie sukcesu

Wyposażenie