Jaki jest współczynnik determinacji?
Współczynnik determinacji jest miarą stosowaną w analizie statystycznej, która ocenia, jak dobrze model wyjaśnia i przewiduje przyszłe wyniki. Wskazuje poziom wyjaśnionej zmienności w zbiorze danych. Współczynnik determinacji, znany również jako „R-kwadrat”, służy jako wskazówka do pomiaru dokładności modelu.
Jednym ze sposobów interpretacji tej liczby jest stwierdzenie, że zmienne zawarte w danym modelu wyjaśniają około x% obserwowanej zmienności. Tak więc, jeśli R2 = 0, 50, to w przybliżeniu połowa zaobserwowanej zmienności może być wyjaśniona przez model.
R-kwadrat
Kluczowe dania na wynos
- Współczynnik determinacji jest złożoną ideą skoncentrowaną na analizie statystycznej przyszłego modelu danych. Współczynnik determinacji służy do wyjaśnienia, jak duża zmienność jednego czynnika może być spowodowana jego powiązaniem z innym czynnikiem.
Zrozumienie współczynnika determinacji
Współczynnik determinacji służy do wyjaśnienia, jak duża zmienność jednego czynnika może być spowodowana jego powiązaniem z innym czynnikiem. Jest w dużej mierze oparty na analizie trendów i jest reprezentowany jako wartość od 0 do 1.
Im wartość jest bliższa 1, tym lepsze dopasowanie lub relacja między tymi dwoma czynnikami. Współczynnik determinacji jest kwadratem współczynnika korelacji, znanego również jako „R”, co pozwala mu wyświetlić stopień korelacji liniowej między dwiema zmiennymi.
Korelacja ta znana jest jako „dobroć dopasowania”. Wartość 1, 0 wskazuje na idealne dopasowanie, a zatem jest to bardzo niezawodny model dla przyszłych prognoz, wskazując, że model wyjaśnia wszystkie zaobserwowane warianty. Z drugiej strony wartość 0 wskazuje, że model w ogóle nie modeluje dokładnie danych. W przypadku modelu z kilkoma zmiennymi, takiego jak model regresji wielokrotnej, skorygowany R2 jest lepszym współczynnikiem determinacji. W ekonomii wartość R2 powyżej 0, 60 jest postrzegana jako opłacalna.
Zalety analizy współczynnika determinacji
Współczynnik determinacji jest kwadratem korelacji między przewidywanymi wynikami w zestawie danych a rzeczywistym zestawem wyników. Można to również wyrazić jako kwadrat korelacji między wynikami X i Y, przy czym X jest zmienną niezależną, a Y jest zmienną zależną.
Niezależnie od reprezentacji, kwadrat R równy 0 oznacza, że zmiennej zależnej nie można przewidzieć przy użyciu zmiennej niezależnej. I odwrotnie, jeśli wynosi 1, oznacza to, że zależna od zmiennej jest zawsze przewidywana przez zmienną niezależną.
Współczynnik determinacji mieszczący się w tym zakresie mierzy stopień, w jakim zmienna zależna jest przewidywana przez zmienną niezależną. Na przykład R-kwadrat wynoszący 0, 20 oznacza, że 20% zmiennej zależnej jest przewidywane przez zmienną niezależną.
Dobroć dopasowania lub stopień korelacji liniowej mierzy odległość między dopasowaną linią na wykresie a wszystkimi punktami danych rozproszonymi wokół wykresu. Ciasny zestaw danych będzie miał linię regresji, która jest bardzo blisko punktów i ma wysoki poziom dopasowania, co oznacza, że odległość między linią a danymi jest bardzo mała. Dobre dopasowanie ma kwadrat R, który jest bliski 1.
Jednak R-kwadrat nie jest w stanie ustalić, czy punkty danych lub prognozy są stronnicze. Nie mówi też analitykowi ani użytkownikowi, czy współczynnik wartości determinacji jest dobry, czy nie. Na przykład niski R-kwadrat nie jest zły, a decyzja o podjęciu decyzji zależy od liczby R-kwadrat.
Współczynnika determinacji nie należy interpretować naiwnie. Na przykład, jeśli R-kwadrat modelu jest zgłaszany jako 75%, wariancja jego błędów jest o 75% mniejsza niż wariancja zmiennej zależnej, a odchylenie standardowe błędów jest o 50% mniejsze niż odchylenie standardowe zależności zależnej zmienna. Odchylenie standardowe błędów modelu wynosi około jednej trzeciej wielkości odchylenia standardowego błędów, które można uzyskać w modelu o stałej wartości.
Wreszcie, nawet jeśli wartość R-kwadrat jest duża, może nie być statystycznie istotna zmienna objaśniająca w modelu lub efektywna wielkość tych zmiennych może być bardzo mała w praktyce.
