Co to jest Homoskedastic?
Homoskedastic (pisane także „homoscedastic”) odnosi się do stanu, w którym wariancja resztkowego lub błędu parametru w modelu regresji jest stała. Oznacza to, że warunek błędu nie zmienia się znacznie, gdy zmienia się wartość zmiennej predykcyjnej. Jednak brak homoskedastyczności może sugerować, że model regresji może wymagać włączenia dodatkowych zmiennych predykcyjnych w celu wyjaśnienia działania zmiennej zależnej.
Kluczowe dania na wynos
- Homoskedastyczność występuje, gdy wariancja składnika błędu w modelu regresji jest stała. Jeśli wariancja terminu błędu jest homoskedastyczna, model został dobrze zdefiniowany. Jeśli występuje zbyt duża wariancja, model może nie zostać dobrze zdefiniowany. Dodanie dodatkowych zmiennych predykcyjnych może pomóc w wyjaśnieniu wydajności zmiennej zależnej. Na przykład heteroskedastyczność występuje, gdy wariancja składnika błędu nie jest stała.
Jak działa lek Homoskedastic
Homoskedastyczność jest jednym z założeń modelowania regresji liniowej. Jeśli wariancja błędów wokół linii regresji różni się znacznie, model regresji może być źle zdefiniowany. Przeciwieństwem homoskedastyczności jest heteroskedastyczność, podobnie jak przeciwieństwo „homogeniczności” jest „heterogeniczne”. Heteroskedastyczność (zwana także „heteroscedastycznością”) odnosi się do stanu, w którym wariancja składnika błędu w równaniu regresji nie jest stała.
Rozważając tę wariancję, mierzy się różnicę między przewidywanym wynikiem a faktycznym wynikiem danej sytuacji, określenie homoskedastyczności może pomóc w określeniu, które czynniki należy skorygować pod kątem dokładności.
Uwagi specjalne
Prosty model regresji lub równanie składa się z czterech składników. Po lewej stronie jest zmienna zależna. Reprezentuje zjawisko, które model stara się „wyjaśnić”. Po prawej stronie znajduje się stała, zmienna predykcyjna oraz resztkowy lub błąd. Pojęcie błędu pokazuje wielkość zmienności zmiennej zależnej, która nie jest wyjaśniona zmienną predykcyjną.
Przykład Homoskedastic
Załóżmy na przykład, że chcesz wyjaśnić wyniki testu studenckiego na podstawie czasu, jaki każdy student spędził na nauce. W tym przypadku wyniki testu byłyby zmienną zależną, a czas spędzony na studiowaniu byłby zmienną predykcyjną.
Pojęcie błędu pokazywałoby wariancję wyników testu, która nie została wyjaśniona ilością czasu na naukę. Jeśli ta wariancja jest jednorodna lub homoskedastyczna, sugerowałoby to, że model może być odpowiednim wyjaśnieniem wydajności testu - wyjaśniając go w kategoriach czasu poświęconego na naukę.
Ale wariancja może być heteroskedastyczna. Wykres danych dotyczących terminu błędu może pokazywać, że duża ilość czasu badania bardzo ściśle odpowiadała wysokim wynikom testu, ale ten niski wynik testu czasu różni się znacznie, a nawet obejmuje bardzo wysokie wyniki. Tak więc wariancja wyników nie byłaby dobrze wyjaśniona przez jedną zmienną predykcyjną - ilość czasu na naukę. W takim przypadku prawdopodobnie działa jakiś inny czynnik, a model może wymagać ulepszenia w celu jego identyfikacji. Dalsze dochodzenie może ujawnić, że niektórzy uczniowie z góry widzieli odpowiedzi na test lub że wcześniej przystąpili do podobnego testu i dlatego nie musieli się uczyć do tego konkretnego testu.
Aby ulepszyć model regresji, badacz dodałby zatem inną zmienną objaśniającą wskazującą, czy uczeń widział odpowiedzi przed testem. Model regresji miałby wówczas dwie zmienne objaśniające - badanie czasu i to, czy uczeń miał wcześniejszą wiedzę na temat odpowiedzi. Dzięki tym dwóm zmiennym wyjaśniono by więcej wariancji wyników testu, a wariancja składnika błędu mogłaby być homoskedastyczna, co sugeruje, że model był dobrze zdefiniowany.
