Jakie są statystyki nieparametryczne?
Statystyka nieparametryczna odnosi się do metody statystycznej, w której dane nie są wymagane do dopasowania do rozkładu normalnego. Statystyka nieparametryczna wykorzystuje dane, które są często porządkowe, co oznacza, że nie opierają się na liczbach, ale raczej na rankingu lub rodzaju sortowania. Na przykład ankieta przedstawiająca preferencje konsumentów, od podobnego do niechęci, byłaby uważana za dane porządkowe.
Statystyka nieparametryczna obejmuje nieparametryczne statystyki opisowe, modele statystyczne, wnioskowanie i testy statystyczne. Struktura modelu modeli nieparametrycznych nie jest a priori określona, lecz jest określana na podstawie danych. Termin nieparametryczny nie ma oznaczać, że w takich modelach całkowicie brakuje parametrów, ale raczej, że liczba i charakter parametrów są elastyczne i nie są ustalane z góry. Histogram jest przykładem nieparametrycznego oszacowania rozkładu prawdopodobieństwa.
Zrozumienie statystyki nieparametrycznej
W statystykach statystyki parametryczne obejmują parametry takie jak średnia, mediana, odchylenie standardowe, wariancja itp. Ta forma statystyki wykorzystuje obserwowane dane do oszacowania parametrów rozkładu. W statystyce parametrycznej zakłada się, że dane pasują do rozkładu normalnego o nieznanych parametrach μ (średnia populacji) i σ 2 (wariancja populacji), które są następnie szacowane na podstawie średniej próbki i wariancji próbki.
Statystyki nieparametryczne nie zakładają wielkości próby ani tego, czy obserwowane dane są ilościowe.
Statystyka nieparametryczna nie zakłada, że dane pochodzą z rozkładu normalnego. Zamiast tego kształt rozkładu jest szacowany w ramach tej formy pomiaru statystycznego. Chociaż istnieje wiele sytuacji, w których można założyć rozkład normalny, istnieją również scenariusze, w których nie będzie można ustalić, czy dane będą normalnie dystrybuowane.
Przykłady statystyki nieparametrycznej
W pierwszym przykładzie rozważmy, że badacz, który chce oszacować liczbę dzieci urodzonych w Ameryce Północnej o brązowych oczach, może zdecydować o pobraniu próbki 150 000 dzieci i przeprowadzeniu analizy zestawu danych. Uzyskany przez nich pomiar zostanie wykorzystany jako oszacowanie całej populacji dzieci o brązowych oczach urodzonych w następnym roku.
Na drugi przykład rozważ innego badacza, który chce wiedzieć, czy chodzenie spać wcześnie czy późno jest powiązane z częstotliwością zachorowań. Zakładając, że próbka jest wybierana losowo z populacji, można założyć, że rozkład wielkości próby częstotliwości choroby jest normalny. Jednak nie można założyć, że eksperyment, który mierzy odporność organizmu ludzkiego na szczep bakterii, ma normalny rozkład.
Wynika to z faktu, że losowo wybrane dane próbki mogą być odporne na odkształcenie. Z drugiej strony, jeśli badacz bierze pod uwagę czynniki takie jak skład genetyczny i pochodzenie etniczne, może stwierdzić, że wielkość próby wybrana przy użyciu tych cech może nie być odporna na szczep. Dlatego nie można założyć normalnego rozkładu.
Ta metoda jest przydatna, gdy dane nie mają jednoznacznej interpretacji numerycznej i najlepiej stosować ją w przypadku danych z sortowaniem według rankingu. Na przykład w teście oceny osobowości można ustawić ranking wskaźników jako zdecydowanie się nie zgadzam, nie zgadzam się, obojętnie, zgadzam się i zdecydowanie zgadzam się. W takim przypadku należy zastosować metody nieparametryczne.
Uwagi specjalne
Statystyki nieparametryczne zyskały uznanie ze względu na łatwość użytkowania. Ponieważ zapotrzebowanie na parametry jest zmniejszone, dane stają się bardziej odpowiednie dla większej różnorodności testów. Tego rodzaju statystyki mogą być używane bez średniej, wielkości próby, odchylenia standardowego lub oszacowania jakichkolwiek innych powiązanych parametrów, gdy żadna z tych informacji nie jest dostępna.
Ponieważ statystyki nieparametryczne przyjmują mniej założeń dotyczących danych przykładowych, ich zastosowanie ma szerszy zakres niż statystyki parametryczne. W przypadkach, w których testowanie parametryczne jest bardziej odpowiednie, metody nieparametryczne będą mniej wydajne. Wynika to z faktu, że wyniki uzyskane ze statystyki nieparametrycznej mają niższy stopień pewności niż w przypadku, gdy wyniki uzyskano przy użyciu statystyki parametrycznej.
Kluczowe dania na wynos
- Statystyka nieparametryczna jest łatwa w użyciu, ale nie zapewnia dokładnej dokładności innych modeli statystycznych. Ten rodzaj analizy najlepiej nadaje się do rozważenia kolejności czegoś, w którym nawet przy zmianie danych liczbowych wyniki prawdopodobnie pozostaną takie same.