Co to jest statystyki chi-kwadrat?
Kwadrat chi ( χ 2) Statystyka to test, który mierzy porównanie oczekiwań z rzeczywistymi zaobserwowanymi danymi (lub wynikami modeli). Dane wykorzystane do obliczenia statystyki chi-kwadrat muszą być losowe, surowe, wykluczające się wzajemnie, sporządzone na podstawie zmiennych niezależnych i na podstawie wystarczająco dużej próbki. Na przykład wyniki rzutu monetą 100 razy spełniają te kryteria.
Testy chi-kwadrat są często stosowane w testach hipotez.
Wzór na Chi-Square Is
χc2 = ∑ (Oi − Ei) 2 Gdzie: c = stopnie swobody O = zaobserwowane wartości (s) E = oczekiwane wartości (s) początek {wyrównany} i \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {gdzie:} \ & c = \ text {stopnie swobody} \ & O = \ text {zaobserwowane wartości (wartości)} \ & E = \ text {wartości oczekiwane } \ \ end {wyrównany} χc2 = ∑Ei (Oi −Ei) 2 gdzie: c = stopnie swobody O = wartości obserwowane E = wartości oczekiwane
Co mówi ci statystyki chi-kwadrat?
Istnieją dwa główne rodzaje testów chi-kwadrat: test niezależności, który zadaje pytanie o związek, na przykład: „Czy istnieje związek między wynikami płci i SAT?”; oraz test dobroci dopasowania, który brzmi: „Jeśli moneta zostanie rzucona 100 razy, to czy podniesie głowę 50 razy, a reszka 50 razy?”
W tych testach wykorzystuje się stopnie swobody, aby ustalić, czy określoną hipotezę zerową można odrzucić na podstawie całkowitej liczby zmiennych i próbek w ramach eksperymentu.
Na przykład, biorąc pod uwagę studentów i wybór kursu, wielkość próbki 30 lub 40 studentów prawdopodobnie nie jest wystarczająco duża, aby wygenerować znaczące dane. Uzyskiwanie takich samych lub podobnych wyników z badania na próbie liczącej 400 lub 500 studentów jest bardziej uzasadnione.
W innym przykładzie zastanów się nad rzuceniem monetą 100 razy. Oczekiwanym rezultatem rzutu rzetelną monetą 100 razy jest to, że głowy podniosą się 50 razy, a reszka wyskoczy 50 razy. Rzeczywistym rezultatem może być to, że głowy podnoszą się 45 razy, a ogony podnoszą się 55 razy. Statystyka chi-kwadrat pokazuje wszelkie rozbieżności między oczekiwanymi wynikami a rzeczywistymi wynikami.
Przykład testu chi-kwadrat
Wyobraź sobie, że losowe ankiety przeprowadzono wśród 2000 różnych wyborców, zarówno mężczyzn, jak i kobiet. Osoby, które udzieliły odpowiedzi, zostały sklasyfikowane według płci i tego, czy były republikańskie, demokratyczne czy niezależne. Wyobraź sobie siatkę z kolumnami oznaczonymi republikańskimi, demokratycznymi i niezależnymi oraz dwoma rzędami oznaczonymi jako mężczyzna i kobieta. Załóżmy, że dane od 2000 respondentów są następujące:
Pierwszym krokiem do obliczenia statystyki chi-kwadrat jest znalezienie oczekiwanych częstotliwości. Są one obliczane dla każdej „komórki” w siatce. Ponieważ istnieją dwie kategorie płci i trzy kategorie poglądów politycznych, istnieje sześć całkowitych oczekiwanych częstotliwości. Wzór na oczekiwaną częstotliwość to:
E (r, c) = n (r) × c (r) gdzie indziej: r = wiersz w pytaniu c = kolumna w pytaniu n = odpowiednia suma \ początek {wyrównany} i E (r, c) = \ frac {n (r) razy c (r)} {n} \ & \ textbf {gdzie:} \ & r = \ text {wiersz w pytaniu} \ & c = \ text {kolumna w pytaniu} \ & n = \ text {odpowiadająca suma} \ \ end {wyrównany} E (r, c) = nn (r) × c (r) gdzie: r = wiersz w pytaniu c = kolumna w pytaniu n = odpowiednia suma
W tym przykładzie oczekiwane częstotliwości to:
- E (1, 1) = (900 x 800) / 2000 = 360E (1, 2) = (900 x 800) / 2000 = 360E (1, 3) = (200 x 800) / 2000 = 80E (2, 1) = (900 x 1200) / 2000 = 540E (2, 2) = (900 x 1200) / 2000 = 540E (2, 3) = (200 x 1200) / 2000 = 120
Następnie są to wartości używane do obliczania statystyki chi do kwadratu przy użyciu następującego wzoru:
Chi-kwadrat = ∑2E (r, c) gdzie: O (r, c) = obserwowane dane dla danego wiersza i kolumny \ początek {wyrównany} i \ text {Chi-kwadrat} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {where:} \ & O (r, c) = \ text {obserwowane dane dla danego wiersza i kolumny} \ \ end {wyrównane} Chi-kwadrat = ∑E (r, c) 2 gdzie: O (r, c) = obserwowane dane dla danego wiersza i kolumny
W tym przykładzie wyrażenie dla każdej zaobserwowanej wartości to:
- O (1, 1) = (400 - 360) 2/360 = 4, 44O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2, 96O (2, 2) = (600 - 540) 2/540 = 6, 67O (2, 3) = (100 - 120) 2/120 = 3, 33
Statystyka chi-kwadrat jest następnie równa sumie tych wartości, czyli 32, 41. Następnie możemy spojrzeć na tabelę statystyk kwadratowych chi, aby zobaczyć, biorąc pod uwagę stopnie swobody w naszym układzie, czy wynik jest statystycznie istotny, czy nie.