Co to jest suma kwadratów?
Suma kwadratów jest techniką statystyczną stosowaną w analizie regresji w celu określenia dyspersji punktów danych. W analizie regresji celem jest określenie, jak dobrze seria danych może być dopasowana do funkcji, która może pomóc wyjaśnić, w jaki sposób seria danych została wygenerowana. Suma kwadratów jest używana jako matematyczny sposób na znalezienie funkcji, która najlepiej pasuje (różni się najmniej) od danych.
Wzór na sumę kwadratów to
W pobliżu Dla zbioru X z n elementów: Suma kwadratów = i = 0∑n (Xi-X) 2 gdzie: Xi = i-ty element w zbiorze X = Średnia wszystkich elementów w zbiorze (Xi-X) = Odchylenie każdej pozycji od średniej
Suma kwadratów jest również znana jako wariacja.
Co mówi ci suma kwadratów?
Suma kwadratów jest miarą odchylenia od średniej. W statystyce średnia jest średnią zbioru liczb i jest najczęściej stosowaną miarą tendencji centralnej. Średnia arytmetyczna jest po prostu obliczana poprzez zsumowanie wartości w zbiorze danych i podzielenie przez liczbę wartości.
Załóżmy, że ceny zamknięcia Microsoft (MSFT) w ciągu ostatnich pięciu dni wynosiły 74, 01, 74, 77, 73, 94, 73, 61 i 73, 40 w dolarach amerykańskich. Suma całkowitych cen wynosi 369, 73 USD, a średnia lub średnia cena podręcznika wynosiłaby 369, 73 USD / 5 = 73, 95 USD.
Ale znajomość średniej zestawu pomiarowego nie zawsze wystarcza. Czasami dobrze jest wiedzieć, jak duża jest zmienność w zestawie pomiarów. To, jak bardzo poszczególne wartości są oddzielone od średniej, może dać pewien wgląd w dopasowanie obserwacji lub wartości do tworzonego modelu regresji.
Na przykład, jeśli analityk chciałby się dowiedzieć, czy cena akcji MSFT zmienia się równolegle z ceną Apple (AAPL), może wymienić zestaw obserwacji dla procesu obu akcji na pewien okres, powiedzmy 1, 2 lub 10 lat i utwórz model liniowy z każdą zarejestrowaną obserwacją lub pomiarem. Jeśli związek między obiema zmiennymi (tj. Cena AAPL i cena MSFT) nie jest linią prostą, wówczas istnieją różnice w zbiorze danych, które należy zbadać.
Ze statystyk wynika, że jeśli linia w stworzonym modelu liniowym nie przechodzi przez wszystkie pomiary wartości, to część zmienności zaobserwowanej w cenach akcji jest niewyjaśniona. Suma kwadratów służy do obliczenia, czy istnieje zależność liniowa między dwiema zmiennymi, a każdą niewyjaśnioną zmienność określa się jako resztkową sumę kwadratów.
Suma kwadratów jest sumą kwadratu zmienności, przy czym zmienność jest definiowana jako rozrzut między każdą indywidualną wartością a średnią. Aby określić sumę kwadratów, odległość między każdym punktem danych a linią najlepszego dopasowania jest podniesiona do kwadratu, a następnie zsumowana. Linia najlepszego dopasowania zminimalizuje tę wartość.
Jak obliczyć sumę kwadratów
Teraz możesz zobaczyć, dlaczego pomiar nazywa się sumą kwadratowych odchyleń lub sumą kwadratów w skrócie. Korzystając z naszego przykładu MSFT powyżej, sumę kwadratów można obliczyć jako:
- SS = (74, 01 - 73, 95) 2 + (74, 77 - 73, 95) 2 + (73, 94 - 73, 95) 2 + (73, 61 - 73, 95) 2 + (73, 40 - 73, 95) 2 SS = (0, 06) 2 + (0, 82) 2 + (- 0, 01) 2 + (-0, 34) 2 + (-0, 55) 2 SS = 1, 0942
Dodanie sumy samych odchyleń bez podniesienia do kwadratu spowoduje, że liczba będzie równa lub bliska zeru, ponieważ odchylenia ujemne prawie idealnie zrównoważą odchylenia dodatnie. Aby uzyskać bardziej realistyczną liczbę, suma odchyleń musi być podniesiona do kwadratu. Suma kwadratów zawsze będzie liczbą dodatnią, ponieważ kwadrat dowolnej liczby, dodatniej lub ujemnej, jest zawsze dodatni.
Przykład użycia sumy kwadratów
Na podstawie wyników obliczeń MSFT wysoka suma kwadratów wskazuje, że większość wartości jest dalej od średniej, a zatem istnieje duża zmienność danych. Niska suma kwadratów odnosi się do małej zmienności w zestawie obserwacji.
W powyższym przykładzie 1.0942 pokazuje, że zmienność ceny akcji MSFT w ciągu ostatnich pięciu dni jest bardzo niska, a inwestorzy chcący inwestować w akcje charakteryzujące się stabilnością cen i niską zmiennością mogą zdecydować się na MSFT.
Kluczowe dania na wynos
- Suma kwadratów mierzy odchylenie punktów danych od wartości średniej. Wyższy wynik sumy kwadratów wskazuje na duży stopień zmienności w zestawie danych, a niższy wynik wskazuje, że dane znacznie różnią się od wartości średniej.
Ograniczenia użycia sumy kwadratów
Podjęcie decyzji inwestycyjnej dotyczącej tego, jaki towar kupić, wymaga znacznie więcej obserwacji niż te tutaj wymienione. Analityk może być zmuszony do pracy z wieloletnimi danymi, aby wiedzieć z większą pewnością, jak wysoka lub niska jest zmienność składnika aktywów. W miarę dodawania kolejnych punktów danych do zestawu, suma kwadratów staje się większa, ponieważ wartości będą bardziej rozłożone.
Najczęściej stosowanymi pomiarami zmienności są odchylenie standardowe i wariancja. Jednak aby obliczyć którąkolwiek z dwóch miar, najpierw należy obliczyć sumę kwadratów. Wariancja to średnia sumy kwadratów (tj. Suma kwadratów podzielona przez liczbę obserwacji). Odchylenie standardowe jest pierwiastkiem kwadratowym wariancji.
Istnieją dwie metody analizy regresji, które wykorzystują sumę kwadratów: liniowa metoda najmniejszych kwadratów i nieliniowa metoda najmniejszych kwadratów. Metoda najmniejszych kwadratów odnosi się do faktu, że funkcja regresji minimalizuje sumę kwadratów wariancji z rzeczywistych punktów danych. W ten sposób można narysować funkcję, która statystycznie zapewnia najlepsze dopasowanie do danych. Zauważ, że funkcja regresji może być liniowa (linia prosta) lub nieliniowa (linia zakrzywienia).
