Wzory

Cały zestaw wzorów ze statystyki — od podstawowych miar po regresję i indeksy. Pod każdym wzorem znajdziesz krótkie wyjaśnienie, skąd się bierze, oraz legendę symboli.

Dział 1

Szereg rozdzielczy

Pierwszy krok analizy: porządkujemy surowe dane i opisujemy, jak często pojawiają się poszczególne wartości.

Częstość względna

relative frequency

w_{i} = \frac{n _{i}}{n}, i = 1 \sum k n_{i} = n, i = 1 \sum k w_{i} = 1

Skąd to się bierze

Częstość względna to udział danej wartości (lub klasy) w całej zbiorowości — liczebność cząstkową dzielimy przez liczebność całości. Suma wszystkich udziałów zawsze daje 1 (czyli 100%).

$w_{i}$: częstość względna i-tej wartości
$n_{i}$: liczebność i-tej wartości (klasy)
$n$: liczebność całej zbiorowości
$k$: liczba wartości (klas)

Dystrybuanta empiryczna

empirical CDF

F_{n} (x) = ⎩ ⎨ ⎧ 0 s = 1 \sum i w_{s} 1 dla x < x_{min} dla x_{i} \leq x < x_{i + 1} dla x \geq x_{ma x}

Skąd to się bierze

Dystrybuanta mówi, jaki ułamek obserwacji jest mniejszy lub równy danej wartości. Powstaje przez narastające sumowanie częstości względnych (skumulowane udziały), więc rośnie od 0 do 1.

$F_{n} (x)$: skumulowana częstość do wartości x
$w_{s}$: częstość względna s-tej wartości
$x_{min}, x_{ma x}$: najmniejsza i największa wartość cechy

Dział 2

Miary położenia (tendencji centralnej)

Liczby, które wskazują „środek” rozkładu — typową, przeciętną wartość cechy.

Średnia arytmetyczna

arithmetic mean

a) dane indywidualne

\overset{x}{ˉ} = \frac{1}{n} i = 1 \sum n x_{i} = \frac{x _{1} + x _{2} + \dots + x _{n}}{n}

b) szereg rozdzielczy punktowy (ważona)

\overset{x}{ˉ} = \frac{\sum _{i = 1}^{k} x _{i} n _{i}}{\sum _{i = 1}^{k} n _{i}} = i = 1 \sum k x_{i} w_{i}

c) szereg rozdzielczy przedziałowy

\overset{x}{ˉ} \approx \frac{\sum _{i = 1}^{k} x ˙ _{i} n _{i}}{\sum _{i = 1}^{k} n _{i}}, \overset{x}{˙}_{i} = \frac{x _{0 i} + x _{1 i}}{2}

Skąd to się bierze

Suma wszystkich wartości podzielona przez ich liczbę. Dla danych pogrupowanych każdą wartość „ważymy” jej liczebnością. W szeregu przedziałowym nie znamy dokładnych wartości, więc bierzemy środek przedziału — stąd przybliżenie.

$\overset{x}{ˉ}$: średnia arytmetyczna
$x_{i}$: i-ta wartość cechy
$\overset{x}{˙}_{i}$: środek i-tego przedziału
$n_{i}, w_{i}$: liczebność i częstość i-tej klasy

Średnia harmoniczna

harmonic mean

\overset{x}{ˉ}_{H} = \frac{n}{\sum _{i = 1}^{n} \frac{1}{x _{i}}}

Skąd to się bierze

Odwrotność średniej arytmetycznej z odwrotności. Stosowana, gdy uśredniamy wielkości względne (np. prędkości, wydajności) — tam zwykła średnia zawyżałaby wynik.

$\overset{x}{ˉ}_{H}$: średnia harmoniczna
$x_{i}$: i-ta wartość cechy (dodatnia)

Średnia geometryczna

geometric mean

\overset{x}{ˉ}_{G} = n x_{1} \cdot x_{2} \dots x_{n} = n i = 1 \prod n x_{i}

Skąd to się bierze

Pierwiastek n-tego stopnia z iloczynu wartości. Naturalna miara przeciętnego tempa zmian (procesy mnożące się, np. stopy wzrostu w kolejnych okresach).

$\overset{x}{ˉ}_{G}$: średnia geometryczna
$x_{i}$: i-ta wartość cechy (dodatnia)

Mediana

median

a) dane indywidualne

m_{e} = ⎩ ⎨ ⎧ x_{\frac{n + 1}{2}} \frac{x _{\frac{n}{2}} + x _{\frac{n}{2} + 1}}{2} gdy n nieparzyste gdy n parzyste

b) szereg rozdzielczy punktowy

m_{e} = najmniejsze x_{i}, dla kt \overset{o}{ˊ} rego F_{n} (x_{i}) \geq 0, 5

c) szereg rozdzielczy przedziałowy

m_{e} \approx x_{0, m e} + \frac{0 , 5 - F _{n} ( x _{0, m e} )}{w _{m e}} h_{m e}

Skąd to się bierze

Wartość dzieląca uporządkowaną zbiorowość na dwie równe połowy — 50% obserwacji jest poniżej, 50% powyżej. Dla danych przedziałowych interpolujemy liniowo wewnątrz przedziału, w którym dystrybuanta przekracza 0,5.

$m_{e}$: mediana (kwartyl drugi)
$x_{0, m e}$: dolna granica przedziału mediany
$h_{m e}$: rozpiętość przedziału mediany
$w_{m e}$: częstość względna przedziału mediany
$F_{n} (x_{0, m e})$: dystrybuanta przedziału poprzedzającego

Kwantyl rzędu p

p-th quantile

k_{p} \approx x_{0 p} + \frac{p - F _{n} ( x _{0 p} )}{w _{p}} h_{p}

Skąd to się bierze

Uogólnienie mediany: wartość, poniżej której leży udział p obserwacji. Wzór to liniowa interpolacja w przedziale, w którym skumulowana częstość po raz pierwszy osiąga p.

$p$: rząd kwantyla: 0,25 → Q₁, 0,5 → m_e, 0,75 → Q₃
$x_{0 p}$: dolna granica przedziału kwantyla
$h_{p} = x_{1 p} - x_{0 p}$: rozpiętość przedziału kwantyla
$w_{p}$: częstość względna przedziału kwantyla
$F_{n} (x_{0 p})$: dystrybuanta przedziału poprzedzającego

Dominanta (moda)

mode

D = x_{0 D} + \frac{n _{D} - n _{D - 1}}{( n _{D} - n _{D - 1} ) + ( n _{D} - n _{D + 1} )} h_{D}

Skąd to się bierze

Wartość, która występuje najczęściej. W szeregu przedziałowym leży w klasie o największej liczebności; wzór koryguje jej położenie względem sąsiednich (bardziej lub mniej licznych) klas.

$D$: dominanta
$x_{0 D}$: dolna granica przedziału dominanty
$n_{D}$: liczebność przedziału dominanty
$n_{D - 1}, n_{D + 1}$: liczebności przedziału poprzedniego i następnego
$h_{D}$: rozpiętość przedziału dominanty

Dział 3

Momenty

Wspólny „budulec” wielu miar — średnie potęg wartości (zwykłe) lub odchyleń od średniej (centralne).

Moment zwykły rzędu k

raw moment

M_{k} = \frac{1}{n} i = 1 \sum n x_{i}^{k} (M_{1} = \overset{x}{ˉ}, M_{2} = \frac{1}{n} \sum x_{i}^{2})

Skąd to się bierze

Średnia z k-tych potęg wartości. Dla k=1 daje zwykłą średnią, a M₂ jest składnikiem wariancji (wzór skrócony).

$M_{k}$: moment zwykły rzędu k
$x_{i}$: i-ta wartość cechy
$n$: liczebność zbiorowości

Moment centralny rzędu k

central moment

M_{k}^{'} = \frac{1}{n} i = 1 \sum n (x_{i} - \overset{x}{ˉ})^{k}

Skąd to się bierze

Średnia z k-tych potęg odchyleń od średniej. M₂′ to wariancja (rozproszenie), M₃′ mierzy asymetrię, a M₄′ — spłaszczenie rozkładu.

$M_{k}^{'}$: moment centralny rzędu k
$x_{i} - \overset{x}{ˉ}$: odchylenie od średniej

Dział 4

Miary zmienności — klasyczne

Jak bardzo wartości różnią się od średniej. Miary klasyczne korzystają ze wszystkich obserwacji.

Rozstęp

range

R = x_{ma x} - x_{min}

Skąd to się bierze

Najprostsza miara rozproszenia — odległość między skrajnymi wartościami. Bardzo wrażliwa na wartości odstające.

$R$: rozstęp
$x_{ma x}, x_{min}$: wartość największa i najmniejsza

Wariancja (obciążona)

variance

a) dane indywidualne

s^{2} = \frac{1}{n} i = 1 \sum n (x_{i} - \overset{x}{ˉ})^{2} = \frac{1}{n} i = 1 \sum n x_{i}^{2} - \overset{x}{ˉ}^{2}

b) szereg rozdzielczy punktowy

s^{2} = \frac{\sum _{i = 1}^{k} ( x _{i} - x ˉ ) ^{2} n _{i}}{\sum _{i = 1}^{k} n _{i}} = i = 1 \sum k (x_{i} - \overset{x}{ˉ})^{2} w_{i}

c) szereg rozdzielczy przedziałowy

s^{2} \approx \frac{\sum _{i = 1}^{k} ( x ˙ _{i} - x ˉ ) ^{2} n _{i}}{\sum _{i = 1}^{k} n _{i}}

Skąd to się bierze

Średnia z kwadratów odchyleń od średniej. Kwadrat sprawia, że odchylenia nie znoszą się (suma zwykłych odchyleń = 0) i mocniej karze duże odstępstwa. Wzór skrócony „średnia kwadratów minus kwadrat średniej” bywa wygodniejszy w rachunkach.

$s^{2}$: wariancja (obciążona)
$x_{i} - \overset{x}{ˉ}$: odchylenie od średniej
$\overset{x}{˙}_{i}$: środek przedziału

Wariancja nieobciążona

sample variance (unbiased)

\overset{s}{^}^{2} = \frac{1}{n - 1} i = 1 \sum n (x_{i} - \overset{x}{ˉ})^{2} = \frac{n}{n - 1} s^{2}

Skąd to się bierze

Wersja stosowana, gdy z próby wnioskujemy o populacji. Dzielimy przez n−1 (a nie n), bo średnia z próby „zużywa” jeden stopień swobody — bez tej poprawki wariancję systematycznie zaniżalibyśmy.

$\overset{s}{^}^{2}$: wariancja nieobciążona
$n - 1$: liczba stopni swobody

Odchylenie standardowe

standard deviation

s = s^{2} (\overset{s}{^} = \overset{s}{^}^{2})

Skąd to się bierze

Pierwiastek z wariancji — sprowadza miarę rozproszenia z powrotem do jednostek cechy, więc jest łatwiej interpretowalne niż wariancja.

$s$: odchylenie standardowe
$s^{2}$: wariancja

Klasyczny współczynnik zmienności

coefficient of variation

V_{x} = \frac{s}{x ˉ} \cdot 100%

Skąd to się bierze

Względna miara rozproszenia — odchylenie standardowe odniesione do średniej. Bezwymiarowa, więc pozwala porównać zmienność cech wyrażonych w różnych jednostkach lub o różnych poziomach.

$V_{x}$: współczynnik zmienności
$s$: odchylenie standardowe
$\overset{x}{ˉ}$: średnia arytmetyczna

Dział 5

Miary zmienności — pozycyjne

Oparte na kwartylach, a nie na średniej — dlatego odporne na wartości odstające.

Rozstęp ćwiartkowy (międzykwartylowy)

interquartile range, IQR

I QR = Q_{3} - Q_{1}

Skąd to się bierze

Szerokość przedziału, w którym mieści się środkowe 50% obserwacji. Pomija skrajne 25% z dołu i z góry, więc nie reaguje na wartości odstające.

$Q_{1}, Q_{3}$: kwartyl pierwszy i trzeci

Odchylenie ćwiartkowe

quartile deviation

Q = \frac{I QR}{2} = \frac{Q _{3} - Q _{1}}{2}

Skąd to się bierze

Połowa rozstępu ćwiartkowego — przeciętne odchylenie kwartyli skrajnych od mediany. Pozycyjny odpowiednik odchylenia standardowego.

$Q$: odchylenie ćwiartkowe
$I QR$: rozstęp ćwiartkowy

Pozycyjny współczynnik zmienności

quartile coefficient of variation

V_{Q} = \frac{Q}{m _{e}} \cdot 100%

Skąd to się bierze

Względna miara rozproszenia w wersji pozycyjnej — odchylenie ćwiartkowe odniesione do mediany. Używamy go, gdy w danych są wartości odstające.

$V_{Q}$: pozycyjny współczynnik zmienności
$Q$: odchylenie ćwiartkowe
$m_{e}$: mediana

Dział 6

Miary asymetrii

Czy rozkład jest symetryczny, czy „przechylony” w jedną stronę.

Trzeci moment centralny

third central moment

M_{3}^{'} = \frac{1}{n} i = 1 \sum n (x_{i} - \overset{x}{ˉ})^{3}

Skąd to się bierze

Średnia z sześcianów odchyleń. Nieparzysta potęga zachowuje znak: dodatnie odchylenia (długi ogon w prawo) dają wynik dodatni, ujemne — ujemny. Stąd mierzy kierunek asymetrii.

$M_{3}^{'}$: trzeci moment centralny
$(x_{i} - \overset{x}{ˉ})^{3}$: sześcian odchylenia od średniej

Klasyczny współczynnik asymetrii

skewness

A = \frac{M _{3}^{'}}{s ^{3}}

Skąd to się bierze

Trzeci moment centralny standaryzujemy przez sześcian odchylenia standardowego, by uzyskać miarę bezwymiarową. A>0 → ogon w prawo (prawostronna), A<0 → ogon w lewo, A≈0 → symetria.

$A$: współczynnik asymetrii (skośność)
$M_{3}^{'}$: trzeci moment centralny
$s^{3}$: sześcian odchylenia standardowego

Dział 7

Współzależność dwóch cech

Mierzymy, czy i jak silnie dwie cechy zmieniają się razem.

Kowariancja

covariance

c_{x y} = \frac{1}{n} i = 1 \sum n (x_{i} - \overset{x}{ˉ}) (y_{i} - \overset{y}{ˉ})

Skąd to się bierze

Średnia z iloczynów odchyleń obu cech. Gdy wartości powyżej średniej w X idą w parze z wartościami powyżej średniej w Y, iloczyny są dodatnie → dodatnia kowariancja (cechy rosną razem). Jej wadą jest zależność od jednostek.

$c_{x y}$: kowariancja cech X i Y
$x_{i} - \overset{x}{ˉ}$: odchylenie X od średniej
$y_{i} - \overset{y}{ˉ}$: odchylenie Y od średniej

Współczynnik korelacji liniowej Pearsona

Pearson correlation

r_{x y} = \frac{c _{x y}}{s _{x} s _{y}}

Skąd to się bierze

Kowariancja podzielona przez iloczyn odchyleń standardowych — standaryzacja, która usuwa wpływ jednostek i zamyka wynik w przedziale [−1, 1]. |r| bliskie 1 oznacza silną zależność liniową, r≈0 — jej brak.

$r_{x y}$: współczynnik korelacji Pearsona, r ∈ [−1, 1]
$c_{x y}$: kowariancja
$s_{x}, s_{y}$: odchylenia standardowe cech X i Y

Współczynnik korelacji rang Spearmana

Spearman rank correlation

r_{S} = 1 - \frac{6 \sum _{i = 1}^{n} d _{i}^{2}}{n ( n ^{2} - 1 )}

Skąd to się bierze

Korelacja Pearsona policzona na rangach (pozycjach) zamiast surowych wartości. Mierzy zależność monotoniczną (niekoniecznie liniową) i jest odporna na wartości odstające. d_i to różnica rang danej obserwacji.

$r_{S}$: współczynnik korelacji rang, r_S ∈ [−1, 1]
$d_{i}$: różnica rang i-tej obserwacji w obu cechach
$n$: liczba obserwacji

Dział 8

Zmienna losowa

Przejście od opisu danych do rachunku prawdopodobieństwa — model losowy zjawiska.

Funkcja prawdopodobieństwa (zmienna skokowa)

probability mass function

P (X = x_{i}) = p_{i}, i \sum p_{i} = 1

Skąd to się bierze

Dla zmiennej skokowej przypisuje każdej możliwej wartości jej prawdopodobieństwo. Ponieważ któraś z wartości na pewno wystąpi, prawdopodobieństwa muszą sumować się do 1.

$p_{i}$: prawdopodobieństwo wartości x_i
$X$: zmienna losowa

Dystrybuanta zmiennej losowej

cumulative distribution function

F (x) = P (X \leq x) = x_{i} \leq x \sum p_{i}

Skąd to się bierze

Prawdopodobieństwo, że zmienna przyjmie wartość nie większą niż x. Dla zmiennej skokowej sumujemy prawdopodobieństwa wszystkich wartości do x włącznie — funkcja rośnie schodkowo od 0 do 1.

$F (x)$: dystrybuanta
$p_{i}$: prawdopodobieństwo wartości x_i

Funkcja gęstości (zmienna ciągła)

probability density function

f (x) \geq 0, \int_{- \infty}^{\infty} f (x) d x = 1, P (a < X < b) = \int_{a}^{b} f (x) d x

Skąd to się bierze

Dla zmiennej ciągłej prawdopodobieństwo pojedynczego punktu wynosi 0, więc opisujemy je gęstością. Prawdopodobieństwo to pole pod wykresem gęstości na danym przedziale; całe pole pod krzywą równa się 1.

$f (x)$: funkcja gęstości
$P (a < X < b)$: prawdopodobieństwo trafienia w przedział

Wartość oczekiwana

expected value

zmienna skokowa

E (X) = i \sum x_{i} p_{i}

zmienna ciągła

E (X) = \int_{- \infty}^{\infty} x f (x) d x

Skąd to się bierze

Średnia ważona możliwych wartości, gdzie wagami są prawdopodobieństwa — „przeciętny” wynik w długiej serii powtórzeń. To odpowiednik średniej arytmetycznej dla modelu losowego.

$E (X)$: wartość oczekiwana
$p_{i}$: prawdopodobieństwo wartości x_i
$f (x)$: gęstość (przypadek ciągły)

Wariancja zmiennej losowej

variance of a random variable

D^{2} (X) = E [(X - E (X))^{2}] = E (X^{2}) - [E (X)]^{2}

Skąd to się bierze

Oczekiwany kwadrat odchylenia od wartości oczekiwanej — miara rozproszenia rozkładu. Druga postać (moment drugi minus kwadrat średniej) jest wygodniejsza do liczenia.

$D^{2} (X)$: wariancja zmiennej losowej
$E (X)$: wartość oczekiwana
$D (X) = D^{2} (X)$: odchylenie standardowe ZL

Standaryzacja

standardization

U = \frac{X - E ( X )}{D ( X )}

Skąd to się bierze

Przesuwamy rozkład o wartość oczekiwaną i skalujemy przez odchylenie standardowe. Powstała zmienna U ma E(U)=0 i D(U)=1 — to pozwala korzystać z jednej tablicy rozkładu standardowego dla dowolnego rozkładu normalnego.

$U$: zmienna standaryzowana
$E (X), D (X)$: wartość oczekiwana i odchylenie standardowe X

Dział 9

Wybrane rozkłady

Gotowe modele najczęstszych sytuacji losowych.

Rozkład zero-jedynkowy (dwupunktowy)

Bernoulli distribution

P (X = 1) = p, P (X = 0) = 1 - p, E (X) = p, D^{2} (X) = p (1 - p)

Skąd to się bierze

Model pojedynczej próby z dwoma wynikami: sukces (1) z prawdopodobieństwem p lub porażka (0). Podstawowy klocek rozkładu dwumianowego.

$p$: prawdopodobieństwo sukcesu
$X$: 1 = sukces, 0 = porażka

Rozkład dwumianowy

binomial distribution

P (X = k) = (k n) p^{k} (1 - p)^{n - k}, E (X) = n p, D^{2} (X) = n p (1 - p)

Skąd to się bierze

Liczba sukcesów w n niezależnych próbach o stałym p. Składnik p^k(1−p)^{n−k} to prawdopodobieństwo konkretnego układu, a symbol Newtona liczy, na ile sposobów k sukcesów może się rozłożyć.

$k$: liczba sukcesów, k = 0,1,…,n
$n$: liczba prób
$p$: prawdopodobieństwo sukcesu
$(k n)$: symbol Newtona (liczba kombinacji)

Rozkład Poissona

Poisson distribution

P (X = k) = \frac{λ ^{k}}{k !} e^{- λ}, E (X) = D^{2} (X) = λ

Skąd to się bierze

Liczba rzadkich zdarzeń w ustalonym czasie lub obszarze (np. zgłoszenia na infolinię). Przybliża rozkład dwumianowy, gdy n jest duże, a p małe, przy λ = np.

$λ$: średnia liczba zdarzeń (intensywność)
$k$: liczba zdarzeń, k = 0,1,2,…
$e$: podstawa logarytmu naturalnego

Rozkład normalny N(m, σ)

normal distribution

f (x) = \frac{1}{σ 2 π} e^{- \frac{( x - m ) ^{2}}{2 σ ^{2}}}, E (X) = m, D (X) = σ

Skąd to się bierze

Symetryczny rozkład „dzwonowy”, do którego dąży suma wielu drobnych, niezależnych wpływów (twierdzenie graniczne). Opisany dwoma parametrami: położeniem m i rozproszeniem σ.

$m$: wartość oczekiwana (środek)
$σ$: odchylenie standardowe

Rozkład normalny standardowy N(0, 1)

standard normal distribution

φ (u) = \frac{1}{2 π} e^{- \frac{u ^{2}}{2}}, E (U) = 0, D (U) = 1

Skąd to się bierze

Rozkład normalny po standaryzacji (m=0, σ=1). Stablicowany raz na zawsze — każdy inny rozkład normalny sprowadzamy do niego przez standaryzację U = (X−m)/σ.

$φ (u)$: gęstość rozkładu standardowego
$U$: zmienna standaryzowana

Dział 10

Rozkłady statystyk z próby i twierdzenia graniczne

Most między próbą a populacją: jak zachowuje się średnia z próby i kiedy działa rozkład normalny.

Rozkład średniej — σ znane

U = \frac{X ˉ - m}{\frac{σ}{n}} \sim N (0, 1)

Skąd to się bierze

Gdy populacja jest normalna i znamy σ, średnia z próby ma rozkład normalny o odchyleniu σ/√n (błąd standardowy). Po standaryzacji otrzymujemy rozkład N(0,1).

$\overset{ˉ}{X}$: średnia z próby
$m$: średnia w populacji
$σ$: odchylenie standardowe populacji
$n$: liczebność próby

Rozkład średniej — σ nieznane

t = \frac{X ˉ - m}{\frac{s}{n}} \sim t, v = n - 1

Skąd to się bierze

Gdy σ jest nieznane, zastępujemy je odchyleniem z próby s. Dodatkowa niepewność szacunku sprawia, że statystyka ma rozkład t-Studenta (cięższe ogony niż normalny), zbiegający do N(0,1) przy dużym n.

$s$: odchylenie standardowe z próby (nieobciążone)
$v = n - 1$: liczba stopni swobody

Centralne twierdzenie graniczne (Lindeberg–Lévy)

central limit theorem

\overset{ˉ}{X} \sim a s N (m, \frac{σ}{n}) (n \geq 100)

Skąd to się bierze

Dla dużej próby (n≥100) średnia ma w przybliżeniu rozkład normalny — niezależnie od kształtu rozkładu populacji. To dlatego rozkład normalny pojawia się w testach i przedziałach ufności tak często.

$\sim a s$: rozkład asymptotyczny (graniczny)
$n \geq 100$: warunek dużej próby

Rozkład częstości (de Moivre–Laplace)

W = \frac{X}{n} \sim a s N (p, \frac{p ( 1 - p )}{n}) (n \geq 100)

Skąd to się bierze

Szczególny przypadek CTG dla rozkładu zero-jedynkowego: udział sukcesów w dużej próbie ma w przybliżeniu rozkład normalny wokół prawdziwego p. Podstawa testów i przedziałów ufności dla proporcji.

$W = X / n$: częstość (udział) sukcesów w próbie
$p$: prawdopodobieństwo sukcesu w populacji

Dział 11

Estymacja przedziałowa

Zamiast jednej liczby podajemy przedział, który z zadanym prawdopodobieństwem (1−α) zawiera nieznany parametr.

Przedział ufności dla średniej — σ znane

P (\overset{x}{ˉ} - u_{α} \frac{σ}{n} < m < \overset{x}{ˉ} + u_{α} \frac{σ}{n}) = 1 - α

Skąd to się bierze

Wokół średniej z próby budujemy przedział o połowie szerokości równej błędowi standardowemu pomnożonemu przez wartość krytyczną u_α z rozkładu normalnego. Im większa próba, tym węższy przedział.

$u_{α}$: wartość krytyczna N(0,1), P(|U|≥u_α)=α
$1 - α$: współczynnik ufności
$σ$: znane odchylenie populacji

Przedział ufności dla średniej — σ nieznane

P (\overset{x}{ˉ} - t_{α, n - 1} \frac{s}{n} < m < \overset{x}{ˉ} + t_{α, n - 1} \frac{s}{n}) = 1 - α

Skąd to się bierze

Jak wyżej, ale σ zastępujemy przez s z próby, a wartość krytyczną bierzemy z rozkładu t-Studenta o n−1 stopniach swobody (szerszy przedział odzwierciedla dodatkową niepewność). Dla dużej próby zamiast t można użyć u_α.

$t_{α, n - 1}$: wartość krytyczna rozkładu t, v=n−1
$s$: odchylenie standardowe z próby

Przedział ufności dla proporcji p

P (\overset{p}{^} - u_{α} \frac{p ^ ( 1 - p ^ )}{n} < p < \overset{p}{^} + u_{α} \frac{p ^ ( 1 - p ^ )}{n}) = 1 - α

Skąd to się bierze

Dla dużej próby (n≥100) częstość ma w przybliżeniu rozkład normalny (de Moivre–Laplace), więc przedział budujemy analogicznie jak dla średniej, używając błędu standardowego proporcji.

$\overset{p}{^} = X / n$: częstość sukcesów z próby
$u_{α}$: wartość krytyczna N(0,1)

Minimalna liczebność próby — szacowanie m

n = \frac{u _{α}^{2} σ ^{2}}{d ^{2}}

Skąd to się bierze

Wynika z przekształcenia połowy szerokości przedziału ufności (d = u_α·σ/√n) względem n. Mówi, ilu obserwacji potrzeba, by błąd szacunku nie przekroczył d przy ufności 1−α.

$d$: dopuszczalny (maksymalny) błąd szacunku
$u_{α}$: wartość krytyczna N(0,1)
$σ^{2}$: wariancja populacji (lub jej oszacowanie)

Minimalna liczebność próby — szacowanie p

n = \frac{u _{α}^{2} p ( 1 - p )}{d ^{2}}

Skąd to się bierze

Analogicznie do średniej, dla proporcji. Gdy p nie jest znane, w bezpiecznym wariancie przyjmuje się p=0,5 (maksymalizuje p(1−p), a więc i wymaganą liczebność).

$d$: dopuszczalny błąd szacunku
$p$: proporcja (lub 0,5 w wariancie ostrożnym)

Dział 12

Weryfikacja hipotez — jedna próba

Sprawdzamy, czy dane są zgodne z założeniem o parametrze populacji. Liczymy statystykę testową i porównujemy z wartością krytyczną.

Test dla średniej — σ znane

U = \frac{X ˉ - m _{0}}{\frac{σ}{n}} \sim N (0, 1)

Skąd to się bierze

Mierzymy, o ile błędów standardowych średnia z próby odbiega od wartości m₀ z hipotezy H₀. Duże |U| (powyżej u_α) oznacza, że taka różnica jest mało prawdopodobna przy prawdziwym H₀ — odrzucamy hipotezę.

$m_{0}$: wartość średniej z hipotezy H₀
$U$: statystyka testowa

Test dla średniej — σ nieznane

t = \frac{X ˉ - m _{0}}{\frac{s}{n}} \sim t, v = n - 1

Skąd to się bierze

Wariant z nieznanym σ (zastąpionym przez s). Statystyka ma rozkład t-Studenta o n−1 stopniach swobody. Dla dużej próby rozkład t praktycznie pokrywa się z N(0,1).

$s$: odchylenie z próby (nieobciążone)
$v = n - 1$: stopnie swobody

Test dla proporcji p

U = \frac{p ^ - p _{0}}{\frac{p _{0} ( 1 - p _{0} )}{n}} \sim a s N (0, 1)

Skąd to się bierze

Dla dużej próby (n≥100) standaryzujemy częstość z próby względem p₀ z hipotezy, używając błędu standardowego liczonego przy założeniu prawdziwości H₀.

$p_{0}$: wartość proporcji z hipotezy H₀
$\overset{p}{^} = X / n$: częstość z próby

Test dla wariancji

χ^{2} = \frac{( n - 1 ) s ^ ^{2}}{σ _{0}^{2}} \sim χ^{2}, v = n - 1

Skąd to się bierze

Porównuje wariancję z próby z hipotetyczną σ₀². Suma kwadratów standaryzowanych odchyleń ma rozkład chi-kwadrat o n−1 stopniach swobody (rozkład niesymetryczny, więc obszary krytyczne odczytujemy oddzielnie).

$σ_{0}^{2}$: wartość wariancji z hipotezy H₀
$\overset{s}{^}^{2}$: wariancja nieobciążona z próby
$v = n - 1$: stopnie swobody

Dział 13

Weryfikacja hipotez — dwie próby

Porównujemy dwie zbiorowości: czy różnią się średnimi, proporcjami lub zmiennością.

Różnica średnich — σ znane (próby niezależne)

U = \frac{X ˉ _{1} - X ˉ _{2}}{\frac{σ _{1}^{2}}{n _{1}} + \frac{σ _{2}^{2}}{n _{2}}} \sim N (0, 1)

Skąd to się bierze

Różnicę średnich standaryzujemy przez błąd standardowy różnicy (wariancje obu prób się sumują, bo próby są niezależne). H₀ zwykle mówi, że m₁=m₂, czyli oczekiwana różnica = 0.

$\overset{ˉ}{X}_{1}, \overset{ˉ}{X}_{2}$: średnie z dwóch prób
$σ_{1}, σ_{2}$: znane odchylenia populacji
$n_{1}, n_{2}$: liczebności prób

Różnica średnich — σ nieznane, równe (próby niezależne)

t = \frac{X ˉ _{1} - X ˉ _{2}}{s _{p}^{2} ( \frac{1}{n _{1}} + \frac{1}{n _{2}} )}, s_{p}^{2} = \frac{( n _{1} - 1 ) s _{1}^{2} + ( n _{2} - 1 ) s _{2}^{2}}{n _{1} + n _{2} - 2}

Skąd to się bierze

Gdy σ są nieznane, ale jednakowe, łączymy informację o zmienności z obu prób w jedną wariancję połączoną s_p² (średnia ważona stopniami swobody). Statystyka ma rozkład t o v = n₁+n₂−2 stopniach swobody.

$s_{p}^{2}$: wariancja połączona (pooled)
$s_{1}^{2}, s_{2}^{2}$: wariancje z prób
$v = n_{1} + n_{2} - 2$: stopnie swobody

Różnica średnich — duże próby

U = \frac{X ˉ _{1} - X ˉ _{2}}{\frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}}} \sim a s N (0, 1) (n_{1} + n_{2} \geq 100)

Skąd to się bierze

Przy dużych próbach z CTG korzystamy z rozkładu normalnego, a nieznane σ zastępujemy odchyleniami z prób — bez konieczności zakładania równości wariancji.

$s_{1}^{2}, s_{2}^{2}$: wariancje z prób

Różnica średnich — próby zależne

t = \frac{R ˉ - m _{0}}{\frac{s _{R}}{n}}, v = n - 1, R_{i} = x_{i} - y_{i}

Skąd to się bierze

Dla par powiązanych (np. pomiar przed i po) analizujemy różnice R_i wewnątrz par. Sprowadza to problem do testu jednej próby dla średniej różnic — zwykle H₀: m_R = 0.

$R_{i}$: różnica w i-tej parze
$\overset{ˉ}{R}$: średnia różnic
$s_{R}$: odchylenie standardowe różnic

Różnica proporcji

U = \frac{p ^ _{1} - p ^ _{2}}{p ^ ( 1 - p ^ ) ( \frac{1}{n _{1}} + \frac{1}{n _{2}} )}, \overset{p}{^} = \frac{X _{1} + X _{2}}{n _{1} + n _{2}}

Skąd to się bierze

Pod H₀ (p₁=p₂) najlepszym oszacowaniem wspólnej proporcji jest częstość łączna p̂ z obu prób. Używamy jej do policzenia błędu standardowego różnicy. Wymaga dużych prób.

$\overset{p}{^}_{1}, \overset{p}{^}_{2}$: częstości z obu prób
$\overset{p}{^}$: częstość łączna (pooled)

Równość wariancji (test F)

F = \frac{s _{1}^{2}}{s _{2}^{2}} \sim F, v_{1} = n_{1} - 1, v_{2} = n_{2} - 1

Skąd to się bierze

Iloraz wariancji dwóch prób. W liczniku umieszczamy większą wariancję, więc F≥1; jeśli próby pochodzą z populacji o równych wariancjach, iloraz powinien być bliski 1. Duże F (powyżej F_α) odrzuca H₀.

$s_{1}^{2}, s_{2}^{2}$: wariancje z prób (s₁²≥s₂²)
$v_{1}, v_{2}$: stopnie swobody licznika i mianownika

Dział 14

Analiza wariancji (ANOVA)

Porównanie średnich w wielu grupach naraz — przez rozłożenie całkowitej zmienności na część międzygrupową i wewnątrzgrupową.

Rozkład sumy kwadratów

SST S K C = SSB S K M + SSE S K W

Skąd to się bierze

Całkowite zróżnicowanie wyników (SKC) rozkłada się na zróżnicowanie między grupami (SKM — efekt podziału) i wewnątrz grup (SKW — zmienność losowa). Na tym podziale opiera się cały test.

$S K C$: suma kwadratów całkowita (SST)
$S K M$: suma kwadratów międzygrupowa (SSB)
$S K W$: suma kwadratów wewnątrzgrupowa (SSE)

Statystyka F

F = \frac{s _{m}^{2}}{s _{w}^{2}}, s_{m}^{2} = \frac{S K M}{r - 1}, s_{w}^{2} = \frac{S K W}{n - r}, v_{1} = r - 1, v_{2} = n - r

Skąd to się bierze

Porównujemy przeciętną zmienność między grupami z przeciętną zmiennością wewnątrz grup (obie podzielone przez stopnie swobody → wariancje). Gdy grupy różnią się średnimi, licznik rośnie i F jest duże — odrzucamy H₀: m₁=…=m_r.

$s_{m}^{2}$: wariancja międzygrupowa
$s_{w}^{2}$: wariancja wewnątrzgrupowa (resztowa)
$r$: liczba grup
$n$: łączna liczebność

Dział 15

Regresja liniowa

Dopasowujemy prostą opisującą zależność Y od X metodą najmniejszych kwadratów (MNK).

Model i funkcja regresji

Y = α x_{i} + β + ε_{i}, \overset{y}{^} = \overset{α}{^} x + \hat{β}

Skąd to się bierze

Zakładamy liniową zależność Y od X z losowym składnikiem ε (czynniki nieuwzględnione). Z danych szacujemy współczynniki α i β, otrzymując prostą teoretyczną ŷ.

$α$: współczynnik kierunkowy (nachylenie)
$β$: wyraz wolny (przecięcie)
$ε_{i}$: składnik losowy

Oceny parametrów (MNK)

\overset{α}{^} = \frac{\sum _{i = 1}^{n} ( x _{i} - x ˉ ) ( y _{i} - y ˉ )}{\sum _{i = 1}^{n} ( x _{i} - x ˉ ) ^{2}} = \frac{c _{x y}}{s _{x}^{2}}, \hat{β} = \overset{y}{ˉ} - \overset{α}{^} \overset{x}{ˉ}

Skąd to się bierze

MNK dobiera prostą tak, by suma kwadratów reszt była najmniejsza. Nachylenie wychodzi jako kowariancja podzielona przez wariancję X, a prosta zawsze przechodzi przez punkt (x̄, ȳ) — stąd wzór na β̂.

$\overset{α}{^}$: ocena nachylenia
$\hat{β}$: ocena wyrazu wolnego
$c_{x y}$: kowariancja X i Y
$s_{x}^{2}$: wariancja X

Wariancja resztowa

s_{e}^{2} = \frac{\sum _{i = 1}^{n} e _{i}^{2}}{n - 2}, e_{i} = y_{i} - \overset{y}{^}_{i}

Skąd to się bierze

Średni kwadrat reszt (różnic między wartością empiryczną a teoretyczną). Dzielimy przez n−2, bo model „zużył” dwa stopnie swobody na oszacowanie α i β. Mierzy, jak mocno punkty odstają od prostej.

$e_{i}$: reszta (błąd) i-tej obserwacji
$\overset{y}{^}_{i}$: wartość teoretyczna z modelu
$s_{e}$: odchylenie standardowe składnika resztowego

Współczynnik determinacji R²

R^{2} = \frac{\sum _{i = 1}^{n} ( y ^ _{i} - y ˉ ) ^{2}}{\sum _{i = 1}^{n} ( y _{i} - y ˉ ) ^{2}} = 1 - \frac{\sum _{i = 1}^{n} e _{i}^{2}}{\sum _{i = 1}^{n} ( y _{i} - y ˉ ) ^{2}}

Skąd to się bierze

Udział zmienności Y wyjaśnionej przez model w całkowitej zmienności Y. R²∈[0,1]: im bliżej 1, tym lepiej prosta opisuje dane. Dla regresji prostej R² = r² (kwadrat korelacji).

$R^{2}$: współczynnik determinacji
$\overset{y}{^}_{i} - \overset{y}{ˉ}$: odchylenie wyjaśnione przez model
$y_{i} - \overset{y}{ˉ}$: odchylenie całkowite

Dział 16

Indeksy statystyczne

Mierzą zmiany zjawisk w czasie — pojedynczych (indywidualne) i złożonych z wielu składników (agregatowe).

Indeksy indywidualne

i_{p} = \frac{p _{1}}{p _{0}}, i_{q} = \frac{q _{1}}{q _{0}}, i_{w} = \frac{w _{1}}{w _{0}} = i_{p} \cdot i_{q}

Skąd to się bierze

Stosunek wielkości z okresu badanego (1) do podstawowego (0). Indeks wartości rozkłada się na iloczyn indeksu cen i indeksu ilości, bo wartość = cena × ilość.

$p_{0}, p_{1}$: cena w okresie podstawowym i badanym
$q_{0}, q_{1}$: ilość w okresie podstawowym i badanym
$w = p \cdot q$: wartość

Przyrosty (łańcuchowe i jednopodstawowe)

absolutny

Δ y_{t} = y_{t} - y_{t - 1} (ł a \overset{n}{ˊ} cuchowy), Δ y_{t} = y_{t} - y_{t}^{*} (jednopodstawowy)

względny

δ_{t} = \frac{y _{t} - y _{t - 1}}{y _{t - 1}} (ł a \overset{n}{ˊ} cuchowy), δ_{t} = \frac{y _{t} - y _{t}^{*}}{y _{t}^{*}} (jednopodstawowy)

Skąd to się bierze

Przyrost absolutny to zwykła różnica poziomów, względny — ta różnica odniesiona do poziomu odniesienia (daje tempo zmian). Łańcuchowe porównują z okresem poprzednim, jednopodstawowe — ze stałą bazą.

$y_{t}$: poziom zjawiska w okresie t
$y_{t - 1}$: poziom w okresie poprzednim
$y_{t}^{*}$: poziom w stałym okresie podstawowym

Średnie tempo zmian

\overset{ˉ}{i}_{g} = n - 1 t = 2 \prod n i_{t / t - 1} = n - 1 \frac{y _{n}}{y _{1}}

Skąd to się bierze

Średnia geometryczna indeksów łańcuchowych — bo zmiany w czasie kumulują się mnożąco. Iloczyn indeksów łańcuchowych „teleskopuje się” do ilorazu poziomu końcowego i początkowego.

$\overset{ˉ}{i}_{g}$: średnie tempo (przeciętny indeks łańcuchowy)
$y_{1}, y_{n}$: poziom początkowy i końcowy

Agregatowy indeks wartości

I_{w} = \frac{\sum _{j} p _{j 1} q _{j 1}}{\sum _{j} p _{j 0} q _{j 0}}

Skąd to się bierze

Stosunek łącznej wartości całego koszyka w okresie badanym do podstawowego. Zmieniają się jednocześnie ceny i ilości — dlatego dalej rozdziela się go na indeksy cen i ilości.

$p_{j}, q_{j}$: cena i ilość j-tego dobra
$\sum_{j}$: sumowanie po składnikach agregatu

Agregatowy indeks cen

Laspeyresa (ilości z okresu 0)

I_{p}^{L} = \frac{\sum _{j} p _{j 1} q _{j 0}}{\sum _{j} p _{j 0} q _{j 0}}

Paaschego (ilości z okresu 1)

I_{p}^{P} = \frac{\sum _{j} p _{j 1} q _{j 1}}{\sum _{j} p _{j 0} q _{j 1}}

Fishera (średnia geom.)

I_{p}^{F} = I_{p}^{L} \cdot I_{p}^{P}

Skąd to się bierze

Żeby zmierzyć „czysty” wpływ cen, trzeba ustalić ilości (wagi). Laspeyres bierze ilości z okresu bazowego, Paasche — z badanego, a Fisher godzi oba podejścia ich średnią geometryczną.

$I_{p}^{L}$: indeks cen Laspeyresa
$I_{p}^{P}$: indeks cen Paaschego
$I_{p}^{F}$: indeks cen Fishera

Agregatowy indeks ilości

Laspeyresa (ceny z okresu 0)

I_{q}^{L} = \frac{\sum _{j} p _{j 0} q _{j 1}}{\sum _{j} p _{j 0} q _{j 0}}

Paaschego (ceny z okresu 1)

I_{q}^{P} = \frac{\sum _{j} p _{j 1} q _{j 1}}{\sum _{j} p _{j 1} q _{j 0}}

Fishera (średnia geom.)

I_{q}^{F} = I_{q}^{L} \cdot I_{q}^{P}

Skąd to się bierze

Analogicznie do indeksu cen, lecz teraz „zamrażamy” ceny, by wyizolować wpływ zmian ilości. Wybór okresu cen (0 lub 1) odróżnia formułę Laspeyresa od Paaschego.

$I_{q}^{L}, I_{q}^{P}, I_{q}^{F}$: indeksy ilości: Laspeyresa, Paaschego, Fishera

Równość indeksowa

I_{w} = I_{p}^{L} \cdot I_{q}^{P} = I_{p}^{P} \cdot I_{q}^{L} = I_{p}^{F} \cdot I_{q}^{F}

Skąd to się bierze

Indeks wartości zawsze daje się rozłożyć na indeks cen i indeks ilości — pod warunkiem dopasowania formuł (Laspeyres cen z Paaschem ilości i odwrotnie; Fisher z Fisherem). To spójnościowa kontrola obliczeń.

$I_{w}$: agregatowy indeks wartości

Dział 17

Jak korzystać z tablic statystycznych

Tablice podają wartości rozkładów, których nie liczy się ręcznie. Kluczowe: poprawnie dobrać tablicę, wiersz (stopnie swobody) i kolumnę (poziom α).

Tablica 1 — dystrybuanta N(0,1)

Φ (u) = P (U \leq u)

Skąd to się bierze

Dla danego u (≥0) odczytujemy pole pod krzywą normalną na lewo od u — czyli prawdopodobieństwo, że U≤u. Wiersz wskazuje u do jednego miejsca po przecinku, kolumna dodaje drugą cyfrę (np. u=1,96 → wiersz 1,9, kolumna 0,06). Dla wartości ujemnych: Φ(−u) = 1 − Φ(u).

$Φ (u)$: wartość dystrybuanty (prawdopodobieństwo)
$u$: wartość standaryzowana

Tablica 2 — wartości krytyczne N(0,1)

P (∣ U ∣ \geq u_{α}) = α

Skąd to się bierze

Działa „odwrotnie” do Tablicy 1: dla zadanego poziomu α odczytujemy wartość krytyczną u_α (np. α=0,05 → u_α=1,96). Używana w testach dwustronnych i przy budowie przedziałów ufności.

$u_{α}$: wartość krytyczna rozkładu normalnego
$α$: poziom istotności (pole w obu ogonach)

Tablica 3 — rozkład t-Studenta

P (∣ t ∣ \geq t_{α, v}) = α

Skąd to się bierze

Wartość krytyczną t_{α,v} znajdujemy na przecięciu wiersza ze stopniami swobody v i kolumny z poziomem α. Im mniejsze v, tym większa wartość krytyczna (cięższe ogony). Ostatni wiersz (v=∞) pokrywa się z u_α z Tablicy 2.

$t_{α, v}$: wartość krytyczna rozkładu t
$v$: liczba stopni swobody (np. n−1)

Tablica 4 — rozkład chi-kwadrat

P (χ^{2} \geq χ_{α, v}^{2}) = α

Skąd to się bierze

Rozkład χ² jest niesymetryczny i dotyczy wartości dodatnich, dlatego tablica podaje wartości krytyczne osobno dla różnych α (także bliskich 1 — do lewego ogona). Wiersz to stopnie swobody v, kolumna to α.

$χ_{α, v}^{2}$: wartość krytyczna rozkładu chi-kwadrat
$v$: stopnie swobody

Tablice 5–8 — rozkład F (Snedecora)

P (F \geq F_{α, v_{1}, v_{2}}) = α (α = 0, 10; 0, 05; 0, 025; 0, 01)

Skąd to się bierze

Każda tablica odpowiada jednemu poziomowi α (stąd 4 oddzielne tablice). Wartość krytyczną odczytujemy na przecięciu kolumny v₁ (stopnie swobody licznika) i wiersza v₂ (mianownika). Stosowana w teście równości wariancji i w analizie wariancji.

$F_{α, v_{1}, v_{2}}$: wartość krytyczna rozkładu F
$v_{1}$: stopnie swobody licznika
$v_{2}$: stopnie swobody mianownika