ROZKŁADY Z PRÓBY

Przedmiotem badań statystycznych są zbiorowości przedmiotów, zwierząt, roślin, osób lub zjawisk. Zazwyczaj chodzi nam o zbadanie pewnej cechy jednostek tworzących wielką zbiorowość (populację biologiczną lub populację przedmiotową). Taką cechą może być np. wysokość pędu żyta, przyrost żywej wagi świń w pewnym okresie, roczny dochód gospodarstwa domowego itp. Wartości interesującej nas cechy u wszystkich jednostek dużej zbiorowości, tworzą populację generalną. Liczby charakteryzujące jednostki ze względu na tę cechę można utożsamiać z wartościami pewnej zmiennej losowej o nieznanym na ogół rozkładzie. Aby zbadać dokładnie rozkład interesującej nas cechy, należałoby dokonać pomiarów (obserwacji) tej cechy u wszystkich jednostek tworzących tę zbiorowość (populację przedmiotową). Na ogół nie jest to jednak możliwe, gdyż populacje biologiczne są bardzo liczne albo są zbiorami nieskończonymi. Dlatego ograniczamy się do badania pewnej skończonej części populacji biologicznej, którą nazywamy próbą. Na podstawie pomiarów z próby stawiamy hipotezy i wyciągamy wnioski, które dotyczą całej populacji generalnej. Tak więc próba musi dobrze reprezentować tę populację, tzn. powinna być próbą reprezentatywną. Uważa się, że reprezentatywność próby zapewnia losowy sposób pobierania próby. Każdy element ma wtedy jednakowe szansę dostania się do próby i próba charakteryzuje się tymi samymi własnościami i prawidłowościami co populacja generalna. Wartości każdej cechy obiektów należących do pewnej zbiorowości, tworzące populację generalną możemy utożsamiać z wartościami pewnej zmiennej losowej. Populacja generalna jest w pełni określona, gdy:

- znany jest rozkład zmiennej losowej charakteryzującej tę populację,

- znane są parametry tego rozkładu.

Prawie nigdy nie znamy całej populacji generalnej, zwykle mamy do czynienia tylko z próbą. Dla potrzeb statystyki matematycznej rozumienie populacji i próby w sensie przedmiotowym (biologicznym) przedstawionym powyżej jest niewystarczające. W języku matematycznym próbą losową (prostą) nazywamy ciąg liczb rzeczywistych {x1, x2 ,...., xn}, w którym wartości xi są to realizacje zmiennych losowych o jednakowych rozkładach. Oznaczmy te zmienne symbolem Xi, gdzie i = 1, ..., n. Dowolną funkcję tych zmiennych losowych f(X1,..,Xn) nazywać będziemy statystyką. Każda z tych statystyk jest więc zmienną losową będącą funkcją próby losowej i ma określony rozkład. Rozkłady tych statystyk nazywamy rozkładami z próby.

3.1 Rozkład średniej arytmetycznej

Z populacji o rozkładzie normalnym N(m;s) losujemy n elementową próbę i przez xi oznaczamy kolejne wyniki w próbie. Przy tych założeniach statystyka:

(3.1.1)

tzn. średnia arytmetyczna z próby, ma rozkład normalny N(m; sx)

(3.1.2)

przy czym zachodzi związek:

(3.1.3)

gdzie sx nazywa się błędem standardowym średniej.

Z powyższego wynika wniosek, że rozkład średniej arytmetycznej próby w próbach pochodzących z populacji o rozkładzie normalnym jest zależny od odchylenia standardowego s w populacji. Wraz ze wzrostem liczebności próby odchylenie standardowe statystyki maleje. Oznacza to, że średnia arytmetyczna podlega mniejszej zmienności niż pojedyncze wyniki.

Przykład 3.1

Przykład 3.2

3.2 Rozkład c2

Niech X1, ...., Xv będzie ciągiem niezależnych zmiennych losowych o rozkładzie normalnym standaryzowanym N(0; 1). Utwórzmy następującą funkcję tych zmiennych:

(3.2.1)

Statystyka ta ma rozkład c2 (chi-kwadrat) z liczbą stopni swobody równą v. Liczba stopni swobody jest parametrem rozkładu zmiennej losowej o rozkładzie c2. Wartość tego parametru jest liczbą składników tej zmiennej (patrz wzór 3.2.1).Parametry zmiennej losowej o rozkładzie c2 są następujące:

E(c2) = v

(3.2.2)

D2(c2) = 2v

(3.2.3)

Kształt funkcji gęstości prawdopodobieństwa rozkładu c2 zmienia się wraz ze zmianą liczby stopni swobody v. Przy małej liczbie stopni swobody rozkład jest skrajnie asymetryczny, natomiast wraz ze wzrostem liczby stopni swobody rozkład c2 zbliża się do rozkładu normalnego.

Uwaga:

Zauważmy, że dla ułatwienia oznaczeń zmienne losowe o rozkładzie c2, zamiast X, najczęściej oznaczamy po prostu c2. Należy zauważyć, że zmienne losowe mające rozkład c2 przyjmują tylko wartości nieujemne.

W zastosowaniach omawianego rozkładu korzysta się z zależności, że prawdopodobieństwo:

(3.2.4)

Wartość c2a,v nazywa się wartością krytyczną. Rozkład c2 jest stablicowany (tablica 4). W tablicach podane są wartości c2a,v dla różnych wartości v (v = 1, 2, ..., 30, 40, ...,100) oraz wybranych wartości a. Z tablic korzysta się w następujący sposób: na przecięciu kolumny dla żądanego a i wiersza dla odpowiedniej liczby stopni swobody v, odczytuje się szukaną wartość krytyczną c2a,v. Interpretacja graficzna przedstawiona jest na poniższym rysunku:

Przykład 3.3

Przykład 3.4

Przykład 3.5

Okazuje się, że wiele statystyk ma rozkład c2 . W wielu rozważaniach będziemy korzystać ze zmiennej o postaci:

(3.2.5)

Zmienna ta ma rozkład c2 z liczbą stopni swobody v = n- 1.

We wzorze (3.2.5)

(3.2.6)

jest wariancją z n elementowej próby pobranej z populacji o rozkładzie normalnym N(m; s).

Z definicji statystyki c2 (wzór 3.2.5) wynika, że rozkład jest zależny od odchylenia standardowego s w populacji. Parametr ten na ogół nie jest znany, co powoduje sporo trudności w wielu zagadnieniach statystyki matematycznej. Problem ten rozwiązał angielski uczony W. Gosset, który pod pseudonimem Student opracował prawo rozkładu zmiennej bez parametru s.

3.3 Rozkład t-Studenta

Niech X0, X1, ... , Xv będą niezależnymi zmiennymi losowymi o rozkładzie normalnym standaryzowanym N(0; 1). Utwórzmy następującą funkcję tych zmiennych:

(3.3.1)

Zmienna t określona powyższym wzorem ma rozkład t-Studenta z liczbą stopni swobody v. Warto zauważyć, że zmienna losowa t-Studenta jest ilorazem zmiennej losowej o rozkładzie normalnym standaryzowanym i pierwiastka kwadratowego ze zmiennej o rozkładzie c2 . Kształt funkcji gęstości prawdopodobieństwa tego rozkładu jest zbliżony do rozkładu normalnego standaryzowanego N(0; 1) i zależy od liczby stopni swobody. Im liczba swobody jest większa, tym bardziej rozkład t-Studenta przypomina rozkład N(0; 1). Oczywiste jest, że rozkład t-Studenta jest symetryczny względem osi y-ów, czyli ma wartość oczekiwaną równą zero. Parametry zmiennej losowej o rozkładzie t-Studenta wynoszą odpowiednio:

E(t) = 0

(3.3.2)

(3.3.3)

Uwaga:

Dla ułatwienia oznaczeń zmienne losowe o rozkładzie t-Studenta, zamiast X, najczęściej oznaczamy po prostu t.

Funkcja gęstości rozkładu t-Studenta wyraża się dość skomplikowanym wzorem, który pomijamy. W zastosowaniach tego rozkładu potrzebne są tylko wartości krytyczne ta,v takie, że:

P ( | t | ł ta,v ) = a

(3.3.4)

Rozkład t-Studenta został stablicowany (tablica 5) podobnie jak rozkład omawiany poprzednio. Tzn. stablicowane zostały wartości krytyczne ta,v dla żądanego a i v. Na przecięciu kolumny dla ustalonej wartości a i wiersza dla odpowiedniej liczby v odczytuje się szukaną wartość krytyczną ta,v. Graficzna interpretacja podana jest na poniższym rysunku:

 

Przykład 3.6

Przykład 3.7

Jeżeli x1, x2, .... , xn jest n elementową próbą z populacji o rozkładzie normalnym N(m; s), to statystyka:

(3.3.5)

ma rozkład t-Studenta z liczbą stopni swobody v = n - 1.

We wzorze (3.3.5):

(3.3.6)

i nazywa się oceną błędu standardowego sx średniej (patrz wzór 3.1.3).

Statystykę określoną wzorem (3.3.5) będziemy wykorzystywać przy wyznaczaniu przedziałowej oceny średniej populacji generalnej i testowaniu hipotez statystycznych dotyczących średniej populacji generalnej.

3.4 Rozkład F Fishera-Snedecora

Niech X1, X2, .... , Xu i Y1, Y2, .... , Yv będą niezależnymi zmiennymi losowymi o rozkładzie normalnym standaryzowanym N(0; 1). Utwórzmy zmienną:

(3.4.1)

Zmienna ta ma rozkład F Fishera-Snedecora z liczbą stopni swobody u (dla licznika) i v (dla mianownika). Łatwo zauważyć, że zmienna F powstaje jako iloraz dwóch zmiennych o rozkładzie c2. Wykres funkcji gęstości prawdopodobieństwa rozkładu F Fishera-Snedecora dla wybranych par liczb u i v stopni swobody przedstawiono na poniższym rysunku:

 

Z dwóch populacji normalnych o jednakowych wariancjach wylosujmy dwie niezależne próby o liczebnościach odpowiednio n1 i n2: {x11,x12,...,x1n} i {x21,x22,...,x2n}.

Dla pobranych prób obliczmy wariancje s12 i s22 odpowiednio dla prób pierwszej i drugiej. Statystyka F o postaci:

, przy czym:

(3.4.2)

ma rozkład Fishera-Snedecora z liczbą stopni swobody u = n1 - 1 oraz v = n2 - 1 odpowiednio dla licznika i dla mianownika.

Parametry zmiennej losowej F o rozkładzie Fishera-Snedecora wynoszą odpowiednio:

(3.4.3)

(3.4.4)

Uwaga:

Postępując podobnie jak w przypadku zmiennych losowych t oraz c2 omawianych w poprzednich rozdziałach, zmienną losową o rozkładzie F Fishera-Snedecora oznaczać będziemy symbolem F.

Funkcja gęstości rozkładu F Fishera-Snedecora wyraża się skomplikowanym wzorem, który pomijamy, a w zastosowaniach tego rozkładu korzystać będziemy z zależności, że:

P(F >= Fa,u, v) = a

(3.4.5)

Rozkład Fishera-Snedecora jest stablicowany (tablica 6) w następujący sposób: dla danej wartości a (u nas dla a = 0,05 oraz dla a = 0,01) i ustalonej kombinacji liczby stopni swobody licznika u oraz mianownika v podana jest wartość krytyczna Fa,u,v spełniająca warunek (3.4.5).

Zwróćmy uwagę, że we wzorze (3.4.2) wariancja w liczniku jest zawsze większa od wariancji w mianowniku. Znaczy to, że wartości zmiennej F są zawsze większe od jedności.

Zadania do samodzielnego rozwiązania