Ostatecznie dla należycie zorganizowanego umysłu śmierć to tylko początek nowej wielkiej przygody.

 

W rezultacie musimy uwierzyć, że osoba, która przygotowała histogram, wiedziała, co robi i wybrała taki, który od- powiada faktycznemu rozkładowi zmiennej. 101 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych 35,0 WIEK RESPONDENTA Odch.S(d= 15,98 Średnia = 46,0 N = 1647 00 WIEK RESPONDENTA Rysunek. 3.7a. Histogram (16 koszyków) Rysunek. 3.7b. Histogram (25 koszyków) Odch.Std* 15,98 Średnia = 46,0 N = 1647,00 WIEK RESPONDENTA WIEK RESPONDENTA Rysunek. 3.7c. Histogram (35 koszyków) Rysunek. 3.7d. Histogram (36 koszyków) Istnieją metody pozwalające nieco uwiarygodnić wydrukowany histogram. Nie- stety, nie oferują ich wszystkie komputerowe pakiety statystyczne. W poniższym przy- kładzie skorzystamy z możliwości darmowego pakietu statystycznego o nazwie R (http://cran.r-project.org). Jeśli liczba zbadanych przypadków nie jest zbyt duża, możemy wzbogacić histo- gram o znaczniki przypadków, mające postać kresek umieszczonych nad podziałką pod słupkami histogramu. Każda kreska odpowiada jednej badanej osobie. Dzięki temu jest łatwo zorientować się, dla jakich wartości zmiennej występuje najwięcej przypadków. 102 Wizualizacja rozkładu zmiennej 20 40 60 Rysunek 3.8. Histogram ze znacznikami przypadków Rysunek 3.8 przedstawia taki histogram, otrzymany dla 300-osobowej podpróby zmiennej AGE z PGSS-u. W okolicach 40, 50 i 60 lat życia respondenta widzimy zagęszczenie kresek, co oznacza, że wielu respondentów jest w tym wieku. Wykres gęstości Innym wykresem, który daje nam informację analogiczną do histogramu jest wykres gęstości. Wykres gęstości powstaje w następujący sposób. Wybieramy naj- pierw pewną symetryczną funkcję, którą będziemy nazywać funkcją bazową (często tę funkcję nazywa się jądrem, od angielskiego słowa kernel). Następnie każdej ob- serwacji przyporządkowujemy tę funkcję tak, żeby jej oś symetrii pokrywała się z daną obserwacją. Po czym dodajemy do siebie wszystkie funkcje bazowe, otrzymując w ten sposób krzywą, która jest właśnie wykresem gęstości. Procedura ta jest zobrazowana na rysunku 3.9 dla fikcyjnego zbioru danych za- wierającego 10 obserwacji. Funkcjąbazową w naszym przypadku jest po prostu funk- cja Gaussa. Gdy dodamy do siebie wszystkie funkcje, otrzymujemy żądany wykres. Nie ulega wątpliwości, że tam, gdzie jest więcej obserwacji, np. w okolicach warto- ści 35 lub 70, będzie i większe zagęszczenie funkcji bazowych, czyli po zsumowaniu otrzymamy większą wartość. Rysunek 3.9. Wykres gęstości dla 10 przypadków 103 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych Wykres gęstości, podobnie jak histogram, wymaga ustalenia pewnych parame- trów. Przede wszystkim musimy wybrać funkcję bazową. Tutaj była to funkcja Gaus- sa, jednak możliwe jest stosowanie także innych (każdy pakiet statystyczny udostęp- nia kilka do wyboru). Tak się jednak szczęśliwie składa, że wybór konkretnej funkcji nie ma zbyt wielkiego wpływu na wygląd całego wykresu. Jest to oczywiście duża zaleta wykresu gęstości. Drugi parametr, który musimy ustalić, stanowi szerokość funkcji bazowej h - w przypadku funkcji Gaussa jest to oczywiście odchylenie standardowe. Im szerokość ta jest większa, tym gładszy wykres otrzymujemy, im mniejsza, tym bardziej wykres jest poszarpany. Wydawać się zatem może, że wykres gęstości nie jest o wiele lepszym rozwiązaniem niż histogram - i tak musimy ustalić wartość dowolnego parametru, któ- ry znacząco wpływa na wygląd wykresu - tak nie jest z tego względu, że wykres gęsto- ści jest stabilny z uwagi na zmiany parametru szerokości funkcji bazowej. Oznacza to tyle, że małe zmiany parametru powodują znikome zmiany wyglądu wykresu. Własność ta pozwala na systematyczne badanie rozkładu zmiennej: rozpoczyna- my od bardzo małej szerokości funkcji bazowej, a potem stopniowo ją zwiększamy, eliminując „niepożądane" nierówności wykresu. Przykład takiej procedury przedstawiają rysunki 3.10 a-d. Wykreślone są tam cztery histogramy zmiennej AGE z PGSS-u (dla 300 losowo wybranych osób) wraz z wykresami gęstości o różnej szerokości funkcji bazowej h, mierzonej jako ułamek standardowej szerokości równej 1. Patrząc na serie rysunków 3.10, widzimy, że dla szerokości 0.1 wykres zawiera dużo nieistotnych informacji (drobne zmiany rozkładu), wykres otrzymany dla h = 0.25 i h = 0.5 wydaje się wiernie pokazywać podstawowe własności rozkładu zmiennej. Ostatni rozkład, dla h = 1, jest zbyt wygładzony. Wykres gęstości jest lepszy niż histogram, gdyż podczas przybliżania rozkładu zmiennej bierze pod uwagę nie tylko liczebności z jakiegoś określonego przedziału, lecz także te leżące w pewnej odległości od danej obserwacji - mają one mniejszą wagę, ale są uwzględnione. Dzięki temu w porównaniu z histogramem, w wykresie gęstości osiągamy większą stabilność. Oczywiście nie zmienia to faktu, że także wykres gęstości wymaga pewnej pracy przy jego tworzeniu, tak aby dobór parametru szero- kości funkcji bazowej pozwolił na zbudowanie wykresu naprawdę pokazującego roz- kład zmiennej. Niestety, nie wszystkie pakiety statystyczne pozwalają zrobić wykres gęstości. Jednym z tych, które się bardzo dobrze do tego nadają jest wspomniany już pakiet R (http ://cran.r-proj ect.org)