Weźmy na przykład pod uwagę idealny związek opisywany już wcześniej w tym rozdziale, który można przedstawić w następującej tabeli:
50 0
0 50
7
1
Ponieważ jednak współczynnik gamma nie uwzględnia par wiązanych, przeto osiągnie on wartość równą 1 również w następującej sytuacji:
50 50
0 50
y=l
Ogólnie rzecz biorąc, jeżeli dużo danych wpada do niewielu kategorii, to może się wówczas pojawić wiele par wiązanych i współczynnik gamma zostanie oparty na mniejszej proporcji par niewiązanych.
Współczynnik tau-b Kendalla
Jeśli istnieje wiele par wiązanych, to można wykorzystać miary, które uwzględniają problem par wiązanych. Jedną z nich jest współczynnik tau-fe Kendalla:
Tb =
Ns-Nd
AJ (Ns + Nd + TyHNs + ~Nd + Tx)
(16.6)
Współczynnik tau-b przyjmuje wartości od -1 do +1 i jest współczynnikiem symetrycznym. Ma taki sam licznik jak współczynnik gamma, natomiast w mianowniku została wprowadzona poprawka na rangi wiązane (Tx i Ty). Na przykład dla następujących danych tworzących rozkład dwuzmiennowy
X
100
50
60 90 150 otrzymamy: iVs = 600, Ty = 2700, Nd=2100, Tx = 2300. Zatem
30 70
30 20
vet wtedy, gdy brane pod uwagę zmienne są ze na wskazać jedynie na współzależność określo-ti jak na przykład to, że katolicy mają tendencję też przewidywać relatywnie taką samą pozycję i przykład wtedy, gdy przyjmujemy, że ranga zmem. Predykcje tego rodzaju są jednak mato potrzeba formułowania dokładniejszych stwier-widywać przyszłe dochody danej osoby na pod-ib wielkości dochodu narodowego na podstawie
tymi interwałowymi, to rodzaj i forma zwi liej opisana. Większość związków pomię ć opisana w terminach związku liniowego. Da dy wartości dla wszystkich par (X, Y) spełniaj ;t linią prostą. Wszystkie funkcje tego rodzaj ą wartościami stałymi.
Istnieje na przykład doskonały związek :dzy odległością i czasem jazdy samochode itałą prędkością (tabela 16.20). Jeżeli prędkość iy samochodu wynosi 60 mil na godzinę, to iągu godziny przejedzie on 60 mil, czy inaczej iii w czasie Y. Funkcja liniowa wyraża zwią-
pomiędzy czasem i odległością, jaką przeby-samochód. Funkcja ta ma postać Y= IX i ozna-
że zmiana jednej jednostki odległości (
spowoduje zmianę jednej jednostki czasu (minut). Stała 1 poprzedzająca zmienną X jest wartością b, nazywaną nachyleniem prostej, i mówi, o jaką liczbę jednostek zmieni się Y, gdy X zmieni się o jedną jednostkę.
Regresja liniowa
Metoda pozwalająca określić naturę związku pomiędzy dwiema zmiennymi interwa-łowymi, która wykorzystuje funkcję liniową, nazywa się analizą regresji. Naukowcy wykorzystują analizę regresji do budowania wyrażenia algebraicznego reprezentującego funkcjonalny związek pomiędzy zmiennymi. Równanie Y=a + bX jest równaniem liniowym, co oznacza, że funkcja reprezentująca związek pomiędzy Xi Kjest funkcją liniową. Najczęstszym sposobem przedstawiania punktów odpowiadających wartościom X i Y oraz łączącej je linii regresji jest umieszczenie ich na wykresie współrzędnych. Zmienna X i zmienna Y są reprezentowane odpowiednio przez osie wykresu. Każda obserwacja jest punktem, którego współrzędne odpowiadają wartościom X i Y. Aby zilustrować graficzny sposób przedstawiania danych z rozkładu dwuzmiennowego oraz typ funkcji opisującej ich związek, przedstawiliśmy dane z tabeli 16.20 na rycinie 16.3. Zmienna niezależna X została umieszczona na osi poziomej, a zmienna zależna Yna osi pionowej. Każda obserwacja tworzy punkt w miejscu przecięcia się wartości dwóch zmiennych. Na przykład ostatnia obserwacja z tabeli 16.20 została zaznaczona w miejscu przecięcia się prostej wyprowadzonej z punktu równego 15 dla jednej zmiennej i punktu równego \5 d\a drugiej zmiennej.
16 r
15
14
13 -
12 -
11
10 -
9 -
8
7
6
5
4
3
2 -
1 _
/l I I I I I I ' I ' I____I____I____I____I____I
• 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
X(mile)
Ryc. 16.3. Regresja Y względem X
Linia regresji nie zawsze przechodzi przez początek układu współrzędnych (miejsce przecięcia osi X i Y). Jeżeli prosta regresji przecina oś Y, to do równania regresji musimy wprowadzić jeszcze jedną stałą. Stała ta, oznaczana literą a, nazywana jest punktem przecięcia z osią Y. Punkt ten pokazuje, jaka jest wartość Y, gdy zmienna
429
Xjest równa zeru. Przedstawione na rycinie 16.4 trzy linie regresji mają różne wartości wielkości a i b. Trzy różne wartości stałej a (6, 1, 2) znajdują swoje odzwierciedlenie w trzech różnych punktach przecięcia prostej regresji z osią Y. Z kolei różne wartości b (—3, 0,5, 3) pokazują, jakie jest nachylenie prostej regresji. Im wyższa wartość b, tym bardziej stromo wznosi się prosta regresji. I wreszcie, znak wielkości b określa kierunek związku pomiędzy X i Y. Jeżeli wartość b jest dodatnia, to wzrostowi wartości zmiennej X towarzyszy wzrost wartości zmiennej Y (ryc. 16.4b i 16.4c). Jeżeli zaś wartość b jest ujemna, to wraz ze wzrostem X maleje Y (ryc. 16.4a).
W naukach społecznych funkcja liniowa jest dobrym przybliżeniem większości związków. Na przykład równanie F=5000+ 1000X może wyrażać związek pomiędzy poziomem wykształcenia a dochodami. Wówczas a odpowiada rocznym zarobkom (5000) osób, które nie mają żadnego wykształcenia, a wartość b oznacza wzrost zarobków (o 1000) wraz z każdym rokiem wykształcenia więcej. Korzystając z tej reguły predykcyjnej, możemy przewidzieć, że osoba mająca za sobą dziesięć lat kształcenia może zarabiać 15 000$ [T=5000+ 1000(10)].
a = 6 Z>=-3
J___i i i i i
12 3 4 5 6 7 8 X
a) ujemny współczynnik nachylenia
Ryc. 16.4. Linie regresji
• ¦ 1
fc = 0,5
t*\l
A