Numărul de grade de libertate pentru independența a două variabile categorice este dat de o formulă simplă: (r - 1) (c - 1). Aici r este numărul de rânduri și c este numărul de coloane din tabelul cu două sensuri al valorilor variabilei categorice. Citiți mai departe pentru a afla mai multe despre acest subiect și pentru a înțelege de ce această formulă oferă numărul corect.
Un pas în procesul multor teste de ipoteză este determinarea numărului de grade de libertate. Acest număr este important, deoarece pentru distribuțiile de probabilitate care implică o familie de distribuții, cum ar fi distribuția chi-pătrat, numărul de grade de libertate evidențiază distribuția exactă din familia pe care ar trebui să o utilizăm în testul nostru de ipoteză..
Gradele de libertate reprezintă numărul de alegeri gratuite pe care le putem face într-o situație dată. Unul dintre testele de ipoteză care ne impune să determinăm gradele de libertate este testul chi-pătrat pentru independență pentru două variabile categorice.
Testul chi-pătrat pentru independență ne solicită să construim o masă cu două sensuri, cunoscută și sub numele de tabel de contingență. Acest tip de tabel are r rânduri și c coloane, reprezentând r nivelurile unei variabile categorice și c nivelurile celeilalte variabile categorice. Astfel, dacă nu numărăm rândul și coloana în care înregistrăm totalurile, există un total de rc celule din tabelul cu două sensuri.
Testul chi-pătrat pentru independență ne permite să testăm ipoteza conform căreia variabilele categorice sunt independente unele de altele. După cum am menționat mai sus, r rânduri și c coloane din tabel ne oferă (r - 1) (c - 1) grade de libertate. Dar este posibil să nu fie clar imediat de ce este numărul corect de grade de libertate.
Pentru a vedea de ce (r - 1) (c - 1) este numărul corect, vom examina mai detaliat această situație. Să presupunem că cunoaștem totalurile marginale pentru fiecare dintre nivelurile variabilelor noastre categorice. Cu alte cuvinte, știm totalul pentru fiecare rând și totalul pentru fiecare coloană. Pentru primul rând, există c coloane din tabelul nostru, deci există c celule. Odată ce cunoaștem valorile tuturor acestor celule, dar pentru că știm totalul celulelor, este o simplă problemă de algebră pentru a determina valoarea celulei rămase. Dacă am completa aceste celule ale tabelului nostru, puteam intra c - 1 dintre ele în mod liber, dar apoi celula rămasă este determinată de totalul rândului. Astfel, există c - 1 grade de libertate pentru primul rând.
Continuăm în acest fel pentru rândul următor, iar mai sunt din nou c - 1 grade de libertate. Acest proces continuă până ajungem la penultimul rând. Fiecare dintre rânduri, cu excepția ultimului, contribuie c - 1 grade de libertate față de total. Până când avem toate, dar ultimul rând, atunci pentru că știm suma coloanei, putem determina toate intrările din rândul final. Acest lucru ne dă r - 1 rânduri cu c - 1 grade de libertate în fiecare dintre acestea, pentru un total de (r - 1) (c - 1) grade de libertate.
Vedem acest lucru cu următorul exemplu. Să presupunem că avem un tabel cu două sensuri cu două variabile categorice. O variabilă are trei niveluri, iar cealaltă două. În plus, să presupunem că cunoaștem totalul rândurilor și coloanelor pentru acest tabel:
Nivelul A | Nivelul B | Total | |
Nivelul 1 | 100 | ||
Nivelul 2 | 200 | ||
Nivelul 3 | 300 | ||
Total | 200 | 400 | 600 |
Formula prezice că există (3-1) (2-1) = 2 grade de libertate. Vedem asta după cum urmează. Să presupunem că completăm celula din stânga sus cu numărul 80. Aceasta va determina automat întregul rând de intrări:
Nivelul A | Nivelul B | Total | |
Nivelul 1 | 80 | 20 | 100 |
Nivelul 2 | 200 | ||
Nivelul 3 | 300 | ||
Total | 200 | 400 | 600 |
Dacă știm că prima intrare din al doilea rând este 50, atunci restul tabelului este completat, deoarece știm totalul fiecărui rând și coloană:
Nivelul A | Nivelul B | Total | |
Nivelul 1 | 80 | 20 | 100 |
Nivelul 2 | 50 | 150 | 200 |
Nivelul 3 | 70 | 230 | 300 |
Total | 200 | 400 | 600 |
Tabelul este completat, dar am avut doar două opțiuni gratuite. Odată ce aceste valori au fost cunoscute, restul tabelului a fost complet determinat.
Deși de obicei nu trebuie să știm de ce există aceste multe grade de libertate, este bine să știm că aplicăm într-adevăr conceptul de grade de libertate într-o situație nouă.