Există multe întrebări de pus atunci când priviți un scatterplot. Una dintre cele mai frecvente este cât de bine se apropie o linie dreaptă a datelor? Pentru a răspunde la aceasta, există o statistică descriptivă numită coeficientul de corelație. Vom vedea cum se calculează această statistică.
Coeficientul de corelație, notat cu r ne spune cât de îndeaproape datele dintr-o diagramă de dispersie cad de-a lungul unei linii drepte. Cu cât este mai aproape de valoarea absolută a r este cu atât mai bine cu cât datele sunt descrise printr-o ecuație liniară. Dacă r = 1 sau r = -1 atunci setul de date este perfect aliniat. Seturi de date cu valori ale r aproape de zero arată o relație de linie mică sau nicio linie.
Datorită calculelor îndelungate, cel mai bine este să calculăm r cu utilizarea unui calculator sau a unui software statistic. Cu toate acestea, este întotdeauna un efort demn de a ști ce face calculatorul dvs. atunci când calculează. Ceea ce urmează este un proces de calcul al coeficientului de corelație în principal de mână, cu un calculator utilizat pentru etapele de aritmetică de rutină.
Vom începe prin enumerarea etapelor pentru calculul coeficientului de corelație. Datele cu care lucrăm sunt date în pereche, fiecare pereche fiind notată de (Xeu,yeu).
Acest proces nu este greu și fiecare etapă este destul de rutină, dar colectarea tuturor acestor pași este destul de implicată. Calculul abaterii standard este suficient de obositor. Dar calculul coeficientului de corelație implică nu numai două abateri standard, ci o multitudine de alte operațiuni.
Pentru a vedea exact cum este valoarea de r este obținut ne uităm la un exemplu. Din nou, este important de menționat că pentru aplicații practice am dori să folosim calculatorul sau software-ul statistic pentru a calcula r pentru noi.
Începem cu o listă a datelor în pereche: (1, 1), (2, 3), (4, 5), (5,7). Media de X valori, media de 1, 2, 4 și 5 este x̄ = 3. Avem, de asemenea, că ȳ = 4. Abaterea standard a X valorile este sX = 1,83 și sy = 2,58. Tabelul de mai jos rezumă celelalte calcule necesare r. Suma produselor din cea mai dreaptă coloană este 2.969848. Deoarece există un total de patru puncte și 4 - 1 = 3, împărțim suma produselor la 3. Acest lucru ne oferă un coeficient de corelație de r = 2.969848 / 3 = 0.989949.
X | y | zX | zy | zXzy |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1.161894958 | 1.272792057 |
2 | 3 | -0.547722515 | -0.387298319 | 0.212132009 |
4 | 5 | 0.547722515 | 0.387298319 | 0.212132009 |
5 | 7 | 1.09544503 | 1.161894958 | 1.272792057 |