Uneori, datele numerice vin în perechi. Poate că un paleontolog măsoară lungimile femurului (osul piciorului) și humerus (osul brațului) în cinci fosile din aceeași specie de dinozaur. Ar putea avea sens să luăm în considerare lungimile brațului separat de lungimea picioarelor și să calculăm lucruri precum media sau abaterea standard. Dar dacă cercetătorul este curios să știe dacă există o relație între aceste două măsurători? Nu este suficient să te uiți doar la brațe separat de picioare. În schimb, paleontologul trebuie să împerecheze lungimile oaselor pentru fiecare schelet și să utilizeze o zonă de statistici cunoscută sub numele de corelație.
Ce este corelația? În exemplul de mai sus, să presupunem că cercetătorul a studiat datele și a ajuns la rezultatul nu foarte surprinzător că fosilele dinozaurilor cu brațe mai lungi aveau și picioare mai lungi, iar fosilele cu brațe mai scurte aveau picioare mai scurte. O diagramă de distribuție a datelor a arătat că punctele de date au fost grupate aproape în linie dreaptă. Cercetătorul ar spune apoi că există o relație liniară puternică sau corelație, între lungimile oaselor brațelor și oaselor picioarelor fosilelor. Este nevoie de alte lucrări pentru a spune cât de puternică este corelația.
Deoarece fiecare punct de date reprezintă două numere, o diagramă de dispersie bidimensională este de mare ajutor în vizualizarea datelor. Să presupunem că de fapt avem mâna pe datele dinozaurului și cele cinci fosile au următoarele măsurători:
În graficul de mai sus rezultă o diagramă de dispersie a datelor, cu măsurarea femurului pe direcția orizontală și măsurarea humerusului în direcția verticală. Fiecare punct reprezintă măsurătorile unuia dintre schelete. De exemplu, punctul din partea stângă jos corespunde scheletului # 1. Punctul din dreapta sus este scheletul # 5.
Se pare că am putea trasa o linie dreaptă care ar fi foarte aproape de toate punctele. Dar cum putem spune cu siguranță? Apropierea este în ochiul privitorului. De unde știm că definițiile noastre despre „apropiere” se potrivesc cu altcineva? Există vreo modalitate prin care să putem cuantifica această apropiere?
Pentru a măsura obiectiv cât de apropiate sunt datele de-a lungul unei linii drepte, coeficientul de corelație vine la salvare. Coeficientul de corelație, notat în mod obișnuit r, este un număr real între -1 și 1. Valoarea lui r măsoară puterea unei corelații bazate pe o formulă, eliminând orice subiectivitate în proces. Există mai multe orientări de care trebuie să țineți cont atunci când interpretați valoarea r.
Formula coeficientului de corelație r este complicat, așa cum se poate vedea aici. Ingredientele formulei sunt mijloacele și abaterile standard ale ambelor seturi de date numerice, precum și numărul de puncte de date. Pentru majoritatea aplicațiilor practice r este obositor să calculez de mână. Dacă datele noastre au fost introduse într-un calculator sau un program de foi de calcul cu comenzi statistice, atunci există de obicei o funcție încorporată pentru a calcula r.
Deși corelația este un instrument puternic, există unele limitări în utilizarea acesteia: