Panta liniei de regresie și coeficientul de corelare

De multe ori în studiul statisticilor este important să se facă conexiuni între diferite subiecte. Vom vedea un exemplu în acest sens, în care panta liniei de regresie este direct legată de coeficientul de corelație. Întrucât ambele concepte implică linii drepte, este firesc să ne punem întrebarea: „Cum sunt corelate coeficientul de corelație și linia cel puțin pătrată?” 

În primul rând, vom analiza câteva aspecte referitoare la ambele subiecte.

Detalii privind corelația

Este important să ne amintim detaliile referitoare la coeficientul de corelație, care este notat cu r. Această statistică este folosită atunci când am asociat date cantitative. Dintr-o diagramă de distribuție a acestor date împerecheate, putem căuta tendințe în distribuția generală a datelor. Unele date asociate prezintă un model liniar sau drept. Dar, în practică, datele nu se încadrează exact pe linie dreaptă.

Mai multe persoane care se uită la aceeași diagramă de date în pereche nu ar fi de acord cu privire la cât de aproape a fost de a arăta o tendință liniară generală. Până la urmă, criteriile noastre pentru acest lucru pot fi oarecum subiective. Scara pe care o folosim ne-ar putea afecta și percepția asupra datelor. Din aceste motive și multe altele, avem nevoie de un fel de măsură obiectivă pentru a spune cât de apropiate sunt datele noastre în pereche de a fi liniare. Coeficientul de corelație realizează acest lucru pentru noi.

Câteva fapte de bază despre r include:

  • Valoarea a r variază între orice număr real de la -1 la 1.
  • Valori ale r aproape de 0 implică faptul că există o relație liniară mică sau deloc între date.
  • Valori ale r aproape de 1 implică faptul că există o relație liniară pozitivă între date. Acest lucru înseamnă că, ca X crește asta y crește de asemenea.
  • Valori ale r apropiat de -1 înseamnă că există o relație liniară negativă între date. Acest lucru înseamnă că, ca X crește asta y scade.

Linia pătratelor celor mai mici pătrate

Ultimele două elemente din lista de mai sus ne îndreaptă către panta liniei celor mai mici pătrate care se potrivesc cel mai bine. Reamintim că panta unei linii este o măsurătoare a câte unități urcă sau coboară pentru fiecare unitate pe care o mutăm spre dreapta. Uneori, acest lucru este declarat ca creșterea liniei împărțite la rulare sau modificarea în y valori împărțite la modificarea în X valorile.

În general, liniile drepte au pantele pozitive, negative sau zero. Dacă ar fi să examinăm liniile noastre de regresie cu cel mai puțin pătrat și să comparăm valorile corespunzătoare ale r, am observa că de fiecare dată când datele noastre au un coeficient de corelație negativă, panta liniei de regresie este negativă. În mod similar, de fiecare dată când avem un coeficient de corelație pozitivă, panta liniei de regresie este pozitivă.

Ar trebui să fie evident din această observație că există cu siguranță o legătură între semnul coeficientului de corelație și panta liniei celor mai mici pătrate. Rămâne să explicăm de ce acest lucru este adevărat.

Formula pentru versant

Motivul conexiunii dintre valoarea de r iar panta liniei cu cele mai mici pătrate are legătură cu formula care ne oferă panta acestei linii. Pentru date în pereche (X y) denotăm abaterea standard a X date de sX și abaterea standard a y date de sy.

Formula pantei A a liniei de regresie este:

  • a = r (s.)y/ sX)

Calculul unei abateri standard implică preluarea rădăcinii pătrate pozitive a unui număr non-negativ. Drept urmare, ambele abateri standard în formula pentru pantă trebuie să fie negative. Dacă presupunem că există o oarecare variație a datelor noastre, vom putea ignora posibilitatea ca oricare dintre aceste abateri standard să fie zero. Prin urmare, semnul coeficientului de corelație va fi același cu semnul pantei liniei de regresie.