O diagramă de dispersie este un tip de grafic care este utilizat pentru a reprezenta date în pereche. Variabila explicativă este reprezentată de-a lungul axei orizontale, iar variabila de răspuns este grefată de-a lungul axei verticale. Un motiv pentru utilizarea acestui tip de grafic este să căutați relații între variabile.
Cel mai de bază model de căutat într-un set de date în pereche este cel al unei linii drepte. Prin orice două puncte, putem trasa o linie dreaptă. Dacă există mai mult de două puncte în scatterplot-ul nostru, de cele mai multe ori nu vom mai putea desena o linie care trece prin fiecare punct. În schimb, vom trasa o linie care trece prin mijlocul punctelor și va afișa tendința liniară generală a datelor.
Când privim punctele din graficul nostru și dorim să tragem o linie prin aceste puncte, apare o întrebare. Ce linie ar trebui să tragem? Există un număr infinit de linii care ar putea fi trase. Folosind ochii singuri, este clar că fiecare persoană care se uită la scatterplot ar putea produce o linie puțin diferită. Această ambiguitate este o problemă. Vrem să avem un mod bine definit pentru ca toată lumea să obțină aceeași linie. Scopul este de a avea o descriere matematică precisă a liniei care trebuie trasă. Linia de regresie cu cel mai mic pătrat este o astfel de linie prin punctele noastre de date.
Numele liniei cu cele mai mici pătrate explică ce face. Începem cu o colecție de puncte cu coordonatele date de (Xeu, yeu). Orice linie dreaptă va trece printre aceste puncte și va trece deasupra sau sub fiecare dintre acestea. Putem calcula distanțele de la aceste puncte la linie alegând o valoare a X și apoi scăzând cele observate y coordonată care corespunde acestui lucru X de la y coordonata liniei noastre.
Liniile diferite prin același set de puncte ar oferi un set de distanțe diferite. Ne dorim ca aceste distanțe să fie cât mai mici pe care le putem face. Dar este o problemă. Deoarece distanțele noastre pot fi pozitive sau negative, suma totală a tuturor acestor distanțe se va anula reciproc. Suma distanțelor va fi întotdeauna egală cu zero.
Soluția la această problemă este să elimini toate numerele negative prin pătratul distanțelor dintre puncte și linie. Aceasta oferă o colecție de numere non-negative. Obiectivul pe care l-am avut de a găsi o linie cât mai potrivită este același cu a face suma acestor distanțe pătrate cât mai mici. Calculul vine aici la salvare. Procesul de diferențiere în calcul face posibilă reducerea sumei distanțelor pătrate dintr-o linie dată. Acest lucru explică expresia „cele mai mici pătrate” în numele nostru pentru această linie.
Deoarece linia cu cel puțin pătrat minimizează distanțele pătrate dintre linie și punctele noastre, putem considera această linie ca cea care se potrivește cel mai bine datelor noastre. Acesta este motivul pentru care linia cu cele mai mici pătrate este cunoscută și ca linia de cea mai bună potrivire. Dintre toate liniile posibile care ar putea fi desenate, linia cu cel puțin pătrate este cea mai apropiată de setul de date în ansamblu. Acest lucru poate însemna că linia noastră nu va atinge oricare dintre punctele din setul nostru de date.
Există câteva caracteristici pe care le are fiecare linie cel puțin pătrată. Primul obiect de interes se referă la panta liniei noastre. Panta are legătură cu coeficientul de corelație al datelor noastre. De fapt, panta liniei este egală cu r (sy/ sX). Aici s X denotă abaterea standard a X coordonate și s y abaterea standard a y coordonatele datelor noastre. Semnul coeficientului de corelație este direct legat de semnul pantei liniei noastre cele mai mici pătrate.
O altă caracteristică a liniei cu cele mai mici pătrate privește un punct prin care trece. In timp ce y interceptarea unei linii cel puțin pătrate poate să nu fie interesantă din punct de vedere statistic, există un punct care este. Fiecare linie pătrată trece prin punctul de mijloc al datelor. Acest punct de mijloc are un X coordonată care este media X valori și a y coordonată care este media y valorile.