Regresia liniară este un instrument statistic care determină cât de bine se potrivește o linie dreaptă la un set de date împerecheate. Linia dreaptă care se potrivește cel mai bine acestor date se numește linia de regresie cu cele mai mici pătrate. Această linie poate fi utilizată în mai multe moduri. Una dintre aceste utilizări este estimarea valorii unei variabile de răspuns pentru o valoare dată a unei variabile explicative. Legat de această idee este cel al unui reziduu.
Reziduurile sunt obținute prin efectuarea scăderii. Tot ce trebuie să facem este să scădem valoarea prevăzută a y din valoarea observată a y pentru un anume X. Rezultatul se numește rezidual.
Formula reziduurilor este simplă:
Rezidual = observat y - a prezis y
Este important de menționat că valoarea prevăzută provine din linia noastră de regresie. Valoarea observată provine din setul nostru de date.
Vom ilustra utilizarea acestei formule folosind un exemplu. Să presupunem că ni se oferă următorul set de date în pereche:
(1, 2), (2, 3), (3, 7), (3, 6), (4, 9), (5, 9)
Folosind software putem vedea că linia de regresie a celor mai mici pătrate este y = 2X. Vom folosi acest lucru pentru a prezice valori pentru fiecare valoare a X.
De exemplu, când X = 5 vedem că 2 (5) = 10. Acest lucru ne oferă punctul de-a lungul liniei noastre de regresie care are un X coordonata a 5.
Pentru calcularea reziduurilor în puncte X = 5, scăzem valoarea prevăzută din valoarea observată. De când y coordonata punctului nostru de date a fost 9, aceasta dă un rezidual de 9 - 10 = -1.
În tabelul următor, vom vedea cum să calculăm toate reziduurile noastre pentru acest set de date:
X | Observat y | Previziunea y | Rezidual |
1 | 2 | 2 | 0 |
2 | 3 | 4 | -1 |
3 | 7 | 6 | 1 |
3 | 6 | 6 | 0 |
4 | 9 | 8 | 1 |
5 | 9 | 10 | -1 |
Acum că am văzut un exemplu, există câteva caracteristici ale reziduurilor de notat:
Există mai multe utilizări pentru reziduuri. O utilizare este să ne ajute să stabilim dacă avem un set de date care are o tendință liniară generală sau dacă ar trebui să luăm în considerare un model diferit. Motivul pentru aceasta este că reziduurile ajută la amplificarea oricărui model neliniar din datele noastre. Ceea ce poate fi dificil de văzut dacă se uită la o diagramă de dispersie se poate observa mai ușor prin examinarea reziduurilor și un grafic rezidual corespunzător.
Un alt motiv de a lua în considerare reziduurile este să verificați dacă sunt îndeplinite condițiile pentru inferența pentru regresia liniară. După verificarea unei tendințe liniare (prin verificarea reziduurilor), verificăm și distribuția reziduurilor. Pentru a putea efectua inferențe de regresie, dorim ca reziduurile despre linia noastră de regresie să fie distribuite aproximativ normal. O histogramă sau un model de reziduuri va ajuta să verifice dacă această condiție a fost îndeplinită.