Regula intervalului interquartil este utilă în detectarea prezenței valorilor exterioare. Outliers sunt valori individuale care nu se încadrează în modelul general al restului de date. Această definiție este oarecum vagă și subiectivă, de aceea este util să aveți o regulă care să vă ajute să luați în considerare dacă un punct de date este într-adevăr o problemă.
Orice set de date poate fi descris prin rezumatul său de cinci numere. Aceste cinci numere, în ordine crescătoare, constau din:
Aceste cinci numere pot fi folosite pentru a ne informa destul de mult despre datele noastre. De exemplu, intervalul, care este doar minimul scăzut din maxim, este un indicator al modului de extindere a setului de date este.
Similar cu intervalul, dar mai puțin sensibil la valori superioare, este intervalul interquartil. Intervalul intermediar este calculat în același mod ca și intervalul. Tot ce facem este să scădem primul quartile din al treilea quartile:
IQR = Q3 - Q1.
Gama interquartile arată modul în care datele sunt răspândite despre mediană. Este mai puțin sensibil decât intervalul la valori superioare.
Gama interquartile poate fi utilizată pentru a ajuta la detectarea valorilor exterioare. Tot ce trebuie să facem este următorul:
Este important să ne amintim că aceasta este o regulă mare și, în general, este valabilă. În general, ar trebui să urmărim analiza noastră. Orice potențial obținut anterior prin această metodă ar trebui examinat în contextul întregului set de date.
Vom vedea această regulă a intervalului interquartile în lucru cu un exemplu numeric. Să presupunem că avem următorul set de date: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Rezumatul cinci numere pentru acest set de date este minim = 1, primul quartile = 4, median = 7, al treilea quartile = 10 și maxim = 17. Este posibil să privim datele și să spunem că 17 este o valoare anterioară. Dar ce spune regula noastră de gamă interquartile?
Calculăm intervalul interquartil care trebuie
Q3 - Q1 = 10 - 4 = 6
Înmulțim acum cu 1,5 și avem 1,5 x 6 = 9. Nouă mai puțin decât primul quartil este 4 - 9 = -5. Nicio date nu este mai mică decât aceasta. Nouă mai mult decât al treilea quartile este 10 + 9 = 19. Nicio date nu este mai mare decât aceasta. În pofida valorii maxime fiind cu cinci mai mult decât cel mai apropiat punct de date, regula intervalului interquartile arată că probabil nu ar trebui considerată o valoare mai mare pentru acest set de date.