Care este regula intervalului intermediar?

Regula intervalului interquartil este utilă în detectarea prezenței valorilor exterioare. Outliers sunt valori individuale care nu se încadrează în modelul general al restului de date. Această definiție este oarecum vagă și subiectivă, de aceea este util să aveți o regulă care să vă ajute să luați în considerare dacă un punct de date este într-adevăr o problemă.

Gama Interquartile

Orice set de date poate fi descris prin rezumatul său de cinci numere. Aceste cinci numere, în ordine crescătoare, constau din:

  • Valoarea minimă sau cea mai mică a setului de date
  • Primul quartile Q1 - aceasta reprezintă un sfert din parcursul listei cu toate datele
  • Mediana setului de date - aceasta reprezintă punctul mediu al listei cu toate datele
  • Al treilea quartile Q3 - aceasta reprezintă trei sferturi din parcursul listei cu toate datele
  • Valoarea maximă sau cea mai mare a setului de date.

Aceste cinci numere pot fi folosite pentru a ne informa destul de mult despre datele noastre. De exemplu, intervalul, care este doar minimul scăzut din maxim, este un indicator al modului de extindere a setului de date este.

Similar cu intervalul, dar mai puțin sensibil la valori superioare, este intervalul interquartil. Intervalul intermediar este calculat în același mod ca și intervalul. Tot ce facem este să scădem primul quartile din al treilea quartile:

IQR = Q3 - Q1.

Gama interquartile arată modul în care datele sunt răspândite despre mediană. Este mai puțin sensibil decât intervalul la valori superioare.

Regula interquartile pentru Outliers

Gama interquartile poate fi utilizată pentru a ajuta la detectarea valorilor exterioare. Tot ce trebuie să facem este următorul:

  1. Calculați intervalul interquartile pentru datele noastre
  2. Înmulțiți intervalul interquartile (IQR) cu numărul 1.5
  3. Adăugați 1,5 x (IQR) la al treilea quartile. Orice număr mai mare decât acesta este suspectat anterior.
  4. Se scade 1,5 x (IQR) din primul quartile. Orice număr mai mic decât acesta este suspectat anterior.

Este important să ne amintim că aceasta este o regulă mare și, în general, este valabilă. În general, ar trebui să urmărim analiza noastră. Orice potențial obținut anterior prin această metodă ar trebui examinat în contextul întregului set de date.

Exemplu

Vom vedea această regulă a intervalului interquartile în lucru cu un exemplu numeric. Să presupunem că avem următorul set de date: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Rezumatul cinci numere pentru acest set de date este minim = 1, primul quartile = 4, median = 7, al treilea quartile = 10 și maxim = 17. Este posibil să privim datele și să spunem că 17 este o valoare anterioară. Dar ce spune regula noastră de gamă interquartile?

Calculăm intervalul interquartil care trebuie

Q3 - Q1 = 10 - 4 = 6

Înmulțim acum cu 1,5 și avem 1,5 x 6 = 9. Nouă mai puțin decât primul quartil este 4 - 9 = -5. Nicio date nu este mai mică decât aceasta. Nouă mai mult decât al treilea quartile este 10 + 9 = 19. Nicio date nu este mai mare decât aceasta. În pofida valorii maxime fiind cu cinci mai mult decât cel mai apropiat punct de date, regula intervalului interquartile arată că probabil nu ar trebui considerată o valoare mai mare pentru acest set de date.