Statisticile sumare, cum ar fi mediana, primul quartile și al treilea quartile sunt măsurători ale poziției. Acest lucru se datorează faptului că aceste numere indică locul în care se află o proporție specificată a distribuției datelor. De exemplu, mediana este poziția de mijloc a datelor cercetate. Jumătate din date au valori mai mici decât mediana. În mod similar, 25% din date au valori mai mici decât primul quartile și 75% din date au valori mai mici decât al treilea quartile.
Acest concept poate fi generalizat. O modalitate de a face acest lucru este să luați în considerare percentilele. 90. percentila indică punctul în care 90% din date au valori mai mici decât acest număr. Mai general, ppercentila este numărul n pentru care p% din date este mai mic decât n.
Deși statisticile de ordine ale medianei, primului quartile și celei de-a treia cvile sunt introduse de obicei într-un set cu un set discret de date, aceste statistici pot fi definite și pentru o variabilă aleatorie continuă. Deoarece lucrăm cu o distribuție continuă, folosim integralul. ppercentila este un număr n astfel încât:
∫-₶n f ( X ) dx = p/ 100.
Aici f ( X ) este o funcție a densității probabilității. Astfel putem obține orice percentilă pe care o dorim pentru o distribuție continuă.
O generalizare suplimentară constă în faptul că statisticile noastre de comandă împart distribuția cu care lucrăm. Mediana împarte setul de date la jumătate, iar mediana, sau a 50-a percentilă a unei distribuții continue împarte distribuția în jumătate în ceea ce privește aria. Primul quartil, mediana și al treilea quartile ne-au împărțit datele în patru bucăți cu același număr în fiecare. Putem folosi integralul de mai sus pentru a obține percentilele 25, 50 și 75 și împărți o distribuție continuă în patru porțiuni de suprafață egală.
Putem generaliza această procedură. Întrebarea cu care putem începe este dată cu un număr natural n, cum putem împărți distribuția unei variabile în n bucăți la fel de mari? Aceasta vorbește direct de ideea de cuantile.
n cantilele pentru un set de date se găsesc aproximativ prin clasificarea datelor în ordine și apoi împărțirea acestui clasament n - 1 puncte la fel de distanțate pe interval.
Dacă avem o funcție de densitate de probabilitate pentru o variabilă aleatorie continuă, folosim integralul de mai sus pentru a găsi cantilele. Pentru n quantile, vrem:
Vedem asta pentru orice număr natural n, n cuantilele corespund celor 100r/nprocentele, unde r poate fi orice număr natural de la 1 la n - 1.
Anumite tipuri de cuantile sunt utilizate destul de frecvent pentru a avea nume specifice. Mai jos este o listă a acestora:
Desigur, există alte cantilice dincolo de cele din lista de mai sus. De multe ori cantilul specific utilizat se potrivește cu dimensiunea eșantionului dintr-o distribuție continuă.
Pe lângă specificarea poziției unui set de date, cantilele sunt utile în alte moduri. Să presupunem că avem un eșantion simplu aleatoriu de la o populație, iar distribuția populației nu este cunoscută. Pentru a ajuta la determinarea dacă un model, cum ar fi o distribuție normală sau o distribuție Weibull este o potrivire bună pentru populația din care am preluat probe, putem analiza cantilele datelor noastre și modelul.
Prin potrivirea cuantilelor din datele noastre de eșantion cu cuantilele dintr-o distribuție de probabilitate particulară, rezultatul este o colecție de date împerecheate. Graficăm aceste date într-o diagramă de dispersie, cunoscută sub denumirea de complot cuantil-cuantil sau de complot q-q. Dacă scatterplot-ul rezultat este aproximativ liniar, atunci modelul este potrivit pentru datele noastre.