Este spectacolul de la miezul nopții al celui mai nou film de succes. Oamenii sunt aliniați în afara teatrului așteptând să intre. Să presupunem că vi se cere să găsiți centrul liniei. Cum ai face asta?
Există câteva moduri diferite de a rezolva această problemă. În cele din urmă, va trebui să vă dați seama cât de mulți oameni erau în linie și apoi să luați jumătate din numărul respectiv. Dacă numărul total este egal, atunci centrul liniei ar fi între două persoane. Dacă numărul total este ciudat, atunci centrul ar fi o singură persoană.
Puteți întreba „Ce legătură are găsirea centrului unei linii cu statisticile?” Această idee de a găsi centrul este exact ceea ce se folosește la calcularea mediei unui set de date.
Mediana este una dintre cele trei modalități principale de a găsi media datelor statistice. Este mai greu de calculat decât modul, dar nu la fel de intensiv în muncă ca calcularea mediei. Este centrul în același mod în care găsești centrul unei linii de oameni. După listarea valorilor datelor în ordine crescătoare, mediana este valoarea de date cu același număr de valori de date deasupra acesteia și sub acestea.
Unsprezece baterii sunt testate pentru a vedea cât durează. Viața lor, în ore, este dată de 10, 99, 100, 103, 103, 105, 110, 111, 115, 130, 131. Care este viața mediană? Deoarece există un număr impar de valori de date, aceasta corespunde unei linii cu un număr impar de persoane. Centrul va fi valoarea mijlocie.
Există unsprezece valori de date, deci a șasea se află în centru. Prin urmare, durata de viață medie a bateriei este a șasea valoare din această listă, respectiv 105 ore. Rețineți că mediana este una dintre valorile datelor.
Douăzeci de pisici sunt cântărite. Greutățile lor, în lire, sunt date de 4, 5, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8, 9, 10, 10, 10, 11, 12, 12, 13. Ce greutatea felinei mediene? Deoarece există un număr egal de valori de date, aceasta corespunde liniei cu un număr egal de persoane. Centrul se află între cele două valori medii.
În acest caz, centrul se află între a zecea și a unsprezecea valoare de date. Pentru a găsi mediana calculăm media acestor două valori și obținem (7 + 8) / 2 = 7,5. Aici mediana nu este una dintre valorile datelor.
Singurele două posibilități sunt de a avea un număr par sau impar de valori ale datelor. Deci cele două exemple de mai sus sunt singurele moduri posibile de calculare a medianei. Fie mediana va fi valoarea medie, fie mediana va fi media celor două valori medii. De obicei seturile de date sunt mult mai mari decât cele pe care le-am analizat mai sus, dar procesul de găsire a medianei este același ca aceste două exemple..
Media și modul sunt extrem de sensibile la valori superioare. Ceea ce înseamnă acest lucru este faptul că prezența unui outlier va afecta dramatic ambele măsuri ale centrului. Un avantaj al medianului este că nu este influențat la fel de mult de un anormal.
Pentru a vedea acest lucru, luați în considerare setul de date 3, 4, 5, 5, 6. Media este (3 + 4 + 5 + 5 + 6) / 5 = 4,6, iar mediana este 5. Acum păstrați același set de date, dar adăugați valoarea 100: 3, 4, 5, 5, 6, 100. În mod clar, 100 este mai vechi, deoarece este mult mai mare decât toate celelalte valori. Media setului nou este acum (3 + 4 + 5 + 5 + 6 + 100) / 6 = 20,5. Cu toate acestea, mediana noului set este 5. Deși
Datorită ceea ce am văzut mai sus, mediana este măsura preferată a mediei atunci când datele conțin valori superioare. Când veniturile sunt raportate, o abordare tipică este raportarea venitului median. Acest lucru se realizează deoarece venitul mediu este influențat de un număr mic de oameni cu venituri foarte mari (cred că Bill Gates și Oprah).