Ce este greutățile în statistici?

Unele distribuții de date, cum ar fi curba clopotului sau distribuția normală, sunt simetrice. Aceasta înseamnă că dreapta și stânga distribuției sunt imagini în oglindă perfecte una cu cealaltă. Nu orice distribuție de date este simetrică. Seturile de date care nu sunt simetrice se spun că sunt asimetrice. Măsura modului în care poate fi asimetrică o distribuție se numește neputință.

Media, mediul și modul sunt toate măsurile din centrul unui set de date. Necazetea datelor poate fi determinată de modul în care aceste cantități sunt legate între ele.

Înclinat spre dreapta

Datele care sunt înclinate spre dreapta au o coadă lungă care se extinde spre dreapta. O modalitate alternativă de a vorbi despre un set de date înclinat la dreapta este să spui că este înclinat în mod pozitiv. În această situație, media și mediana sunt ambele mai mari decât modul. De regulă generală, de cele mai multe ori pentru datele obținute spre dreapta, media va fi mai mare decât mediana. În rezumat, pentru un set de date orientat spre dreapta:

  • Întotdeauna: înseamnă mai mare decât modul
  • Întotdeauna: median mai mare decât modul
  • De cele mai multe ori: medie mai mare decât mediana

Înclinat spre stânga

Situația se inversează singură atunci când avem de-a face cu datele înclinate spre stânga. Datele care sunt înclinate spre stânga au o coadă lungă care se extinde spre stânga. O modalitate alternativă de a vorbi despre un set de date înclinat la stânga este să spui că este înclinat negativ. În această situație, media și mediana sunt ambele mai mici decât modul. De regulă generală, de cele mai multe ori pentru datele înclinate spre stânga, media va fi mai mică decât mediana. În rezumat, pentru un set de date orientat spre stânga:

  • Întotdeauna: înseamnă mai puțin decât modul
  • Întotdeauna: median mai puțin decât modul
  • De cele mai multe ori: înseamnă mai puțin decât mediana

Măsuri de nedreptate

Este un lucru să te uiți la două seturi de date și să stabilești că una este simetrică, în timp ce cealaltă este asimetrică. E altul să te uiți la două seturi de date asimetrice și să spui că unul este mai înclinat decât celălalt. Poate fi foarte subiectiv să determinăm care este mai degrabă uitându-ne pur și simplu la graficul distribuției. Acesta este motivul pentru care există moduri de a calcula numeric măsura neputinței.

O măsură de simțire, numită primul coeficient de simțire al lui Pearson, este scăderea mediei din modul, apoi divizarea acestei diferențe la abaterea standard a datelor. Motivul pentru împărțirea diferenței este astfel încât să avem o cantitate fără dimensiuni. Acest lucru explică motivul pentru care datele înclinate spre dreapta au o sensibilitate pozitivă. Dacă setul de date este înclinat spre dreapta, media este mai mare decât modul și astfel scăderea modului din medie dă un număr pozitiv. Un argument similar explică motivul pentru care datele înclinate spre stânga au o tendință negativă.

Al doilea coeficient de neclaritate al lui Pearson este de asemenea utilizat pentru a măsura asimetria unui set de date. Pentru această cantitate, scăzem modul din median, înmulțim acest număr cu trei și apoi divizăm cu abaterea standard.

Aplicații ale datelor înclinate

Datele înclinate apar în mod natural în diverse situații. Veniturile sunt înclinate spre dreapta, deoarece chiar și câteva persoane care câștigă milioane de dolari pot afecta foarte mult media și nu există venituri negative. În mod similar, datele care implică durata de viață a unui produs, cum ar fi o marcă de bec, sunt înclinate spre dreapta. Aici cel mai mic lucru pe parcursul unei vieți este zero, iar becurile de lungă durată vor oferi o simțire pozitivă datelor.