Ce este ANOVA?

De multe ori când studiem un grup, comparăm într-adevăr două populații. În funcție de parametrul acestui grup care ne interesează și de condițiile de care avem de-a face, există mai multe tehnici disponibile. Procedurile de inferență statistică care privesc compararea a două populații nu pot fi de obicei aplicate la trei sau mai multe populații. Pentru a studia mai mult de două populații simultan, avem nevoie de diferite tipuri de instrumente statistice. Analiza variației, sau ANOVA, este o tehnică din interferența statistică care ne permite să ocupăm mai multe populații.

Compararea mijloacelor

Pentru a vedea ce probleme apar și de ce avem nevoie de ANOVA, vom lua în considerare un exemplu. Să presupunem că încercăm să stabilim dacă ponderile medii ale bomboanelor M&M verzi, roșii, albastre și portocalii sunt diferite unele de altele. Vom indica ponderile medii pentru fiecare din aceste populații, μ1, μ2, μ3 μ4 și respectiv. Putem folosi testul ipotezei adecvate de mai multe ori și testul C (4,2) sau șase ipoteze nule diferite:

  • H0: μ1 = μ2 pentru a verifica dacă greutatea medie a populației bomboanelor roșii este diferită de greutatea medie a populației bomboanelor albastre.
  • H0: μ2 = μ3 pentru a verifica dacă greutatea medie a populației bomboanelor albastre este diferită de greutatea medie a populației bomboanelor verzi.
  • H0: μ3 = μ4 pentru a verifica dacă greutatea medie a populației bomboanelor verzi este diferită de greutatea medie a populației bomboanelor portocalii.
  • H0: μ4 = μ1 pentru a verifica dacă greutatea medie a populației bomboanelor portocalii este diferită de greutatea medie a populației bomboanelor roșii.
  • H0: μ1 = μ3 pentru a verifica dacă greutatea medie a populației bomboanelor roșii este diferită de greutatea medie a populației bomboanelor verzi.
  • H0: μ2 = μ4 pentru a verifica dacă greutatea medie a populației bomboanelor albastre este diferită de greutatea medie a populației bomboanelor portocalii.

Există multe probleme cu acest tip de analiză. Vom avea șase p-valori. Chiar dacă s-ar putea testa fiecare la un nivel de încredere de 95%, încrederea noastră în procesul general este mai mică decât aceasta, deoarece probabilitățile se înmulțesc: .95 x .95 x .95 x .95 x .95 x .95 este aproximativ .74, sau un nivel de încredere de 74%. Astfel, probabilitatea unei erori de tip I a crescut.

La un nivel mai fundamental, nu putem compara acești patru parametri în ansamblu, comparându-i doi simultan. Mijloacele M&M roșii și albastre pot fi semnificative, greutatea medie a roșului fiind relativ mai mare decât greutatea medie a albastruului. Cu toate acestea, atunci când luăm în considerare greutățile medii ale celor patru tipuri de bomboane, nu poate exista o diferență semnificativă.

Analiza variatiei

Pentru a face față situațiilor în care trebuie să facem comparații multiple, utilizăm ANOVA. Acest test ne permite să luăm în considerare parametrii mai multor populații simultan, fără a intra în unele dintre problemele care ne confruntă efectuând teste de ipoteză pe doi parametri simultan..

Pentru a efectua ANOVA cu exemplul M&M de mai sus, am testa ipoteza nulă H0: μ1 = μ2 = μ3= μ4. Acest lucru afirmă că nu există nicio diferență între ponderile medii ale roșu, albastru și verde M&M. Ipoteza alternativă este aceea că există o oarecare diferență între greutățile medii ale M&M roșu, albastru, verde și portocaliu. Această ipoteză este într-adevăr o combinație a mai multor enunțuri HA:

  • Greutatea medie a populației de bomboane roșii nu este egală cu greutatea medie a populației de bomboane albastre, OR
  • Greutatea medie a populației de bomboane albastre nu este egală cu greutatea medie a populației de bomboane verzi, OR
  • Greutatea medie a populației de bomboane verzi nu este egală cu greutatea medie a populației de bomboane portocalii, OR
  • Greutatea medie a populației de bomboane verzi nu este egală cu greutatea medie a populației de bomboane roșii, OR
  • Greutatea medie a populației de bomboane albastre nu este egală cu greutatea medie a populației de bomboane portocalii, OR
  • Greutatea medie a populației de bomboane albastre nu este egală cu greutatea medie a populației de bomboane roșii.

În acest caz particular, pentru a obține valoarea noastră p, am folosi o distribuție de probabilitate cunoscută sub numele de distribuția F. Calculele care implică testul ANOVA F pot fi făcute manual, dar sunt de obicei calculate cu software statistic.

Comparații multiple

Ceea ce separă ANOVA de alte tehnici statistice este faptul că este utilizat pentru a face comparații multiple. Acest lucru este comun în toate statisticile, deoarece există multe ori în care vrem să comparăm mai mult decât doar două grupuri. De obicei, un test de ansamblu sugerează că există o anumită diferență între parametrii pe care îi studiem. Urmăm apoi acest test cu alte analize pentru a decide ce parametru diferă.