De multe ori când studiem un grup, comparăm într-adevăr două populații. În funcție de parametrul acestui grup care ne interesează și de condițiile de care avem de-a face, există mai multe tehnici disponibile. Procedurile de inferență statistică care privesc compararea a două populații nu pot fi de obicei aplicate la trei sau mai multe populații. Pentru a studia mai mult de două populații simultan, avem nevoie de diferite tipuri de instrumente statistice. Analiza variației, sau ANOVA, este o tehnică din interferența statistică care ne permite să ocupăm mai multe populații.
Pentru a vedea ce probleme apar și de ce avem nevoie de ANOVA, vom lua în considerare un exemplu. Să presupunem că încercăm să stabilim dacă ponderile medii ale bomboanelor M&M verzi, roșii, albastre și portocalii sunt diferite unele de altele. Vom indica ponderile medii pentru fiecare din aceste populații, μ1, μ2, μ3 μ4 și respectiv. Putem folosi testul ipotezei adecvate de mai multe ori și testul C (4,2) sau șase ipoteze nule diferite:
Există multe probleme cu acest tip de analiză. Vom avea șase p-valori. Chiar dacă s-ar putea testa fiecare la un nivel de încredere de 95%, încrederea noastră în procesul general este mai mică decât aceasta, deoarece probabilitățile se înmulțesc: .95 x .95 x .95 x .95 x .95 x .95 este aproximativ .74, sau un nivel de încredere de 74%. Astfel, probabilitatea unei erori de tip I a crescut.
La un nivel mai fundamental, nu putem compara acești patru parametri în ansamblu, comparându-i doi simultan. Mijloacele M&M roșii și albastre pot fi semnificative, greutatea medie a roșului fiind relativ mai mare decât greutatea medie a albastruului. Cu toate acestea, atunci când luăm în considerare greutățile medii ale celor patru tipuri de bomboane, nu poate exista o diferență semnificativă.
Pentru a face față situațiilor în care trebuie să facem comparații multiple, utilizăm ANOVA. Acest test ne permite să luăm în considerare parametrii mai multor populații simultan, fără a intra în unele dintre problemele care ne confruntă efectuând teste de ipoteză pe doi parametri simultan..
Pentru a efectua ANOVA cu exemplul M&M de mai sus, am testa ipoteza nulă H0: μ1 = μ2 = μ3= μ4. Acest lucru afirmă că nu există nicio diferență între ponderile medii ale roșu, albastru și verde M&M. Ipoteza alternativă este aceea că există o oarecare diferență între greutățile medii ale M&M roșu, albastru, verde și portocaliu. Această ipoteză este într-adevăr o combinație a mai multor enunțuri HA:
În acest caz particular, pentru a obține valoarea noastră p, am folosi o distribuție de probabilitate cunoscută sub numele de distribuția F. Calculele care implică testul ANOVA F pot fi făcute manual, dar sunt de obicei calculate cu software statistic.
Ceea ce separă ANOVA de alte tehnici statistice este faptul că este utilizat pentru a face comparații multiple. Acest lucru este comun în toate statisticile, deoarece există multe ori în care vrem să comparăm mai mult decât doar două grupuri. De obicei, un test de ansamblu sugerează că există o anumită diferență între parametrii pe care îi studiem. Urmăm apoi acest test cu alte analize pentru a decide ce parametru diferă.