De multe ori cercetătorii doresc să cunoască răspunsurile la întrebări care au o anvergură mare. De exemplu:
Aceste tipuri de întrebări sunt uriașe, în sensul că ne solicită să urmărim milioane de persoane.
Statisticile simplifică aceste probleme folosind o tehnică numită eșantionare. Prin efectuarea unui eșantion statistic, volumul nostru de muncă poate fi redus enorm. În loc să urmărim comportamentele a miliarde sau milioane, trebuie doar să le examinăm pe cele de mii sau sute. După cum vom vedea, această simplificare vine la un preț.
Populația unui studiu statistic este ceea ce încercăm să aflăm ceva. Este format din toate persoanele care sunt examinate. O populație poate fi cu adevărat orice. Californienii, caribii, calculatoarele, mașinile sau județele ar putea fi considerate populații, în funcție de întrebarea statistică. Deși majoritatea populațiilor cercetate sunt mari, nu trebuie să fie neapărat necesare.
O strategie de cercetare a populației este realizarea unui recensământ. Într-un recensământ, examinăm fiecare membru al populației în studiul nostru. Un exemplu principal în acest sens este recensământul american. La fiecare zece ani, Biroul de recensământ trimite un chestionar tuturor celor din țară. Cei care nu returnează formularul sunt vizitați de lucrătorii de recensământ
Recensămintele sunt pline de dificultăți. De obicei sunt costisitoare din punct de vedere al timpului și al resurselor. În plus, este dificil să garantezi că toată lumea din populație a fost atinsă. Alte populații sunt cu atât mai dificile de a realiza un recensământ. Dacă am fi dorit să studiem obiceiurile câinilor fără stăpân în statul New York, norocul se rotunjește toate dintre acei canini tranzitori.
Întrucât în mod normal este imposibil sau imposibil de urmărit fiecare membru al unei populații, următoarea opțiune disponibilă este să eșantioneze populația. Un eșantion este orice subset al unei populații, deci dimensiunea acesteia poate fi mică sau mare. Ne dorim un eșantion suficient de mic pentru a putea fi gestionat de puterea noastră de calcul, dar suficient de mare pentru a ne oferi rezultate semnificative statistic.
Dacă o firmă de votare încearcă să determine satisfacția alegătorilor față de Congres, iar mărimea eșantionului acesteia este una, atunci rezultatele vor fi lipsite de sens (dar ușor de obținut). Pe de altă parte, a cere milioane de oameni va consuma prea multe resurse. Pentru a găsi un echilibru, sondajele de acest tip au, de obicei, dimensiuni de eșantion de aproximativ 1000.
Dar a avea dimensiunea corectă a eșantionului nu este suficient pentru a asigura rezultate bune. Vrem un eșantion reprezentativ pentru populație. Să presupunem că vrem să aflăm câte cărți citește anual americanul. Rugăm 2000 de studenți să țină evidența a ceea ce au citit pe parcursul anului, apoi să revină cu ei după ce a trecut un an. Găsim că numărul mediu de cărți citite este de 12, apoi concluzionăm că americanul mediu citește 12 cărți pe an.
Problema cu acest scenariu este cu eșantionul. Majoritatea studenților au vârste cuprinse între 18-25 de ani și sunt obligați de instructorii să citească manuale și romane. Aceasta este o reprezentare slabă a americanului mediu. Un eșantion bun ar conține oameni de vârste diferite, din toate punctele de viață și din diferite regiuni ale țării. Pentru a achiziționa un astfel de eșantion, va trebui să-l compunem la întâmplare, astfel încât fiecare american să aibă o probabilitate egală să fie în eșantion.
Standardul de aur al experimentelor statistice este eșantionul simplu la întâmplare. Într-un astfel de eșantion de mărime n persoane fizice, fiecare membru al populației are aceeași probabilitate de a fi selectat pentru eșantion și fiecare grup de n indivizii au aceeași probabilitate de a fi selectați. Există o varietate de moduri de eșantionare a unei populații. Unele dintre cele mai frecvente sunt:
După cum se spune, „Bine început a fost făcut pe jumătate.” Pentru a ne asigura că studiile și experimentele noastre statistice au rezultate bune, trebuie să le planificăm și să le începem cu atenție. Este ușor să vină cu probe statistice proaste. Eșantioanele simple aleatorii simple necesită o anumită muncă. Dacă datele noastre au fost obținute în mod întâmplător și într-o manieră cavaleristă, atunci oricât de sofisticată este analiza noastră, tehnicile statistice nu ne vor oferi concluzii demne.