Ce este Bootstrapping în statistici?

Bootstrapping-ul este o tehnică statistică care se încadrează la rubrica mai largă de eșantionare. Această tehnică implică o procedură relativ simplă, dar repetată de nenumărate ori, încât depinde foarte mult de calculele computerizate. Bootstrapping oferă o altă metodă decât intervalele de încredere pentru a estima un parametru de populație. Bootstrapping foarte mult pare să funcționeze ca magia. Citiți mai departe pentru a vedea cum își obține numele interesant.

O explicație a bootstrapping-ului

Un obiectiv al statisticilor inferențiale este de a determina valoarea unui parametru al unei populații. De obicei este prea scump sau chiar imposibil de măsurat direct acest lucru. Deci folosim eșantionarea statistică. Eșantionăm o populație, măsurăm o statistică a acestui eșantion și apoi folosim această statistică pentru a spune ceva despre parametrul corespunzător al populației.

De exemplu, într-o fabrică de ciocolată, am putea dori să vă garantăm că dulciurile au o greutate medie specială. Nu este fezabil să cântărească fiecare dulceț care este produs, așa că folosim tehnici de eșantionare pentru a alege la întâmplare 100 de bomboane. Calculăm media acestor 100 de bomboane și spunem că media populației se încadrează într-o marjă de eroare față de valoarea medie a eșantionului nostru.

Să presupunem că câteva luni mai târziu vrem să știm cu o acuratețe mai mare - sau mai puțin o marjă de eroare - care a fost greutatea medie a barelor de bomboane în ziua în care am prelevat linia de producție. Nu putem folosi bare de bomboane de astăzi, deoarece au intrat prea multe variabile în imagine (diferite loturi de lapte, zahăr și fasole de cacao, condiții atmosferice diferite, angajați diferiți pe linie etc.). Tot ce avem din ziua în care suntem curioși sunt cele 100 de greutăți. Fără o mașină a timpului înapoi în acea zi, s-ar părea că marja inițială de eroare este cea mai bună la care putem spera.

Din fericire, putem folosi tehnica de bootstrapping. În această situație, eșantionăm la întâmplare cu înlocuirea celor 100 de greutăți cunoscute. Apoi numim acest lucru un exemplu de bootstrap. Din moment ce permitem înlocuirea, cel mai probabil acest eșantion de bootstrap nu este identic cu eșantionul nostru inițial. Unele puncte de date pot fi duplicate, iar alte puncte de date din 100 inițiale pot fi omise într-un eșantion de bootstrap. Cu ajutorul unui computer, mii de eșantioane de bootstrap pot fi construite într-un timp relativ scurt.

Un exemplu

După cum am menționat, pentru a utiliza cu adevărat tehnicile de bootstrap, trebuie să utilizăm un computer. Următorul exemplu numeric va ajuta la demonstrarea modului în care funcționează procesul. Dacă începem cu eșantionul 2, 4, 5, 6, 6, atunci toate dintre următoarele sunt posibile probe de bootstrap:

  • 2, 5, 5, 6, 6
  • 4, 5, 6, 6, 6
  • 2, 2, 4, 5, 5
  • 2, 2, 2, 4, 6
  • 2, 2, 2, 2, 2
  • 4,6, 6, 6, 6

Istoria tehnicii

Tehnicile de bootstrap sunt relativ noi în domeniul statisticilor. Prima utilizare a fost publicată într-o lucrare din 1979 de Bradley Efron. Pe măsură ce puterea de calcul a crescut și devine mai puțin costisitoare, tehnicile de bootstrap au devenit mai răspândite.

De ce numele Bootstrapping?

Numele „bootstrapping” provine de la sintagma „A se ridica de la capătul lui de pornire”. Aceasta se referă la ceva ce este absurd și imposibil. Încercați cât puteți de greu, nu vă puteți ridica în aer trăgându-vă de bucăți de piele de pe cizme.

Există o teorie matematică care justifică tehnicile de bootstrapping. Cu toate acestea, utilizarea de bootstrapping se simte ca faci imposibilul. Deși nu pare că ar fi capabil să îmbunătățiți estimarea unei statistici a populației reutilizând același eșantion de mai multe ori, bootstrapping poate, de fapt, să facă acest lucru.