Testul Runs pentru secvențe aleatorii

Dat fiind o secvență de date, o întrebare pe care ne-am putea întreba este dacă secvența a avut loc prin fenomene întâmplătoare sau dacă datele nu sunt aleatorii. Întâmplarea este greu de identificat, deoarece este foarte dificil să te uiți pur și simplu la date și să stabilești dacă au fost sau nu produse doar întâmplător. O metodă care poate fi folosită pentru a determina dacă o secvență a avut loc cu adevărat din întâmplare este numită test de rulare.

Testul rulează este un test de semnificație sau test de ipoteză. Procedura pentru acest test se bazează pe o rulare sau o secvență de date care au o trăsătură particulară. Pentru a înțelege cum funcționează testul de alergări, trebuie să examinăm mai întâi conceptul de alergare.

Secvențe de date

Vom începe prin a privi un exemplu de alergări. Luați în considerare următoarea secvență de cifre aleatorii:

6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5

O modalitate de a clasifica aceste cifre este de a le împărți în două categorii, fie par (inclusiv cifrele 0, 2, 4, 6 și 8), fie impar (inclusiv cifrele 1, 3, 5, 7 și 9). Vom analiza secvența de cifre aleatorii și notăm numerele par ca E și numere impare ca O:

E O O E E O O E O E E E E O E E O O

Rulele sunt mai ușor de observat dacă rescriem acest lucru, astfel încât toate sistemele de operare sunt împreună și toate ES sunt împreună:

EE O EE OO E O EEEEE O EE OO

Numărăm numărul de blocuri de numere pare sau impare și vedem că există un număr de zece rulări pentru date. Patru alergări au lungimea unu, cinci au lungimea două și una are lungimea cinci

Condiții

Cu orice test de semnificație, este important să știți ce condiții sunt necesare pentru efectuarea testului. Pentru testul de rulări, vom putea clasifica fiecare valoare a datelor din eșantion într-una din cele două categorii. Vom număra numărul total de rulări în raport cu numărul de valori de date care se încadrează în fiecare categorie.

Testul va fi un test pe două fețe. Motivul pentru aceasta este că prea puține rulări înseamnă că nu există o variație suficientă și numărul de rulări care ar apărea dintr-un proces aleatoriu. Prea multe rulări vor rezulta atunci când un proces alternează între categorii prea des pentru a fi descris din întâmplare.

Ipoteze și valori P

Fiecare test de semnificație are o ipoteză nulă și o alternativă. Pentru testul rulează, ipoteza nulă este că secvența este o secvență aleatoare. Ipoteza alternativă este că secvența datelor de eșantion nu este aleatorie.

Software-ul statistic poate calcula valoarea p care corespunde unei anumite statistici de testare. Există, de asemenea, tabele care oferă numere critice la un anumit nivel de semnificație pentru numărul total de rulări.

Se execută exemplul de test

Vom lucra în următorul exemplu pentru a vedea cum funcționează testul de rulare. Să presupunem că pentru o misiune, studentului i se cere să arunce o monedă de 16 ori și să noteze ordinea capetelor și cozilor care au apărut. Dacă terminăm cu acest set de date:

H T H H H T T H T T H T H T H H

Ne putem întreba dacă studentul și-a făcut de fapt temele sau a înșelat și a notat o serie de H și T care arată la întâmplare? Testul de alergări ne poate ajuta. Ipotezele sunt îndeplinite pentru testele de rulare, deoarece datele pot fi clasificate în două grupuri, fie ca un cap, fie ca o coadă. Continuăm calculând numărul de rulări. Regruparea, vedem următoarele:

H T HHH TT H TT H T H T HH

Există zece rulaje pentru datele noastre, cu șapte cozi sunt nouă capete.

Ipoteza nulă este că datele sunt aleatorii. Alternativa este că nu este la întâmplare. Pentru un nivel de semnificație alfa egal cu 0,05, vedem, consultând tabelul potrivit, că respingem ipoteza nulă atunci când numărul de rulări este fie mai mic de 4 sau mai mare decât 16. Deoarece există zece rulări în datele noastre, nu reușim să respingă ipoteza nulă H0.

Aproximare normală

Testul rulează este un instrument util pentru a determina dacă o secvență este probabil să fie aleatorie sau nu. Pentru un set mare de date, uneori este posibil să se utilizeze o aproximare normală. Această aproximare normală necesită să utilizăm numărul de elemente din fiecare categorie și apoi să calculăm media și abaterea standard a distribuției normale corespunzătoare.