What is Hypothesis Testing?ileana.brudiu.ro/MVR/An II MVR/Lectia 8/Statistica...3. Statistica...
Transcript of What is Hypothesis Testing?ileana.brudiu.ro/MVR/An II MVR/Lectia 8/Statistica...3. Statistica...
-
STATISTICA
Statistica este ștința colectării și interpretării datelor.
Ramuri:
• Statistica descriptivă
• Statistica inferențială
Statistici, știința colectării, analizei, prezentării și interpretării datelor. Ramuri: Statisticile descriptive Statistici d
-
STATISTICA DESCRIPTIVĂ
INSTRUMENTELE STATISTICII DESCRIPTIVE
Statisticile descriptive folosesc frecvent următoarele “unelte statistice” pentru a
descrie grupurile:
• Tendință centrală: utilizați media sau mediana pentru a localiza centrul setului de
date. Această măsură vă arată unde se ăsesc cele mai multe valori.
• Dispersie: Cât de departe se extind datele din centru? Puteți utiliza intervalul de
încredere sau abaterea standard pentru a măsura dispersia. O dispersie redusă
indică faptul că valorile se strâng mai strâns în jurul centrului. O dispersie mai mare
înseamnă că punctele de date se îndepărtează mai mult de centru.
• Asimetrie și boltirea: spune dacă distribuția valorilor este simetrică, înclinată, plată
sau ascuțită
Statisticile descriptive sunt rezumate tabelare, grafice sau numerice
a datelor observate
-
STATISTIC INFERENTIALĂ A
Statisticile inferențiale se folosesc de datele dintr-un eșantion și fac inferențe despre populația din care au fost extras eșantionul
Statistica descriptivă descrie date (de
exemplu, o diagramă sau un grafic), iar
statisticile inferențiale vă permit să faceți
predicții („inferențe”) din acele date.
Cu statistici inferențiale, luați date din
eșantioane și faceți generalizări despre o
populație
Statisticile inferențiale sunt atunci când luați date dintr-un eșantion și faceți o
predicție care are impact asupra unei populații.
Pentru a obține o analiză exactă, va trebui să identificați populația pe care o
măsurați, să creați un eșantion pentru acea populație și să faceți măsurător. Datele
observate prin intermediul uneltelor utilizate de statistica inferențială permit predicții
pentru întreaga populație.
-
EXISTĂ DOUĂ DOMENII PRINCIPALE ALE STATISTICII INFERENȚIALE:
1. Estimarea parametrilor. Aceasta înseamnă să luați o statistică din datele de eșantionare (de exemplu, media eșantionului) și să o utilizați pentru a spuneceva despre un parametru al populației (adică media populației).
2. Verificarea ipotezelor statistice cu ajutorul testelor . Aici puteți utiliza exemple de date pentru a răspunde la întrebări de cercetare. De exemplu, s-ar putea să fiți interesat să știți dacă un nou medicament împotriva cancerului este eficient.
Aici puteți utiliza exemple de date pentru a răspunde la întrebări de cercetare.
-
Să presupunem că aveți date privind procentul de grăsime din lapte într-un eșantion de vaci.
Utilizați statistici descriptive pentru a descrieeșantionul:
• medie
• deviație standard
• histograma
Histograma datelor
grupate
-
Cu statistici inferențiale, se pornește de la datele măsurate pe un eșantion prelevat din populație și încercați sădeterminați dacă datele pot prezicedacă procentul de grăsime din lapteva funcționa pentru întreagapopulație.
Deoarece scopul statisticilor inferențiale este de a trage concluzii dintr-
un eșantion și de a le generaliza la o populație, trebuie să avem
încredere că eșantionul nostru reflectă cu precizie populația.
Această cerință ne afectează procesul. La un nivel larg, trebuie să
facem următoarele:
1. Definiți populația pe care o studiem.
2. Determinați un eșantion reprezentativ din acea populație.
3. Utilizați analize care încorporează eroarea de eșantionare.
-
INSTRUMENTE STANDARD DE ANALIZĂ A STATISTICILOR INFERENȚIALE
Cele mai frecvente metodologii din statisticile inferențiale sunt:
• teste de ipoteză,
• intervale de încredere,
• analiza regresiei.
-
INTERVALUL DE ÎNCREDERE (CI)
În statisticile inferențiale, un obiectiv principal este estimarea parametrilor
populației.
Acești parametri sunt valorile necunoscute pentru întreaga populație, cum ar fi
media populației și abaterea standard.
Aceste valori ale parametrilor nu sunt doar necunoscute, ci aproape întotdeauna
de necunoscut. De obicei, este imposibil să se măsoare o întreagă populație.
-
INTERVALUL DE ÎNCREDERE
Statisticienii folosesc un interval de încredere pentru a exprima precizia și incertitudineaasociate cu o anumită metodă de eșantionare.
Un interval de încredere constă din trei părți.
1. Un nivel de încredere.
2. O statistică.
3. O marjă de eroare.
Nivelul de încredere descrie incertitudinea unei metode de eșantionare.
Statistica și marja de eroare definesc o estimare a intervalului care descrie preciziametodei.
Un interval de încredere este definit de:
MEDIA+ MARJA DE EROARE
Partea de probabilitate a unui interval de încredere se numește nivel de încredere.
Nivelul de încredere descrie cât de puternic credem că o anumită metodă de eșantionareva produce un interval de încredere care include parametrul real al populației. 9
-
ANALIZA DE REGRESIE
Analiza de regresie descrie relația dintre un set de variabile
independente și o variabilă dependentă.
Această analiză încorporează teste STAISTICE care ajută la
determinarea dacă relațiile observate în datele eșantionului există
de fapt în populație.
-
CE ESTE O IPOTEZĂ STATISTICĂ
O ipoteză este o presupunere educată despre ceva din lumea din
jur.
Ar trebui să poată fi testat, fie prin experiment, fie prin observare.
De exemplu:
Un medicament nou, despre care credeți că ar putea funcționa.
De exemplu, dacă studiem eficacitatea unui nou medicament comparând rezultatele
unui grup de tratament și de control, testele de ipoteză ne pot spune dacă efectul
medicamentului pe care îl observăm în eșantion este probabil să existe în populație.
La urma urmei, nu vrem să folosim medicamentul dacă este eficient numai în
eșantionul nostru specific. În schimb, avem nevoie de dovezi că vor fi utile pentru
întreaga populație de pacienți. Testele de ipoteză ne permit să tragem aceste tipuri de
concluzii despre populații întregi.
-
TESTE DE IPOTEZĂ
Testele de ipoteză utilizează date de eșantion pentru a răspunde la
întrebări precum următoarele:
1. Este MEDIA POPULAȚIEI mai mare sau mai mică decât o anumită
valoare?
2. Sunt MEDIANELE a două sau mai multe populații diferite între ele?
-
CE SUNT TESTELE STATISTICE DE IPOTEZĂ
⚫O ipoteză statistică este o presupunere despre un parametru al populației.
Această presupunere poate fi sau nu adevărată.
⚫Testarea ipotezei se referă la procedurile formale utilizate de statisticieni
pentru a accepta sau respinge ipotezele statistice.
-
CE ESTE O IPOTEZĂ (statistică)
Dacă doriți să propuneți o ipoteză, este obișnuit să scrieți o declarație. Declarația dvs. va arăta astfel: „Dacă eu… (faceți asta cu o variabilăindependentă)… atunci (acest lucru se va întâmpla cu variabiladependentă).” De exemplu:
▪ Dacă eu (scad cantitatea de apă dată plantelor) atunci (plantele vorcrește în dimensiune).
▪ Dacă eu (dau pacienți consiliere în plus față de medicamente) atunci(scara lor globală de depresie va scădea).
▪ Dacă eu (dau examene la prânz în loc de dimineață) atunci (scoruriletestelor elevilor se vor îmbunătăți).
▪ Dacă eu (caut în această anumită locație) atunci (sunt mai probabilsă găsesc specii noi)
-
IPOTEZE STATISTICE
Cel mai bun mod de a determina dacă o ipoteză statistică este adevărată ar fi
examinarea întregii populații. Deoarece acest lucru este adesea impracticabil,
cercetătorii examinează de obicei un eșantion aleatoriu din populație.
Dacă datele eșantionului nu sunt în concordanță cu ipoteza statistică, ipoteza
este respinsă.
-
IPOTEZE STATISTICE
Există două tipuri de ipoteze statistice.
Ipoteza nulă.
Ipoteza nulă, notată cu H0, este de obicei ipoteza că observațiile
eșantionului rezultă pur din întâmplare.
Ipoteză alternativă.
Ipoteza alternativă, notată cu H1 sau Ha, este ipoteza că observațiile
eșantionului sunt influențate de o cauză non-aleatorie.
-
IPOTEZE STATISTICE
De exemplu, să presupunem că vrem să stabilim dacă atunci când aruncăm o
monedă cade pe cap sau pajură.
O ipoteză nulă ar putea fi că jumătate din aruncări ar avea ca rezultat CAP și
jumătate, în PAJURĂ.
Ipoteza alternativă ar putea fi că numărul de CAP și PAJURĂ ar fi foarte diferit.
Simbolic, aceste ipoteze ar fi exprimate ca:
H0: P = 0,5
Ha: P ≠ 0,5
Să presupunem că am aruncăm moneda de 50 de ori, rezultând 40 de CAP și
10 PAJURĂ. Având în vedere acest rezultat, am fi înclinați să respingem
ipoteza nulă. Am concluziona, pe baza dovezilor, că moneda are o defecțiune
nu a fost probabil echitabilă și echilibrată.
-
TESTE DE IPOTEZA
Statisticienii urmează un proces formal pentru a determina dacă să respingă o
ipoteză nulă, pe baza datelor eșantionului.
Acest proces, numit testarea ipotezelor, constă în patru etape:
1. Prezentarea ipotezele. Aceasta implică formularea ipotezelor nule și
alternative. Ipotezele sunt enunțate în așa fel încât să se excludă reciproc.
Adică, dacă una este adevărată, cealaltă trebuie să fie falsă.
2. Formulează un plan de analiză. Planul de analiză descrie modul de utilizare a
eșantionului de date pentru a verifica ipoteza nulă. Verificarea se
concentrează adesea pe o singură statistică de testare.
3. Statistica descriptivă asupra eșantionului. Aflarea statisticilor (medie,
dispersie) pentru eșantion.
4. Interpretează rezultatele. Aplicați regula de decizie descrisă în planul de
analiză. Dacă valoarea statisticii testului este puțin probabilă, pe baza
ipotezei nule, respingeți ipoteza nulă.
-
REGULI DE DECIZIE
Planul de analiză include reguli de decizie pentru respingerea ipotezei
nule.
În practică, statisticienii descriu aceste reguli de decizie în două moduri -
cu referire la o valoare P sau cu referire la o regiune de acceptare.
Valoarea P.
Puterea dovezilor în sprijinul unei ipoteze nule este măsurată de valoarea
P. Să presupunem că statistica testului este egală cu S. Valoarea P este
probabilitatea de a observa o statistică de test la fel de extremă ca S,
presupunând că hipoteza nulă este adevărată. Dacă valoarea P este mai
mică decât nivelul de semnificație, respingem ipoteza nulă.
Regiunea de acceptare. Regiunea de acceptare este o gamă de valori.
Dacă statistica testului se încadrează în regiunea de acceptare, ipoteza
nulă nu este respinsă. Regiunea de acceptare este definită astfel încât
șansa de a face o eroare de tip I să fie egală cu nivelul de semnificație.
-
ERORI DE DECIZIE
Două tipuri de erori pot rezulta dintr-un test de ipoteză.
Eroare de tip I.
O eroare de tip I apare atunci când cercetătorul respinge o ipoteză nulă
atunci când este adevărată. Probabilitatea de a comite o eroare de tip I se
numește nivel de semnificație. Această probabilitate se mai numește alfa și
este adesea notată cu α.
Eroare de tip II.
O eroare de tip II apare atunci când cercetătorul nu reușește sărespingă o ipoteză nulă care este falsă. Probabilitatea de a comite o eroare de tip II se numește beta și este adesea notată cu β. Probabilitatea de a nu comite o eroare de tip II se numește Putereatestului.
-
REGULI DE DECIZIE
Setul de valori în afara regiunii de acceptare se numește
regiunea de respingere.
Dacă statistica testului se încadrează în regiunea de
respingere, ipoteza nulă este respinsă. În astfel de cazuri,
spunem că ipoteza a fost respinsă la nivelul de semnificație α.
Aceste abordări sunt echivalente. Unele texte statistice
folosesc abordarea valorii P; alții folosesc abordarea regiunii
de acceptare.