3. Statistică aplicată în ştiinţele socio-umane
Cuprins
Cuprins ............................................................................................................. 4
Prefață .............................................................................................................. 7
Cuvântul autorului ......................................................................................... 11
I.
Relaţii între variabile ............................................................................. 13
I.1
Coeficienţi de corelaţie neparametrici ............................................ 18
I.1.1
Coeficientul de corelaţie a rangurilor ρ (rho) Spearman ......... 19
I.1.2
Coeficientul de corelaţie a rangurilor τ (tau) Kendall ............. 26
I.1.3
Coeficientul de contingenţă χ2 (chi pătrat) .............................. 36
I.1.4
Coeficientul de asociere φ (phi), coeficientul V Cramer şi
coeficientul de contingenţă (cc), derivaţi din χ2 .................................... 42
I.1.5
Coeficientul de asociere λ (lambda) Goodman şi Kruskal ...... 48
I.1.6
Coeficientul de asociere γ (gamma) ........................................ 53
I.1.7
Coeficientul tetrachoric şi polichoric....................................... 56
I.1.8
Coeficientul de concordanţă W Kendall .................................. 58
I.1.9
Coeficientul de corelaţie rang biserială ................................... 62
I.2
Coeficienţi de corelaţie parametrici ................................................ 64
I.2.1
Coeficientul de corelaţie r Bravais-Pearson ............................ 64
I.2.2
Coeficientul de corelaţie biserial, punct biserial şi triserial ..... 78
I.2.3
Coeficientul de corelaţie eneahoric ......................................... 87
I.3
Corelaţii parţiale .............................................................................. 90
I.3.1
Corelaţii semi-parţiale ............................................................. 95
I.3.2
Corelaţii parţiale pentru date neparametrice ............................ 96
I.3.3
Semnificaţia corelaţiilor parţiale............................................ 100
I.4
Interpretarea coeficienţilor de corelaţie ........................................ 102
4
4. Cristian Opariuc-Dan
I.4.1
Grade de libertate ................................................................... 106
I.4.2
Efecte exercitate şi varianţă ................................................... 107
I.4.3
Strategii de analiză şi interpretare a corelaţiilor .................... 109
I.5
Obţinerea coeficienţilor de corelaţie în SPSS ............................... 117
I.5.1
I.5.2
Coeficienţi de corelaţie bazaţi pe date neparametrice ........... 134
I.5.3
II.
Coeficienţi de corelaţie bazaţi pe date parametrice ............... 117
Raportarea studiilor corelaţionale .......................................... 155
Diferenţe statistice bivariate ................................................................ 160
II.1
Planuri de cercetare ....................................................................... 161
II.1.1
Planuri de cercetare de bază .................................................. 165
II.1.2
Planuri de cercetare complexe ............................................... 174
II.2
Teste statistice pentru date neparametrice .................................... 182
II.2.1
Diferența dintre frecvențe. Testul χ2 ...................................... 182
II.2.2
Teste pentru eșantioane independente ................................... 188
II.2.3
Teste pentru eșantioane dependente ...................................... 200
II.3
Teste statistice pentru date parametrice ........................................ 205
II.3.1
Teste pentru un singur eșantion ............................................. 206
II.3.2
Teste pentru două eșantioane independente .......................... 212
II.3.3
Teste pentru două eșantioane perechi .................................... 216
II.4
Teste statistice de normalitate și teste pentru valori aberante ....... 220
II.4.1
Teste pentru valori aberante................................................... 221
II.4.2
Teste de normalitate ............................................................... 226
II.5
Interpretarea testelor statistice ...................................................... 234
II.5.1
II.6
Puterea testului și mărimea efectului ..................................... 238
Realizarea testelor statistice în SPSS ............................................ 253
II.6.1
Procedee neparametrice ......................................................... 254
5
5. Statistică aplicată în ştiinţele socio-umane
II.6.2
Procedee parametrice ............................................................. 267
II.6.3
Analiza normalității și a scorurilor aberante .......................... 274
Analiza fidelităţii .............................................................................. 283
III.
III.1
Metode de analiză a fidelităţii ................................................... 288
III.1.1
Metoda test-retest................................................................... 290
III.1.2
Metoda înjumătăţirii .............................................................. 291
III.1.3
Metoda consistenţei interne ................................................... 298
III.1.4
Metoda formelor paralele ...................................................... 306
III.1.5
Metoda acordului între evaluatori .......................................... 307
III.1.6
Interpretarea coeficienţilor de fidelitate................................. 310
III.2
Analiza fidelităţii în SPSS for Windows ................................... 312
III.2.1
Analiza consistenţei interne ................................................... 318
III.2.2
Analiza fidelităţii prin metoda înjumătăţirii .......................... 337
III.2.3
Analiza fidelităţii prin metoda formelor paralele .................. 341
III.2.4
Analiza fidelităţii inter-evaluatori.......................................... 343
III.2.5
Analiza fidelităţii test-retest (stabilităţii) ............................... 346
III.2.6
Consideraţii finale .................................................................. 347
Bibliografie .................................................................................................. 350
Anexe ........................................................................................................... 352
6
6. Cristian Opariuc-Dan
Prefață
Cartea domnului Cristian Opariuc-Dan, intitulată „Statistică aplicată
în ştiinţele socio-umane. Analiza asocierilor şi diferenţelor statistice” este o
continuare firească a primului volum apărut, nu cu mult timp în urmă, la editura ASCR din Cluj-Napoca. Continuarea realizată în lucrarea de faţă este
semnului unei perseverenţe lăudabile, dovadă a pasiunii domniei sale faţă de
conţinutul acestei onorabile discipline. Continuitatea se manifestă şi în partea
stilului năvalnic, care parcă vrea să spună totul dintr-o suflare, care vrea să
epuizeze ultimele rezerve faţă de disciplina statisticii din sufletul cititorului
dornic de iniţiere. Ca atare, exemplele sunt foarte numeroase şi cât se poate
de adecvate.
Nu sunt aşa de îndepărtate vremurile în care cunoştinţele statistice
erau o raritate în arealul specialiştilor din domeniul ştiinţelor socio-umane. În
rândul psihologilor, acestea erau păstrate şi răspândite de o elită intelectuală,
din care amintim numele lui Nicolae Mărgineanu ca fiind cel mai reprezentativ. Între 1950 şi 1989, pregătirea în sfera metodelor cantitative din domeniul
psihologiei era destul de sumară, delimitată strict la prezentarea câtorva noţiuni fundamentale şi, mai ales, a distribuţiei normale Gauss – Laplace, în aspectul figurativ, nu de conţinut. O bună parte dintre psihologii practicieni nu
au terminat sau aprofundat studii de psihologie, ca atare, chiar construcţia
etaloanelor li se părea o taină de nepătruns. Analizele multivariate păreau
realităţi galactice, greu accesibile pentru psihologul practician care nu avea o
ambianţă profesională de pregătire continuă. Încercarea de lichidare a psihologiei din ultimii ani ai dictaturii comuniste părea să extindă ignoranţa în privinţa metodelor ştiinţifice de abordare a acestui domeniu.
După anul de cotitură 1989, învăţământul românesc de psihologie s-a
revigorat şi a evoluat rapid, cred eu mai mult extensiv, situaţie care s-a reper7
7. Statistică aplicată în ştiinţele socio-umane
cutat şi asupra domeniul statisticii aplicate. Au apărut o serie de autori competenţi, cu deosebit potenţial, cu stagii de pregătire în străinătate, care au elaborat lucrări în domeniu comparabile cu cele din ţările cu tradiţie în cercetarea psihologică. Dintre aceşti autori amintim pe Ilie Puiu Vasilescu, practic
un deschizător de drumuri în domeniu, după 1989, Florin Sava, Mihai Hohn,
Filaret Sîntion, regretatul coleg Horia Pitariu, Dragoş Iliescu, Marian Popa,
Adrian Vicenţiu Labăr, Monica Albu. În acest cerc select cred că a reuşit să
intre şi Cristian Opariuc-Dan.
Ne putem întreba: care este motivul pentru care autorul dă dovadă de
pedantism în cursul lucrării, care face conţinutul comprehensibil și pentru
persoane cu o slabă pregătire academică? Pentru cineva care nu lucrează în
domeniul pe care l-a îmbrăţişat autorul cărţii, suprasaturarea cu explicaţii
pare de neînţeles. Adevărul este că statistica se prezintă ca o disciplină greu
asimilabilă de către studenţii de la psihologie. Venind să studieze psihologia,
o disciplină prin excelenţă umanistă, o parte dintre ei cred că au scăpat definitiv de tabelele, ecuaţiile şi demonstraţiile din anii de liceu, dar, constată că,
chiar din primul an, reîncep o disciplină matematizată pentru care nu au pasiune şi înclinaţii. În ţările cu tradiţie în studiul psihologiei au apărut articole
care explică de ce studenţii au aversiune faţă de statistică şi tratamente matematice. Strict vorbind, statistica nu este chiar matematică, ci mai mult o colecţie de metode şi teorii care vizează modul de gestionare a ansamblurilor
de date rezultate din cercetarea şi practica profesională, care implică parţial
tratament matematic. În plus, să nu uităm, există în psihologie şi în varii domenii un curent de gândire anti-statistic care exagerează în ideea inadecvării
metodelor cantitative în abordarea unor areale ale preocupărilor academice
caracterizate de hiper-complexitate structurală şi supleţe funcţională. Un exponent al unui astfel de mod de gândire este cuprins în bestsellerul libanezului Nassim Nicholas Taleb, intitulat „Lebăda Neagră. Impactul foarte puţin
probabilului”, apărut la Curtea Veche Publishing în 2010. La pagina 265 a
acestei cărţi, el spune: „Uitaţi tot ce aţi auzit în facultate despre statistică sau
8
8. Cristian Opariuc-Dan
teoria probabilităţilor. Dacă nu aţi urmat niciodată astfel de cursuri, e foarte
bine”. Ce putem să spunem despre astfel de reacţii? A constata inadecvarea
modelului gaussian, cum a făcut-o Taleb, nu îţi dă dreptul să negi importanţa
unei discipline ştiinţifice aflată în extindere rapidă în aproape toate îndeletnicirile omeneşti.
Pentru psihologi, absenţa disciplinei Statistică din programul de pregătire universitară de bază ar înseamnă lipsirea de un instrument absolut necesar de comunicare şi de verificare a cercetărilor ştiinţifice. Conştientizând
importanţa predării acestei discipline pentru viitorul cercetător sau profesionist practician, cei care au proiectat curriculumul facultăţilor de psihologie au
înregistrat statistica în rândul disciplinelor fundamentale, alături de introducere în psihologie, psihologia dezvoltării, psihologia socială, fundamentele
ştiinţifice ale psihoterapiei, psihodiagnostic, metodele de cercetare şi psihologia diferenţială. O anchetă efectuată în Statele Unite ale Americii în rândul
foştilor absolvenţi de psihologie, referitoare la importanţa disciplinelor ştiinţifice predate în facultate asupra succesului profesional, indică statistica pe
locul al treilea, după psihologia socială şi psihoterapie.
Lucrarea domnului Opariuc-Dan are ca bază de pornire dificultăţile
întâmpinate de studenţi în înţelegerea statisticii. Experienţa în predarea disciplinei Statistică aplicată în psihologie, m-a ajutat să detectez două puncte
esenţiale ale acestor dificultăţi: clara înţelegere a noţiunilor predate şi aplicarea robotică a unor formule pentru a evidenţia semnificaţia rezultatelor
cercetării. Insuficienta insistare asupra acestor două aspecte duce la formarea
unor deprinderi procustiene, care vor avea drept consecinţă simplismul interpretativ. La aceiaşi concluzie pare să fi ajuns şi autorul cărţii atunci când insistă, precum Cato în senatul Romei, asupra combaterii proastelor deprinderi
în practicarea statisticii.
Imensa maşinărie statistică numită SPSS este o invenţie minunată, care ajută studenţii, cercetătorii şi practicienii să scurteze la minimum timpul
9
9. Statistică aplicată în ştiinţele socio-umane
acordat pentru realizarea unor activităţi rutiniere, însă care nu poate fi utilizată fără cunoaşterea suficientă specificului aplicativ al unor proceduri. Nu întâmplător, autorul insistă atât de mult pe corectitudinea unor aplicaţii statistice şi pe oportunitatea lor. În aplicarea unor tipuri de analize factoriale, realizatorii unor studii trebuie să cunoască bine exigenţe referitoare dimensiunea
scalară a datelor, la liniaritatea relaţiilor între variabile şi la numărul minim
de subiecţi care trebuie să fie prezenţi în cercetare. Dacă nu suntem atenţi la
astfel de aspecte, riscăm să fim catalogaţi drept creatori de artefacte în activitatea ştiinţifică şi de folosire abuzivă, incompetentă a unor creaţii tehnice de
excepţie. Cristian Opariuc-Dan a relevat bine deficienţele de înţelegere ale
statisticii de către studenţi, şi ne oferă o lucrare de un impresionant efort analitic şi sintetic.
Conf. univ. dr. Aurel Stan
Universitatea Al. I. Cuza Iași
Facultatea de Psihologie și Științe ale Educației
10
10. Cristian Opariuc-Dan
Cuvântul autorului
Bine v-am regăsit! După ce am aprofundat aspectele referitoare la
analiza unei singure variabile – statistici pe care le-am numit statistici
univariate –, a venit timpul să ne concentrăm asupra analizei relaţiilor dintre
două sau mai multe variabile. Lucrurile nu sunt deloc complicate, în comparaţie cu cele prezentate în prima lucrare. Avem şi aici algoritmi clari de lucru,
şi ne ajută acelaşi pachet binecunoscut de programe, SPSS.
De data aceasta, nu vom mai analiza în detaliu o singură variabilă, ci
ne vom concentra asupra legăturilor care există între variabile. Vom încerca
să aflăm care este legătura dintre lungimea părului şi coeficientul de inteligenţă, sau dacă pletoşii sunt, ori nu sunt, mai inteligenţi în comparaţie cu cei
care au părul scurt. De asemenea, vom încerca să vedem în ce mod o variabilă poate fi influenţată de alte variabile; dacă inteligenţa unui copil poate fi
apreciată în baza notelor pe care acesta le are la matematică, fizică, chimie,
limba română ori alte discipline. Pornind tot de la relaţiile dintre variabile,
vom încerca să aflăm dacă din răspunsurile la întrebările unui chestionar putem afla un element comun, şi cât de precis este acesta.
În limbaj „tehnic”, vom studia elemente legate de corelaţii, diferenţe
şi studiul fidelităţii, toate cu referire la date parametrice şi neparametrice.
Unii vor spune că analiza fidelităţii prezintă un grad mai ridicat de dificultate, iar aceste elemente nu trebuie tratate împreună. Să vedem dacă este
chiar aşa.
Nu-i voi uita pe cei care m-au ajutat să scriu acest volum și care au
contribuit, într-o formă sau alta, la apariția cărții.
Îi mulțumesc soției mele, Iulia-Laura, pentru răbdarea pe care a avut-o
cu mine, în lungile zile în care nu m-am despărțit de computer, scriind aceste
11
11. Statistică aplicată în ştiinţele socio-umane
rânduri. Scutindu-mă, de multe ori, de treburile casnice, încurajându-mă să
scriu, soția mea a accelerat în mod semnificativ apariția acestui volum.
Recunoștința mea se îndreaptă către profesorul universitar Ilie Puiu
Vasilescu de la universitatea Wise din Virginia, Statele Unite, din ale cărui
cărți am învățat statistică, și care a binevoit să analizeze critic documentul,
corectându-mă atunci când am greșit. De asemenea, profesorul universitar
Corneliu Eugen Havârneanu și-a adus o importantă contribuție, fiind atât cel
de la care am învățat elementele de bază ale analizei de date, cât și cel care a
avut răbdarea de a citi documentul, a-mi face observații pertinente și a furniza impresiile sale referitoare la carte.
Ca întotdeauna, profesorul Aurel Stan s-a ocupat și de această carte,
de la impresii și corectură la procesul redacțional, lucru pentru care îi sunt
profund recunoscător.
De asemenea, țin să aduc mulțumiri profesorului Filaret Sîntion, de la
universitatea Ovidius Constanța, pentru numeroasele seri petrecute împreună,
momente în care discuțiile noastre pe această temă au contribuit la consolidarea și sistematizarea acestui volum. Mulțumiri speciale aș dori să aduc doamnei profesor Monica Albu. Observațiile și criticile constructive aduse de
domnia sa au contribuit, sper, la o calitate superioară a acestei lucrări. Exigența de care a dat dovadă mă ajută să mă perfecționez și să pot, la un moment dat, să ating standardele la care doamna profesor se raportează.
Nu în ultimul rând, vă mulțumesc dumneavoastră, celor care ați cumpărat această carte, onorându-mă astfel cu dorința de a învăța.
V-am promis în primul volum că vă voi scoate la lumină, în ceea ce
priveşte metoda statistică, aplicată în ştiinţele socio-umane. Consider că am
făcut-o. Acum haideţi să schimbăm becul de 60 de waţi, pe care l-am aprins
în primul volum, cu un bec de 100 de waţi, şi să facem şi mai multă lumină…
Constanţa, 9 august 2011
12
12. Cristian Opariuc-Dan
I. RELAŢII ÎNTRE VARIABILE
În acest capitol se va discuta despre:
Conceptul de covarianţă şi corelaţie;
Calculul coeficienţilor de corelaţie parametrici
şi neparametrici;
Analiza şi interpretarea coeficienţilor de corelaţie;
Reprezentarea grafică şi analiza graficelor corelaţiilor;
După parcurgerea capitolului, cititorii vor fi capabili să:
Înţeleagă diferenţa dintre covarianţă şi corelaţie;
Calculeze coeficienţii de corelaţie parametrici şi
neparametrici;
Analizeze şi să interpreteze coeficienţii de corelaţie;
Utilizeze SPSS în calculul coeficienţilor de corelaţie.
În general, într-o cercetare ştiinţifică, nu ne putem rezuma doar la studiul unei singure variabile, deşi acest pas este important pentru stabilirea
normalităţii distribuţiei. Faptul că notele obţinute de către candidaţi la un
examen de admitere la facultate sunt sau nu sunt distribuite normal, este de
mare importanţă, atât pentru aflarea nivelului candidaţilor respectivi, cât şi în
vederea stabilirii procedurilor ulterioare de analiză. Nu ne putem, însă, rezuma doar la acest lucru. Ne-ar interesa, poate, să aflăm dacă există vreo legătură între aceste note şi coeficientul de inteligenţă, să vedem dacă, într-adevăr,
cei cu medii mari la admitere au şi un coeficient de inteligenţă ridicat, sau din
contra.
Aceasta este o problemă specifică, ce poate fi abordată printr-un studiu corelaţional. Ca în orice studiu ştiinţific, începem de la un fapt de observaţie. De exemplu, constatăm în ultimii ani o reducere a calităţii sistemului
de învăţământ universitar. Problema poate fi la nivelul cadrelor didactice, al
13
13. Statistică aplicată în ştiinţele socio-umane
studenţilor, sau poate reprezenta o combinaţie a acestor elemente. După ce
am citit „o sută” de articole referitoare la această temă, după ce am studiat
cercetările existente, putem ajunge la concluzia investigării relaţiei dintre
mediile anilor de studiu din liceu, media de la bacalaureat şi coeficientul de
inteligenţă. Putem, aşadar, formula obiectivul studiului: investigarea relaţiei
dintre media de admitere la universitate şi coeficientul de inteligenţă. În mod
cert, după stabilirea obiectivului, va trebui să formulăm ipoteza sau ipotezele
cercetării. În cazul nostru, ipoteza de cercetare devine:
H1: Există o relaţie între nivelul de inteligenţă şi media de admitere a
candidaţilor în învăţământul superior.
Această ipoteză este evident o ipoteză bidirecţională, şi ne duce cu
gândul la un studiu corelaţional. După cum ştim, ipoteza de cercetare nu poate fi confirmată sau infirmată. Toate analizele se fac pe baza ipotezei nule. În
situaţia de faţă, ipoteza nulă va fi:
H0: Nu există nicio relaţie între nivelul de inteligenţă şi media de admitere a candidaţilor în învăţământul superior.
Din simpla parcurgere a ipotezei, putem identifica foarte uşor atât
planul de cercetare – evident un plan corelaţional cu două variabile continui –
cât şi variabilele – coeficientul de inteligenţă şi media de admitere. Nu ne
rămâne decât să colectăm datele prin administrarea unui test de inteligenţă şi
prin înregistrarea mediilor de admitere ale candidaţilor şi astfel obţinem baza
de date a cercetării noastre. Ambele variabile fiind scalare, în următoarea
etapă vom proceda la analiza normalităţii distribuţiei acestora. Dar după aceea, ce facem? Bineînţeles, intenţionăm să studiem relaţia dintre aceste două
variabile.
Relaţiile stabilite din analiza a două variabile se numesc analize bivariate, deoarece este posibil să studiem relaţiile dintre mai multe variabile,
14
14. Cristian Opariuc-Dan
metode reunite sub numele de analize multivariate. Aţi observat că prefer
folosirea termenului de relaţie şi nu a celui de corelaţie. Care ar fi diferenţa?
Întregul concept al investigării gradului de asociere între două variabile se bazează pe covarianţă. Ce este, însă, covarianţa? Vă mai amintiţi de
termenul de varianţă folosit în prima lucrare? Am definit atunci acest element
ca fiind media abaterilor scorurilor faţă de tendinţa centrală (Opariuc-Dan,
2009). Lucram atunci doar cu o singură variabilă. Dacă am include încă o
variabilă, am spune că cele două covariază dacă scorurile celei de-a doua se
abat în acelaşi sens de la medie, chiar dacă magnitudinile abaterilor pot fi
altele.
+1,4
+0,4
+0,4
Var. X
-0,6
-1,6
+0,8
+0,5
+2,3
Var Y
-0,2
-0,6
Figura 1.1 – Diferenţele dintre scorul observat şi
medie pentru două variabile, în cazul unui singur
subiect examinat
15
15. Statistică aplicată în ştiinţele socio-umane
Urmăriţi figura 1.1. Am reprezentat aici două variabile, variabila X şi
variabila Y. Observăm că scorurile primei variabile se abat negativ faţă de
medie în primele două cazuri şi pozitiv faţă de medie în ultimele trei cazuri.
Acelaşi model este urmat şi de cea de-a doua variabilă, deşi magnitudinea
abaterilor este diferită. Putem suspecta faptul că cele două variabile
covariază, adică subiecţii care au scoruri mici la prima variabilă, au scoruri
mici şi la a doua variabilă. Cei care au scoruri mari la prima variabilă, au scoruri mari şi la a doua variabilă. Acesta este principiul covarianţei. Problema
care se pune este să stabilim magnitudinea acestei covarianţe, în acelaşi mod
în care am aflat magnitudinea varianţei pentru fiecare variabilă luată separat.
Cu alte cuvinte, se poate da un indicator unic, numeric, al covarianţei, în mod
similar coeficientului de varianţă (s2)? Răspunsul este, din fericire, pozitiv.
Vă aduceţi aminte că, în cazul calculării varianţei unei singure variabile, am ridicat la pătrat fiecare abatere de la medie, pentru a compensa problemele legate de semn. Este necesar să facem acest lucru şi aici? Gândiţi-vă
înainte de a răspunde! Ei bine, nu. Fiind două variabile, înmulţind, pentru
fiecare subiect, abaterile de la medie ale fiecărei variabile, rezolvăm această
problemă. Dacă ambele abateri sunt ori pozitive, ori negative, vom obţine un
produs pozitiv, arătând faptul că variabilele covariază în acelaşi sens (se abate pozitiv de la medie una, se abate pozitiv de la medie şi cealaltă; se abate
negativ una, se abate negativ şi cealaltă). Dacă o abatere este pozitivă şi cealaltă este negativă, vom obţine un produs negativ, arătând faptul că variabilele covariază invers (dacă una se abate pozitiv de la medie, cealaltă se abate
negativ). Mai simplu nici nu se putea.
Cum obţinem însă o valoare numerică unică a acestor abateri? Nu este
deloc complicat. Adunăm toate produsele şi împărţim la numărul de cazuri
minus unu (efectuând corecția cunoscută pentru lucrul cu eșantioane). Iată ce
greu e:
16
16. Cristian Opariuc-Dan
∑
̅
̅
(formula 1.1)
Am obţinut, astfel, formula covarianţei pe care o putem acum aplica
datelor noastre.
Cele două variabile din exemplul de mai sus covariază pozitiv (adică
dacă scorul la o variabilă se află peste medie, scorul la cealaltă variabilă se
află şi el peste medie şi invers), valoarea acestei covariaţii fiind de 1,20.
Marea problemă a covarianţei este aceea că relaţiile dintre cele două
variabile depind de scala de măsură. Dacă avem două instrumente ce măsoară, fiecare, o singură variabilă, unul cu 100 de itemi şi unul cu 10 itemi, în
condițiile în care itemii sunt cotați la fel, modul în care se vor abate scorurile
individuale de la medie diferă extrem de mult, coeficientul de covarianţă fiind foarte mare în comparaţie cu situaţia analogă în care cele două instrumente ar avea, fiecare, 10 itemi. În realitate acest coeficient nu ne spune, practic,
nimic. Avem nevoie, aşadar, de o măsură standardizată a covarianţei, iar
această măsură o regăsim sub denumirea de corelaţie.
Corelaţia exprimă, practic, sub formă numerică, gradul de asociere
dintre variabile. Două variabile sunt asociate, în situaţia în care comportamentul uneia este legat de comportamentul celeilalte, cu alte cuvinte, dacă nu
sunt independente. Două variabile independente arată că modificarea valorilor într-o variabilă nu are niciun efect asupra valorilor din cealaltă variabilă.
(Gibbons, 1993).
În teorie e simplu. În practica ştiinţifică din domeniul socio-uman, am
arătat că variabilele pot fi dificil măsurate la un nivel de interval, majoritatea
lor fiind, strict vorbind, la o scală de măsură ordinală. Este greu să găsim o
17
17. Statistică aplicată în ştiinţele socio-umane
relaţie matematică între două variabile. Ar fi mai degrabă vorba de covarianţe
decât de corelaţii.
Un alt aspect important, pe care mulţi îl ignoră, este acela că nu putem
stabili legături cauzale în urma studiilor corelaţionale. Din corelaţii nu se pot
face inferenţe cauzale, nu putem stabili care este cauza şi care este efectul.
Dacă în urma unui studiu ajungem la concluzia că există o legătură puternică
între anxietate şi depresie, care este cauza şi care este efectul? Anxietatea
determină depresia sau depresia produce anxietate? Studiile corelaţionale
permit stabilirea intensităţii şi a sensului unei legături între variabile, nu şi
stabilirea relaţiei cauză-efect. Accentuez asupra acestui aspect, deoarece am
întâlnit multe asemenea confuzii în care se vorbea despre relaţii cauzale, fapt
complet eronat din punct de vedere ştiinţific.
Relaţiile dintre două variabile se studiază în baza a două categorii de
indici de corelaţie. Vorbim de indici de corelaţie parametrici şi indici de
corelaţie neparametrici, în funcţie de condiţiile îndeplinite de variabile – şi
anume dacă îndeplinesc sau nu cerinţele de administrare ale statisticilor parametrice.
I.1 Coeficienţi de corelaţie neparametrici
Aceşti coeficienţi de corelaţie se utilizează în cazul în care cel puţin
una dintre cele două variabile nu îndeplineşte condiţiile unei distribuţii normale, fie din cauza specificului datelor, fie din aceea a nivelului de măsură la
care se situează. Numiţi şi coeficienţi de asociere pentru distribuţii libere,
coeficienţii de corelaţie neparametrici pot fi folosiţi atât în cazul în care distribuţia este cunoscută, de obicei normală, dar mai ales în cazul în care distribuţia nu se cunoaşte, nu este normală sau datele nu pot fi asociate unui nivel
de măsură cel puţin de interval. Motivul este acela că, datele aflate la un nivel
de interval ori de raport, pot fi uşor convertite în ranguri sau în frecvenţe (la
nivel ordinal ori nominal). Invers nu este, însă, posibil.
18
18. Cristian Opariuc-Dan
În acest sens, există mai mulţi indici ai relaţiilor dintre variabile, utilizabili în funcţie de tipul variabilelor.
I.1.1 Coeficientul de corelaţie a rangurilor ρ (rho) Spearman
Este un coeficient bazat pe ranguri, nu este influenţat de reprezentativitatea mediei şi se utilizează, în general,
Tabelul 1.1 – Rezultate obţinute
atunci când lotul de cercetare are dimensiuni
de 10 elevi la matematică şi fizică
mici (sub 30 de cazuri), sau când cel puţin
Nr.
Matematică
Fizică
1
2
3
una dintre variabile nu îndeplineşte condiţiile
2
3
4
de administrare ale testelor parametrice. A
3
4
4
fost dezvoltat de psihologul englez Charles
4
5
5
5
6
6
Spearman şi, datorită similarităţii sale cu coe6
6
7
ficientul r Bravais-Pearson, acest indicator
7
7
7
este frecvent utilizat în ştiinţele socio-umane.
8
8
7
9
9
8
De fiecare dată când aveţi de calculat coefici10
10
9
entul de corelaţie bivariată, iar datele dumneavoastră nu se distribuie normal pentru cel puţin una dintre variabile, apelaţi cu încredere la acest coeficient.
Coeficientul nu face altceva decât să transforme scorurile originale în
ranguri şi să analizeze relaţia dintre acestea. Formula de calcul nu este complicată şi poate fi rezumată la:
∑
(formula 1.2)
unde d reprezintă diferenţa dintre rangurile valorilor măsurate la un
subiect, iar n se referă la numărul de subiecţi
Să considerăm un exemplu în care avem un număr de 10 elevi de clasa a XI-a care obţin următoarele rezultate la matematică şi la fizică (tabelul
1.1).
19
19. Statistică aplicată în ştiinţele socio-umane
După cum observăm, cele două variabile se află la un nivel de măsură
scalar, însă numărul mic de subiecţi (n=10) nu permite analiza distribuţiei
rezultatelor, fiind sub 30 de cazuri. În această situaţie, nu putem folosi coeficienţi de corelaţie parametrici. Pentru a uşura lucrurile, notele la matematică
şi la fizică au fost ordonate astfel încât să puteţi înţelege mai uşor algoritmul.
Vom decide să folosim coeficientul de corelaţie a rangurilor ρ Spearman.
Evident, primul pas este acela al calculării rangurilor. Nu intram în amănunte
asupra acestei proceduri, deoarece a fost tratată în lucrarea anterioară, capitolul referitor la mediană şi ranguri.
Nr.
1
2
3
4
5
6
7
8
9
10
Tabelul 1.2 – Calculul coeficientului de corelaţie ρ Spearman
Matematică
Fizică
Rang Matematică
Rang Fizică
d
2
3
1
1
0
3
4
2
2,5
-0,5
4
4
3
2,5
0,5
5
5
4
4
0
6
6
5,5
5
0,5
6
7
5,5
6
-0,5
7
7
7
6
1
8
7
8
6
2
9
8
9
9
0
10
9
10
10
0
∑d2
d2
0
0,25
0,25
0
0,25
0,25
1
4
0
0
6
După calculul rangurilor, facem diferenţa dintre rangul primei variabile (matematică) şi rangul celei de-a doua variabile (fizică). Valoarea d va fi,
aşadar, d=RangMatematică – RangFizică.
În următoarea etapă, ridicăm la pătrat diferenţa rangurilor, pentru a
elimina problemele generate de semnul diferenţelor, şi facem suma pătratelor
diferenţelor.
Rezultatele acestor etape sunt prezentate în tabelul 1.2. Avem acum
toate datele necesare înlocuirii în formulă.
∑
20
20. Cristian Opariuc-Dan
Iată şi coeficientul de corelaţie a rangurilor, în valoare de 0,96. Am
obţinut o corelaţie pozitivă şi puternică între notele obţinute de către cei 10
elevi la matematică şi fizică. Putem spune că cei care obţin note mari la matematică, obţin note mari şi la fizică; cei cu note mici la matematică au note
mici şi la fizică.
Calculul după această formulă poate fi efectuat numai în situaţia în
care nu există ranguri egale. Atunci când apar ranguri egale (cum se poate
observa şi în cazul nostru), se foloseşte o formulă uşor diferită, formulă de
corecţie pentru ranguri egale. Această formulă se aplică în cazul în care ambele variabile au ranguri egale, sau atunci când întâlnim ranguri egale doar în
situația unei singure variabile.
) ∑
(∑
√ ∑
∑
∑
√ ∑
∑
(formula 1.3)
unde rx şi ry reprezintă rangurile celor două variabile
Revenind la exemplul nostru, vom avea un alt tip de tabel, ceva mai
complex.
Nr.
1
2
3
4
5
6
7
8
9
10
Mate
2
3
4
5
6
6
7
8
9
10
Tabelul 1.3 – Calculul coeficientului de corelaţie ρ Spearman
Fizică
Rang Mate
Rang Fizică RMxRF
R M2
3
1
1
1
1
4
2
2,5
5
4
4
3
2,5
7,5
9
5
4
4
16
16
6
5,5
5
27,5
30,25
7
5,5
6
33
30,25
7
7
6
42
49
7
8
6
48
64
8
9
9
81
81
9
10
10
100
100
∑=55
∑=52
∑=361 ∑=384,5
21
R F2
1
6,25
6,25
16
25
36
36
36
81
100
∑=343,5
21. Statistică aplicată în ştiinţele socio-umane
După calculul rangurilor, am efectuat produsul rangurilor şi ridicarea
la pătrat a fiecărui rang. Apoi, am calculat sumele necesare. Nu rămâne, în
final, decât înlocuirea în formulă. Rezultatul va fi, în acest caz, foarte apropiat cu cel de mai sus. Evident, numărul foarte mic de cazuri, face ca efectul
corecţiei pentru ranguri egale să fie, și el, foarte mic.
(∑
√ ∑
)
∑
∑
√ ∑
√
∑
∑
√
√
√
Acest coeficient de corelaţie, foarte uşor de calculat, are, însă, o problemă. Aţi observat că cele două variabile utilizate se situează la un nivel
scalar de măsură. După unii autori (Vasilescu, 1992, apud Yule şi Kendall,
1969; Lohse, Kudwig şi Rohr, 1986), acest coeficient de corelaţie este inadecvat pentru ranguri, deoarece presupune că datele au, toate, proprietăţile
necesare pentru calcularea coeficienţilor parametrici. Indicatorul reduce, de
fapt, datele de la un nivel scalar la un nivel ordinal. În acest sens, mai adecvată ar fi calcularea altor coeficienţi, specifici pentru rang (Vasilescu, 1992).
Totuşi, datorită uşurinţei calculării acestui coeficient şi a faptului că
poate fi folosit pentru date parametrice care nu îndeplinesc condiţiile aplicării
de teste parametrice, coeficientul ρ Spearman are o largă utilizare. În general,
folosim acest coeficient de corelaţie atunci când ambele variabile se află la un
nivel de măsură ordinal, când o variabilă se află la un nivel ordinal, iar cealaltă la un nivel scalar, ori când ambele se află la nivel scalar, dar cel puţin una
dintre ele nu prezintă o distribuţie normală.
I.1.1.1 Semnificaţia coeficientului de corelaţie ρ Spearman
În cazul studiilor corelaţionale, şi nu numai, nu este suficientă obţinerea coeficientului de corelaţie pentru a respinge sau nu ipoteza nulă. Ştim
foarte bine că avem nevoie şi de pragul de semnificaţie care ne arată, practic,
22
22. Cristian Opariuc-Dan
ce şanse avem ca indicatorul obţinut să rezulte în urma unor erori de eşantionare. Putem accepta semnificaţia acestui indicator şi respinge ipoteza nulă,
doar dacă această şansă este mai mică de 5%, cu alte cuvinte, dacă ne situăm
la un prag de semnificaţie mai mic de 0,05.
Cea mai simplă metodă de a determina semnificaţia coeficientului de
corelaţie a rangurilor ρ este aceea în care putem compara valoarea acestuia cu
valoarea de referinţă pentru nivelul de semnificaţie dorit, valoare publicată în
tabele speciale. Stabilirea modului în care au fost construite aceste tabele nu
face obiectul prezentei lucrări, deoarece calculele sunt mai complicate şi s-au
realizat în decursul anilor pe eşantioane de diferite dimensiuni, folosindu-se
distribuţii teoretice de probabilităţi. În anexa 1 am furnizat un asemenea tabel. Dacă reluăm exemplul nostru, am obţinut un coeficient de corelaţie a
rangurilor de 0,96, studiind un lot de cercetare de 10 elevi. În prima coloană
avem mărimea eşantionului. Dacă nu găsim numărul exact de cazuri, vom lua
valoarea inferioară cea mai apropiată. În situaţia noastră, avem 10 subiecţi,
iar rândul care ne interesează este al şaselea rând din acel tabel, unde avem
numărul 10 pe coloana n. Observăm că pentru a fi semnificativ la un prag de
semnificaţie mai mic de 0,05, coeficientul ρ trebuie să aibă cel puţin valoarea
0,64. Dacă dorim să fim mai riguroşi, la un prag de semnificaţie mai mic de
0,02, valoarea acestui coeficient trebuie să fie mai mare de 0,74 iar la un prag
mai mic de 0,01, coeficientul trebuie să depăşească valoarea 0,794. Coeficientul nostru de corelaţie a rangurilor este de 0,96 şi constatăm că ne aflăm la
un prag de semnificaţie mai mic de 0,01. Putem spune că există o legătură
puternică între cele două variabile, la un prag de semnificaţie mai mic de
0,01.
În condiţiile în care numărul de subiecţi este mai mare de 10, putem
testa semnificaţia coeficientului de corelaţie a rangurilor ρ Spearman şi în alt
mod, folosind distribuţia t, deoarece am arătat faptul că acest coeficient nu
23
23. Statistică aplicată în ştiinţele socio-umane
este altceva decât o variantă ordinală a coeficientului r Bravais-Pearson, despre care vom discuta mai târziu.
√
(formula 1.4)
În situaţia noastră, am obţinut un coeficient de corelaţie a rangurilor ρ
de 0,96 pentru un număr de 10 subiecţi. Valoarea testului t va fi:
√
√
√
√
În tabelul din anexa 4 referitor la distribuţia t, vom căuta semnificaţia
valorii testului t pentru un număr de 10-2=8 grade de libertate. La un număr
de 8 grade de libertate, pentru a fi semnificativă corelaţia, valoarea testului t
trebuie să depăşească 1,86 la un prag de semnificaţie mai mic de 0,05 şi 2,89
la un prag de semnificaţie mai mic de 0,01. Rezultatul obţinut, 9,60, este mai
mare de 2,89, rezultând că acest coeficient de corelaţie ρ = 0,96 este semnificativ la un prag de semnificaţie p < 0,01.
O altă variantă prin care putem testa semnificaţia acestui coeficient de
corelaţie, are în vedere faptul că pentru eşantioane mari, distribuţia se apropie
de o distribuţie normală şi putem calcula statistica z, după formula:
√
(formula 1.5)
În situaţia noastră, statistica z va fi 2,88. Raportat la distribuţia z, coeficientul arată o valoare puternic semnificativă a corelaţiei, la un prag de
semnificaţie mai mic de 0,01.
√
√
Coeficientul de corelaţie a rangurilor ρ Spearman este un coeficient de
corelaţie direcţional şi poate avea valori cuprinse între -1 şi +1. Valorile
apropiate de +1 indică existenţa unei asocieri directe (pozitive) între cele do24
24. Cristian Opariuc-Dan
uă variabile, în timp ce valorile apropiate de -1 indică existenţa unei asocieri
inverse (negative). Cu cât valorile se apropie mai mult de 1 (indiferent de
semn), cu atât asocierea este mai puternică, variabilele fiind mai „legate”
între ele.
Un coeficient de corelaţie care are exact valoarea +1 arată că
în cele două variabile există exact aceleaşi ranguri ale scorurilor. Dacă Ionel obţine rangul 5 la matematică, obţine tot rangul
5 şi la fizică; Viorel are rangul 7 la matematică şi rangul 7 la
fizică; Viorica are rangul 3 la matematică şi rangul 3 la fizică
şi aşa mai departe.
Un coeficient de corelaţie care are exact valoarea -1 arată că
rangurile dintr-o variabilă sunt inversul perfect al rangurilor
din cealaltă variabilă. Dacă Dan are rangul 8 la matematică,
are rangul 3 la fizică; Mioara are rangul 6 la matematică şi
rangul 4 la fizică; Costel are rangul 9 la matematică şi rangul 2
la fizică.
Un coeficient de corelaţie cu valoarea 0 semnifică lipsa oricărei legături între cele două variabile şi spunem că cele două
variabile sunt necorelate liniar între ele.
În practică nu găsim aproape niciodată aceste extreme (-1; 0; +1), decât în cazul în care copiem, pur şi simplu, datele dintr-o variabilă într-o altă
variabilă şi apoi calculăm coeficientul de corelaţie, ceea ce, fiind vorba între
noi, s-a mai văzut pe la unii studenţi în lucrările lor „ştiinţifice”. Cu cât valorile coeficientului de corelaţie se apropie mai mult de zero, cu atât variabilele
sunt necorelate, fără legătură între ele; cu cât sunt mai apropiate de 1, cu atât
sunt mai asociate, mai strâns legate, au elemente comune. Între aceste două
extreme, independenţă şi covarianţă, se situează întreaga filozofie şi întreaga putere a coeficienţilor de corelaţie.
25
25. Statistică aplicată în ştiinţele socio-umane
Există o legătură logică între mărimea coeficientului ce corelaţie şi
semnificaţia acestuia. Nu trebuie demonstrat faptul că în cazul în care coeficienţii de corelaţie se apropie de valoarea ±1, deci variabilele sunt puternic
asociate, această asociere este şi semnificativă, pragul de semnificaţie
apropiindu-se de zero, în timp ce la apropierea coeficientului de corelaţie de
valoarea zero, pragul de semnificaţie se apropie şi el de 1, legătura nefiind
semnificativă.
Am făcut aceste precizări în cadrul primului coeficient de corelaţie
studiat, coeficientul de corelaţie ρ Spearman. Informaţiile prezentate mai sus
se aplică tuturor coeficienţilor direcţionali, astfel încât nu le vom mai repeta
în cazul altor coeficienţi de corelaţie, ci ne vom axa doar asupra posibilelor
completări şi proceduri speciale de calcul.
Un ultim aspect care merită a fi menţionat: coeficientul de corelaţie
al rangurilor ρ Spearman este, alături de marea majoritate a coeficienţilor de
acest tip, adimensional şi situat la un nivel ordinal. Adică nu are o unitate de
măsură şi permite comparaţii directe. Putem compara un coeficient ρ cu un
alt coeficient de corelaţie, putem lucra cu mediana coeficienţilor de corelaţie,
etc. Bineînţeles, fiind situat la un nivel de măsură ordinal, nu putem calcula
statistici metrice, nu putem vorbi de media coeficienţilor de corelaţie.
I.1.2 Coeficientul de corelaţie a rangurilor τ (tau) Kendall
Tabelul 1.4 – Rezultate obţinute de 4
elevi la română şi chimie
Nr.
Română
Chimie
1
Satisfăcător
Nesatisfăcător
(2)
(1)
2
Bine
Foarte bine
(3)
(4)
3
Nesatisfăcător
Bine
(1)
(3)
4
Foarte bine
Satisfăcător
(4)
(2)
Este un alt coeficient de corelaţie
pentru date neparametrice, dezvoltat de
statisticianul englez Maurice Kendall în
anul 1938, fiind mai precis decât ρ
Spearman în cazul variabilelor ce se situează într-un mod real la un nivel pur ordinal. Procedurile de calcul ale acestui
coeficient diferă între ele, însă toate se
26
26. Cristian Opariuc-Dan
bazează pe numărarea inversiunilor (cazul în care un element care are un
rang mai mare pentru o variabilă, se situează în faţa unui element cu un rang
mai mic, datele fiind ordonate după cealaltă variabilă) şi a opusului acestora,
numit şi proversiuni (Vasilescu, 1992).
Ca să înţelegem mai bine cum stau lucrurile, să luăm un exemplu. Să
presupunem că într-o clasă au fost evaluaţi un număr de patru elevi la limba
română şi la chimie, obţinându-se rezultatele din tabelul 1.4. Aceste date nu
pot fi asociate unor date la un nivel scalar, fiind în mod cert date ordinale.
Dacă notăm calificativul nesatisfăcător cu 1, satisfăcător cu 2, bine cu
3, foarte bine cu 4 şi excepţional cu 5, putem obţine expresia numerică a
acestor evaluări. Vă reamintesc faptul că aceste cifre nu reprezintă decât nişte
coduri asociate calificativelor şi nu au valoare în sine. La acest nivel putem
doar ordona elevii în funcţie de calificative (de la nesatisfăcător la excepţional) şi nu putem preciza cu cât un elev este mai bun decât celălalt (vezi referinţele la scale de măsură din lucrarea anterioară).
Calcularea numărului de inversiuni se face prin ordonarea datelor după prima variabilă. Ordonând datele, tabelul se prezintă în felul următor (tabelul 1.5).
Tabelul 1.5 – Ordonarea după variabila Română
Inversiunile vor fi calculate în baNr.
Română
Chimie
Nesatisfăcător
Bine
za celei de-a doua variabile (chimie)
3
(1)
(3)
urmărindu-se, pe rând, ordinea naturală a
Satisfăcător
Nesatisfăcător
1
rangurilor. Pentru prima linie, subiectul
(2)
(1)
Bine
Foarte bine
are rangul 3 la chimie. Acest rang este
2
(3)
(4)
mai mare decât rangul la chimie pentru a
Foarte bine
Satisfăcător
4
(4)
(2)
doua linie (1), deci avem de-a face cu o
inversiune. Prima inversiune găsită este (3 – 1). Comparând prima linie cu a
treia (rangul 3 cu rangul 4, tot pe coloana „chimie”), observăm că cele două
ranguri sunt în ordine naturală, deci nu apare o inversiune în acest caz. O altă
inversiune apare la compararea primei linii cu ultima (inversiunea 3 – 2).
27
27. Statistică aplicată în ştiinţele socio-umane
A doua linie nu presupune inversiuni, toate comparaţiile fiind în ordinea naturală (atât comparaţia rangului 1 cu rangului 4 cât şi comparaţia rangului 1 cu rangului 2), lucru evident, deoarece rangul acestei linii este 1 şi nu
există nici un rang mai mic decât 1. A treia linie presupune compararea rangului 4 cu rangul 2 (liniile 3 şi 4). Observăm, în sfârşit, o ultimă inversiune
sub forma perechii 4 – 2.
Aşadar, în şirul determinat de variabila „chimie”, avem un număr de 3
inversiuni (perechile 3 – 1, 3 – 2 şi 4 – 2) şi un număr de 3 proversiuni (perechile 3 – 4, 1 – 4 şi 1 – 2). Calculul coeficientului τ Kendall se face diferit, în
funcţie de existenţa sau inexistenţa elementelor cu acelaşi rang. În cazul nostru, observăm că nu există elemente cu acelaşi rang, situaţie în care putem
aplica prima formulă de calcul a coeficientului τ Kendall:
(formula 1.6)
unde I reprezintă numărul de inversiuni, iar n numărul de subiecţi
Înlocuind în formula noastră, unde au fost 3 inversiuni şi 4 subiecţi, obţinem următorul coeficient de corelaţie a
rangurilor:
Tabelul 1.6 – Ordonarea după variabila Română
Nr.
Română
Chimie
1
Nesatisfăcător
Bine
(1)
(3)
2
Satisfăcător
Nesatisfăcător
(2)
(1)
3
Bine
Foarte bine
(3)
(4,5)
4
Foarte bine
Satisfăcător
(4)
(2)
5
Excepţional
Foarte bine
(5)
(4,5)
Iată o primă situaţie în care nu
există nici o legătură între cele două variabile. Acest lucru se datorează, evident,
numărului extrem de mic de subiecţi luaţi în calcul, faptului că informaţia
este insuficientă pentru a ne permite formularea unor concluzii utile. Acest
coeficient de corelaţie se mai numeşte coeficientul de corelaţie τa. Există şi
alte variante ale acestui coeficient, având exact aceeaşi semnificaţie, (τb şi τc),
28
28. Cristian Opariuc-Dan
pe care nu le vom discuta aici. Menţionăm numai ca τb se foloseşte în cazul
variabilelor cu un număr egal de modalităţi de realizare (tabele pătratice), iar
τc se foloseşte în cazul variabilelor cu un număr inegal de modalităţi de realizare (tabele rectangulare).
Dacă există elemente cu acelaşi rang în cazul celei de-a doua variabile, lucrurile se complică puţin. Vom relua exemplul anterior pentru 5 subiecţi,
la aceleaşi discipline (tabelul 1.6).
Observăm că în cazul primei variabile nu avem ranguri care se repetă,
în timp ce pentru variabila chimie avem două cazuri în care se repetă calificativul foarte bine. În aceste situaţii, ordonăm datele după variabila care nu are
elemente cu acelaşi rang – în cazul nostru, după variabila română. Ştim că
dacă două sau mai multe elemente ocupă aceeaşi poziţie, rangul lor devine
media poziţiilor pe care se află. Cele două elemente cu calificativul foarte
bine ocupă poziţiile 4 şi 5, rangul lor fiind acelaşi, 4,5. Aceste elemente poartă numele de ambiversiuni şi reprezintă un nou concept în calculul coeficientului de corelaţie, alături de inversiuni şi proversiuni.
În condiţiile în care nu sunt elemente cu ranguri egale, atunci putem
spune că numărul inversiunilor şi cel al proversiunilor este egal cu suma primelor n-1 numere naturale. Adică
. Din acest lucru putem de-
duce un alt element, numit suma lui Kendall şi notat cu S. Suma lui Kendall
se defineşte după formula
. Dacă nu ar exista inversiuni,
adică I=0, atunci s-ar obţine valoarea maximă a acestei sume, astfel încât
În baza acestor sume, formula generalizată a coeficientului de corelaţie a rangurilor τ Kendall devine:
(formula 1.7)
29
29. Statistică aplicată în ştiinţele socio-umane
Practic nu am făcut decât să generalizăm formula anterioară de calcul
a acestui coeficient, pentru a include un alt element şi anume cel de corecţie
a ambiversiunilor. Dacă apar ambiversiuni, suma maximă se reduce cu acest
element de corecţie, după formula următoare:
∑
(formula 1.8)
unde fp este numărul de asocieri de p elemente şi p se referă la numărul elementelor.
În exemplul nostru, avem o singură pereche de elemente, şi anume cele cu rangurile 4,5. Astfel, valoarea A devine
.
Pentru o clarificare mai bună a modalităţii de calcul al acestui element, să
luăm un alt exemplu de ranguri:
Note:
2; 3; 5; 5; 5; 6; 7;
7; 8; 9; 10;
10; 11; 12
Poziţie:
1; 2; 3; 4; 5; 6; 7;
8; 9; 10; 11; 12; 13; 14
Rang
1; 2; 4; 4; 4; 6; 7,5; 7,5, 9; 10; 11,5; 11,5; 13; 14
Observăm că avem două perechi de elemente (7 cu rangurile 7,5 şi 10
cu rangurile 11,5) şi o asociere cu 3 elemente (5 cu rangurile 4). Aplicând
formula pentru ambiversiune, obţinem
(
)
(
)
.
Existenţa acestor ambiversiuni reduce atât numărul maxim de legături
ierarhice, cât şi suma lui Kendall, cu valoarea inversiunilor (Vasilescu, 1992).
Astfel,
şi, de asemenea,
(
)
. Cu-
noscând acum aceste date şi formula generalizată pentru coeficientul τ Kendall de corelaţie a rangurilor, putem deduce cu uşurinţă noua formulă pentru
cazul în care una dintre variabile are elemente de acelaşi rang.
30
30. Cristian Opariuc-Dan
(
)
(formula 1.9)
Reluând exemplul de mai sus, avem un număr de 3 inversiuni (3 – 1;
3 – 2; 4,5 – 2) şi o ambiversiune (4,5 – 4,5). Toate datele sunt cunoscute şi nu
ne rămâne decât să înlocuim în formulă, obţinând coeficientul τ Kendall de
0,55.
Tabelul 1.7 – Calificativele obţinute la
limba română şi la chimie
Nr.
Română
Chimie
1
Satisfăcător
Bine
(2)
(3)
2
Satisfăcător
Nesatisfăcător
(2)
(1)
3
Bine
Bine
(3)
(3)
4
Foarte bine
Satisfăcător
(4)
(2)
5
Excepţional
Foarte bine
(5)
(4)
6
Foarte bine
Bine
(4)
(3)
7
Nesatisfăcător
Satisfăcător
(1)
(2)
8
Bine
Foarte bine
(3)
(4)
√(
)(
Deşi este puţin mai complicat şi
presupune calculul unui indicator suplimentar, algoritmul nu pune probleme
deosebite.
Să vedem în continuare modul de
calcul al acestui coeficient în condiţiile în
care ambele variabile au elemente de
acelaşi rang. De data aceasta, algoritmul
implică mai multe etape, deoarece avem
ambiversiuni atât în cazul primei variabile, cât şi în cazul celei de-a doua variabile. Suma Kendall va deveni
iar suma maximă se calculează în baza
formulei
), unde Ax şi Ay sunt ambiversiunile din
cele două variabile, iar S- şi S+ sunt sumele calculate numai din rangurile ce-
31
31. Statistică aplicată în ştiinţele socio-umane
lei de-a doua variabile. Nu va speriaţi. Clarificăm imediat aceste concepte
abstracte.
Având în vedere formula generalizată pentru coeficientul de corelaţie
τ Kendall şi cunoscând sumele, putem da expresia formulei de calcul a coeficientului, în condiţiile în care găsim ambiversiuni atât în prima, cât şi în a
doua variabilă:
√(
(formula 1.10)
)(
)
Pentru a nu intra în detalii teoretice inutile, să considerăm că un număr de 8 elevi au obţinut următoarele calificative la limba română şi la chimie (tabelul 1.7).
Datele din tabelul 1.7 nu sunt ordonate după nicio variabilă şi putem
observa cu uşurinţă că atât calificativele la limba română, cât şi cele de la
chimie, vor conţine elemente cu ranguri egale.
Pentru a calcula S+, se ordonează crescător elementele după prima variabilă (română). În cazul în care întâlnim ranguri egale ale primei variabile
(română), elementele vor fi aranjate crescător, în funcţie de a doua variabilă
(chimie). Obţinem, astfel, un nou şir numit în termeni de specialitate Y+, pe
baza căruia calculăm ambiversiunile Ay şi inversiunile, după care putem afla
suma S+, în mod similar sumei prezentate în capitolul anterior. Vom rearanja
tabelul de mai sus pentru a putea calcula mai uşor aceste elemente.
Tabelul 1.8 – Rearanjarea rangurilor în vederea calculului S+
Număr elev
7
2
1
3
8
4
6
Calificativ română
1 NS
2S
2S
3B
3B
4 FB
4 FB
Poziţie
1
2
3
4
5
6
7
Rang română
1
2,5
2,5
4,5
4,5
6,5
6,5
Calificativ chimie
2S
1 NS
3B
3B
4 FB
2S
3B
Rang chimie
2,5
1
5
5
7,5
2,5
5
32
5
5E
8
8
4 FB
7,5
32. Cristian Opariuc-Dan
Suma S+ se va calcula ţinând cont doar de rangurile celei de-a doua
variabile, în cazul nostru, chimia. Din tabelul 1.8 observăm că apare de două
ori rangul 2,5, de trei ori rangul 5 şi de 2 ori rangul 7,5. Numărul de legături
∑
ambiverte (Ay) va fi, prin urmare,
(
)
(
)
, deoarece avem două legături cu 2 elemente şi o singură
legătură cu 3 elemente.
Perechile de inversiuni în variabila chimie vor fi (2,5 – 1), (5 – 2,5),
(5 – 2,5), (7,5 – 2,5), (7,5 – 5), (5 – 7,5), vorbind, astfel, de un număr de 6
inversiuni. Cu toate aceste elemente putem acum calcula suma S+, aplicând
formula de mai sus şi obţinem valoarea 11.
(
)
(
)
Tabelul 1.9 – Rearanjarea rangurilor în vederea calculului SNumăr elev
7
1
2
8
3
6
7
Calificativ română
1 NS
2S
2S
3B
3B
4 FB
4 FB
Poziţie
1
2
3
4
5
6
7
Rang română
1
2,5
2,5
4,5
4,5
6,5
6,5
Calificativ chimie
2S
3B
1 NS
4 FB
3B
3B
2S
Rang chimie
2,5
5
1
7,5
5
5
2,5
5
5E
8
8
4 FB
7,5
Calcului sumei S- se face în mod similar, singura diferenţă este că la
ranguri egale ale primei variabile, elementele celei de-a doua variabile se
ordonează descrescător, obţinându-se şirul Y-, restul algoritmului rămânând
neschimbat.
Fiind acelaşi număr de ranguri egale în cea de-a doua variabilă, indicele legăturilor ambiverte nu se schimbă. Se modifică doar numărul de inversiuni în acest caz, astfel (2,5 – 1), (5 – 1), (5 – 2,5), (7,5 – 5), (7,5 – 5), (7,5 –
2,5), (5 – 2,5), (5 – 2,5), rezultând un număr de 8 inversiuni. Înlocuind în
formulă, vom avea S- în valoare de 7.
33
33. Statistică aplicată în ştiinţele socio-umane
(
)
(
)
Având valorile pentru S+ şi S-, putem acum calcula suma lui Kendall
Pentru a putea calcula Smax ,va trebui să aflăm doar numărul de legături ambiverte din prima variabilă (Ax), în cazul nostru limba română. Avem
trei legături de câte 2 elemente, 2,5 4,5 şi 6,5. Ştim acum formula de calcul şi
∑
putem afla uşor această valoare.
(
)
Nu ne rămâne decât să completăm formula de calcul şi obţinem valoarea
23,97.
√(
)(
√
)
√(
)(
)
√
Coeficientul de corelaţie τ Kendall, în acest caz ca raport al celor două
sume, devine
.
Se pare că v-aţi obişnuit cu mai puţine calcule în lucrarea anterioară.
Aceasta este situaţia. În definitiv, am trecut la stabilirea relaţiilor dintre variabile, nu mai lucrăm cu una, ci cu două variabile în acelaşi timp şi este normal să se complice puţin şi calculele. Din fericire, aveţi ceva mai mult de
adunat, scăzut sau înmulţit iar formulele vă pot speria doar la prima vedere.
În definitiv, algoritmii de calcul sunt destul de simpli. Singura problemă este
aceea că la un număr mare de subiecţi trebuie să fiţi extrem de atenţi, altfel vă
puteţi încurca uşor. Bine că avem, însă, computerele care ne scot din impas.
Imaginaţi-vă doar cum lucrau cercetătorii prin anii `30 ai secolului XX şi veţi
putea înţelege ce norocoşi suntem noi acum.
34
34. Cristian Opariuc-Dan
Acest coeficient de corelaţie se poate utiliza în condiţiile în care ambele variabile sunt ordinale sau o variabilă este ordinală, iar cealaltă este scalară.
I.1.2.1 Semnificaţia coeficientului τ Kendall
Care este semnificaţia coeficientului de corelaţie τ Kendall? Deoarece
acest coeficient se bazează practic pe numărarea perechilor diferite provenite
din două şiruri ordonate de date, ea nu reprezintă altceva decât o diferenţă
dintre probabilitatea elementelor de a fi în aceeaşi ordine şi probabilitatea
elementelor de a fi într-o altă ordine (Kenny, 1987).
Coeficientul τ Kendall este un coeficient direcţional, având aceeaşi
semnificaţie interpretativă ca şi coeficientul ρ Spearman. În anexa 2 am furnizat tabelele de referinţă ale valorilor acestui coeficient pentru diferite praguri de semnificaţie.
Deoarece la valori mari ale numărului de subiecţi, distribuţia τ Kendall se apropie de distribuţia normală, este posibil, atunci când numărul de
subiecţi este mai mare de 30, să se calculeze statistica z pentru coeficientul
de corelaţie τ Kendall, după formula următoare:
(formula 1.11)
√
Dacă am obţine un coeficient de corelaţie τ Kendall de 0,42 pe un
număr de 34 de subiecţi, atunci statistica z a acestui coeficient devine 5,25,
valoare puternic semnificativă ce indică legătura dintre cele două variabile
analizate.
√
√
√
√
35
35. Statistică aplicată în ştiinţele socio-umane
Statistica z a coeficientului de corelaţie τ Kendall se raportează la distribuţia z, pe baza tabelelor de distribuţie z prezentate în anexa 8.
I.1.3 Coeficientul de contingenţă χ2 (chi pătrat)
Este greu de definit χ2. A fost conceput de Pearson şi putem afirma,
fără să ne înşelăm prea tare, că statisticile neparametrice încep şi se termină
cu χ2, atât de mare este importanţa acestui indicator utilizat în studii corelaţionale şi factoriale cu date nominale. Rolul său este esenţial în analiza datelor
nominale, coeficientul putând fi folosit în stabilirea relaţiilor dintre două variabile dihotomice, ale unei variabile dihotomice cu una nominală, şi ale celor
în care intervin o variabilă nominală şi una ordinală, sau o variabilă nominală
şi una scalară. Practic, atunci când avem de a face cu o variabilă nominală,
cel mai pertinent indicator este acest χ2.
χ2 este un coeficient de asociere între două variabile nominale. El măsoară gradul de contingență al celor două variabile, verificând dacă sunt sau
nu sunt asociate în vreun fel. În realitate, acest coeficient pare mai degrabă un
test statistic decât un indicator al gradului de asociere. Spre exemplu, avem o
cercetare în care dorim să stabilim în ce măsură se asociază genul biologic al
unor subiecţi şi calitatea de fumător. Suntem în situaţia unei variabile nominale şi a unei variabile dihotomice. În acest caz vom utiliza aşa-numitele tabele de contingenţă, pe baza cărora vom calcula χ2.
Tabelul 1.10 – Tabelul de contingenţă cu frecvenţele estimate pentru χ2
Calitate fumător
Da
Nu
35
64
Bărbaţi
Bărbaţi
(27,87)
(71,12)
99
Gen biologic
23
84
Femei
Femei
(30,12)
(76,87)
107
Fumători
Nefumători
Total
58
148
206
36
36. Cristian Opariuc-Dan
La această cercetare au participat un număr de 206 persoane, 99 bărbaţi şi 107 femei. Dintre aceştia, 58 sunt fumători, iar 148 nefumători.
Ipoteza nulă de la care pleacă χ2 este aceea conform căreia nu există
nicio asociere între aceste două variabile. Cu alte cuvinte, frecvenţele de apariţie ale cazurilor nu sunt diferite de situaţia în care toate cele patru variante
ar avea o frecvenţă de apariţie teoretică (frecvența corespunzătoare situației
în care cele două variabile ar fi independente). Datorită acestui fapt, atunci
când lucrăm cu χ2, ne putem exprima în frecvenţe relative sau în frecvenţe
absolute. Ideea testului χ2 este aceea a comparării acestor frecvenţe observate
cu situaţia în care celulele ar avea frecvenţele teoretice estimate, prin frecvențe teoretice estimate înțelegând frecvențele pentru cazul în care cele două
variabile ar fi independente. Dacă diferenţele între frecvenţele observate şi
cele estimate (teoretice) sunt mari, atunci vorbim de un χ2 semnificativ, fapt
care indică existenţa unei asocieri între cele două variabile. Dar cum se obţine practic acest lucru? Primul pas este acela al calculării frecvenţelor estimate
pentru fiecare dintre cele patru celule care ne interesează. Acest lucru se face
foarte simplu pe baza formulei:
(formula 1.12)
Pentru prima coloană (bărbaţi fumători) vom avea o frecvenţă estimată de
. Pentru bărbaţi nefumători avem
, pentru femeile fumătoare frecvenţa aşteptată devine
, iar pentru femeile nefumătoare vom avea
.
Odată stabilite frecvenţele teoretice (estimate), urmează calcularea
coeficientului χ2. La acest nivel putem distinge două situaţii.
În cazul în care cel puţin una dintre cele două variabile are mai
mult de două categorii (de exemplu o variabilă de tipul ocupa37
37. Statistică aplicată în ştiinţele socio-umane
ţiei cu variantele muncitor, maistru şi inginer), se aplică formula generală a coeficientului χ2.
∑
(formula 1.13)
Dacă cele două variabile au exact câte două categorii fiecare,
atunci se aplică o formulă de corecţie pentru continuitate.
∑
|
|
(formula 1.14)
Noi ne aflăm în cea de-a doua situaţie, astfel încât vom aplica, pentru
fiecare dintre cele patru celule, formula corectată şi vom obţine valoarea 4,2
pentru coeficientul de contingenţă χ2.
∑
|
|
|
|
|
|
|
|
|
|
Ce facem acum cu acest coeficient obţinut? Va trebui să-l verificăm la
un prag de semnificaţie stabilit, pentru a vedea dacă putem sau nu respinge
ipoteza nulă. Dar înainte de aceasta vom stabili gradele de libertate. Ştiu că
nu aveţi o idee prea clară referitoare la acest concept. Aveţi răbdare, o vom
discuta imediat. În cazul nostru, gradele de libertate se calculează înmulţind
numărul categoriilor fiecărei variabile din care se scade unu. Adică,
df=(CatX-1)(CatY-1). Noi avem două variabile cu două categorii şi rezultă (21)(2-1)=1 grad de libertate. În acest moment avem toate informaţiile pentru a
stabili dacă acest coeficient de contingenţă este sau nu este semnificativ.
38
38. Cristian Opariuc-Dan
Coeficientul de contingenţă χ2, după cum aţi putut constata, este simplu de înţeles şi de calculat. De aceea, voi „risca” să abordez, în cele ce urmează, o perspectivă ceva mai „matematizată” asupra datelor neparametrice,
deoarece un stil asemănător îl puteţi întâlni în cele mai multe lucrări din acest
domeniu.
Tabelele de contingenţă (asociere) sunt intens folosite atunci când lucrăm cu date discrete. În momentul în care reprezentăm, folosind un asemenea tabel, doar două variabile, vorbim de tabele de contingenţă bidimensionale, deoarece există posibilitatea reprezentării mai multor variabile în acelaşi tabel, caz în care ne vom referi la tabele de contingenţă multidimensionale.
În tabelul 1.11 v-am furnizat reprezentarea generală a unui tabel de
contingenţă bidimensional. Putem observa că variabila X are un număr de i
categorii (unde, spre exemplu, i poate fi 2, în cazul variabilei sex – masculin
şi feminin, ori 4 în cazul culorii ochilor – albastru, verde, negru, căprui), iar
variabila Y are un număr de j categorii. Prin însumarea datelor, la nivelul
fiecărei categorii, obţinem un nou tip de rubrică, numită secţiunea datelor
marginale. Coloana „Total X”, respectiv linia „Total Y” se referă exact la
acest tip de date.
Tabelul 1.11 – Reprezentarea generală a unui tabel de contingenţă bidimensional
Categorie 1
Categorie 2
Variabila
X
.
.
Categorie i
Total Y
Categorie 1
n11
e11
n21
e21
.
.
ni1
ei1
∑nY1
∑eY1
Variabila Y
Categorie 2
…
Categorie j
n12
…
n1j
e12
…
e1j
n22
…
n2j
e22
…
e2j
.
…
.
.
…
.
ni2
…
nij
ei2
…
eij
∑nY2
…
∑nYj
∑eY2
…
∑eYj
39
Total X
∑nX1
∑eX1
∑nX2
∑eX1
.
.
∑nXi
∑eX1
n
e
39. Statistică aplicată în ştiinţele socio-umane
Numărul de cazuri din fiecare categorie îl notăm, aşa cum ştim deja,
cu litera n, căreia i se adaugă indici arătând numărul liniei și numărul coloanei. Astfel, subiecţii din categoria 1 pentru variabila X şi categoria 1 pentru
variabila Y, se notează cu n11 (spre exemplu, bărbaţii cu ochi albaştri). Subiecţii din categoria 2 pentru variabila X şi din categoria 1 pentru variabila Y
se notează cu n21 (de exemplu femeile cu ochi albaştri) şi aşa mai departe.
Generalizând parţial, vom spune că subiecţii din categoria 1 pentru variabila
X şi din categoria j pentru variabila Y se notează n1j; similar, subiecţii din
categoria 1 pentru variabila Y şi din categoria i pentru variabila X se notează
ni1. Înţelegând acest stil de notare, vom spune că numărul de subiecţi din categoria i în cazul variabilei X şi din categoria j în cazul variabilei Y se poate
nota nij.
Rezultatele marginale urmează aceeaşi logică. Toţi subiecţii aflaţi în
categoria 1 a variabilei X sunt reprezentaţi de ∑nX1 (de exemplu, toţi bărbaţii,
indiferent de culoarea ochilor). Toţi subiecţii aflaţi în categoria 1 a variabilei
Y sunt reprezentaţi de ∑nY1 (de exemplu, toţi subiecţii cu ochi albaştri, indiferent de sex). În general, toţi subiecţii din categoria i a unei variabile şi din
categoria j a celeilalte variabile sunt reprezentaţi de ∑nij.
Referindu-de strict la χ2, putem raţiona în acelaşi mod atunci când
vorbim despre frecvenţele estimate, notate în cazul nostru cu e. Nu vom detalia raţionamentul, vă lăsăm pe dumneavoastră să o faceţi.
Cunoscând toate aceste date, să revedem formula pentru χ2, în condiţii
de maximă generalitate. Vă reamintim formula iniţială, apoi vom proceda la
deducerea noii formule.
∑
∑ ∑
40
(formula 1.15)
40. Cristian Opariuc-Dan
Nu s-a schimbat nimic în logica aplicării formulei. S-a schimbat doar
notaţia şi modul în care s-au abstractizat conceptele. Formula 1.15 este valabilă doar dacă cel puțin una dintre variabile are mai mult de două categorii.
Desigur, intuiesc întrebarea care vă vine în minte în acest moment.
Probabil că vă gândiţi la ce foloseşte complicarea lucrurilor. Nu era suficientă
o singură formulă? Nu ajunge prezentarea modalităţii efective de calcul? De
ce avem nevoie de formule generalizate şi alte asemenea lucruri care ţin mai
mult de o abordare matematică? Răspunsul comportă o serie de aspecte. În
primul rând, formule de acest tip, şi altele, mult mai complexe, găsiţi în lucrări de specialitate, comunicări ştiinţifice şi articole. Este bine să le puteţi
înţelege şi să puteţi lucra cu ele. În al doilea rând, cel mai probabil că în carieră veţi fi pus în situaţia de a redacta un articol ştiinţific. Normele de acceptare şi de publicare ale unor asemenea lucrări impun prezentarea formulelor
generalizate, folosindu-se notaţii universale. În al treilea rând, vă dezvoltaţi,
pas cu pas, gândirea matematică şi vă familiarizaţi cu limbajul. Vrem nu
vrem, statistica este totuşi o ramură a matematicii, iar noi nu putem face abstracţie de acest lucru.
I.1.3.1 Semnificaţia coeficientului de contingenţă χ2
Acest coeficient este unul nedirecţional şi dimensional; nu putem
compara acest coeficient cu alţi coeficienţi de asociere. Această ultimă situaţie creează probleme în interpretare, probleme legate de magnitudinea asocierii dintre cele două variabile.
După stabilirea gradelor de libertate, comparăm coeficientul obţinut
cu valoarea de referinţă a distribuţiei χ2 pentru numărul de grade de libertate
găsit. Tabelul distribuţiei χ2 pentru diferite grade de libertate este prezentat în
anexa 3.
În cazul nostru, avem o valoare χ2 de 4,2 la un număr de 1 grade de libertate. Parcurgând prima linie, corespunzătoare unui singur grad de libertate,
41
41. Statistică aplicată în ştiinţele socio-umane
observăm că acest coeficient este semnificativ la un prag de semnificaţie mai
mic de 0,05, deoarece valoarea este mai mare de 3,84146, valoarea de referinţă pentru acest prag. Coeficientul nu este semnificativ la un prag de semnificaţie mai mic de 0,02 sau mai mic de 0,01, deoarece 4,2, pe care l-am obţinut, este mai mic decât valoarea de referinţă pentru pragul de semnificaţie
0,02 sau 0,01 (5,02389, respectiv 6,63490). Nu putem deocamdată spune care
este intensitatea, magnitudinea acestei asocieri, din motivele expuse mai sus.
Coeficientul de contingenţă χ2 permite doar identificarea unei contingenţe
între variabile. Nu putem fi siguri, însă, de intensitatea acesteia.
Observăm că acest coeficient este sensibil la mărimea lotului de cercetare. Dacă lotul de cercetare este prea mic, χ2 va fi supraestimat; dacă lotul
de cercetare este prea mare, χ2 poate fi subestimat. Va fi necesară, aşadar,
găsirea unei soluţii de standardizare, soluţie prin care să evităm aceste supra
sau subestimări şi să găsim magnitudinea contingenţei. Pentru a se elimina
aceste dezavantaje, au fost calculaţi alţi coeficienţi derivaţi din χ2, şi anume
coeficientul de asociere φ, coeficientul V Cramer, coeficientul de contingenţă
(cc) şi alţii.
I.1.4 Coeficientul de asociere φ (phi), coeficientul V Cramer
şi coeficientul de contingenţă (cc), derivaţi din χ2
Coeficientul de asociere φ este un coeficient foarte simplu, derivat
din χ şi se calculează pentru două variabile dihotomice, care înregistrează, în
special, prezenţa sau absenţa unei caracteristici. Dacă ne interesează relaţia
dintre ochii albaştri şi părul blond, vom putea concepe două variabile prin
care să stocăm prezenţa şi absenţa ochilor albaştri, respectiv prezenţa şi absenţa părului blond. Evident, ambele variabile sunt la un nivel nominal de
măsură, şi se bazează pe un tip special de distribuţie discretă, astfel încât coeficientul φ este un coeficient ce lucrează cu frecvenţe absolute sau relative.
2
La modul general, tabelul de lucru se prezintă sub forma unei structuri
cu 4 celule.
42
42. Cristian Opariuc-Dan
Tabelul 1.12 – Schema generală de calcul a coeficientului φ
Variabila X
Absenţă X
Prezenţă X
Absent X
Prezent X
Prezenţă Y
Prezent Y
Prezent Y
Variabila Y
Prezent X
Absent X
Absenţă Y
Absent Y
Absent Y
În calculul acestui coeficient suntem interesaţi doar de câteva cazuri:
cazul în care sunt prezente caracteristicile pentru ambele variabile (celula
Prezent X şi Prezent Y), cazul în care este prezentă doar variabila X (suma
celulelor Prezent X, Prezent Y şi Prezent X, Absent Y) şi cazul în care este
prezentă doar variabila Y (suma celulelor Prezent X, Prezent Y şi Absent X,
Prezent Y). Formula de calcul a acestui coeficient este:
(formula 1.16)
√
Această formulă nu este, practic, altceva decât rădăcina pătrată din raportul dintre χ2 şi numărul de cazuri. Putem spune că
√ .
Să reluăm exemplul legăturii dintre prezenţa părului blond şi prezenţa
ochilor albaştri.
Tabelul 1.13 – Coeficientul φ pentru relaţia dintre părul blond şi ochii
albaştri
Ochi albaştri
Da
Nu
Blond fără ochi
Blond cu ochi
Da
albaştri
albaştri
(n=54)
(n=80)
Păr blond
Fără blond cu
Fără blond, fără
Nu
ochi albaştri
ochi albaştri
(n=33)
(n=48)
Total albaştri
(80+33)
(n=113)
43
Total blonzi
(80+54)
(n=134)
43. Statistică aplicată în ştiinţele socio-umane
Avem următoarele date: un număr de 80 de blonzi cu ochi albaştri
(PXY), un număr total de 134 de blonzi (PX) şi un număr total de 113 persoane
cu ochi albaştri (PY). Sigur că posedăm toate datele necesare pentru a calcula
coeficientul φ. Putem înlocui în formulă aceste frecvenţe absolute sau putem
converti frecvenţele absolute în proporţii, pentru evitarea numerelor kilometrice. În definitiv, rezultatul va fi acelaşi. La cercetarea noastră au participat
un număr de 80+54+33+48=215 persoane. Proporţia blonzilor cu ochi albaştri este PXY=80/215=0,37, proporţia blonzilor PX=134/215=0,62 şi proporţia
celor cu ochi albaştri este de PY=113/215=0,52. Aceste date pot fi acum introduse în formulă, obţinându-se valoarea 0,21 pentru coeficientul de corelaţie φ.
√
√
Acest coeficient de corelaţie se foloseşte doar într-un singur caz, respectiv cel în care ambele variabile sunt dihotomice. În cazul în care una dintre variabile nu mai este dihotomică, acest coeficient devine nerelevant.
Pearson, autorul acestui coeficient, a sesizat această dificultate în utilizarea lui; dacă dimensiunea tabelului de contingenţă creşte (dacă una dintre
variabile nu mai este dihotomică), amplitudinea acestui coeficient creşte şi ea
(Liebetrau, 1983). Pentru a contracara acest efect, s-a propus o variantă ajustată, numită ajustarea Sakoda, rezultând coeficientul de contingenţă Pearson.
Coeficientul de contingenţă Pearson reprezintă o altă variantă derivată din χ2, de fapt fiind vorba despre coeficientul φ ajustat, şi se calculează
în baza formulei următoare:
√
(formula 1.17)
44
44. Cristian Opariuc-Dan
Nu intrăm în detalii legate de acest coeficient, simplitatea lui excluzând orice fel de comentarii. Vom înlocui doar în formulă datele utilizate în
exemplul anterior.
√
√
√
√
Coeficientul de contingenţă nu este altceva decât o formă ajustată a
coeficientului de asociere φ, putând fi utilizat pentru orice tip de variabile
neparametrice. Dacă nu mă credeţi, aplicaţi a doua formulă a coeficientului
de asociere φ, bazată pe valoarea lui χ2, şi veţi obţine acelaşi rezultat.
Coeficientul de contingenţă Tschuprow se notează cu t (nu este acelaşi lucru cu testul de diferenţă semnificativă între mediile eșantioanelor,
Student t) şi are, la bază, de această dată, coeficientul φ.
A fost propus în anul 1919 de către matematicianul rus Alexander
Alexandrovici Tschuprow, formula de calcul fiind:
√√
(formula 1.18)
Acest coeficient ţine seama doar de numărul de categorii din cadrul
fiecărei variabile şi de valoarea lui φ, fiind vorba, de fapt, de o ajustare a
acestui coeficient, similară celei efectuate de Pearson.
Dacă reluăm exemplul relaţiei dintre ochii albaştri şi părul blond, în
care am obţinut φ=0,21, observăm că fiecare variabilă are doar două categorii. În acest caz, coeficientul de contingenţă Tschuprow devine:
√
√
√
√
√
√
√
√
Desigur, am obţinut valoarea iniţială a coeficientului φ. În realitate,
acest coeficient ajustează valoarea lui φ în condiţiile în care cel puţin una
45
45. Statistică aplicată în ştiinţele socio-umane
dintre variabile prezintă mai mult de două categorii, fiind o versiune mai precisă a coeficientului de contingenţă Pearson.
Coeficientul de asociere v Cramer se foloseşte în cazul în care cel
puţin una dintre variabile are mai mult de două modalităţi de realizare şi poate fi definit după formula următoare:
√
(formula 1.19)
unde l reprezintă minimum dintre numărul liniilor şi numărul coloanelor, iar n numărul subiecților.
Dacă o variabilă are 3 categorii şi una 2 categorii, atunci l va lua valoarea 2, valoarea variabilei cu cele mai puţine categorii.
Reluând exemplul utilizat la analiza coeficientului ce contingenţă χ2,
am avut fumătorii şi genul biologic, variabile cu două categorii fiecare, deci l
va avea valoarea 2. În acelaşi timp, numărul total a fost de 206 subiecţi pentru care am obţinut valoarea 4,2 pentru χ2. Înlocuind în formulă, obţinem 0,14
valoarea coeficientului de asociere v Cramer.
√
√
√
√
I.1.4.1 Semnificaţia coeficienţilor de asociere
Aceşti coeficienţi de asociere au fost stabiliţi în ideea compensării
dezavantajelor coeficientului de contingenţă χ2. Prin urmare, toate interpretările legate de semnificaţia acestora se bazează pe interpretarea coeficientului
χ2, de aceea nu vom intra în detalii. Practic, întâi se interpretează semnificaţia
lui χ2 la un prag de semnificaţie stabilit şi apoi intensitatea asocierii în baza
unuia dintre coeficienţi.
46
46. Cristian Opariuc-Dan
Dacă luăm exemplul coeficientului de contingenţă, acesta are valoarea
0,14. Am arătat deja că această valoare este semnificativă la un prag de semnificaţie mai mic de 0,05 (χ2 avea valoarea 4,2; pragul de semnificaţie la un
număr de 1 grade de libertate fiind mai mic de 0,05). Din coeficientul de contingenţă putem deduce faptul că asocierea dintre cele două variabile este slabă (vom vedea imediat ce înseamnă acest lucru), însă semnificativă. Iată că
pe baza acestor coeficienţi derivaţi, putem stabili acum şi intensitatea contingenţei.
Toţi coeficienţii sunt nedirecţionali. Aceasta înseamnă că pot lua valori cuprinse între 0 şi 1, unde apropierea de zero indică lipsa asocierii dintre
variabile, iar valorile apropiate de 1 arată puterea asocierii acestora.
O singură observaţie se mai impune la acest capitol. Mă veţi întreba,
desigur, cum stabilesc semnificaţia pentru coeficientul φ, dacă aplic direct
prima formulă de calcul, fără să mai ajung la χ2? Nu întâmplător am dat a
doua formulă. Dacă ştiţi puţină matematică, veţi descoperi că:
√
⇔
⇔
Putem, practic, extrage valoarea lui χ2, dacă ştim numărul de subiecţi
şi valoarea lui φ. În exemplul nostru, φ avea valoarea 0,21, cercetare realizată
pe 215 persoane. Atunci
. Fiind un
singur grad de libertate, observăm că această valoare este semnificativă, la un
prag de semnificaţie mai mic de 0,01. Putem spune că există o asociere slabă
între părul blond şi ochii albaştri. Adică, în majoritatea cazurilor, persoanele
cu păr blond au şi ochii albaştri, restul situaţiilor fiind excepţii.
47
47. Statistică aplicată în ştiinţele socio-umane
I.1.5 Coeficientul de asociere λ (lambda) Goodman şi
Kruskal
Coeficientul λ a fost stabilit de Goodman şi Kruskal, prin anul 1980,
alături de un alt coeficient similar, coeficientul de asociere τ Goodman şi
Kruskal, pe care nu-l vom aborda în această lucrare, deoarece se referă aproximativ la acelaşi lucru. Se calculează în situaţia asocierii unei variabile nominale cu o variabilă dihotomică, cu o altă variabilă nominală, cu o variabilă
ordinală sau cu o variabilă scalară, în condiţiile în care aceasta este grupată în
clase.
Practic, acest coeficient se referă la cantitatea de cunoştinţe cuprinsă
într-o variabilă, ce poate acoperi informaţiile din cealaltă variabilă. Sau, cu
alte cuvinte, având o anumită cantitate de informaţie în variabila X, cât din
variabila Y putem prezice? Formula de calcul este următoarea:
∑
(
(
)
)
(formula 1.20)
unde nMi este cea mai mare frecvenţă de pe rândul i şi Max(Cj) este
frecvența cea mai mare dintre frecvențele coloanelor, iar n se referă la numărul subiecților.
Ştiţi ce mă bucură acum cel mai tare? Faptul că nu vă mai speriaţi de
formule. Aţi observat că ele devin din ce în ce mai stufoase şi, totuşi, în realitate, aplicarea lor este foarte simplă. Să luăm un nou exemplu. Presupunem
că am desfăşurat o cercetare în cadrul căreia dorim să studiem asocierea între
două variabile: preferinţa pentru un partid politic (1 – PSD; 2 – PNL; 3 –
PDL; 4 – PC şi 5 – PRM) şi nivelul de stres al subiecţilor pe o scală Likert de
la 1 la 5 (1 – Foarte slab; 2 – Slab; 3 – Mediu; 4 – Ridicat; 5 – Foarte ridicat).
Suntem în situaţia asocierii dintre o variabilă nominală (preferinţa pentru
partide) şi o variabilă ordinală (nivelul de stres). Vom construi tabelul de
contingenţă pentru cele două variabile.
48
48. Cristian Opariuc-Dan
Structura tabelului este clară. Dintre cei care preferă PSD, 12 persoane au un nivel de stres foarte scăzut, 9 un nivel de stres scăzut, 7 un nivel de
stres mediu, 4 ridicat şi o persoană prezintă nivelul stresului foarte ridicat.
Situaţia este analogă în cazul celorlalte partide.
Avem partidele afişate pe linii şi nivelul de stres pe coloane. În primul
rând, va trebui să stabilim, pentru fiecare linie, celula cu frecvenţa cea mai
mare. Pentru PSD, categoria cu frecvenţa cea mai mare este reprezentată de
nivelul de stres foarte scăzut (12 persoane). Pentru PNL întâlnim categoria cu
nivelul de stres scăzut (45 de persoane), pentru PDL nivelul de stres mediu
(42 de persoane), pentru PC tot nivelul de stres mediu (10 persoane), iar pentru PRM nivelul de stres scăzut (5 persoane).
Tabelul 1.14 – Tabelul de contingenţă pentru calculul coeficientului λ
Nivelul de stres
1
2
3
4
Foarte
Scăzut
Mediu
Ridicat
scăzut
1 – PSD
9
7
4
12
2 – PNL
8
21
6
45
3 – PDL
7
19
13
Partidul
42
4 – PC
8
4
7
10
5 - PRM
1
1
3
5
36
81
33
Total coloane
82
5
Foarte
ridicat
1
5
1
3
2
12
Efectuăm acum totalul pe coloane. În mod clar, categoria cu frecvenţa
cea mai mare este cea a stresului scăzut (82 de persoane), în timp ce numărul
total de participanţi la studiu a fost de 244 de persoane. În acest moment,
informaţiile sunt suficiente pentru a putea completa formula.
∑
( )
( )
Am obţinut acum valoarea 0,19 pentru acest coeficient, valoare pe care o vom analiza din punctul de vedere al semnificaţiei.
49
49. Statistică aplicată în ştiinţele socio-umane
I.1.5.1 Semnificaţia coeficientului λ
Coeficientul λ este un alt coeficient nedirecţional. Aceasta înseamnă
că poate lua valori între 0 şi 1, unde apropierile de zero ne arată că informaţiile conţinute într-o variabilă nu pot prezice cealaltă variabilă, variabilele neavând nimic în comun, iar apropierile de 1 sunt semnificative pentru gradul de
predicţie a evoluţiei unei variabile, în baza informaţiilor conţinute în cealaltă
variabilă.
Analiza semnificaţiei acestui coeficient se face în baza statisticilor z,
iar valorile vor fi raportate la distribuţia z. Prin urmare, va trebui să definim
formula de calcul pentru statistica z a coeficientului λ şi apoi să comparăm
această valoare cu valorile de referinţă z la diferite praguri de semnificaţie.
Pentru a vă reaminti de semnificaţia notelor z, parcurgeţi capitolul referitor la
distribuţia normală din lucrarea anterioară. Formula de transformare a coeficientului λ în statistica z este următoarea:
(formula 1.21)
√
unde λref înseamnă valoarea de referinţă λ, iar sλ reprezintă valoarea
varianţei acestui coeficient.
Deoarece acest coeficient măsoară cât dintr-o variabilă se poate găsi
într-o altă variabilă, valoarea de referinţă se exprimă sub formă de proporţii.
Dacă presupunem că nivelul de stres influenţează preferinţele pentru partidele politice, sau cu alte cuvinte putem prezice preferinţa pentru partide în baza
analizei nivelului de stres, atunci plecăm de la o bază, de la o referinţă, în
care presupunem, de exemplu, că 10% din nivelul de stres poate prezice preferinţa pentru partide. Această valoare de referinţă este aleasă în funcţie de
necesităţile cercetării. Soluţia pesimistă este aceea conform căreia valoarea
de referinţă se apropie de zero. Altfel spus, nu avem niciun motiv să presupunem că cele două variabile sunt legate în vreun fel. În acest caz, vom alege
50
50. Cristian Opariuc-Dan
valori mici de referinţă, de 10%, 5%, 3% sau 1%. Exprimat sub formă de
proporţii, valori de 0,10, 0,05, 0,03 sau 0,01 pentru λref.
Dacă avem motive suficiente să credem că există legături între cele
două variabile, atunci putem aborda soluţii optimiste, în sensul că vom considera o mare parte dintre informaţiile unei variabile ca fiind dependente de
informaţiile din cealaltă variabilă. În acest sens, putem alege valori de 50%,
60%, 70% pentru λref.
Nu există o regulă de atribuire în acest sens. Personal, vă recomand să
fiţi sceptici şi să nu consideraţi valori mai mari de 0,10 – 0,15 pentru λref.
Evident, cu cât valorile lui λref se apropie cu zero, cu atât legătura trebuie să
fie mai puternică pentru a fi semnificativă.
În exemplul nostru, am plecat de la presupunerea că doar 10% din nivelul de stres poate determina preferinţe pentru un anumit partid politic. Valoarea pentru λref va fi, aşadar, 0,10 şi vom analiza dacă la acest nivel putem
vorbi despre o legătură semnificativă.
Următorul aspect din formula 1.21 se referă la varianţa coeficientului
λ. Această varianţă poate fi calculată în baza relației următoare:
(
∑
(
)(∑
(
(
))
)
∑
)
(formula 1.22)
unde nMi este cea mai mare frecvenţă de pe rândul i, Max(Cj) cea mai
mare frecvență dintre frecvențele calculate pe coloane şi ∑
este suma
tuturor frecvenţelor maxime asociate coloanei cu frecvenţa cea mai mare, m
reprezentând numărul de rânduri.
Aceasta este chiar complicată, nu-i aşa? Oare cum o calculăm? Poate
vă gândiţi să o învăţaţi pe de rost pentru examene. Sau poate o memoraţi să
impresionaţi prietenul ori prietena. Nu are rost. În condiţii de examen, ar trebui să vi se dea formula, iar dumneavoastră să ştiţi să o aplicaţi. Pentru prie51
51. Statistică aplicată în ştiinţele socio-umane
ten ori prietenă, cred că puteţi să impresionaţi şi altfel. Dacă veţi scrie formula asta într-o scrisoare de amor, în mod sigur nu veţi reuşi decât să îndepărtaţi
partenerul. Haideţi totuşi să vedem ce ne cere formula şi dacă e atât de complicat calculul. Vom relua tabelul de contingenţă.
Numărul total de persoane este 244. Îl avem, aşadar, pe n. Suma celor
mai mari frecvenţe de pe rânduri o ştim deja. Este 114 şi nu reprezintă altceva decât valoarea ∑
. Cea mai mare frecvență dintre frecvențele calculate pe coloane este situată în a doua coloană şi are valoarea 82. Iată că avem
şi rezultatul pentru
( ).
Tabelul 1.15 – Tabelul de contingenţă pentru calculul coeficientului λ
Nivelul de stres
1
2
3
4
Foarte
Scăzut
Mediu
Ridicat
scăzut
1 – PSD
9
7
4
12
2 – PNL
8
21
6
45
3 – PDL
7
19
13
Partidul
42
4 – PC
8
4
7
10
5 - PRM
1
1
3
5
36
81
33
Total coloane
82
5
Foarte
ridicat
1
5
1
3
2
12
Ce trebuie să mai facem? Trebuie să calculăm suma tuturor frecvenţelor maxime asociate coloanei cu frecvenţa cea mai mare. Am stabilit deja
care este aceasta. Este a doua coloană. Care sunt frecvenţele maxime din
această coloană? Pe primul rând avem frecvenţa 9, pe al doilea rând frecvenţa
45, pe al treilea rând frecvenţa 19, pe al patrulea rând frecvenţa 4 şi pe al cincilea rând frecvenţa 5. Care este frecvenţa cea mai mare? Evident, cea de pe
al doilea rând, frecvenţa 45. Mai vedeţi şi alte cifre de 45 acolo? Nu. Ei bine,
aceasta este şi suma mult căutată. Dacă aveaţi 45 pe rândul 2 şi 45 pe rândul
4, atunci suma frecvenţelor maxime ar fi fost 90 (45+45). În cazul nostru,
avem o singură frecvenţă maximă, 45, şi aceea reprezintă valoarea pentru
∑
. Relaxaţi-vă. V-am spus că formulele mai mult sperie prin aspect
52
52. Cristian Opariuc-Dan
decât prin modalitatea de calcul. Acum haideţi să înlocuim şi să găsim varianţa coeficientului λ.
∑
(
)(∑
(
( )
∑
)
( ))
Am găsit varianţa coeficientului. Nu trebuie decât să calculăm statistica z după formula de mai sus şi obţinem scorul z de 1,5.
√
√
Acest scor îl vom compara cu valoarea de referinţă z pentru pragul de
semnificaţie ales. Pentru un prag de semnificaţie de 0,05, valoarea z este de
1,96. Valoarea noastră (1,5) este mai mică decât valoarea prag. Prin urmare,
nu există nicio legătură între nivelul de stres şi preferinţa pentru partide politice, în condiţiile în care 10% dintr-o variabilă ar explica cealaltă variabilă.
Drept exerciţiu, calculaţi valoarea z pentru situaţia în care presupunem că 50% din preferinţa pentru partide politice este influenţată de nivelul
de stres. Este această legătură semnificativă sau nu? Argumentaţi.
I.1.6 Coeficientul de asociere γ (gamma)
Un alt coeficient de asociere este coeficientul de asociere γ Goodman
– Kruskal. La fel ca şi coeficientul de corelaţie a rangurilor τ Kendall, şi acest
coeficient se bazează pe numărul de inversiuni şi proversiuni, adică pe numărul de perechi concordante şi discordante. Coeficientul se calculează foarte
simplu pe baza formulei:
53
53. Statistică aplicată în ştiinţele socio-umane
(formula 1.23)
în care Pc reprezintă numărul perechilor concordante, iar Pd numărul
perechilor discordante.
Vom considera un exemplu, astfel încât să lămurim rapid bazele acestui coeficient. Să presupunem că efectuăm un studiu în mai multe oraşe, pentru a vedea dacă există o legătură între nivelul intelectual al primarilor şi mărimea oraşelor. Cele două variabile au fost operaţionalizate astfel: oraşele pot
fi considerate oraşe mici, medii şi mari – în funcţie de numărul de locuitori,
iar nivelul intelectual al primarilor poate fi considerat superior sau inferior.
Ambele variabile se află la un nivel ordinal de măsură şi pot fi ierarhizate.
Menţionez faptul că toate datele din lucrări sunt date fictive şi nu au
nicio legătură cu fapte sau persoane reale. De aceea, nimeni nu are niciun
motiv să se simtă lezat în vreun fel. Exemplele au fost alese astfel încât să se
refere la fapte sociale de actualitate, în vederea unei însuşiri mai bune a informaţiei. Fac această precizare deoarece mi s-a sugerat că prin demersul
meu îmi exprim preferinţe politice sau de altă natură. Departe de mine acest
gând. Nu intenţionez decât să redactez o lucrare pe înţelesul tuturor, indiferent de specificul formării iniţiale – umanist sau realist. Şi, ca să folosesc un
stereotip verbal, orice asemănare cu realitatea este pur întâmplătoare. Cine se
simte lezat de aceste exemple, îl asigur că nu a fost intenţia mea, iar concluziile care decurg sunt rezultatul unor date absolut fictive şi nu au nicio legătură
cu vreo realitate politică, economică sau socială.
Tabelul 1.16 – Tabelul de contingenţă pentru calculul coeficientului γ
Dimensiune oraş
Mic
Mediu
Mare
A
B
C
Superior
10
15
20
Intelect
primari
D
E
F
Inferior
10
5
3
54
54. Cristian Opariuc-Dan
Acum să revenim. Convenim să reprezentăm rezultatul acestei cercetări sub forma unui nou tabel de contingenţă.
Avem 10 primari cu un intelect superior în oraşele mici, 15 în oraşele
medii şi 20 în oraşele mari. De asemenea, avem 10 primari cu un intelect
inferior în oraşele mici, 5 în oraşele medii şi 3 în oraşele mari. În total cercetarea a cuprins un număr de 63 de oraşe. Cum calculăm perechile? Vă voi
prezenta o procedură foarte simplă, fără a mai intra în detalii matematice,
deoarece acestea implică anumite cunoştinţe de combinatorică. În cazul nostru, perechile reprezintă suma produselor înmulţirii frecvenței unei celule de
la un nivel superior cu suma frecvențelor celulelor succesive de la un nivel
inferior, datele fiind ordonate ascendent pentru perechile concordante şi descendent pentru perechile discordante. Aşa-i că nu aţi înţeles nimic? Iată, poate, prima situaţie în care lucrurile transpar mult mai clar din formule.
Pc=A(E+F)+BF;
Pd=C(D+E)+BD
Am notat cu litere mari celulele din tabelul de mai sus. Nu-i aşa că
acum lucrurile sunt clare? Avem toate datele necesare. Să le înlocuim în formulă.
[
[
]
]
[
[
]
]
Am obţinut valoarea -0,56 pentru coeficientul de asociere γ. Această
valoare va trebui să o analizăm apoi din punctul de vedere al semnificaţiei.
I.1.6.1 Semnificaţia coeficientului γ
Coeficientul γ reprezintă un raport al diferenţelor dintre perechile
concordante şi cele discordante, bazat pe numărul total de perechi, fără a se
lua în calcul perechile cu rangurile egale. Coeficientul γ este un coeficient
direcţional şi poate lua valori cuprinse între -1 şi +1, la fel ca şi coeficientul ρ
Spearman sau τ Kendall, având aceeaşi semnificaţie. În termenii coeficientu55
55. Statistică aplicată în ştiinţele socio-umane
lui anterior (şi aici vorbim de coeficientul λ propus de aceiaşi savanţi), un
coeficient λ de 0,56 înseamnă că avem 56% şanse să prezicem o variabilă,
cunoscând rangul (nu valoarea) celeilalte variabile. Analiza semnificaţiei
acestui coeficient se face similar coeficientului τ Kendall.
I.1.7 Coeficientul tetrachoric şi polichoric
Coeficientul de corelaţie tetrachoric este notat, în general, sub forma
rtet , fiind definit de Pearson în anul 1901 şi se foloseşte atunci când ambele
variabile sunt dihotomice, la fel ca şi coeficientul φ, însă aceste variabile trebuie să provină din variabile continui şi normal distribuite (spre exemplu,
prin gruparea vârstei subiecţilor în subiecţi tineri şi vârstnici). Dacă variabilele sunt situate la un nivel ordinal, au mai multe grade de intensitate şi pot
respecta caracteristica provenienţei din variabile continui, se foloseşte un alt
coeficient de corelaţie, şi anume coeficientul polichoric. Ambii coeficienţi se
bazează pe acelaşi principiu. Vom relua tabelul explicativ al coeficientului φ
pentru a stabili formula de calcul în cazul coeficientului de corelaţie
tetrachoric.
Tabelul 1.17 – Schema generală de calcul a coeficientului tetrachoric
Variabila X
Absent X
Prezent X
Absent X
Prezent X
Prezenţă Y
Prezent Y
Prezent Y
A
B
Variabila Y
Absent X
Prezent X
Absenţă Y
Absent Y
Absent Y
C
D
Formula coeficientului de corelaţie tetrachoric se bazează pe calculul
cosinusului, după următoarea expresie:
(
√
)
56
(formula 1.24)
56. Cristian Opariuc-Dan
În cadrul acestei formule, coloanele A, B, C, D reprezintă proporţii şi
nu frecvenţe absolute. Coeficientul este folosit mai ales în situaţiile în care se
doreşte măsurarea gradului de acord între doi evaluatori. Să presupunem că
doi psihologi evaluează un lot de subiecţi în vederea depistării prezenţei sau
absenţei anxietăţii. Rezultatele pot fi sistematizate în tabelul de mai jos:
Tabelul 1.18 – Tabelul de calcul a coeficientului tetrachoric
Psiholog X
Absentă
Prezentă
A
B
Prezentă
40%
10%
Psiholog Y
C
D
Absentă
20%
30%
Analizând acest tabel, constatăm că 40% dintre subiecţi (în proporţie
de 0,4) au fost consideraţi non-anxioşi de psihologul X şi anxioşi de psihologul Y – situaţie de dezacord între cei doi -, 20% dintre subiecţi (în proporţie
de 0,2) au fost consideraţi non-anxioşi de ambii psihologi – situaţie de acord
pe non-anxietate -, 10% dintre subiecţi (proporţie de 0,10) sunt consideraţi
anxioşi de ambii psihologi – situaţie de acord pe anxietate - şi 30% dintre
subiecţi sunt consideraţi anxioşi de psihologul X şi non-anxioşi de psihologul
Y – din nou situaţie de dezacord. Se pune acum problema în ce măsură cei
doi psihologi au căzut sau nu de acord în privinţa anxietăţii subiecţilor evaluaţi. Iată o situaţie tipică în care vom folosi coeficientul tetrachoric.
(
(
√
)
(
√
)
(
√
)
)
Observăm, în primul rând, o corelaţie negativă, ceea ce ne duce cu
gândul la un dezacord puternic între cei doi psihologi, fapt indicat de valoarea ridicată a coeficientului de corelaţie.
57
57. Statistică aplicată în ştiinţele socio-umane
În cazul în care anxietatea ar fi fost evaluată, să presupunem, pe o scală de la 1 la 5, unde 1 ar însemna foarte puţin anxios iar 5 foarte anxios, coeficientul tetrachoric nu poate fi folosit. În acest scop se utilizează coeficientul
polichoric, bazat pe acelaşi principiu. Din nefericire, algoritmul de calcul este
unul iterativ, presupune mai multe etape şi are un grad ridicat de complexitate, motiv pentru care nu-l vom prezenta aici. Pachetul de programe SPSS for
Windows nu conţine aceşti doi coeficienţi. Dacă doriţi să efectuaţi analize
bazate pe coeficienţii de corelaţie tetrachoric, polichoric sau poliserial (o variantă a coeficientului polichoric în care se asociază o variabilă scalară şi o
variabilă ordinală), vă recomand utilizarea pachetului LISREL şi a componentei PRELIS, pachet software produs de SSI – Scientific Software Internaţional (http://www.ssicentral.com).
În general, analizele bazate pe aceşti coeficienţi intră în componenţa
ecuaţiilor structurale şi a modelelor de ecuaţii structurale (SEM).
I.1.8
Coeficientul de concordanţă W Kendall
Coeficientul de concordanţă W Kendall se bazează pe ranguri, fiind
folosit, de obicei, la stabilirea acordului dintre evaluatori. Fiind mult mai
simplu de calculat în
Tabelul 1.19 – Notele obţinute de 6 studenţi evaluaţi de 3
comparaţie cu procedeul
profesori
tetrachoric
sau
Evaluator 1 Evaluator 2 Evaluator 3
polichoric, tehnica este
7
8
7
Student 1
6
5
8
Student 2
larg răspândită printre
9
10
8
Student 3
specialişti. Pentru a înţe8
8
7
Student 4
6
7
6
Student 5
lege exact semnificaţia
7
8
9
Student 6
acestui coeficient, să
presupunem că un număr de 6 studenţi sunt evaluaţi de către o comisie de
licenţă formată din trei evaluatori. Rezultatele vor fi trecute într-un tabel similar tabelului 1.19.
58