2. Correspondentie-analyse in Marktonderzoek - 2
__________________________________________________________________________________________________
1. Situering en kernbegrippen betrokken worden in een correspondentie-analyse
categorische variabelen genoemd. Dit zijn variabelen
Hoewel correspondentie-analyse een reeds lang die de te onderzoeken objecten sorteren in een
bestaande techniek is, neemt de belangstelling betrekkelijk klein aantal groepen, welke als
ervoor de laatste jaren gestadig toe. Dit houdt categorieën worden aangeduid. Er worden dus
verband met de toegenomen populariteit van gegevens geanalyseerd van een aantal objecten met
exploratieve gegevensanalyse, waarvoor betrekking tot een aantal variabelen. Een variabele
correspondentie-analyse zich goed leent. wordt gedefinieerd door de mogelijkheid om
Correspondentie-analyse kan in het algemeen objecten in te delen in onderscheiden en elkaar
beschouwd worden als een techniek om de uitsluitende categorieën.
samenhang tussen categorische variabelen te Een onderscheid wordt gemaakt tussen drie soorten
exploreren. Traditioneel worden daartoe variabelen. In het geval van een nominale variabele
kruistabellen gehanteerd. Grote kruistabellen en zijn de categorieën niet volgens een van tevoren
meerdere kruistabellen maken het evenwel vlug vastgelegde volgorde ingedeeld. Bij de verwerking
lastig om samenhangen op te sporen. van ordinale variabelen dient er rekening mee
Correspondentie-analyse (CA) maakt het mogelijk gehouden te worden dat de categorieën in een
samenhangen grafisch voor te stellen. Meestal voorafbepaalde volgorde staan. De derde
wordt gekozen voor een tweedimensionele plot mogelijkheid is dat de categorieën van tevoren een
waarin de categorieën van variabelen als punten bepaalde getalwaarde krijgen met de bedoeling dat
voorkomen en waarbij het nulpunt (de oorsprong (anders dan bij ordinale variabelen) verschillen
van het assenstelsel) staat voor de totale populatie. tussen die getallen geïnterpreteerd mogen worden
De techniek zorgt ervoor dat de onderlinge als verschillen tussen objecten in die categorieën.
afstanden tussen deze punten zoveel mogelijk de Zo’n variabelen noemen we numerieke variabelen
samenhang in de tabel(len) reflecteren. De (bv. het verschil tussen 25 jaar en 20 jaar is even
technieken en procedures die onder CA sorteren, groot als het verschil tussen 55 jaar en 50 jaar).
kunnen als een deelverzameling van
schaaltechnieken beschouwd worden. Zo hebben Het is van belang om in te zien dat het onderscheid
de in de SPSS-module “Categories” opgenomen tussen nominale, ordinale en numerieke variabelen niet
technieken zoals ANACOR, HOMALS, PRINCALS voortvloeit uit de eigenschappen van de variabelen
en OVERALS (ook “ALS”-technieken genoemd zelf, maar dat het gaat om eigenschappen die door
omdat ze werken overeenkomstig het principe van een onderzoeker aan deze variabelen worden
“alternating least squares”)1 als gezamenlijk opgelegd. Zo kan de variabele ‘leeftijd’ door een
kenmerk dat op een of andere manier onderzoeker ook als een ordinale variabele worden
schaalwaarden worden berekend voor de gehanteerd. De onderzoeker gaat er dan van uit dat
categorieën van de in de analyse betrokken de categorieën wel op een bepaalde volgorde staan,
variabelen. Ter verduidelijking hiervan dienen een maar niet dat afstanden tussen opeenvolgende
aantal kernbegrippen van naderbij beschouwd te categorieën gelijk zijn. Anderzijds kan een
worden. variabele als politieke voorkeur (nominaal) door
een onderzoeker ook als een ordinale variabele
behandeld worden (o.m. door politieke partijen op
1.1. Niet-lineariteit een schaal van ‘links’ naar ‘rechts’ te rangordenen).
Kortom, of een variabele nominaal, ordinaal of
CA is een geheel van technieken die voorzien in de numeriek behandeld moet worden, wordt niet
niet-lineaire analyse van categorische variabelen. voorgeschreven door intrinsieke eigenschappen
Als zodanig zijn de “ALS”-technieken de van de variabele zelf, maar wordt bepaald door de
tegenhangers van de klassieke multivariate lineaire eisen die de onderzoeker aan de variabele stelt.
technieken zoals factoranalyse, regressie-analyse,
discriminantanalyse, e.a. Niet-lineariteit heeft In tal van onderzoeken komt het voor dat gegevens
betrekking op het feit dat bij CA geen voorafgaande ontbreken. De oorzaken hiervan zijn velerlei. Wat
eisen aan het meetniveau van de te behandelen te doen als er ontbrekende gegevens zijn ? Er zijn
variabelen worden gesteld. Dit is eveneens het drie mogelijkheden. Voor de ontbrekende gegevens
geval bij log-lineaire analyse. Deze laatste techniek van een variabele voeren we één nieuwe,
heeft echter als nadeel dat het vinden van een afzonderlijke categorie in. Alle objecten met
spaarzaam (“parsimonious”) model moeilijk wordt ontbrekende gegevens op de variabele worden aan
bij een grote steekproefomvang. CA fungeert hier de aparte categorie toegewezen. Deze aanpak
als een te overwegen alternatief. Zoals dit het geval veronderstelt uiteraard, dat objecten waarvan de
is bij log-lineaire analyse, worden de variabelen die gegevens ontbreken, om deze reden op elkaar lijken
en dat het hierom gewettigd is de ontbrekende
J. Blomme – info@dmreview.be
3. Correspondentie-analyse in Marktonderzoek - 3
__________________________________________________________________________________________________
gegevens als één categorie op te vatten. Het is kan blijken dat de resultaten in hoofdzaak hetzelfde
natuurlijk de vraag of deze veronderstelling zijn, ook al werden verschillende opties gekozen.
realistisch is. Deze aanpak krijgt de naam : Ook kan blijken dat de resultaten verschillend zijn,
ontbrekende gegevens actief enkelvoudig behandelen. al naar gelang welke optie genomen werd. In dit
‘Enkelvoudig’ betekent : de ontbrekende gegevens laatste geval moet de onderzoeker er zich
worden in één categorie ondergebracht ; ‘actief’ rekenschap van geven waar zulke verschillen
betekent dat deze categorie in de verdere vandaan kunnen komen : de onderzoeker moet
verwerking volwaardig meetelt. De tweede aanpak proberen te achterhalen wat er met de gegevens aan
is dat aan elke variabele net zoveel nieuwe de hand is waardoor zulke verschillen kunnen
categorieën worden toegevoegd als er objecten met optreden. Bij exploratieve gegevensanalyse is het
ontbrekende gegevens zijn. Dit houdt in dat in elke zo dat de onderzoeker nog niet overal duidelijke
nieuwe categorie slechts één object voorkomt. In vragen heeft. Vergelijking van verschillende
dit geval worden ontbrekende gegevens actief analyses van dezelfde data kan ertoe bijdragen dat
meervoudig behandeld. Een belangrijk nadeel van de onderzoeker ontdekt wat de zinnige vragen zijn.
deze aanpak is dat de toegevoegde categorieën een In dit opzicht is CA een techniek die het verdere
zeer lage marginale frequentie hebben (immers, ze analyseverloop in goede banen kan helpen leiden.
bevatten slechts één object). De derde aanpak laat
alle ontbrekende gegevens buiten beschouwing in
de verdere analyse. Ontbrekende gegevens worden
passief behandeld. 1.2. “Optimal scaling”
Het begrip ‘ontbrekende gegevens’ is afhankelijk
van de interpretatie door de onderzoeker. Nemen Bij klassieke multivariate analyses wordt het
we als voorbeeld een enquête naar leesgewoonten meetniveau van de variabelen als gegeven
van kranten. Nu kan men stellen dat respondenten beschouwd. Op basis van het meetniveau van de
die niet regelmatig Het Nieuwsblad lezen in één variabelen wordt een geschikte analysetechniek
categorie vallen, nl. de categorie niet-regelmatige gekozen. Bij de “ALS”-technieken wordt niet a
Het Nieuwsblad-lezers (actief enkelvoudig). Het is priori een bepaald meetniveau verondersteld, maar
echter de vraag of deze laatste groep respondenten worden in de analyse zogenaamde optimale
op elkaar lijken, louter en alleen op grond van de schaalwaarden (optimale kwantificatie, “optimal
vaststelling dat ze iets niet doen. Mensen die Het scaling”) berekend voor de categorieën van de in de
Nieuwsblad wel lezen, hebben iets met elkaar analyse betrokken variabelen. Optimale
gemeen, maar geldt daarom dat zij die Het schaalwaarden zijn nieuwe waarden voor de
Nieuwsblad niet lezen iets met elkaar gemeen oorspronkelijke waarden van één of meer
hebben ? Dit laatste kan betwijfeld worden, en om variabelen. Deze optimale schaalwaarden zijn in
deze reden kan de onderzoeker besluiten om ervan een of meer opzichten ‘beter’ dan de
uit te gaan dat voor de niet-lezers de gegevens oorspronkelijke waarden van de variabelen, o.m.
ontbreken (passieve behandeling). Meervoudig omdat ze de correlatie tussen twee variabelen
actieve behandeling houdt daarentegen in dat elke maximaliseren. Optimale schaalwaarden kunnen
niet-lezer een uniek exemplaar wordt in zijn eigen dan ook dienen om de oorspronkelijke waarden
categorie. Passieve behandeling houdt duidelijke van variabelen te vervangen. Omdat optimale
voordelen in. Er wordt dan bij de verdere schaalwaarden worden berekend voor variabelen
bewerking wel gelet op het feit dat lezers van ongeacht het a priori toegedachte meetniveau leidt
eenzelfde krant iets gemeenschappelijks hebben, het gebruik van optimale schaalprocedures ertoe
maar daaraan wordt niet de conclusie verbonden dat variabelen van ongelijk meetniveau in eenzelfde
dat niet-lezers iets met elkaar gemeen hebben. analyse kunnen betrokken worden. Voor de
praktijk van het marktonderzoek is dit een
Het voorgaande leidt tot de conclusie dat er een belangrijke aanvulling op het arsenaal van
element van willekeur bestaat. Het is aan de analysemogelijkheden.
onderzoeker om te bepalen of een variabele
nominaal, ordinaal of numeriek is terwijl er geen Relaties tussen variabelen komen slechts tot hun
stricte regels bestaan over de vraag hoe recht indien de categorieën van variabelen optimaal
ontbrekende gegevens behandeld moeten worden. gekwantificeerd worden. Wat ‘optimaal’ betekent,
Die willekeur kan worden ingeperkt doordat de hangt af van de onderzoekscontext. De optimale
onderzoeker niet slechts één keuze uit de opties kwantificatie van een variabele is daarom relatief.
doet, maar een aantal analyses doet onder Dit betekent dat de kwantificatie van een variabele
verschillende opties en dan de resultaten van die moet beschouwd worden in de context van andere
verschillende analyses met elkaar vergelijkt. Dan variabelen die in de analyse betrokken worden.
J. Blomme – info@dmreview.be
4. Correspondentie-analyse in Marktonderzoek - 4
__________________________________________________________________________________________________
Naargelang van deze laatste kan blijken dat een betekent dit hetzelfde als dat er een willekeurige a
variabele anders gekwantificeerd moet worden. priori-kwantificatie is (in dit geval wordt aan de
categorieën van een variabele een etiket gegeven
Stel dat er een a priori-kwantificatie bestaat voor een
onder de vorm van cijfers, in een of andere
variabele. Er kan dan een transformatiegrafiek
volgorde). Wordt de variabele vervolgens
getekend worden. In dergelijke grafiek staan de a
nominaal behandeld, dan speelt de getalwaarde die
priori- kwantificaties op de horizontale as en op de
aan de categorieën is toegekend geen enkele rol.
verticale as staan de optimale kwantificaties. Elke
Een transformatiegrafiek heeft in dit geval m.a.w.
categorie van een variabele wordt dus afgebeeld als
geen zin.
een punt van de grafiek. Dit geeft de mogelijkheid
opnieuw te definiëren wat we verstaan onder Om na te gaan of voldaan wordt aan de assumpties
numerieke, ordinale en nominale variabelen. van multivariate analyse-technieken kan op de
Numerieke behandeling eist dat de punten in de variabelen een correspondentie-analyse worden
transformatiegrafiek op een rechte lijn liggen. toegepast. Met behulp van een eenvoudig
voorbeeld kan dit geadstrueerd worden. In het
Ordinale behandeling stelt de minder strenge eis
geval van factoranalyse wordt verondersteld dat de
dat de punten op een monotoon stijgende curve
variabelen numeriek geschaald zijn. Stel dat
liggen. Dit betekent dat als de a priori-kwantificatie
uitgegaan wordt van Likert-items (5-punts items)
van categorie j groter is dan die van categorie i, de
waarbij de code 1 staat voor zeer oneens en de code
optimale kwantificatie van categorie j niet kleiner
5 staat voor zeer eens. De veronderstelling bij dit
mag zijn dan die van kategorie i (wel is toegestaan
soort items is dat de afstanden tussen de
dat de optimale kwantificaties gelijk aan elkaar
schaalwaarden 1,2,3,4 en 5 gelijk zijn, dus dat er
worden). Wordt een variabele nominaal
sprake is van een intervalschaal. Het is echter goed
behandeld, dan worden aan de
mogelijk dat in werkelijkheid de schaalwaarden
transformatiegrafiek geen eisen gesteld. De curve
voor de verschillende items deze veronderstelling
mag dus op meerdere plaatsen een knik vertonen.
tegenspreken. Een voorbeeld ter verduidelijking.
Het kan blijken dat de transformatiegrafiek toch
Veronderstel dat we optimale kwantificaties
monotoon stijgend is, wat er dan op wijst dat
berekenen voor een reeks Likert-items. Uit tabel 1
hetzelfde resultaat gevonden zal worden als de
blijkt o.m. dat voor item 1 de afstand tussen “eens”
variabele ordinaal behandeld zou zijn. Terloops
(code 4) en “zeer eens” (code 5) 1,25 bedraagt. Voor
dient erop gewezen te worden dat als een variabele
item 2 is de afstand slechts 0,10.
slechts twee categorieën heeft (een binaire
variabele) de transformatiegrafiek slechts twee
punten bevat die altijd op een rechte lijn liggen. De
Tabel 1 : Schaalwaarden voor (5 punts-) antwoordcategorieën
gevolgtrekking is dat het voor een binaire variabele na optimale kwantificatie
niets uitmaakt of deze numeriek, ordinaal of
nominaal wordt behandeld.
(1) (2) (3) (4) (5)
Transformatiegrafieken hebben alleen zin als er een
a priori-kwantificatie van de categorieën van een
variabele bestaat. Uit de transformatiegrafiek kan Item 1 -1,30 -1,29 0,03 0,70 1,95
dan bv. blijken dat deze een logaritmisch of
kwadratisch verloop kent, hetgeen inhoudt dat de a
Item 2 -1,15 -1,11 -0,02 1,10 1,20
priori-kwantificatie dient vervangen te worden
door algebraïsche functie van de oorspronkelijke
waarden.
De items in dit voorbeeld vormen dus duidelijk
In klassieke multivariate analyse wordt ervan geen intervalschalen. Optimale kwantificatie kan
uitgegaan dat elke variabele een a priori- derhalve leiden tot schaalwaarden die beter
kwantificatie heeft en dat elke variabele numeriek voldoen dan de oorspronkelijke waarden. Dit zou
moet worden behandeld. In dit geval vertonen de bv. kunnen blijken door eerst een factoranalyse toe
transformatiegrafieken alle de vorm van rechte te passen op de oorspronkelijke variabelen en
lijnen. Men spreekt daarom van lineaire daarna de resultaten te vergelijken met die
multivariate analyse. Worden echter één of meer verkregen bij factoranalyse na optimale
variabelen ordinaal of nominaal behandeld kwantificatie.
(aangenomen dat er een a priori- kwantificatie is),
dan geldt de lineaire restrictie niet en kan men Zelfs indien er sprake is van nominaal meetniveau,
spreken van niet-lineaire multivariate analyse. kunnen optimale schaalwaarden worden berekend
die toelaten de correlatie tussen variabelen te
Indien er geen a priori-kwantificatie is, dan
J. Blomme – info@dmreview.be
5. Correspondentie-analyse in Marktonderzoek - 5
__________________________________________________________________________________________________
maximaliseren. Wat optimaal is, hangt af van de Met betrekking tot optimale kwantificatie kan een
betrokken analysetechniek en de in de analyse onderscheid gemaakt worden tussen enkelvoudige
betrokken variabelen. Er is dus niet zoiets als een en meervoudige kwantificatie. Enkelvoudige
soort absolute optimale schaling van categorieën kwantificatie komt er op neer dat voor elke categorie
van variabelen. Voor de procedures ANACOR en van een variabele een kwantificatie wordt gezocht
HOMALS wordt slechts een nominaal meetniveau die geldig blijft in alle dimensies van de analyse.
van de variabelen verondersteld (cfr. infra). Door Meervoudige kwantificatie houdt in dat de
de optimale schalingsresultaten uit deze analyses te kwantificatie van de categorieën voor elke dimensie
vergelijken met de oorspronkelijke scores van de van de oplossing verschillend mag zijn.
categorieën kan men nagaan of bv. een Aangenomen dat er een a priori-kwantificatie
intervalschaal aanwezig is. In dit geval zouden de bestaat, betekent enkelvoudige kwantificatie dat er
afstanden tussen opeenvolgende schaalwaarden een transformatiegrafiek is die de a priori-
gelijk moeten zijn. Bij de procedures PRINCALS en kwantificatie omzet in een optimale kwantificatie.
OVERALS kan het meetniveau van de variabelen Die grafiek blijft geldig voor alle dimensies van de
nominaal, ordinaal of interval zijn. oplossing. Daar staat tegenover dat bij
meervoudige kwantificatie elke dimensie van de
oplossing een eigen transformatiegrafiek heeft. Is
er geen a priori-kwantificatie, dan kunnen we
1.3. Dimensie-reductietechnieken desondanks een willekeurige a priori-kwantificatie
kiezen en de variabele vervolgens nominaal
behandelen. Nominale behandeling betekent
De zojuist genoemde “ALS”-technieken kunnen
immers : de kwantificatie van de categorieën trekt
beschouwd worden als dimensie-
zich niets aan van de a priori-kwantificatie. Dan
reductietechnieken. Dit betekent dat de samenhang
blijft het verschil bestaan dat enkelvoudige
tussen de categorieën van variabelen door middel
kwantificatie van zo’n variabele zal gelden voor
van de berekening van optimale schaalwaarden in
alle dimensies van de oplossing, terwijl
beeld wordt gebracht in een zo klein mogelijk
meervoudige kwantificatie voor elke dimensie
aantal dimensies. De dimensies geven elk bepaalde
afzonderlijk een optimale kwantificatie van de
aspecten weer van de samenhang of verschillen
categorieën kiest.
tussen categorieën van variabelen.
Een techniek die zich goed leent voor optimale
kwantificatie van variabelen is PRINCALS
(“PRINciple Components analysis by Alternating
Least Squares”). De PRINCALS-opties berusten op
2. Transformatie en optimale kwantificatie twee uitgangspunten. Het eerste is dat de
gebruiker kan kiezen of variabelen numeriek,
In voorgaand punt werd er reeds op gewezen dat ordinaal of nominaal behandeld worden. Het
relaties tussen variabelen beter tot hun recht komen tweede uitgangspunt is dat gekozen kan worden
als de categorieën van variabelen optimaal tussen enkelvoudige of meervoudige kwantificatie.
gekwantificeerd zijn. Nemen we als voorbeeld de De combinatie van deze twee uitgangspunten leidt
variabele ‘leeftijd’. Uit een onderzoek naar tot de vier mogelijkheden in tabel 2.
eetgewoonten kan blijken dat de optimale
kwantificatie van de leeftijdscategorieën de
verschillen tussen de oudere groepen kleiner neemt
Tabel 2 : PRINCALS-opties
dan die tussen de jongere groepen. De optimale
kwantificatie zou zelfs kunnen laten zien dat de
oudere groepen samengevoegd kunnen worden ; kwantificatie
variabelen
alleen de verschillen in leeftijd tussen jongeren enkelvoudig meervoudig
enerzijds en die tussen jongeren en ouderen
numeriek X niet van toepassing
anderzijds spelen een rol. Een dergelijke
kwantificatie is optimaal in relatieve zin, d.w.z. met ordinal X niet van toepassing
betrekking tot de andere variabelen in het
onderzoek. Het is best mogelijk dat in een nominaal X X
onderzoek naar politiek komt vast te staan dat
leeftijdscategorieën anders moeten gekwantificeerd
worden.
Uit tabel 2 kan afgelezen worden dat twee
combinaties niet voorkomen. De eerste is die van
J. Blomme – info@dmreview.be
6. Correspondentie-analyse in Marktonderzoek - 6
__________________________________________________________________________________________________
meervoudige kwantificatie van numerieke attention is focused on the interaction, (c) the user’s
variabelen. De reden hiervoor is dat de numerieke curiosity is aroused during the interaction, and (d)
behandeling van een variabele inhoudt dat de the user finds the interaction intrinsically
kwantificatie van de variabele op verschillende interesting”. Het door Novak en Hoffman
dimensies steeds een lineaire functie moet zijn van ontwikkelde conceptueel model voorziet o.m. in
de a priori-kwantificatie. Dit uitgangspunt staat een verklaring van “flow” in termen van de
haaks op het principe van meervoudige antecedenten ervan. In het bijzonder schrijven de
kwantificatie, dat in dit geval zou inhouden dat de beide onderzoekers de ervaring van intrinsiek
kwantificaties van de categorieën van een amusement toe aan het bestaan van een congruentie
numerieke variabele op meerdere dimensies tussen enerzijds de (navigatie)vaardigheden van de
onderling verschillen. Ook de combinatie gebruiker en de uitdagingen die uitgaan van het
ordinaal/meervoudig komt niet voor, maar dit om navigeren op het World Wide Web. Meer in het
een andere reden. Meervoudige ordinale bijzonder omschrijven Novak en Hofmann “flow”
kwantificatie van een variabele impliceert dat de als “a cognitive state experienced during online
kwantificaties op achtereenvolgende dimensies navigation that is determined by : 1) high levels of
allemaal dezelfde rangorde hebben als de a priori- skill and control ; 2) high levels of challenge and
kwantificatie. Ze hebben dus ook onderling een arousal ; 3) focused attention ; and is 4) enhanced
rangcorrelatie van 1 zodat de meervoudig ordinale by interactivity and telepresence” (Novak &
kwantificatie maar weinig zal verschillen van de Hofmann, 1999 : 6).
enkelvoudig ordinale oplossing.
In hetgeen volgt zullen we de constructie van de
antecedente variabele ‘vaardigheden’ (“skills”) van
De enkelvoudig nominale behandeling van een naderbij analyseren aan de hand van een subset van
variabele houdt ook iets tegenstrijdigs in. De respondenten die participeerden aan het door
behandeling veronderstelt immers dat de Novak en Hoffman uitgevoerde onderzoek. Uit
onderzoeker geen rekening kan of wil houden met een aanvankelijk uitgevoerde factoranalyse op een
een a priori-kwantificatie maar desondanks toch zestal items waarmee het begrip ‘vaardigheden’
verlangt dat de categoriekwantificaties op elke geïndiceerd werd, bleken twee factoren met een
dimensies van de oplossing evenredig met elkaar eigenwaarde groter dan één gezamenlijk 69,1 % van
zijn. Ligt het dan niet voor de hand dat de de variantie in de oorspronkelijke items te
onderzoeker die enkelvoudige kwantificatie wil verklaren. In tabel 3 zijn deze items vermeld met
omdat gehoopt wordt dat de categoriekwantificatie de antwoordfrequenties ervan op de 9-punten
overeenkomt met een bepaalde van tevoren schalen die gebruikt werden in het onderzoek.
bestaande verwachting omtrent die kwantificaties ?
Zou het dan niet beter zijn om die verwachting Op de vier items is een optimale schaalanalyse
meteen vast te leggen als een ordinale a priori- verricht door gebruikmaking van PRINCALS. In
ordening waarmee in de oplossing rekening wordt het voorbeeld worden alle variabelen enkelvoudig
gehouden ? Tegenover die redenering staat dat de ordinaal behandeld. Hiervoor zijn twee
onderzoeker soms wel een a priori-verwachting argumenten. Het eerste is dat de categorieën van
heeft over een aantal categorieën van een variabele, elke variabele (de getallen 1 tot 9) kennelijk in een
maar dat sommige categorieën in die reeks niet bepaalde volgorde staan. Het tweede argument is
goed te plaatsen zijn. dat een numerieke analyse ervan uitgaat dat de
afstand tussen opeenvolgende categoriewaarden
We zullen de toepassing van optimale steeds gelijk is. De juistheid van deze
schaalanalyse illustreren aan de hand van een veronderstelling is erg betwistbaar. Ordinale
onderzoek van Novak en Hoffman (1999) over het kwantificatie zal laten zien of er reden is de
navigatiegedrag van gebruikers van het World categorieën zodanig te kwantificeren dat hun
Wide Web. Bij de ontwikkeling van een onderlinge afstanden niet meer gelijk zijn.
conceptueel model ter verklaring van het
navigatiegedrag van WWW-gebruikers maken Uit tabel 3 kan afgeleid worden dat een
Novak en Hoffman gebruik van het begrip “flow”, afzonderlijke analyse van categoriekwantificaties
dat zij omschrijven als de intrinsieke amusement op zijn plaats is. De frequentieverdeling ziet er
dat gebruikers ervaren. Trevino en Webster (1992 : immers niet uit als een normale verdeling. Bij elk
542) geven volgende operationele omschrijving van van de vier items is de frequentieverdeling zelfs
“flow” : “Flow represents the extent to which (a) the extreem scheef te noemen.
user perceives a sense of control over the computer
interaction, (b) the user perceives that his or her De resultaten van de PRINCALS-analyse
J. Blomme – info@dmreview.be
7. Correspondentie-analyse in Marktonderzoek - 7
__________________________________________________________________________________________________
onderschrijven in de eerste plaats de resultaten van samengevoegd (in rood weergegeven
de factoranalyse. De PRINCALS-eigenwaarden categoriekwantificaties). De PRINCALS-analyse
hebben een waarde van 0,558 op de eerste dimensie geeft eveneens een bevestiging voor de ordinale
en 0,172 op de tweede dimensie. Als we als kwantificatie van de categorieën van de variabelen :
vuistregel hanteren dat een eigenwaarde groter de getransformeerde waarden
moet zijn dan (1/aantal variabelen), dan kan uit de (categoriekwantificaties) vertonen voor elk van de
itemanalyse afgeleid worden dat de tweede items een monotoon stijgend verloop.
dimensie (eigenwaarde 0,172 > 0,167) nog net kan
weerhouden worden maar op zichzelf weinig Tabel 4 : Categoriekwantificaties voor “skills”-items
toevoegt aan de eendimensionele oplossing.
item 1 2 3 4 5 6 7 8 9
Tabel 3 : Antwoordfrequenties voor “skills”-items
skilled -2.56 -1.93 -1.93 -1.90 -1.31 -0.82 -0.23 0.40 1.27
Item 1 2 3 4 5 6 7 8 9
Find -1.49 -1.49 -1.49 -1.49 -1.49 -1.47 -0.71 0.29 1.43
I am extremely skilled
at using the Web 5 4 18 12 45 56 110 126 124
(skilled)(*) searchtech -1.62 -1.62 -1.62 -1.62 -1.41 -0.96 -0.65 0.41 1.37
I know how to find knowless -1.58 -1.58 -1.58 -1.58 -1.58 -1.58 -1.04 -0.33 0.96
what I am looking for
3 3 9 12 13 46 125 174 115
on the Web
(find)(*) rate1 -7.54 -6.63 -5.65 -1.77 -0.76 -0.16 0.54 0.76 1.47
I consider myself
rate2 -3.06 -3.06 -2.29 -2.29 -0.25 -0.03 0.27 0.27 1.14
knowledgeable about
good search techniques 2 12 9 18 17 56 125 138 123
on the Web
(searchtech)(*)
I know somewhat less
about the Web than
4 9 8 11 20 30 57 122 239
most users
(knowless)(*)(***) 3. Werkwijze CA
How would you rate Bij de klassieke multivariate analysetechnieken
your skill at using the zoals factoranalyse en meervoudige regressie-
Web, compared to other
things you do on the
1 1 4 11 147 84 130 96 26 analyse wordt als regel de analyse uitgevoerd op
computer ? een correlatiematrix. Bij de “ALS”-technieken
(rate1)(**)
wordt uitgegaan van een zogenaamde
indicatormatrix. Zo’n indicatormatrix wordt
How would you rate verkregen door de categorieën van de variabelen
your skill at using the
om te coderen tot dummy-variabelen. Stel dat we
Web, compared to the
sport or game you are
9 10 22 11 105 67 102 74 100 een datamatrix hebben met drie variabelen en vijf
best at ? respondenten. De variabelen zijn geslacht (man,
(rate2)(**)
vrouw), opleiding (hoog, middelbaar, laag) en type
krantengebruiker (light user, medium user, heavy
(*) 1 = volledig akkoord ; 9 = helemaal niet akkoord user). De indicatormatrix ziet er dan uit zoals
(**) 1 = veel minder goed ; 9 = veel beter voorgesteld in tabel 5.
(***) omscoring itemcategorieën
Intuïtief zal duidelijk zijn dat wanneer analyses
worden uitgevoerd op de categorieën van
Bekijken we nu de categoriekwantificaties zelf in variabelen en niet op de variabelen zelf, de
tabel 4. Wat uit de tabel onmiddellijk kan resultaten ook betrekking zullen hebben op wat
opgemaakt worden is dat de afstand tussen de categorieën van variabelen met elkaar gemeen
verschillende categorieën voor geen van de items hebben. Terwijl in het geval van HOMALS
gelijk is. Met uitzondering van één item worden vertrokken wordt van een indicatormatrix, vindt de
twee of meerdere categorieën van de items analyse bij ANACOR plaats op gegevens die
J. Blomme – info@dmreview.be
8. Correspondentie-analyse in Marktonderzoek - 8
__________________________________________________________________________________________________
georganiseerd zijn in kruistabelformaat. ∇ hoe moet de plot geïnterpreteerd worden ?
Tabel 5 : Indicatormatrix bij correspondentie-analyse
1. Wat wordt er van de samenhang in een tabel afgebeeld
geslacht opleiding user
in een plot ?
resp.nr
M V L M H L M H
Als in een kruistabel de rijpercentages en
kolompercentages worden berekend, kan de
1 1 0 1 0 0 1 0 0 overeenkomst tussen rijen en kolommen onderling
en met betrekking tot de randverdelingen worden
2 1 0 0 1 0 1 0 0
bepaald. Nemen we als voorbeeld het verband
3 0 1 0 0 1 0 0 1 tussen opleidingsniveau en Internetgebruik. In
4 1 0 1 0 0 0 1 0
onderstaande tabel worden deze beide variabelen
tegen elkaar afgezet.
5 1 0 1 0 0 1 0 0
6 1 0 0 0 0 0 1 0
7 1 0 0 0 1 0 0 1
Tabel 6 : Internetgebruik naar opleidingsniveau
(Bron : Hoffman & Novak, 1999)2
Opleidingsniveau
Internet
totaal
3.1. CA toegepast op gegevens georganiseerd in gebruik
high school some college
less than
kruistabelformaat high
graduate college graduate
school
In hetgeen voorafging werden enkele
kernbegrippen van de “ALS”-technieken
uiteengezet. Deze begrippen krijgen meer betekenis no access 408 701 349 172 1630
wanneer ze worden gedemonstreerd aan de hand
van een voorbeeld. In hetgeen volgt worden de
zojuist behandelde kernbegrippen geadstrueerd en access only 27 108 111 39 285
wordt eveneens het begrip ‘chikwadraatafstand’
toegelicht. Wat de techniek van correspondentie- Web user 201 283 453 585 1522
analyse doet kan als volgt worden samengevat :
correspondentie-analyse tracht de samenhang in
een of meer tabellen zo goed mogelijk grafisch weer totaal 636 1092 913 796 3437
te geven. Meestal kiest men voor een
tweedimensionele plot. In de plot komen de
In correspondentie-analyse wordt de proportionele
categorieën van de variabelen als punten terug en
verdeling binnen een rijcategorie van een tabel een
staat de oorsprong (het nulpunt) voor de totale rijprofiel genoemd. In het gegeven voorbeeld
populatie. De techniek zorgt ervoor, dat de zouden we kunnen spreken van het profiel van
onderlinge afstanden tussen deze punten zoveel
hoog opgeleiden (‘’college graduate’’), het profiel
mogelijk de samenhang in de tabel(len) reflecteren.
van middelbaar opgeleiden (‘’some college’’ en
Een dergelijke afbeelding is evenwel meestal niet
‘’high school graduate’’) en het profiel van laag
mogelijk zonder enig verlies aan informatie. Het is
opgeleiden (‘’less than high school”). In plaats van
aan de onderzoeker om te beoordelen of dit een rijprofielen onderling te vergelijken, kan men ze
belangrijk deel vormt of tot een klein en ook relateren aan de proportionele verdeling van de
verwaarloosbaar deel beperkt blijft. We zullen
totale populatie, het zogenaamde gemiddelde
hierop nader ingaan aan de hand van drie vragen,
rijprofiel (d.i. het profiel van de marginale
die voor een toepassing van correspondentie-
distributie van de kolomvariabele). Gemiddelde
analyse relevant zijn :
rijprofielen zijn te omschrijven als het gewogen
∇ wat wordt er van de samenhang in een tabel gemiddelde van de afzonderlijke rijprofielen en
afgebeeld in een plot ? worden vaak omschreven als ‘’centroids’’ omdat ze
∇ hoe is, wanneer de plot eenmaal tot stand is de totale onderzoeksgroep representeren en in het
gekomen, het verlies aan tabelinformatie te centrum (de oorsprong) van het assenstelsel
bepalen ? geplaatst worden. Ten slotte kunnen rijprofielen
J. Blomme – info@dmreview.be
9. Correspondentie-analyse in Marktonderzoek - 9
__________________________________________________________________________________________________
vergeleken worden met de marginale rijprofielen. rijprofiel (kolomprofiel). Gemiddelde rij- en
Aangezien rijprofielen onafhankelijk zijn van het kolomprofielen (‘’centroids’’) worden in
aantal in elke rij, leveren marginale rijprofielen correspondentie-analyse in de oorsprong van het
informatie over het aantal in elke rijcategorie. Op assenstelsel geplaatst. Het is duidelijk dat naarmate
dezelfde wijze kunnen kolomprofielen berekend de samenhang in een tabel sterker is, de profielen
worden, kunnen kolomprofielen onderling van de rij- en kolomcategorieën sterker zullen
vergeleken worden en kunnen kolomprofielen verschillen, zowel onderling als t.o.v. het profiel
vergeleken worden met het gemiddelde van de totale populatie.
kolomprofiel en met de marginale kolomprofielen.
Vooraleer evenwel verschillen tussen rijen
(kolommen) onderling en verschillen tussen rijen
Tabel 7 : Rij- en kolomprofielen voor het voorbeeld van het (kolommen) en het gemiddelde rijprofiel
verband tussen opleidingsniveau en Internetgebruik (kolomprofiel) worden berekend, is het
noodzakelijk na te gaan of er in de tabel sprake is
van een statistisch significant verband. In het
Internet
Opleidingsniveau
marginale voorbeeld van het verband tussen opleidingsniveau
gebruik less than rij-profielen en Internetgebruik blijkt dit inderdaad het geval te
high school some College
high
graduate college graduate zijn : de berekende chikwadraatwaarde (539,365) is
school
bij 6 vrijheidsgraden significant op het .001-niveau.
Indien geen statistisch significant verband wordt
no access 0,250 0,430 0,214 0,106 0,474
gevonden in een tabel is toepassing van
correspondentie-analyse niet relevant. De
access only 0,095 0,379 0,389 0,137 0,083
afwijkingen van rijen of kolommen in een
kruistabel ten opzichte van elkaar en ten opzichte
van het gemiddelde (rij- of kolom)profiel worden
Web user 0,132 0,186 0,298 0,384 0,443 berekend met behulp van de zgn.
chikwadraatafstand. De chikwadraatafstand heeft
een analoge betekenis als de (dis)similariteit bij
0,185 0,318 0,266 0,232 1,000 multidimensionele schaalanalyse. Indien een rij of
gem. rij-
profielen kolom precies gelijk is aan de randverdeling (het
gemiddelde rij- of kolomprofiel) is de
chikwadraatafstand gelijk aan 0. Bijgevolg zal zo’n
rij of kolom ook precies in de oorsprong van het
Opleidingsniveau
Internet gem.
assenstelsel vallen. De oorsprong van het
gebruik less than high
some college
kolom- assenstelsel (het nulpunt) representeert immers de
high school profielen totale steekproef. Ook voor het bepalen in hoeverre
college graduate
school graduate
rijen en kolommen onderling van elkaar verschillen
wordt gebruik gemaakt van de chikwadraatafstand.
no access 0,642 0,642 0,382 0,216 0,474
Hoe groter de chikwadraatafstand tussen twee rijen
of kolommen, hoe meer de verdelingen van die
access
0,042 0,099 0,122 0,049 0,083
twee rijen of kolommen van elkaar zullen
only
verschillen. Eveneens geldt hoe groter de
chikwadraatafstand tussen rijen of kolommen, hoe
Web user 0,316 0,259 0,496 0,735 0,443 verder die van elkaar verwijderd zijn in een
grafische weergave. In tabel 8 vermelden we de
chikwadraatafstanden tussen rijen en kolommen
marginale
voor het voorbeeld van het verband tussen
0,185 0,318 0,266 0,232 1,000
kolom- opleidingsniveau en Internetgebruik.
profielen
In het voorgaande is uiteengezet dat voor twee
variabelen kan worden nagegaan of er al dan niet
een samenhang bestaat. Bij een significante
chikwadraatwaarde weten we dan dat twee
Behalve de rij- en kolomprofielen en het
variabelen niet onafhankelijk van elkaar zijn. Als
gemiddelde rij- en kolomprofiel is in tabel 7 ook het
we echter meer gedetailleerde informatie willen
marginale rijprofiel en het marginale kolomprofiel
hebben over die afhankelijkheid, dan kunnen we
opgenomen. Zoals vermeld, kunnen verschillen
nagaan in hoeverre de categorieën van de ene
bepaald worden tussen rijen (kolommen) onderling
variabele, bijvoorbeeld de rijen, onderling nog
en tussen rijen (kolommen) en het gemiddelde
J. Blomme – info@dmreview.be
10. Correspondentie-analyse in Marktonderzoek - 10
__________________________________________________________________________________________________
gelijkenis vertonen met betrekking tot de (3 categorieën) is het maximaal aantal dimensies 2.
categorieën van de andere variabele, de kolommen. Er kunnen namelijk nooit meer zinvolle dimensies
Om die gelijkenis (of afstand) tussen rijen of worden gevonden dan het minimum van het aantal
kolommen onderling te bepalen, wordt gebruik rijen (3) en kolommen (4), verminderd met 1, dus
gemaakt van de chikwadraatafstand. Met behulp min(3-1),(4-1) = 2. De samenhang tussen beide
van de chikwadraatafstand kan dus worden variabelen op de eerste dimensie wordt
nagegaan in hoeverre rijen van elkaar verschillen. weergegeven door de ‘’singular value’’ van de
De overeenkomsten of verschillen hebben altijd eerste dimensie, nl. 0,379. De samenhang tussen
betrekking op de kolomcategorieeën. Omgekeerd opleidingsniveau en Internetgebruik op de tweede
kan worden nagegaan of de kolomcategorieën dimensie daalt naar 0,115.
verschillen met betrekking tot de rijen.
Tabel 9 : : Anacor-oplossing voor het voorbeeld van het verband
Tabel 8 : Chikwadraatafstanden tussen rijen en kolommen voor tussen opleiding en beroepsstatus
het voorbeeld van het verband tussen opleidingsniveau en
Internetgebruik
dimensie singular inertia proportie cumulatieve
value verklaarde proportie
chikwadraatafstanden tussen rijen variantie verklaarde
variantie
R1 R2 R3
1 0,37923 0,14381 0,916 0,916
R1 . 0,561 0,924
2 0,11452 0,01311 0,084 1,000
R2 0,561 . 0,764
R3 0,924 0,764 . Totaal 0,15693 1,000
Chi2 = 539,365
chikwadraatafstanden tussen kolommen
Een belangrijke waarde in tabel 9 is de ‘’inertia’’-
K1 K2 K3 K4
waarde die berekend wordt als het quotiënt van de
deling van de totale chi2-waarde (539,365) door het
K1 . 0,495 0,493 0,426
aantal onderzoekseenheden (3437). CA kan opgevat
worden als een methode voor de decompositie (in
K2 0,495 . 0,354 0,654 een zo gering mogelijk aantal dimensies) van de
variantie (‘’inertia’’) in een tabel, waarbij de
K3 0,493 0,354 . 0,417 variantie wordt aangegeven door de chi2-waarde.
In dit opzicht vertoont CA een gelijkenis met
K4 0,426 0,654 0,417 .
factoranalyse, aangezien het ook de bedoeling is
van factoranalyse om de totale variantie in een set
variabelen weer te geven in een zo gering mogelijk
aantal dimensies.
Samenhang in een kruistabel blijkt in eerste
2. Hoe is het verlies aan tabelinformatie te bepalen ? instantie uit de mate waarin afwijkingen
Wanneer uitgaande van de hiervoor besproken voorkomen tussen geobserveerde en verwachte
principes, de kruistabel met de gegevens van frequenties. Als de waargenomen en verwachte
opleidingsniveau en Internetgebruik wordt celfrequenties in een tabel nauwelijks van elkaar
onderworpen aan een correspondentie-analyse verschillen en de rijen en kolommen derhalve
worden de volgende resultaten verkregen zoals onafhankelijk van elkaar zijn, dan hebben we
vermeld in tabel 9. genoeg aan de rij- en kolomprofielen om de
‘’samenhang’’ tussen variabelen te beschrijven.
In de tabel worden in de eerste plaats de ‘’singular Naarmate de verschillen tussen waargenomen en
value’’ vermeld van de dimensies. In het verwachte celfrequenties toenemen, stijgt ook de
voorbeeld van de samenhang tussen chi2-waarde.
opleidingsniveau (4 categorieën) en Internetgebruik
J. Blomme – info@dmreview.be
11. Correspondentie-analyse in Marktonderzoek - 11
__________________________________________________________________________________________________
In het voorbeeld van het verband tussen Internetgebruik voor de categorie ‘’high school’’
opleidingsniveau en Internetgebruik wordt 91,6 % (99,3%). In de plot (zie pag. 12) betekent dit dat
van de chikwadraat afgesplitst door de eerste deze beide categorieën, gezien als vectoren vanuit
dimensie. Op grond van deze resultaten kan de oorsprong, veel meer in de richting van de eerste
geconcludeerd worden dat de eerste dimensie het dan de tweede dimensie liggen.
meest van de samenhang tussen opleiding en
Internetgebruik in beeld brengt. Anderzijds blijkt
de tweedimensionele oplossing te resulteren in een Tabel 11 : Procentuele bijdrage van dimensies aan de verklaring
volledige verklaring van de variantie. van de verschillen in Interne gebruik naar opleidingsniveau
De rijscores onder dimensie 1 en 2 (zie tabel 10) zijn dimensie 1 dimensie 2
optimale scores voor categorieën van rijcategorie
Internetgebruik op de eerste en tweede dimensie.
no access .987 .013
De kolomscores onder dimensie 1 en 2 zijn de
optimale scores voor de opleidingscategorieën op access only .053 .947
de eerste en de tweede dimensie. Het marginaal
Web user .996 .004
profiel bevat de relatieve frequenties.
kolomcategorie
Tabel 10 : Optimale scores voor rij- en kolomcategorieëen in het less than high school 0,754 0,246
voorbeeld van het verband tussen opleidingsniveau en
Internetgebruik high school 0,993 0,007
some college 0,464 0,536
marginaal dimensie Dimensie
profiel 1 2 college graduate 0,981 0,019
rijscores
no access .474 -.607 .126
3. Hoe moet de plot geïnterpreteerd worden ?
Wanneer de fit van de oplossing redelijk voldoet,
access only .083 -.146 -1.123
komen we toe aan de beantwoording van de derde
Web user .443 .677 .075
vraag, nl. hoe de plot geïnterpreteerd moet worden.
In de praktijk zal correspondentie-analyse vaak
worden aangewend vanwege de mogelijkheden tot
kolomscores grafische weergave van de resultaten. Rij- en
kolomcategorieëen kunnen via correspondentie-
analyse grafisch worden weergegeven omdat
less than high school .185 -.478 .497
coördinaten worden berekend, waarmee de plaats
van een rij-of kolomcategorie vastligt. De
high school .318 -.602 -.093
coördinaten hebben als eigenschap dat het zoals
eerder vermeld optimale schaalwaarden zijn. Dit
some college .266 .228 -.445
betekent dat de correlatie tussen de rij- en
college graduate .232 .947 .241 kolomvariabele zal maximaal zijn, ongeacht het
meetniveau van de rij- en kolomvariabele in de
kruistabel. De kruistabel die met behulp van
correspondentie-analyse wordt geanalyseerd,
Het is eveneens mogelijk meer specifiek de fit van wordt zodanig getransformeerd dat de gemiddelde
de oplossing te controleren. De output van een rij- en kolomproefielen in de oorsprong van de
correspondentie-analyse geeft de procentuele grafische weergave vallen. Bij de interpretatie van
bijdrage weer van de dimensies aan de verklaring een plot dienen de volgende vuistregels in acht
van de verschillen tussen de categorieën en de genomen te worden.
totale groep. In tabel 11 worden deze procentuele
bijdragen weergegeven voor de rijcategorieën. Uit In de eerste plaats dient gelet te worden op de
bovenstaande proporties valt o.m. af te leiden dat afstanden van de rij- en kolompunten ten opzichte
verschillen in Internetgebruik tussen hoger van de oorsprong. Naarmate deze afstand groter is,
opgeleiden (‘’college’’) en de totale groep voor is de afwijking van het betreffende rij- of
98,1% verklaard worden door de eerste dimensie. kolomprofiel ten opzichte van het profiel van de
Dit is nog meer het geval voor verschillen in totale groep groter. Rijen of kolommen met een
klein randtotaal worden verder weggeplaatst van
J. Blomme – info@dmreview.be
12. Correspondentie-analyse in Marktonderzoek - 12
__________________________________________________________________________________________________
de oorsprong dan rijen of kolommen met een groot Tabel 12 : Procentuele bijdragen van rij- en kolomcateorieën
randtotaal. In extremo kan een bepaalde rij of aan de decompositie van de variantie
kolom zelfs de hele oplossing domineren dimensie 1 dimensie 2
(“outliers”). Het is daarom van belang niet alleen
rijcategorie
de plaats van een rij/kolom in de plot te bekijken
maar ook de marginale frequentie ervan. Zo wordt no access .460 .066
de categorie ‘’access only’’ in het assenstelsel het
access only .005 .912
verst van de oorsprong geplaatst. Dit betekent dat
het profiel van deze gebruikers sterk afwijkt van het Web user .535 .022
gemiddelde. Het marginaal profiel (0,083) van
‘’access only’’-gebruikers geeft aan dat slechts een kolomcategorie
minderheid van de Internetgebruikers tot deze
less than high 0,112 0,399
categorie behoort. school
high school 0,304 0,024
some college 0,036 0,459
college graduate 0,548 0,118
In de tweede plaats dienen de afstanden van de
rijpunten en de kolompunten ten opzichte van
elkaar in beschouwing genomen te worden.
Naarmate deze afstand kleiner is, lijken de
categorieën, die door deze punten worden
voorgesteld, meer op elkaar. In het voorbeeld van
het verband tussen opleidingsniveau en
Internetgebruik is gekozen voor een symmetrische
oplossing, waarbij de afstanden tussen de
rijcategorieën en de afstanden tussen de
kolomcategorieën direct interpreteerbaar zijn als
verschillen tussen profielen. Afstanden tussen
opleidingsniveaus kunnen geïnterpreteerd worden
als verschillen in Internetgebruik. Afstanden in
Internetgebruik kunnen geïnterpreteerd worden als
verschillen naar opleidingsniveau.
Plot van het verband tussen opleidngsniveau en Internetgebruik
(leeftijdscategorieën zijn toegevoegd als supplementaire categorieën) Ten slotte dient gelet te worden op de afstanden
van de rijpunten ten opzichte van de kolompunten.
Anderzijds geeft de contributietabel (zie tabel 12) Ondervertegenwoordiging (dus een lagere dan
aan wat de bijdrage is van een rij of kolom aan de verwachte frequentie) is een indicatie van negatieve
correlatieratio op een bepaalde dimensie. Een samenhang. Oververtegenwoordiging (dus een
rij/kolom met een absoluut grote optimale score en hogere dan verwachte frequentie) is een indicatie
een geringe bijdrage kan als “outlier” beschouwd van een positieve samenhang tussen een bepaalde
worden. rij- en kolomcategorie in een kruistabel.
Wanneer in een bepaalde rijcategorie een bepaalde
kolomcategorie oververtegenwoordigd is, zullen de
corresponderende rij- en kolompunten in de plot
dicht bij elkaar liggen. Hoe verder deze punten van
de oorsprong verwijderd zijn, hoe sterker de
samenhang (positieve samenhang). Is daarentegen
een kolomcategorie ondervertegenwoordigd in een
rijcategorie, dan liggen deze beide punten ver van
elkaar verwijderd en aan verschillende kanten van
de oorsprong (negatieve samenhang).
Komt een kolomcategorie ongeveer even vaak voor
als verwacht kan worden op basis van de marginale
proportie, dan staan de betreffende rij- en
J. Blomme – info@dmreview.be
13. Correspondentie-analyse in Marktonderzoek - 13
__________________________________________________________________________________________________
kolompunten, gezien als vectoren vanuit de zijn bepalender voor een groep dan categorieën die
oorsprong, ongeveer loodrecht op elkaar. Rij- en meer in het middelpunt staan. Om die sterkte van
kolompunten hangen dan niet samen. de verbanden meer inzichtelijk te maken kan men
rondom het middelpunt een onregelmatige cirkel
Wanneer de verschillen tussen geobserveerde en
tekenen die de groepen (bv. rijcategorieën) in de
verwachte frequenties worden gedeeld door de
plot met elkaar verbindt. Op die manier ontstaat
wortel uit de verwachte frequenties krijgen we een
een polygoon of veelhoek (waarvan de hoeken
beeld van de mate waarin tussen rijen en
worden afgerond). Op basis hiervan kunnen we
kolommen positieve of negatieve samenhangen
stellen dat categorieën die binnen de cirkel staan,
bestaan. In tabel 13 vermelden we de resultaten
weinig groepsonderscheidend zijn terwijl de
van deze berekening voor het voorbeeld van het
categorieën die buiten de cirkel staan het meest
verband tussen opleidingsniveau en
groepsspecifiek en dus het meest interessant zijn.
Internetgebruik.
We nemen als voorbeeld de categorie ‘’less than
high school’’. Voor deze opleidingscategorie is de
kans op ‘’no access’’ groter dan verwacht (6.13). De
kans op ‘’no access’’ voor hoog opgeleiden
(‘’college’’) is veel lager dan verwacht (-14.33). De
plot laat zien dat correspondentie-analyse de
afstanden tussen verwachte en geobserveerde
3.2. Uitbreidingen van ANACOR
frequenties in een kruistabel in beeld brengt.
Bij een correspondentie-analyse is de hoek tussen De kruistabel die we in voorgaand punt
de lijn middelpunt-rijcategorie en de lijn analyseerden, had als voornaamste eigenschap dat
middelpunt-kolomcategorie van groot belang. Als beide randverdelingen sommeren tot het aantal
die hoek nul is en een rijcategorie en een observaties. De randtotalen bevatten de verdeling
kolomcategorie staan op eenzelfde lijn, dan per variabele. Beide variabelen habben betrekking
betekent dit dat de kolomcategorie uniek is voor de op eigenschappen van respondenten binnen
rijcategorie. Als de hoek tussen de twee lijnen eenzelfde steekproef. Elke respondent kwam maar
groter wordt, neemt de samenhang af. Als de hoek in 1 rij en 1 kolom voor. De kruistabellen die hierna
90 graden is, is de correlatie afwezig en als de hoek vernoemd worden, wijken alle in meer of mindere
nog groter is, wil dat zeggen dat de samenhang mate af van deze eigenschappen van een “gewone”
negatief is. kruistabel. Andere soorten kruistabellen, die met
behulp van correspondentie-analyse, i.c. ANACOR,
Tabel 13 : De samenhang tussen rijen en kolommen voor het kunnen worden geanalyseerd, zijn bijvoorbeeld :
voorbeeld van het verband tussen opleiding en Internetgebruik
(geobserveerde-verwachte frequentie) /√ (verwachte frequentie)
• kruistabellen, die zowel over rijen als kolommen
niet sommeren tot het aantal objecten in de
steekproef ;
no access access Web user • tijdreeksgegevens ;
only • respondenten x variabelen ;
• produkten x eigenschappen ;
less than • dissimilariteiten, enz.
high 6.13 -3.54 -4.80
school
Bij de analyse van dergelijke data, dienen een aantal
high regels in acht genomen te worden.
school 8.04 1.84 -9.12
graduate • In het geval van de analyse van “non-
frequency”-data is het niet zinvol om
some -4.04 4.07 2.42 interpretaties te verbinden aan chikwadraat-
college afstanden. De toepassing van ANACOR op
“non-frequency”-data heeft in eerste instantie
college -14.33 -3.33 12.39 tot doel een visuele voorstelling van de
. structuur van de data te bekomen3.
• Indien ANACOR wordt toegepast op rangorde-
data (e.g. bekomen door toepassing van de
Categorieën die ver buiten het middelpunt staan, methode van de paarsgewijze vergelijking) dan
J. Blomme – info@dmreview.be
14. Correspondentie-analyse in Marktonderzoek - 14
__________________________________________________________________________________________________
dient de meest geprefereerde keuze de hoogste verschillend meetniveau in eenzelfde analyse
waarde te krijgen in de te analyseren matrix van kunnen betrokken worden.
rangorden.
Omdat HOMALS betrekking heeft op meer dan
• Indien de data die met behulp van ANACOR
twee variabelen zijn er ook belangrijke verschillen
geanalyseerd worden, georganiseerd zijn onder
in uitvoer en resultaten in vergelijking met gewone
de vorm van ongelijkheden (“dissimilarities”),
correspondentie-analyse. Een van de meest
dan dienen alle ongelijkheden in de matrix
wezenlijke verschillen is dat bij correspondentie-
afgetrokken te worden van een getal groter dan
analyse (ANACOR) de eta of correlatieratio
de grootste ongelijkheid (meestal wordt bij dit
aangeeft wat de correlatie is op een bepaalde
laatste gekozen voor een getal dat 1 groter is
dimensie tussen twee optimaal geschaalde
dan de grootste dissimilariteit).
variabelen. Bij HOMALS geeft de eta aan wat de
• In het geval van de analyse van symmetrische
gemiddelde bijdrage is van alle betrokken
relaties dienen de diagonaalwaarden
analysevariabelen aan een bepaalde dimensie. Per
gelijkgesteld te worden aan de grootste waarde
dimensie wordt per variabele een zogenaamde
+1.
discriminatiemaat berekend. Deze
discriminatiemaat geeft o.m. aan hoe goed de
categorieën van een variabele ruimtelijk gespreid
zullen worden bij een grafische weergave. De
discriminatiemaat geeft in feite dus de variantie
3.3. HOMALS : Meervoudige correspondentie- weer van een optimaal geschaalde variabele.
analyse Hoe hoger de discriminatiemaat van een variabele,
hoe verder de categorieën van die variabele uit
Om de relatie met het voorgaande te benadrukken elkaar en van de oorsprong liggen. Als we alle
zij opgemerkt dat HOMALS ook bekend staat als discriminatiematen op een bepaalde dimensie
meervoudige correspondentie-analyse. Het optellen en delen door het aantal variabelen krijgen
belangrijkste verschil met ANACOR is dat nu meer we een beeld van de “fit” (de gemiddelde
dan twee variabelen in de analyse worden discriminatiemaat). Indien de gemiddelde
betrokken. Waar bij ANACOR de datamatrix een discriminatiemaat laag is, kan dit een gevolg zijn
kruistabel is, is bij HOMALS de datamatrix de van het feit dat enkele variabelen een zeer hoge
eerder vermelde indicatormatrix. Dus de matrix discriminatiemaat hebben en sommige een zeer
van dummy-variabelen per respondent. De lage, zodat vaak meer dimensies nodig zijn om een
respondenten staan doorgaans in rijen en de compleet beeld te krijgen. Een lage gemiddelde
categorieën van de variabelen in kolommen. Bij discriminatiemaat kan ook betekenen dat geen
HOMALS houdt optimale schaling in dat per enkele variabele een grote bijdrage levert aan een
variabele zodanige categoriekwantificaties bepaalde dimensie.
(optimale scores) worden berekend dat de Bij de interpretatie van de resultaten van een
categorieën van een variabele zover mogelijk uit HOMALS-analyse dient rekening te worden
elkaar liggen. Naar analogie met ANACOR krijgen gehouden met een aantal “eigenaardigheden”.
ook de rijen, bij HOMALS de respondenten, een
score, de zogenaamde objectscores. De objectscores Net zoals bij ANACOR worden categorieën met een
worden zodanig berekend dat de klein randtotaal verder van de oorsprong gelegd
categoriekwantificaties het gemiddelde vormen van dan categorieën met een groot randtotaal.
de objecten (respondenten) die in die categorie HOMALS rekent per dimensie aparte
vallen. HOMALS tracht respondenten die in categoriekwantificaties uit per variabele. Het aantal
dezelfde categorie vallen zo dicht mogelijk bij onafhankelijke kwantificaties kan nooit groter zijn
elkaar te plaatsen en respondenten die in dan het aantal categorieën minus 1. Dus als bv. 10
verschillende categorieën vallen ver van elkaar te variabelen met elk drie categorieën onderworpen
plaatsen. Idealiter verdelen de categorieën de worden aan een HOMALS-analyse dan zullen er
respondenten in homogene groepen. Variabelen maximaal (3-1) = 2 dimensies mogelijk zijn met
worden homogeen genoemd als ze de onafhankelijke kwantificaties.
respondenten in nagenoeg dezelfde subgroepen
opsplitsen. HOMALS kan krachtens het Indien de variabelen die aan een HOMALS-analyse
voorgaande in marktonderzoektermen dan ook onderworpen worden een “goede” schaal vormen
gezien worden als een techniek waarmee men (d.w.z. een ééndimensionele schaal vormen), dan
segmentatie-analyses kan verrichten. Met het zal de tweede dimensie lineair afhankelijk zijn van
bijkomend voordeel, dat variabelen van de eerste dimensie. Dit kan grafisch gevisualiseerd
J. Blomme – info@dmreview.be
15. Correspondentie-analyse in Marktonderzoek - 15
__________________________________________________________________________________________________
worden. Indien een aantal variabelen een categorieën van variabelen aan de
ééndimensionele schaal vormen, dan zal een plot discriminatiematen per dimensie te berekenen. De
van de categoriekwantificaties op de eerste en bijdrage is de categoriekwantificatie in het
tweede dimensie een hoefijzerpatroon te zien kwadraat vermenigvuldigd met de relatieve
geven. Zo’n hoefijzerpatroon kan onder bepaalde frequentie van de desbetreffende categorie. Een
voorwaarden gezien worden als een signaal dat de categorie met een geringe bijdrage kan als “outlier”
dimensie alle relevante informatie bevat. beschouwd worden (mogelijke oplossingen :
hercodering, categorie op “missing” zetten).
Als bij een gegeven oplossing, zeg in twee
dimensies, een derde dimensie wordt berekend, Zowel HOMALS als ANACOR zijn
dan blijven de eerste (twee) dimensies dimensiereductietechnieken. HOMALS en
onveranderd. Net zoals in het geval van ANACOR ANACOR zullen trachten de chikwadraatafstanden
zijn de verschillende dimensies bij HOMALS tussen rijen en kolommen in een zo klein mogelijk
“genest”. aantal dimensies weer te geven. Het weglaten van
dimensies leidt tot verlies aan informatie. In een
Als alle dimensies worden berekend dan zal de som
aantal gevallen zal een tweedimensionele grafische
van de discriminatiewaarden per variabele gelijk
weergave van de HOMALS-resultaten tot een
zijn aan het aantal categorieën per variabele minus
verkeerd beeld van de afstand tussen categorieën
1. Dit betekent dat een variabele met veel
van variabelen leiden.
categorieën een potentieel hogere discriminatiemaat
kan hebben dan een dichotome variabele. Een
gevolgtrekking is dan ook dat indien er grote
verschillen zijn in het aantal categorieën van de
variabelen die aan een HOMALS-analyse worden 4. Toepassingen van correspondentie-analyse in
onderworpen, dit ook de interpretatie van de marktonderzoek
bekomen resultaten zal bemoeilijken. Het verdient
daarom aanbeveling om na te gaan of via We zullen in hetgeen volgt de toepassing van
hercodering er voor gezorgd kan worden dat de correspondentie-analyse in marktonderzoek
variabelen die in een HOMALS-analyse betrokken illustreren aan de hand van een tweetal
worden, zoveel mogelijk een gelijk aantal voorbeelden. In een eerste voorbeeld wordt de
categorieën hebben. bruikbaarheid van correspondentie-analyse
aangetoond voor het analyseren van
HOMALS is gevoelig voor “outliers” :
(dis)similariteitsgegevens. Voor deze toepassing
respondenten met een unieke score. Het niet
maken we gebruik van een onderzoek van Bouts en
opmerken van “outliers” kan tot gevolg hebben dat
Mackor (1991) over merkassociaties bij banken. In
men oplossingen inspecteert die volledig bepaald
een tweede toepassing wordt aangetoond hoe via
worden door één of enkele respondenten. Het is
een indicatormatrix inzicht kan verkregen worden
dus van belang ook (en vooral) bij grotere databases
in gebruikspatronen van frisdranken. De gegevens
de objectscores te inspecteren op extreme (absolute
voor deze analyse ontlenen we aan Kuylen (1990).
waarde) objectscores. Indien zo’n situatie zich
In beide gevallen werden de gegevens van
voordoet zijn er enkele strategieën mogelijk, w.o.
voornoemde auteurs door onszelf geanalyseerd
• de desbetreffende respondenten elimineren ; door gebruikmaking van de ANACOR, resp.
• de waarde(n) voor de desbetreffende HOMALS-procedure zoals opgenomen in de SPSS-
respondenten op de betrokken variabele(n) module “Categories”.
op “missing” zetten ;
• hercodering ;
• indien alleen de eerste en tweede dimensie
enkele “outliers” bevatten deze dimensies 4.1. Merkassociaties bij banken
negeren en alleen de derde en volgende
dimensies gebruiken.
Het beeld van de bank als merk bestaat, zoals bij
alle merken, uit een veelheid van associaties. Door
Indien er hoge discriminatiewaarden (bijna 1.0) deze associaties van de consument krijgt het
worden gevonden, hoeft dit niet altijd een onvatbare merk voor hem/haar gestalte. Het
bruikbaar resultaat op te leveren. Het is goed psychologische merk (het merk in hoofde van de
mogelijk dat een hoge discriminatiemaat een gevolg consument) kan worden onderverdeeld in drie
is van een categorie met een laag randtotaal. Het is categorieën : zintuiglijk, emotioneel en rationeel.
daarom aan te bevelen om de bijdrage van de Zintuiglijk roepen banken weinig associaties op.
J. Blomme – info@dmreview.be
16. Correspondentie-analyse in Marktonderzoek - 16
__________________________________________________________________________________________________
Dat heeft te maken met het feit dat de eigenlijke vragenlijst te zien kregen, werd gevraagd
dienstverlening van een bank voor een belangrijk welke van deze banken zij niet kenden.
deel onzichtbaar en ongrijpbaar is. Emotionele en Respondenten die één of meerdere banken niet
vooral rationele associaties bestaan daarentegen kenden werden niet in het onderzoek opgenomen.
wel bij banken. Het beeld dat mensen van een bank Respondenten die de banken wel kenden, kregen
hebben, wordt echter sterk opgehangen aan de alle mogelijke (10) combinaties van deze (6) banken
eigen bank. Het gevolg hiervan is dat bij imago- op het beeldscherm te zien. De vraagstelling was
onderzoek naar banken heel sterk het profiel van de als volgt : Welke van deze banken vindt u het meest
eigen bank wordt teruggespeeld. Dat wil echter bij elkaar passen ? Vervolgens werd gevraagd
niet zeggen dat consumenten geen beeld hebben waarom ze een bepaalde combinatie van banken als
van andere banken dan hun eigen bank. Dagelijks het meest bij elkaar passend vonden. Hierbij
zien ze advertenties van banken en worden zij konden de respondenten kiezen uit een lijst met
geconfronteerd met verhalen over de associaties. Om de bruikbaarheid van
dienstverlening van banken. Alleen rijst de vraag : correspondentie-analyse aan te tonen voor het
hoe krijgen we die beelden boven water ? Hoe analyseren van (dis)similariteitsgegevens, beperken
brengen we die meerdimensionele beeldvorming we ons in hetgeen volgt tot de combinaties van
nu tevoorschijn ? banken die door de respondenten werden naar
voren geschoven als meest passend. Om de
In de eerste plaats is er kwalitatief onderzoek naar
‘afstand’ tussen banken te bepalen, is in het
het imago van banken. Imago-onderzoek bij
onderzoek gebruik gemaakt van het aantal keren
banken in een kwalitatieve opzet wordt uitgevoerd
dat een combinatie van banken wordt genoemd als
door middel van groepsdiscussies en diepte-
meest passend.
interviews. Hierbij wordt o.m. gebruik gemaakt
van projectieve technieken (bv. foto-sort). In tabel 14 is voor elke combinatie tussen banken
Kwalitatief onderzoek kan een heel levendig beeld aangegeven hoeveel keer deze door de
van banken naar voren brengen, maar respondenten als meest passend naar voren werd
kwantificering ontbreekt. Uiteindelijk willen we geschoven. Zoals eerder aangestipt, dienen “non
immers te weten komen hoe banken zich frequency”-data in het geval van correspondentie-
positioneren in hoofde van consumenten en welke analyse (ANACOR) behandeld te worden als
dimensies die positionering kunnen verklaren. similariteiten. In het door ons gekozen voorbeeld
van combinaties tussen banken , geven de
In sommige kwantitatieve studies moeten
frequenties waarmee banken als meest passend
respondenten aangeven of een bepaalde eigenschap
worden gepercipieerd een aanduiding van de
al of niet past bij een bank. Deze methode geeft vrij
gelijkenis of similariteit tussen banken. De
vlakke beelden. Het is daarom minder aangewezen
gegevens dienen derhalve niet aangepast te
mensen te vragen ‘wat past bij wat’, maar ze te
worden4. Aangezien we een symmetrische matrix
confronteren met groepen (sets) van banken en
invoeren, worden de diagonaalwaarden
daartussen overeenkomsten en verschillen laten
gelijkgesteld aan de grootste gelijkenis + 1 (59 +1 =
aangeven. Respondenten zijn immers in staat om
60).
banken in groepen in te delen en vanuit deze
vergelijking associaties te formuleren. Een
voorbeeld hiervan is de “natural grouping”- Tabel 14 : Aantal keren dat combinaties van banken als meest
passend worden genoemd (Bouts & Mackor, 1991 : 55 ; eigen
techniek die zeer geschikt is om associatieve
bewerking)
netwerken in kaart te brengen. Een andere
methode is het gebruik van triade-technieken, POST SPAAR
ABN AMRO NMB RABO
waarbij de respondent bij groepjes van drie (triade) BANK BANK
moet aangeven welke van de drie hij/zij het meest ABN 60 59 43 24 25 16
bij elkaar vindt passen en welke twee het minst bij AMRO 59 60 34 17 43 19
elkaar passen. In het onderzoek van Bouts en
NMB 43 34 60 44 26 21
Mackor (1991) is gebruik gemaakt van deze
methode. Het onderzoek is uitgevoerd met behulp POSTBANK 24 17 44 60 25 55
van een telepanel dat een representatief staal is van RABO 25 43 26 25 60 48
de Nederlandse bevolking. De leden van het SPAAR
telepanel hebben thuis een homecomputer staan. BANK
16 19 21 55 48 60
Het gaat dus om computergestuurde enquêtering.
Aan de respondenten werd een lijst van zes banken Hoewel de interpretatie van het begrip
voorgelegd : ABN, AMRO, NMB, Postbank, RABO “chikwadraatafstand” in het geval van “non-
en Spaarbank. Vooraleer de respondenten de frequency”-data met de nodige voorzichtigheid
J. Blomme – info@dmreview.be