SlideShare a Scribd company logo
1 of 19
Download to read offline
CORRESPONDENTIE-ANALYSE
   IN MARKTONDERZOEK


         Johan Blomme


    email : info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 2
 __________________________________________________________________________________________________
            1. Situering en kernbegrippen                     betrokken worden in een correspondentie-analyse
                                                              categorische variabelen genoemd. Dit zijn variabelen
Hoewel correspondentie-analyse een reeds lang                 die de te onderzoeken objecten sorteren in een
bestaande techniek is, neemt de belangstelling                betrekkelijk klein aantal groepen, welke als
ervoor de laatste jaren gestadig toe. Dit houdt               categorieën worden aangeduid. Er worden dus
verband met de toegenomen populariteit van                    gegevens geanalyseerd van een aantal objecten met
exploratieve         gegevensanalyse,       waarvoor          betrekking tot een aantal variabelen. Een variabele
correspondentie-analyse        zich    goed    leent.         wordt gedefinieerd door de mogelijkheid om
Correspondentie-analyse kan in het algemeen                   objecten in te delen in onderscheiden en elkaar
beschouwd worden als een techniek om de                       uitsluitende categorieën.
samenhang tussen categorische variabelen te                  Een onderscheid wordt gemaakt tussen drie soorten
exploreren.     Traditioneel     worden      daartoe         variabelen. In het geval van een nominale variabele
kruistabellen gehanteerd. Grote kruistabellen en             zijn de categorieën niet volgens een van tevoren
meerdere kruistabellen maken het evenwel vlug                vastgelegde volgorde ingedeeld. Bij de verwerking
lastig   om     samenhangen       op    te   sporen.         van ordinale variabelen dient er rekening mee
Correspondentie-analyse (CA) maakt het mogelijk              gehouden te worden dat de categorieën in een
samenhangen grafisch voor te stellen. Meestal                voorafbepaalde volgorde staan.             De derde
wordt gekozen voor een tweedimensionele plot                 mogelijkheid is dat de categorieën van tevoren een
waarin de categorieën van variabelen als punten              bepaalde getalwaarde krijgen met de bedoeling dat
voorkomen en waarbij het nulpunt (de oorsprong               (anders dan bij ordinale variabelen) verschillen
van het assenstelsel) staat voor de totale populatie.        tussen die getallen geïnterpreteerd mogen worden
De techniek zorgt ervoor dat de onderlinge                   als verschillen tussen objecten in die categorieën.
afstanden tussen deze punten zoveel mogelijk de              Zo’n variabelen noemen we numerieke variabelen
samenhang in de tabel(len) reflecteren.          De          (bv. het verschil tussen 25 jaar en 20 jaar is even
technieken en procedures die onder CA sorteren,              groot als het verschil tussen 55 jaar en 50 jaar).
kunnen      als    een      deelverzameling     van
schaaltechnieken beschouwd worden. Zo hebben                 Het is van belang om in te zien dat het onderscheid
de in de SPSS-module “Categories” opgenomen                  tussen nominale, ordinale en numerieke variabelen niet
technieken zoals ANACOR, HOMALS, PRINCALS                    voortvloeit uit de eigenschappen van de variabelen
en OVERALS (ook “ALS”-technieken genoemd                     zelf, maar dat het gaat om eigenschappen die door
omdat ze werken overeenkomstig het principe van              een onderzoeker aan deze variabelen worden
“alternating least squares”)1 als gezamenlijk                opgelegd. Zo kan de variabele ‘leeftijd’ door een
kenmerk dat op een of andere manier                          onderzoeker ook als een ordinale variabele worden
schaalwaarden worden berekend voor de                        gehanteerd. De onderzoeker gaat er dan van uit dat
categorieën van de in de analyse betrokken                   de categorieën wel op een bepaalde volgorde staan,
variabelen. Ter verduidelijking hiervan dienen een           maar niet dat afstanden tussen opeenvolgende
aantal kernbegrippen van naderbij beschouwd te               categorieën gelijk zijn.       Anderzijds kan een
worden.                                                      variabele als politieke voorkeur (nominaal) door
                                                             een onderzoeker ook als een ordinale variabele
                                                             behandeld worden (o.m. door politieke partijen op
                1.1. Niet-lineariteit                        een schaal van ‘links’ naar ‘rechts’ te rangordenen).
                                                              Kortom, of een variabele nominaal, ordinaal of
CA is een geheel van technieken die voorzien in de           numeriek behandeld moet worden, wordt niet
niet-lineaire analyse van categorische variabelen.           voorgeschreven door intrinsieke eigenschappen
Als zodanig zijn de “ALS”-technieken de                      van de variabele zelf, maar wordt bepaald door de
tegenhangers van de klassieke multivariate lineaire          eisen die de onderzoeker aan de variabele stelt.
technieken zoals factoranalyse, regressie-analyse,
discriminantanalyse, e.a.       Niet-lineariteit heeft       In tal van onderzoeken komt het voor dat gegevens
betrekking op het feit dat bij CA geen voorafgaande          ontbreken. De oorzaken hiervan zijn velerlei. Wat
eisen aan het meetniveau van de te behandelen                te doen als er ontbrekende gegevens zijn ? Er zijn
variabelen worden gesteld. Dit is eveneens het               drie mogelijkheden. Voor de ontbrekende gegevens
geval bij log-lineaire analyse. Deze laatste techniek        van een variabele voeren we één nieuwe,
heeft echter als nadeel dat het vinden van een               afzonderlijke categorie in. Alle objecten met
spaarzaam (“parsimonious”) model moeilijk wordt              ontbrekende gegevens op de variabele worden aan
bij een grote steekproefomvang. CA fungeert hier             de aparte categorie toegewezen. Deze aanpak
als een te overwegen alternatief. Zoals dit het geval        veronderstelt uiteraard, dat objecten waarvan de
is bij log-lineaire analyse, worden de variabelen die        gegevens ontbreken, om deze reden op elkaar lijken
                                                             en dat het hierom gewettigd is de ontbrekende



                                        J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 3
 __________________________________________________________________________________________________
gegevens als één categorie op te vatten. Het is        kan blijken dat de resultaten in hoofdzaak hetzelfde
natuurlijk de vraag of deze veronderstelling           zijn, ook al werden verschillende opties gekozen.
realistisch is.  Deze aanpak krijgt de naam :          Ook kan blijken dat de resultaten verschillend zijn,
ontbrekende gegevens actief enkelvoudig behandelen.    al naar gelang welke optie genomen werd. In dit
 ‘Enkelvoudig’ betekent : de ontbrekende gegevens      laatste geval moet de onderzoeker er zich
worden in één categorie ondergebracht ; ‘actief’       rekenschap van geven waar zulke verschillen
betekent dat deze categorie in de verdere              vandaan kunnen komen : de onderzoeker moet
verwerking volwaardig meetelt. De tweede aanpak        proberen te achterhalen wat er met de gegevens aan
is dat aan elke variabele net zoveel nieuwe            de hand is waardoor zulke verschillen kunnen
categorieën worden toegevoegd als er objecten met      optreden. Bij exploratieve gegevensanalyse is het
ontbrekende gegevens zijn. Dit houdt in dat in elke    zo dat de onderzoeker nog niet overal duidelijke
nieuwe categorie slechts één object voorkomt. In       vragen heeft.      Vergelijking van verschillende
dit geval worden ontbrekende gegevens actief           analyses van dezelfde data kan ertoe bijdragen dat
meervoudig behandeld. Een belangrijk nadeel van        de onderzoeker ontdekt wat de zinnige vragen zijn.
deze aanpak is dat de toegevoegde categorieën een      In dit opzicht is CA een techniek die het verdere
zeer lage marginale frequentie hebben (immers, ze      analyseverloop in goede banen kan helpen leiden.
bevatten slechts één object). De derde aanpak laat
alle ontbrekende gegevens buiten beschouwing in
de verdere analyse. Ontbrekende gegevens worden
passief behandeld.                                                   1.2. “Optimal scaling”
Het begrip ‘ontbrekende gegevens’ is afhankelijk
van de interpretatie door de onderzoeker. Nemen        Bij klassieke multivariate analyses wordt het
we als voorbeeld een enquête naar leesgewoonten        meetniveau van de variabelen als gegeven
van kranten. Nu kan men stellen dat respondenten       beschouwd. Op basis van het meetniveau van de
die niet regelmatig Het Nieuwsblad lezen in één        variabelen wordt een geschikte analysetechniek
categorie vallen, nl. de categorie niet-regelmatige    gekozen. Bij de “ALS”-technieken wordt niet a
Het Nieuwsblad-lezers (actief enkelvoudig). Het is     priori een bepaald meetniveau verondersteld, maar
echter de vraag of deze laatste groep respondenten     worden in de analyse zogenaamde optimale
op elkaar lijken, louter en alleen op grond van de     schaalwaarden (optimale kwantificatie, “optimal
vaststelling dat ze iets niet doen. Mensen die Het     scaling”) berekend voor de categorieën van de in de
Nieuwsblad wel lezen, hebben iets met elkaar           analyse    betrokken    variabelen.       Optimale
gemeen, maar geldt daarom dat zij die Het              schaalwaarden zijn nieuwe waarden voor de
Nieuwsblad niet lezen iets met elkaar gemeen           oorspronkelijke waarden van één of meer
hebben ? Dit laatste kan betwijfeld worden, en om      variabelen. Deze optimale schaalwaarden zijn in
deze reden kan de onderzoeker besluiten om ervan       een of meer opzichten ‘beter’ dan de
uit te gaan dat voor de niet-lezers de gegevens        oorspronkelijke waarden van de variabelen, o.m.
ontbreken (passieve behandeling). Meervoudig           omdat ze de correlatie tussen twee variabelen
actieve behandeling houdt daarentegen in dat elke      maximaliseren. Optimale schaalwaarden kunnen
niet-lezer een uniek exemplaar wordt in zijn eigen     dan ook dienen om de oorspronkelijke waarden
categorie. Passieve behandeling houdt duidelijke       van variabelen te vervangen. Omdat optimale
voordelen in.       Er wordt dan bij de verdere        schaalwaarden worden berekend voor variabelen
bewerking wel gelet op het feit dat lezers van         ongeacht het a priori toegedachte meetniveau leidt
eenzelfde krant iets gemeenschappelijks hebben,        het gebruik van optimale schaalprocedures ertoe
maar daaraan wordt niet de conclusie verbonden         dat variabelen van ongelijk meetniveau in eenzelfde
dat niet-lezers iets met elkaar gemeen hebben.         analyse kunnen betrokken worden.          Voor de
                                                       praktijk van het marktonderzoek is dit een
Het voorgaande leidt tot de conclusie dat er een       belangrijke aanvulling op het arsenaal van
element van willekeur bestaat. Het is aan de           analysemogelijkheden.
onderzoeker om te bepalen of een variabele
nominaal, ordinaal of numeriek is terwijl er geen      Relaties tussen variabelen komen slechts tot hun
stricte regels bestaan over de vraag hoe               recht indien de categorieën van variabelen optimaal
ontbrekende gegevens behandeld moeten worden.          gekwantificeerd worden. Wat ‘optimaal’ betekent,
Die willekeur kan worden ingeperkt doordat de          hangt af van de onderzoekscontext. De optimale
onderzoeker niet slechts één keuze uit de opties       kwantificatie van een variabele is daarom relatief.
doet, maar een aantal analyses doet onder              Dit betekent dat de kwantificatie van een variabele
verschillende opties en dan de resultaten van die      moet beschouwd worden in de context van andere
verschillende analyses met elkaar vergelijkt. Dan      variabelen die in de analyse betrokken worden.




                                      J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 4
 __________________________________________________________________________________________________
Naargelang van deze laatste kan blijken dat een           betekent dit hetzelfde als dat er een willekeurige a
variabele anders gekwantificeerd moet worden.             priori-kwantificatie is (in dit geval wordt aan de
                                                          categorieën van een variabele een etiket gegeven
Stel dat er een a priori-kwantificatie bestaat voor een
                                                          onder de vorm van cijfers, in een of andere
variabele. Er kan dan een transformatiegrafiek
                                                          volgorde).      Wordt de variabele vervolgens
getekend worden. In dergelijke grafiek staan de a
                                                          nominaal behandeld, dan speelt de getalwaarde die
priori- kwantificaties op de horizontale as en op de
                                                          aan de categorieën is toegekend geen enkele rol.
verticale as staan de optimale kwantificaties. Elke
                                                          Een transformatiegrafiek heeft in dit geval m.a.w.
categorie van een variabele wordt dus afgebeeld als
                                                          geen zin.
een punt van de grafiek. Dit geeft de mogelijkheid
opnieuw te definiëren wat we verstaan onder               Om na te gaan of voldaan wordt aan de assumpties
numerieke, ordinale en nominale variabelen.               van multivariate analyse-technieken kan op de
Numerieke behandeling eist dat de punten in de            variabelen een correspondentie-analyse worden
transformatiegrafiek op een rechte lijn liggen.           toegepast.      Met behulp van een eenvoudig
                                                          voorbeeld kan dit geadstrueerd worden. In het
Ordinale behandeling stelt de minder strenge eis
                                                          geval van factoranalyse wordt verondersteld dat de
dat de punten op een monotoon stijgende curve
                                                          variabelen numeriek geschaald zijn.         Stel dat
liggen. Dit betekent dat als de a priori-kwantificatie
                                                          uitgegaan wordt van Likert-items (5-punts items)
van categorie j groter is dan die van categorie i, de
                                                          waarbij de code 1 staat voor zeer oneens en de code
optimale kwantificatie van categorie j niet kleiner
                                                          5 staat voor zeer eens. De veronderstelling bij dit
mag zijn dan die van kategorie i (wel is toegestaan
                                                          soort items is dat de afstanden tussen de
dat de optimale kwantificaties gelijk aan elkaar
                                                          schaalwaarden 1,2,3,4 en 5 gelijk zijn, dus dat er
worden).       Wordt een variabele nominaal
                                                          sprake is van een intervalschaal. Het is echter goed
behandeld,       dan       worden         aan      de
                                                          mogelijk dat in werkelijkheid de schaalwaarden
transformatiegrafiek geen eisen gesteld. De curve
                                                          voor de verschillende items deze veronderstelling
mag dus op meerdere plaatsen een knik vertonen.
                                                          tegenspreken. Een voorbeeld ter verduidelijking.
Het kan blijken dat de transformatiegrafiek toch
                                                          Veronderstel dat we optimale kwantificaties
monotoon stijgend is, wat er dan op wijst dat
                                                          berekenen voor een reeks Likert-items. Uit tabel 1
hetzelfde resultaat gevonden zal worden als de
                                                          blijkt o.m. dat voor item 1 de afstand tussen “eens”
variabele ordinaal behandeld zou zijn. Terloops
                                                          (code 4) en “zeer eens” (code 5) 1,25 bedraagt. Voor
dient erop gewezen te worden dat als een variabele
                                                          item 2 is de afstand slechts 0,10.
slechts twee categorieën heeft (een binaire
variabele) de transformatiegrafiek slechts twee
punten bevat die altijd op een rechte lijn liggen. De
                                                           Tabel 1 : Schaalwaarden voor (5 punts-) antwoordcategorieën
gevolgtrekking is dat het voor een binaire variabele                         na optimale kwantificatie
niets uitmaakt of deze numeriek, ordinaal of
nominaal wordt behandeld.
                                                                        (1)       (2)        (3)       (4)      (5)
Transformatiegrafieken hebben alleen zin als er een
a priori-kwantificatie van de categorieën van een
variabele bestaat. Uit de transformatiegrafiek kan           Item 1    -1,30     -1,29      0,03       0,70     1,95
dan bv. blijken dat deze een logaritmisch of
kwadratisch verloop kent, hetgeen inhoudt dat de a
                                                             Item 2    -1,15     -1,11      -0,02      1,10     1,20
priori-kwantificatie dient vervangen te worden
door algebraïsche functie van de oorspronkelijke
waarden.
                                                          De items in dit voorbeeld vormen dus duidelijk
In klassieke multivariate analyse wordt ervan             geen intervalschalen. Optimale kwantificatie kan
uitgegaan dat elke variabele een a priori-                derhalve leiden tot schaalwaarden die beter
kwantificatie heeft en dat elke variabele numeriek        voldoen dan de oorspronkelijke waarden. Dit zou
moet worden behandeld. In dit geval vertonen de           bv. kunnen blijken door eerst een factoranalyse toe
transformatiegrafieken alle de vorm van rechte            te passen op de oorspronkelijke variabelen en
lijnen.    Men spreekt daarom van lineaire                daarna de resultaten te vergelijken met die
multivariate analyse. Worden echter één of meer           verkregen      bij factoranalyse    na    optimale
variabelen ordinaal of nominaal behandeld                 kwantificatie.
(aangenomen dat er een a priori- kwantificatie is),
dan geldt de lineaire restrictie niet en kan men          Zelfs indien er sprake is van nominaal meetniveau,
spreken van niet-lineaire multivariate analyse.           kunnen optimale schaalwaarden worden berekend
                                                          die toelaten de correlatie tussen variabelen te
Indien er geen a priori-kwantificatie is, dan



                                         J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 5
 __________________________________________________________________________________________________
maximaliseren. Wat optimaal is, hangt af van de              Met betrekking tot optimale kwantificatie kan een
betrokken analysetechniek en de in de analyse                onderscheid gemaakt worden tussen enkelvoudige
betrokken variabelen. Er is dus niet zoiets als een          en meervoudige kwantificatie.            Enkelvoudige
soort absolute optimale schaling van categorieën             kwantificatie komt er op neer dat voor elke categorie
van variabelen. Voor de procedures ANACOR en                 van een variabele een kwantificatie wordt gezocht
HOMALS wordt slechts een nominaal meetniveau                 die geldig blijft in alle dimensies van de analyse.
van de variabelen verondersteld (cfr. infra). Door           Meervoudige kwantificatie houdt in dat de
de optimale schalingsresultaten uit deze analyses te         kwantificatie van de categorieën voor elke dimensie
vergelijken met de oorspronkelijke scores van de             van de oplossing verschillend mag zijn.
categorieën kan men nagaan of bv. een                        Aangenomen dat er een a priori-kwantificatie
intervalschaal aanwezig is. In dit geval zouden de           bestaat, betekent enkelvoudige kwantificatie dat er
afstanden tussen opeenvolgende schaalwaarden                 een transformatiegrafiek is die de a priori-
gelijk moeten zijn. Bij de procedures PRINCALS en            kwantificatie omzet in een optimale kwantificatie.
OVERALS kan het meetniveau van de variabelen                 Die grafiek blijft geldig voor alle dimensies van de
nominaal, ordinaal of interval zijn.                         oplossing.       Daar staat tegenover dat bij
                                                             meervoudige kwantificatie elke dimensie van de
                                                             oplossing een eigen transformatiegrafiek heeft. Is
                                                             er geen a priori-kwantificatie, dan kunnen we
         1.3. Dimensie-reductietechnieken                    desondanks een willekeurige a priori-kwantificatie
                                                             kiezen en de variabele vervolgens nominaal
                                                             behandelen.       Nominale behandeling betekent
De zojuist genoemde “ALS”-technieken kunnen
                                                             immers : de kwantificatie van de categorieën trekt
beschouwd          worden         als     dimensie-
                                                             zich niets aan van de a priori-kwantificatie. Dan
reductietechnieken. Dit betekent dat de samenhang
                                                             blijft het verschil bestaan dat enkelvoudige
tussen de categorieën van variabelen door middel
                                                             kwantificatie van zo’n variabele zal gelden voor
van de berekening van optimale schaalwaarden in
                                                             alle dimensies van de oplossing, terwijl
beeld wordt gebracht in een zo klein mogelijk
                                                             meervoudige kwantificatie voor elke dimensie
aantal dimensies. De dimensies geven elk bepaalde
                                                             afzonderlijk een optimale kwantificatie van de
aspecten weer van de samenhang of verschillen
                                                             categorieën kiest.
tussen categorieën van variabelen.

                                                             Een techniek die zich goed leent voor optimale
                                                             kwantificatie van variabelen is PRINCALS
                                                             (“PRINciple Components analysis by Alternating
                                                             Least Squares”). De PRINCALS-opties berusten op
    2. Transformatie en optimale kwantificatie               twee uitgangspunten.       Het eerste is dat de
                                                             gebruiker kan kiezen of variabelen numeriek,
In voorgaand punt werd er reeds op gewezen dat               ordinaal of nominaal behandeld worden. Het
relaties tussen variabelen beter tot hun recht komen         tweede uitgangspunt is dat gekozen kan worden
als de categorieën van variabelen optimaal                   tussen enkelvoudige of meervoudige kwantificatie.
gekwantificeerd zijn. Nemen we als voorbeeld de              De combinatie van deze twee uitgangspunten leidt
variabele ‘leeftijd’.    Uit een onderzoek naar              tot de vier mogelijkheden in tabel 2.
eetgewoonten kan blijken dat de optimale
kwantificatie van de leeftijdscategorieën de
verschillen tussen de oudere groepen kleiner neemt
                                                                            Tabel 2 : PRINCALS-opties
dan die tussen de jongere groepen. De optimale
kwantificatie zou zelfs kunnen laten zien dat de
oudere groepen samengevoegd kunnen worden ;                                                   kwantificatie
                                                               variabelen
alleen de verschillen in leeftijd tussen jongeren                               enkelvoudig                   meervoudig
enerzijds en die tussen jongeren en ouderen
                                                                 numeriek           X                    niet van toepassing
anderzijds spelen een rol.            Een dergelijke
kwantificatie is optimaal in relatieve zin, d.w.z. met            ordinal           X                    niet van toepassing
betrekking tot de andere variabelen in het
onderzoek.      Het is best mogelijk dat in een                  nominaal           X                             X

onderzoek naar politiek komt vast te staan dat
leeftijdscategorieën anders moeten gekwantificeerd
worden.
                                                             Uit tabel 2 kan afgelezen worden dat twee
                                                             combinaties niet voorkomen. De eerste is die van



                                        J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 6
 __________________________________________________________________________________________________
meervoudige       kwantificatie    van    numerieke          attention is focused on the interaction, (c) the user’s
variabelen. De reden hiervoor is dat de numerieke            curiosity is aroused during the interaction, and (d)
behandeling van een variabele inhoudt dat de                 the user finds the interaction intrinsically
kwantificatie van de variabele op verschillende              interesting”.     Het door Novak en Hoffman
dimensies steeds een lineaire functie moet zijn van          ontwikkelde conceptueel model voorziet o.m. in
de a priori-kwantificatie. Dit uitgangspunt staat            een verklaring van “flow” in termen van de
haaks op het principe van meervoudige                        antecedenten ervan. In het bijzonder schrijven de
kwantificatie, dat in dit geval zou inhouden dat de          beide onderzoekers de ervaring van intrinsiek
kwantificaties van de categorieën van een                    amusement toe aan het bestaan van een congruentie
numerieke variabele op meerdere dimensies                    tussen enerzijds de (navigatie)vaardigheden van de
onderling verschillen.        Ook de combinatie              gebruiker en de uitdagingen die uitgaan van het
ordinaal/meervoudig komt niet voor, maar dit om              navigeren op het World Wide Web. Meer in het
een andere reden.            Meervoudige ordinale            bijzonder omschrijven Novak en Hofmann “flow”
kwantificatie van een variabele impliceert dat de            als “a cognitive state experienced during online
kwantificaties op achtereenvolgende dimensies                navigation that is determined by : 1) high levels of
allemaal dezelfde rangorde hebben als de a priori-           skill and control ; 2) high levels of challenge and
kwantificatie. Ze hebben dus ook onderling een               arousal ; 3) focused attention ; and is 4) enhanced
rangcorrelatie van 1 zodat de meervoudig ordinale            by interactivity and telepresence” (Novak &
kwantificatie maar weinig zal verschillen van de             Hofmann, 1999 : 6).
enkelvoudig ordinale oplossing.
                                                             In hetgeen volgt zullen we de constructie van de
                                                             antecedente variabele ‘vaardigheden’ (“skills”) van
De enkelvoudig nominale behandeling van een                  naderbij analyseren aan de hand van een subset van
variabele houdt ook iets tegenstrijdigs in. De               respondenten die participeerden aan het door
behandeling veronderstelt immers dat de                      Novak en Hoffman uitgevoerde onderzoek. Uit
onderzoeker geen rekening kan of wil houden met              een aanvankelijk uitgevoerde factoranalyse op een
een a priori-kwantificatie maar desondanks toch              zestal items waarmee het begrip ‘vaardigheden’
verlangt dat de categoriekwantificaties op elke              geïndiceerd werd, bleken twee factoren met een
dimensies van de oplossing evenredig met elkaar              eigenwaarde groter dan één gezamenlijk 69,1 % van
zijn. Ligt het dan niet voor de hand dat de                  de variantie in de oorspronkelijke items te
onderzoeker die enkelvoudige kwantificatie wil               verklaren. In tabel 3 zijn deze items vermeld met
omdat gehoopt wordt dat de categoriekwantificatie            de antwoordfrequenties ervan op de 9-punten
overeenkomt met een bepaalde van tevoren                     schalen die gebruikt werden in het onderzoek.
bestaande verwachting omtrent die kwantificaties ?
Zou het dan niet beter zijn om die verwachting               Op de vier items is een optimale schaalanalyse
meteen vast te leggen als een ordinale a priori-             verricht door gebruikmaking van PRINCALS. In
ordening waarmee in de oplossing rekening wordt              het voorbeeld worden alle variabelen enkelvoudig
gehouden ? Tegenover die redenering staat dat de             ordinaal behandeld.          Hiervoor zijn twee
onderzoeker soms wel een a priori-verwachting                argumenten. Het eerste is dat de categorieën van
heeft over een aantal categorieën van een variabele,         elke variabele (de getallen 1 tot 9) kennelijk in een
maar dat sommige categorieën in die reeks niet               bepaalde volgorde staan. Het tweede argument is
goed te plaatsen zijn.                                       dat een numerieke analyse ervan uitgaat dat de
                                                             afstand tussen opeenvolgende categoriewaarden
We     zullen    de    toepassing    van    optimale         steeds gelijk is.        De juistheid van deze
schaalanalyse illustreren aan de hand van een                veronderstelling is erg betwistbaar.          Ordinale
onderzoek van Novak en Hoffman (1999) over het               kwantificatie zal laten zien of er reden is de
navigatiegedrag van gebruikers van het World                 categorieën zodanig te kwantificeren dat hun
Wide Web.         Bij de ontwikkeling van een                onderlinge afstanden niet meer gelijk zijn.
conceptueel model ter verklaring van het
navigatiegedrag van WWW-gebruikers maken                     Uit tabel 3 kan afgeleid worden dat een
Novak en Hoffman gebruik van het begrip “flow”,              afzonderlijke analyse van categoriekwantificaties
dat zij omschrijven als de intrinsieke amusement             op zijn plaats is. De frequentieverdeling ziet er
dat gebruikers ervaren. Trevino en Webster (1992 :           immers niet uit als een normale verdeling. Bij elk
542) geven volgende operationele omschrijving van            van de vier items is de frequentieverdeling zelfs
“flow” : “Flow represents the extent to which (a) the        extreem scheef te noemen.
user perceives a sense of control over the computer
interaction, (b) the user perceives that his or her          De     resultaten   van    de    PRINCALS-analyse



                                        J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 7
  __________________________________________________________________________________________________
onderschrijven in de eerste plaats de resultaten van        samengevoegd            (in       rood         weergegeven
de factoranalyse. De PRINCALS-eigenwaarden                  categoriekwantificaties).        De PRINCALS-analyse
hebben een waarde van 0,558 op de eerste dimensie           geeft eveneens een bevestiging voor de ordinale
en 0,172 op de tweede dimensie. Als we als                  kwantificatie van de categorieën van de variabelen :
vuistregel hanteren dat een eigenwaarde groter              de              getransformeerde                      waarden
moet zijn dan (1/aantal variabelen), dan kan uit de         (categoriekwantificaties) vertonen voor elk van de
itemanalyse afgeleid worden dat de tweede                   items een monotoon stijgend verloop.
dimensie (eigenwaarde 0,172 > 0,167) nog net kan
weerhouden worden maar op zichzelf weinig                        Tabel 4 : Categoriekwantificaties voor “skills”-items
toevoegt aan de eendimensionele oplossing.

                                                                                     item         1       2        3       4       5       6       7       8       9
         Tabel 3 : Antwoordfrequenties voor “skills”-items

                                                                                     skilled      -2.56   -1.93    -1.93   -1.90   -1.31   -0.82   -0.23   0.40    1.27

Item                           1       2       3    4    5     6    7     8     9

                                                                                     Find         -1.49   -1.49    -1.49   -1.49   -1.49   -1.47   -0.71   0.29    1.43

I am extremely skilled
at using the Web           5       4       18      12   45    56   110   126   124
(skilled)(*)                                                                         searchtech   -1.62   -1.62    -1.62   -1.62   -1.41   -0.96   -0.65   0.41    1.37




I know how to find                                                                   knowless     -1.58   -1.58    -1.58   -1.58   -1.58   -1.58   -1.04   -0.33   0.96
what I am looking for
                           3       3       9       12   13    46   125   174   115
on the Web
(find)(*)                                                                            rate1        -7.54   -6.63    -5.65   -1.77   -0.76   -0.16   0.54    0.76    1.47



I consider myself
                                                                                     rate2        -3.06   -3.06    -2.29   -2.29   -0.25   -0.03   0.27    0.27    1.14
knowledgeable about
good search techniques     2       12      9       18   17    56   125   138   123
on the Web
(searchtech)(*)



I know somewhat less
about the Web than
                           4       9       8       11   20    30   57    122   239
most users
(knowless)(*)(***)                                                                                                3. Werkwijze CA

How would you rate                                                                   Bij de klassieke multivariate analysetechnieken
your skill at using the                                                              zoals factoranalyse en meervoudige regressie-
Web, compared to other
things you do on the
                               1       1       4   11   147   84   130   96    26    analyse wordt als regel de analyse uitgevoerd op
computer ?                                                                           een correlatiematrix.     Bij de “ALS”-technieken
(rate1)(**)
                                                                                     wordt     uitgegaan      van    een   zogenaamde
                                                                                     indicatormatrix.      Zo’n indicatormatrix wordt
How would you rate                                                                   verkregen door de categorieën van de variabelen
your skill at using the
                                                                                     om te coderen tot dummy-variabelen. Stel dat we
Web, compared to the
sport or game you are
                               9   10      22      11   105   67   102   74    100   een datamatrix hebben met drie variabelen en vijf
best at ?                                                                            respondenten. De variabelen zijn geslacht (man,
(rate2)(**)
                                                                                     vrouw), opleiding (hoog, middelbaar, laag) en type
                                                                                     krantengebruiker (light user, medium user, heavy
(*) 1 = volledig akkoord ; 9 = helemaal niet akkoord                                 user). De indicatormatrix ziet er dan uit zoals
(**) 1 = veel minder goed ; 9 = veel beter                                           voorgesteld in tabel 5.
(***) omscoring itemcategorieën

                                                                                     Intuïtief zal duidelijk zijn dat wanneer analyses
                                                                                     worden uitgevoerd op de categorieën van
Bekijken we nu de categoriekwantificaties zelf in                                    variabelen en niet op de variabelen zelf, de
tabel 4.    Wat uit de tabel onmiddellijk kan                                        resultaten ook betrekking zullen hebben op wat
opgemaakt worden is dat de afstand tussen de                                         categorieën van variabelen met elkaar gemeen
verschillende categorieën voor geen van de items                                     hebben. Terwijl in het geval van HOMALS
gelijk is. Met uitzondering van één item worden                                      vertrokken wordt van een indicatormatrix, vindt de
twee of meerdere categorieën van de items                                            analyse bij ANACOR plaats op gegevens die



                                                              J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 8
 __________________________________________________________________________________________________
georganiseerd zijn in kruistabelformaat.                            ∇ hoe moet de plot geïnterpreteerd worden ?



     Tabel 5 : Indicatormatrix bij correspondentie-analyse
                                                                    1. Wat wordt er van de samenhang in een tabel afgebeeld
                geslacht       opleiding            user
                                                                    in een plot ?
  resp.nr
            M          V   L      M        H   L     M       H
                                                                    Als in een kruistabel de rijpercentages en
                                                                    kolompercentages worden berekend, kan de
    1       1         0    1     0         0   1     0       0      overeenkomst tussen rijen en kolommen onderling
                                                                    en met betrekking tot de randverdelingen worden
    2       1         0    0     1         0   1     0       0
                                                                    bepaald. Nemen we als voorbeeld het verband
    3       0         1    0     0         1   0     0       1      tussen opleidingsniveau en Internetgebruik. In
    4       1         0    1     0         0   0     1       0
                                                                    onderstaande tabel worden deze beide variabelen
                                                                    tegen elkaar afgezet.
    5       1         0    1     0         0   1     0       0

    6       1         0    0     0         0   0     1       0

    7       1         0    0     0         1   0     0       1
                                                                                Tabel 6 : Internetgebruik naar opleidingsniveau
                                                                                      (Bron : Hoffman & Novak, 1999)2


                                                                                                   Opleidingsniveau
                                                                    Internet
                                                                                                                                    totaal
 3.1. CA toegepast op gegevens georganiseerd in                     gebruik
                                                                                                high school     some      college
                                                                                    less than
               kruistabelformaat                                                      high
                                                                                                 graduate      college   graduate
                                                                                     school
In     hetgeen     voorafging    werden      enkele
kernbegrippen       van    de    “ALS”-technieken
uiteengezet. Deze begrippen krijgen meer betekenis                  no access         408          701          349        172       1630
wanneer ze worden gedemonstreerd aan de hand
van een voorbeeld. In hetgeen volgt worden de
zojuist behandelde kernbegrippen geadstrueerd en                    access only        27          108          111        39        285

wordt eveneens het begrip ‘chikwadraatafstand’
toegelicht. Wat de techniek van correspondentie-                    Web user          201          283          453        585       1522
analyse doet kan als volgt worden samengevat :
correspondentie-analyse tracht de samenhang in
een of meer tabellen zo goed mogelijk grafisch weer                 totaal            636          1092         913        796       3437
te geven.       Meestal kiest men voor een
tweedimensionele plot. In de plot komen de
                                                                    In correspondentie-analyse wordt de proportionele
categorieën van de variabelen als punten terug en
                                                                    verdeling binnen een rijcategorie van een tabel een
staat de oorsprong (het nulpunt) voor de totale                     rijprofiel genoemd. In het gegeven voorbeeld
populatie.    De techniek zorgt ervoor, dat de                      zouden we kunnen spreken van het profiel van
onderlinge afstanden tussen deze punten zoveel
                                                                    hoog opgeleiden (‘’college graduate’’), het profiel
mogelijk de samenhang in de tabel(len) reflecteren.
                                                                    van middelbaar opgeleiden (‘’some college’’ en
Een dergelijke afbeelding is evenwel meestal niet
                                                                    ‘’high school graduate’’) en het profiel van laag
mogelijk zonder enig verlies aan informatie. Het is
                                                                    opgeleiden (‘’less than high school”). In plaats van
aan de onderzoeker om te beoordelen of dit een                      rijprofielen onderling te vergelijken, kan men ze
belangrijk deel vormt of tot een klein en                           ook relateren aan de proportionele verdeling van de
verwaarloosbaar deel beperkt blijft. We zullen
                                                                    totale populatie, het zogenaamde gemiddelde
hierop nader ingaan aan de hand van drie vragen,
                                                                    rijprofiel (d.i. het profiel van de marginale
die voor een toepassing van correspondentie-
                                                                    distributie van de kolomvariabele). Gemiddelde
analyse relevant zijn :
                                                                    rijprofielen zijn te omschrijven als het gewogen
∇ wat wordt er van de samenhang in een tabel                        gemiddelde van de afzonderlijke rijprofielen en
  afgebeeld in een plot ?                                           worden vaak omschreven als ‘’centroids’’ omdat ze
∇ hoe is, wanneer de plot eenmaal tot stand is                      de totale onderzoeksgroep representeren en in het
  gekomen, het verlies aan tabelinformatie te                       centrum (de oorsprong) van het assenstelsel
  bepalen ?                                                         geplaatst worden. Ten slotte kunnen rijprofielen




                                                   J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 9
     __________________________________________________________________________________________________
   vergeleken worden met de marginale rijprofielen.                            rijprofiel (kolomprofiel).       Gemiddelde rij- en
   Aangezien rijprofielen onafhankelijk zijn van het                           kolomprofielen        (‘’centroids’’)    worden       in
   aantal in elke rij, leveren marginale rijprofielen                          correspondentie-analyse in de oorsprong van het
   informatie over het aantal in elke rijcategorie. Op                         assenstelsel geplaatst. Het is duidelijk dat naarmate
   dezelfde wijze kunnen kolomprofielen berekend                               de samenhang in een tabel sterker is, de profielen
   worden,           kunnen         kolomprofielen            onderling        van de rij- en kolomcategorieën sterker zullen
   vergeleken worden en kunnen kolomprofielen                                  verschillen, zowel onderling als t.o.v. het profiel
   vergeleken            worden        met        het      gemiddelde          van de totale populatie.
   kolomprofiel en met de marginale kolomprofielen.
                                                                               Vooraleer evenwel verschillen tussen rijen
                                                                               (kolommen) onderling en verschillen tussen rijen
       Tabel 7 : Rij- en kolomprofielen voor het voorbeeld van het             (kolommen)       en     het    gemiddelde     rijprofiel
           verband tussen opleidingsniveau en Internetgebruik                  (kolomprofiel)       worden      berekend,     is   het
                                                                               noodzakelijk na te gaan of er in de tabel sprake is
                                                                               van een statistisch significant verband. In het
Internet
                              Opleidingsniveau
                                                                 marginale     voorbeeld van het verband tussen opleidingsniveau
gebruik        less than                                         rij-profielen en Internetgebruik blijkt dit inderdaad het geval te
                           high school      some       College
                  high
                            graduate       college    graduate                 zijn : de berekende chikwadraatwaarde (539,365) is
                school
                                                                               bij 6 vrijheidsgraden significant op het .001-niveau.
                                                                               Indien geen statistisch significant verband wordt
no access        0,250        0,430         0,214       0,106        0,474
                                                                               gevonden in een tabel is toepassing van
                                                                               correspondentie-analyse niet relevant.              De
access only      0,095        0,379         0,389       0,137        0,083
                                                                               afwijkingen van rijen of kolommen in een
                                                                               kruistabel ten opzichte van elkaar en ten opzichte
                                                                               van het gemiddelde (rij- of kolom)profiel worden
Web user         0,132        0,186         0,298       0,384        0,443     berekend       met       behulp      van    de     zgn.
                                                                               chikwadraatafstand. De chikwadraatafstand heeft
                                                                               een analoge betekenis als de (dis)similariteit bij
                 0,185        0,318         0,266       0,232        1,000     multidimensionele schaalanalyse. Indien een rij of
gem.     rij-
profielen                                                                      kolom precies gelijk is aan de randverdeling (het
                                                                               gemiddelde      rij-     of   kolomprofiel)     is   de
                                                                               chikwadraatafstand gelijk aan 0. Bijgevolg zal zo’n
                                                                               rij of kolom ook precies in de oorsprong van het
                              Opleidingsniveau
Internet                                                        gem.
                                                                               assenstelsel vallen.        De oorsprong van het
gebruik        less than      high
                                           some       college
                                                                kolom-         assenstelsel (het nulpunt) representeert immers de
                  high       school                             profielen      totale steekproef. Ook voor het bepalen in hoeverre
                                          college    graduate
                 school     graduate
                                                                               rijen en kolommen onderling van elkaar verschillen
                                                                               wordt gebruik gemaakt van de chikwadraatafstand.
no access         0,642       0,642        0,382       0,216         0,474
                                                                               Hoe groter de chikwadraatafstand tussen twee rijen
                                                                               of kolommen, hoe meer de verdelingen van die
access
                  0,042       0,099        0,122       0,049         0,083
                                                                               twee rijen of kolommen van elkaar zullen
only
                                                                               verschillen.     Eveneens geldt hoe groter de
                                                                               chikwadraatafstand tussen rijen of kolommen, hoe
Web user          0,316       0,259        0,496       0,735         0,443     verder die van elkaar verwijderd zijn in een
                                                                               grafische weergave. In tabel 8 vermelden we de
                                                                               chikwadraatafstanden tussen rijen en kolommen
marginale
                                                                               voor het voorbeeld van het verband tussen
                  0,185       0,318        0,266       0,232         1,000
kolom-                                                                         opleidingsniveau en Internetgebruik.
profielen
                                                                         In het voorgaande is uiteengezet dat voor twee
                                                                         variabelen kan worden nagegaan of er al dan niet
                                                                         een samenhang bestaat.        Bij een significante
                                                                         chikwadraatwaarde weten we dan dat twee
  Behalve de rij- en kolomprofielen en het
                                                                         variabelen niet onafhankelijk van elkaar zijn. Als
  gemiddelde rij- en kolomprofiel is in tabel 7 ook het
                                                                         we echter meer gedetailleerde informatie willen
  marginale rijprofiel en het marginale kolomprofiel
                                                                         hebben over die afhankelijkheid, dan kunnen we
  opgenomen. Zoals vermeld, kunnen verschillen
                                                                         nagaan in hoeverre de categorieën van de ene
  bepaald worden tussen rijen (kolommen) onderling
                                                                         variabele, bijvoorbeeld de rijen, onderling nog
  en tussen rijen (kolommen) en het gemiddelde



                                                J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 10
 __________________________________________________________________________________________________
gelijkenis vertonen met betrekking tot de                  (3 categorieën) is het maximaal aantal dimensies 2.
categorieën van de andere variabele, de kolommen.          Er kunnen namelijk nooit meer zinvolle dimensies
Om die gelijkenis (of afstand) tussen rijen of             worden gevonden dan het minimum van het aantal
kolommen onderling te bepalen, wordt gebruik               rijen (3) en kolommen (4), verminderd met 1, dus
gemaakt van de chikwadraatafstand. Met behulp              min(3-1),(4-1) = 2. De samenhang tussen beide
van de chikwadraatafstand kan dus worden                   variabelen op de eerste dimensie wordt
nagegaan in hoeverre rijen van elkaar verschillen.         weergegeven door de ‘’singular value’’ van de
De overeenkomsten of verschillen hebben altijd             eerste dimensie, nl. 0,379. De samenhang tussen
betrekking op de kolomcategorieeën. Omgekeerd              opleidingsniveau en Internetgebruik op de tweede
kan worden nagegaan of de kolomcategorieën                 dimensie daalt naar 0,115.
verschillen met betrekking tot de rijen.

                                                                           Tabel 9 : : Anacor-oplossing voor het voorbeeld van het verband
Tabel 8 : Chikwadraatafstanden tussen rijen en kolommen voor               tussen opleiding en beroepsstatus
  het voorbeeld van het verband tussen opleidingsniveau en
                       Internetgebruik
                                                                            dimensie        singular   inertia    proportie    cumulatieve
                                                                                              value              verklaarde      proportie
                  chikwadraatafstanden tussen rijen                                                               variantie     verklaarde
                                                                                                                                 variantie


                           R1              R2              R3

                                                                               1            0,37923    0,14381      0,916         0,916
           R1               .             0,561           0,924


                                                                               2            0,11452    0,01311      0,084         1,000
           R2             0,561             .             0,764



           R3             0,924           0,764             .                Totaal                    0,15693      1,000

                                                                           Chi2 = 539,365

                chikwadraatafstanden tussen kolommen


                                                                           Een belangrijke waarde in tabel 9 is de ‘’inertia’’-
                   K1              K2              K3              K4
                                                                           waarde die berekend wordt als het quotiënt van de
                                                                           deling van de totale chi2-waarde (539,365) door het
      K1            .             0,495           0,493           0,426
                                                                           aantal onderzoekseenheden (3437). CA kan opgevat
                                                                           worden als een methode voor de decompositie (in
      K2          0,495             .             0,354           0,654    een zo gering mogelijk aantal dimensies) van de
                                                                           variantie (‘’inertia’’) in een tabel, waarbij de
      K3          0,493           0,354             .             0,417    variantie wordt aangegeven door de chi2-waarde.
                                                                           In dit opzicht vertoont CA een gelijkenis met
      K4          0,426           0,654           0,417             .
                                                                           factoranalyse, aangezien het ook de bedoeling is
                                                                           van factoranalyse om de totale variantie in een set
                                                                           variabelen weer te geven in een zo gering mogelijk
                                                                           aantal dimensies.
                                                                           Samenhang in een kruistabel blijkt in eerste
2. Hoe is het verlies aan tabelinformatie te bepalen ?                     instantie uit de mate waarin afwijkingen
Wanneer uitgaande van de hiervoor besproken                                voorkomen tussen geobserveerde en verwachte
principes, de kruistabel met de gegevens van                               frequenties. Als de waargenomen en verwachte
opleidingsniveau    en   Internetgebruik wordt                             celfrequenties in een tabel nauwelijks van elkaar
onderworpen aan een correspondentie-analyse                                verschillen en de rijen en kolommen derhalve
worden de volgende resultaten verkregen zoals                              onafhankelijk van elkaar zijn, dan hebben we
vermeld in tabel 9.                                                        genoeg aan de rij- en kolomprofielen om de
                                                                           ‘’samenhang’’ tussen variabelen te beschrijven.
In de tabel worden in de eerste plaats de ‘’singular                       Naarmate de verschillen tussen waargenomen en
value’’ vermeld van de        dimensies.     In het                        verwachte celfrequenties toenemen, stijgt ook de
voorbeeld     van     de     samenhang        tussen                       chi2-waarde.
opleidingsniveau (4 categorieën) en Internetgebruik



                                                          J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 11
 __________________________________________________________________________________________________
In het voorbeeld van het verband tussen                    Internetgebruik voor de categorie ‘’high school’’
opleidingsniveau en Internetgebruik wordt 91,6 %           (99,3%). In de plot (zie pag. 12) betekent dit dat
van de chikwadraat afgesplitst door de eerste              deze beide categorieën, gezien als vectoren vanuit
dimensie. Op grond van deze resultaten kan                 de oorsprong, veel meer in de richting van de eerste
geconcludeerd worden dat de eerste dimensie het            dan de tweede dimensie liggen.
meest van de samenhang tussen opleiding en
Internetgebruik in beeld brengt. Anderzijds blijkt
de tweedimensionele oplossing te resulteren in een          Tabel 11 : Procentuele bijdrage van dimensies aan de verklaring
volledige verklaring van de variantie.                       van de verschillen in Interne gebruik naar opleidingsniveau

De rijscores onder dimensie 1 en 2 (zie tabel 10) zijn                                      dimensie 1      dimensie 2

optimale      scores     voor     categorieën     van               rijcategorie
Internetgebruik op de eerste en tweede dimensie.
                                                                    no access                  .987            .013
De kolomscores onder dimensie 1 en 2 zijn de
optimale scores voor de opleidingscategorieën op                    access only                .053            .947
de eerste en de tweede dimensie. Het marginaal
                                                                    Web user                   .996            .004
profiel bevat de relatieve frequenties.

                                                                    kolomcategorie

Tabel 10 : Optimale scores voor rij- en kolomcategorieëen in het    less than high school     0,754           0,246
    voorbeeld van het verband tussen opleidingsniveau en
                       Internetgebruik                              high school               0,993           0,007

                                                                    some college              0,464           0,536
                         marginaal     dimensie     Dimensie
                          profiel         1            2            college graduate          0,981           0,019

rijscores


no access                  .474         -.607         .126
                                                                   3. Hoe moet de plot geïnterpreteerd worden ?
                                                                   Wanneer de fit van de oplossing redelijk voldoet,
access only                .083         -.146        -1.123
                                                                   komen we toe aan de beantwoording van de derde
Web user                   .443          .677         .075
                                                                   vraag, nl. hoe de plot geïnterpreteerd moet worden.
                                                                   In de praktijk zal correspondentie-analyse vaak
                                                                   worden aangewend vanwege de mogelijkheden tot
kolomscores                                                        grafische weergave van de resultaten. Rij- en
                                                                   kolomcategorieëen kunnen via correspondentie-
                                                                   analyse grafisch worden weergegeven omdat
less than high school      .185         -.478         .497
                                                                   coördinaten worden berekend, waarmee de plaats
                                                                   van een rij-of kolomcategorie vastligt.            De
high school                .318         -.602         -.093
                                                                   coördinaten hebben als eigenschap dat het zoals
                                                                   eerder vermeld optimale schaalwaarden zijn. Dit
some college               .266          .228         -.445
                                                                   betekent dat de correlatie tussen de rij- en
college graduate           .232          .947         .241         kolomvariabele zal maximaal zijn, ongeacht het
                                                                   meetniveau van de rij- en kolomvariabele in de
                                                                   kruistabel. De kruistabel die met behulp van
                                                                   correspondentie-analyse        wordt     geanalyseerd,
Het is eveneens mogelijk meer specifiek de fit van                 wordt zodanig getransformeerd dat de gemiddelde
de oplossing te controleren. De output van een                     rij- en kolomproefielen in de oorsprong van de
correspondentie-analyse geeft de procentuele                       grafische weergave vallen. Bij de interpretatie van
bijdrage weer van de dimensies aan de verklaring                   een plot dienen de volgende vuistregels in acht
van de verschillen tussen de categorieën en de                     genomen te worden.
totale groep. In tabel 11 worden deze procentuele
bijdragen weergegeven voor de rijcategorieën. Uit                  In de eerste plaats dient gelet te worden op de
bovenstaande proporties valt o.m. af te leiden dat                 afstanden van de rij- en kolompunten ten opzichte
verschillen in Internetgebruik tussen hoger                        van de oorsprong. Naarmate deze afstand groter is,
opgeleiden (‘’college’’) en de totale groep voor                   is de afwijking van het betreffende rij- of
98,1% verklaard worden door de eerste dimensie.                    kolomprofiel ten opzichte van het profiel van de
Dit is nog meer het geval voor verschillen in                      totale groep groter. Rijen of kolommen met een
                                                                   klein randtotaal worden verder weggeplaatst van



                                                  J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 12
  __________________________________________________________________________________________________
de oorsprong dan rijen of kolommen met een groot              Tabel 12 : Procentuele bijdragen van rij- en kolomcateorieën
randtotaal. In extremo kan een bepaalde rij of                               aan de decompositie van de variantie
kolom zelfs de hele oplossing domineren                                                  dimensie 1           dimensie 2
(“outliers”). Het is daarom van belang niet alleen
                                                                rijcategorie
de plaats van een rij/kolom in de plot te bekijken
maar ook de marginale frequentie ervan. Zo wordt               no access                    .460                   .066
de categorie ‘’access only’’ in het assenstelsel het
                                                               access only                  .005                   .912
verst van de oorsprong geplaatst. Dit betekent dat
het profiel van deze gebruikers sterk afwijkt van het          Web user                     .535                   .022
gemiddelde. Het marginaal profiel (0,083) van
‘’access only’’-gebruikers geeft aan dat slechts een           kolomcategorie
minderheid van de Internetgebruikers tot deze
                                                               less than high              0,112                  0,399
categorie behoort.                                             school

                                                                                  high school          0,304           0,024

                                                                                  some college         0,036           0,459

                                                                                  college graduate     0,548           0,118


                                                                               In de tweede plaats dienen de afstanden van de
                                                                               rijpunten en de kolompunten ten opzichte van
                                                                               elkaar in beschouwing genomen te worden.
                                                                               Naarmate deze afstand kleiner is, lijken de
                                                                               categorieën, die door deze punten worden
                                                                               voorgesteld, meer op elkaar. In het voorbeeld van
                                                                               het     verband    tussen    opleidingsniveau   en
                                                                               Internetgebruik is gekozen voor een symmetrische
                                                                               oplossing, waarbij de afstanden tussen de
                                                                               rijcategorieën en de afstanden tussen de
                                                                               kolomcategorieën direct interpreteerbaar zijn als
                                                                               verschillen tussen profielen.     Afstanden tussen
                                                                               opleidingsniveaus kunnen geïnterpreteerd worden
                                                                               als verschillen in Internetgebruik. Afstanden in
                                                                               Internetgebruik kunnen geïnterpreteerd worden als
                                                                               verschillen naar opleidingsniveau.
Plot van het verband tussen opleidngsniveau en Internetgebruik
      (leeftijdscategorieën zijn toegevoegd als supplementaire categorieën)    Ten slotte dient gelet te worden op de afstanden
                                                                               van de rijpunten ten opzichte van de kolompunten.
Anderzijds geeft de contributietabel (zie tabel 12)                            Ondervertegenwoordiging (dus een lagere dan
aan wat de bijdrage is van een rij of kolom aan de                             verwachte frequentie) is een indicatie van negatieve
correlatieratio op een bepaalde dimensie. Een                                  samenhang. Oververtegenwoordiging (dus een
rij/kolom met een absoluut grote optimale score en                             hogere dan verwachte frequentie) is een indicatie
een geringe bijdrage kan als “outlier” beschouwd                               van een positieve samenhang tussen een bepaalde
worden.                                                                        rij- en kolomcategorie in een kruistabel.
                                                                               Wanneer in een bepaalde rijcategorie een bepaalde
                                                                               kolomcategorie oververtegenwoordigd is, zullen de
                                                                               corresponderende rij- en kolompunten in de plot
                                                                               dicht bij elkaar liggen. Hoe verder deze punten van
                                                                               de oorsprong verwijderd zijn, hoe sterker de
                                                                               samenhang (positieve samenhang). Is daarentegen
                                                                               een kolomcategorie ondervertegenwoordigd in een
                                                                               rijcategorie, dan liggen deze beide punten ver van
                                                                               elkaar verwijderd en aan verschillende kanten van
                                                                               de oorsprong (negatieve samenhang).
                                                                               Komt een kolomcategorie ongeveer even vaak voor
                                                                               als verwacht kan worden op basis van de marginale
                                                                               proportie, dan staan de betreffende rij- en




                                                              J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 13
 __________________________________________________________________________________________________
kolompunten, gezien als vectoren vanuit de                             zijn bepalender voor een groep dan categorieën die
oorsprong, ongeveer loodrecht op elkaar. Rij- en                       meer in het middelpunt staan. Om die sterkte van
kolompunten hangen dan niet samen.                                     de verbanden meer inzichtelijk te maken kan men
                                                                       rondom het middelpunt een onregelmatige cirkel
Wanneer de verschillen tussen geobserveerde en
                                                                       tekenen die de groepen (bv. rijcategorieën) in de
verwachte frequenties worden gedeeld door de
                                                                       plot met elkaar verbindt. Op die manier ontstaat
wortel uit de verwachte frequenties krijgen we een
                                                                       een polygoon of veelhoek (waarvan de hoeken
beeld van de mate waarin tussen rijen en
                                                                       worden afgerond). Op basis hiervan kunnen we
kolommen positieve of negatieve samenhangen
                                                                       stellen dat categorieën die binnen de cirkel staan,
bestaan. In tabel 13 vermelden we de resultaten
                                                                       weinig groepsonderscheidend zijn terwijl de
van deze berekening voor het voorbeeld van het
                                                                       categorieën die buiten de cirkel staan het meest
verband       tussen      opleidingsniveau      en
                                                                       groepsspecifiek en dus het meest interessant zijn.
Internetgebruik.
We nemen als voorbeeld de categorie ‘’less than
high school’’. Voor deze opleidingscategorie is de
kans op ‘’no access’’ groter dan verwacht (6.13). De
kans op ‘’no access’’ voor hoog opgeleiden
(‘’college’’) is veel lager dan verwacht (-14.33). De
plot laat zien dat correspondentie-analyse de
afstanden tussen verwachte en geobserveerde
                                                                                3.2. Uitbreidingen van ANACOR
frequenties in een kruistabel in beeld brengt.
Bij een correspondentie-analyse is de hoek tussen                      De kruistabel die we in voorgaand punt
de lijn middelpunt-rijcategorie en de lijn                             analyseerden, had als voornaamste eigenschap dat
middelpunt-kolomcategorie van groot belang. Als                        beide randverdelingen sommeren tot het aantal
die hoek nul is en een rijcategorie en een                             observaties. De randtotalen bevatten de verdeling
kolomcategorie staan op eenzelfde lijn, dan                            per variabele. Beide variabelen habben betrekking
betekent dit dat de kolomcategorie uniek is voor de                    op eigenschappen van respondenten binnen
rijcategorie. Als de hoek tussen de twee lijnen                        eenzelfde steekproef. Elke respondent kwam maar
groter wordt, neemt de samenhang af. Als de hoek                       in 1 rij en 1 kolom voor. De kruistabellen die hierna
90 graden is, is de correlatie afwezig en als de hoek                  vernoemd worden, wijken alle in meer of mindere
nog groter is, wil dat zeggen dat de samenhang                         mate af van deze eigenschappen van een “gewone”
negatief is.                                                           kruistabel. Andere soorten kruistabellen, die met
                                                                       behulp van correspondentie-analyse, i.c. ANACOR,
 Tabel 13 : De samenhang tussen rijen en kolommen voor het             kunnen worden geanalyseerd, zijn bijvoorbeeld :
voorbeeld van het verband tussen opleiding en Internetgebruik
    (geobserveerde-verwachte frequentie) /√ (verwachte frequentie)
                                                                       •   kruistabellen, die zowel over rijen als kolommen
                                                                           niet sommeren tot het aantal objecten in de
                                                                           steekproef ;
                       no access       access      Web user            •   tijdreeksgegevens ;
                                        only                           •   respondenten x variabelen ;
                                                                       •   produkten x eigenschappen ;
         less than                                                     •   dissimilariteiten, enz.
           high          6.13          -3.54          -4.80
          school
                                                                       Bij de analyse van dergelijke data, dienen een aantal
           high                                                        regels in acht genomen te worden.
          school         8.04           1.84          -9.12
         graduate                                                      •   In het geval van de analyse van “non-
                                                                           frequency”-data is het niet zinvol om
           some          -4.04          4.07          2.42                 interpretaties te verbinden aan chikwadraat-
          college                                                          afstanden. De toepassing van ANACOR op
                                                                           “non-frequency”-data heeft in eerste instantie
          college        -14.33        -3.33          12.39                tot doel een visuele voorstelling van de
                                                        .                  structuur van de data te bekomen3.
                                                                       •   Indien ANACOR wordt toegepast op rangorde-
                                                                           data (e.g. bekomen door toepassing van de
Categorieën die ver buiten het middelpunt staan,                           methode van de paarsgewijze vergelijking) dan




                                                      J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 14
 __________________________________________________________________________________________________
    dient de meest geprefereerde keuze de hoogste           verschillend meetniveau in eenzelfde analyse
    waarde te krijgen in de te analyseren matrix van        kunnen betrokken worden.
    rangorden.
                                                            Omdat HOMALS betrekking heeft op meer dan
• Indien de data die met behulp van ANACOR
                                                            twee variabelen zijn er ook belangrijke verschillen
    geanalyseerd worden, georganiseerd zijn onder
                                                            in uitvoer en resultaten in vergelijking met gewone
    de vorm van ongelijkheden (“dissimilarities”),
                                                            correspondentie-analyse.      Een van de meest
    dan dienen alle ongelijkheden in de matrix
                                                            wezenlijke verschillen is dat bij correspondentie-
    afgetrokken te worden van een getal groter dan
                                                            analyse (ANACOR) de eta of correlatieratio
    de grootste ongelijkheid (meestal wordt bij dit
                                                            aangeeft wat de correlatie is op een bepaalde
    laatste gekozen voor een getal dat 1 groter is
                                                            dimensie tussen twee optimaal geschaalde
    dan de grootste dissimilariteit).
                                                            variabelen. Bij HOMALS geeft de eta aan wat de
• In het geval van de analyse van symmetrische
                                                            gemiddelde bijdrage is van alle betrokken
    relaties    dienen     de      diagonaalwaarden
                                                            analysevariabelen aan een bepaalde dimensie. Per
    gelijkgesteld te worden aan de grootste waarde
                                                            dimensie wordt per variabele een zogenaamde
    +1.
                                                            discriminatiemaat        berekend.             Deze
                                                            discriminatiemaat geeft o.m. aan hoe goed de
                                                            categorieën van een variabele ruimtelijk gespreid
                                                            zullen worden bij een grafische weergave. De
                                                            discriminatiemaat geeft in feite dus de variantie
  3.3. HOMALS : Meervoudige correspondentie-                weer van een optimaal geschaalde variabele.
                      analyse                              Hoe hoger de discriminatiemaat van een variabele,
                                                           hoe verder de categorieën van die variabele uit
Om de relatie met het voorgaande te benadrukken            elkaar en van de oorsprong liggen. Als we alle
zij opgemerkt dat HOMALS ook bekend staat als              discriminatiematen op een bepaalde dimensie
meervoudige      correspondentie-analyse.       Het        optellen en delen door het aantal variabelen krijgen
belangrijkste verschil met ANACOR is dat nu meer           we een beeld van de “fit” (de gemiddelde
dan twee variabelen in de analyse worden                   discriminatiemaat).      Indien de gemiddelde
betrokken. Waar bij ANACOR de datamatrix een               discriminatiemaat laag is, kan dit een gevolg zijn
kruistabel is, is bij HOMALS de datamatrix de              van het feit dat enkele variabelen een zeer hoge
eerder vermelde indicatormatrix. Dus de matrix             discriminatiemaat hebben en sommige een zeer
van dummy-variabelen per respondent.             De        lage, zodat vaak meer dimensies nodig zijn om een
respondenten staan doorgaans in rijen en de                compleet beeld te krijgen. Een lage gemiddelde
categorieën van de variabelen in kolommen. Bij             discriminatiemaat kan ook betekenen dat geen
HOMALS houdt optimale schaling in dat per                  enkele variabele een grote bijdrage levert aan een
variabele      zodanige      categoriekwantificaties       bepaalde dimensie.
(optimale scores) worden berekend dat de                   Bij de interpretatie van de resultaten van een
categorieën van een variabele zover mogelijk uit           HOMALS-analyse dient rekening te worden
elkaar liggen. Naar analogie met ANACOR krijgen            gehouden met een aantal “eigenaardigheden”.
ook de rijen, bij HOMALS de respondenten, een
score, de zogenaamde objectscores. De objectscores         Net zoals bij ANACOR worden categorieën met een
worden       zodanig       berekend       dat    de        klein randtotaal verder van de oorsprong gelegd
categoriekwantificaties het gemiddelde vormen van          dan categorieën met een groot randtotaal.
de objecten (respondenten) die in die categorie            HOMALS        rekent     per     dimensie      aparte
vallen.    HOMALS tracht respondenten die in               categoriekwantificaties uit per variabele. Het aantal
dezelfde categorie vallen zo dicht mogelijk bij            onafhankelijke kwantificaties kan nooit groter zijn
elkaar te plaatsen en respondenten die in                  dan het aantal categorieën minus 1. Dus als bv. 10
verschillende categorieën vallen ver van elkaar te         variabelen met elk drie categorieën onderworpen
plaatsen. Idealiter verdelen de categorieën de             worden aan een HOMALS-analyse dan zullen er
respondenten in homogene groepen. Variabelen               maximaal (3-1) = 2 dimensies mogelijk zijn met
worden      homogeen     genoemd      als    ze  de        onafhankelijke kwantificaties.
respondenten in nagenoeg dezelfde subgroepen
opsplitsen.      HOMALS kan krachtens het                  Indien de variabelen die aan een HOMALS-analyse
voorgaande in marktonderzoektermen dan ook                 onderworpen worden een “goede” schaal vormen
gezien worden als een techniek waarmee men                 (d.w.z. een ééndimensionele schaal vormen), dan
segmentatie-analyses kan verrichten.        Met het        zal de tweede dimensie lineair afhankelijk zijn van
bijkomend      voordeel,    dat   variabelen    van        de eerste dimensie. Dit kan grafisch gevisualiseerd




                                       J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 15
 __________________________________________________________________________________________________
worden.      Indien een aantal variabelen een           categorieën     van      variabelen      aan      de
ééndimensionele schaal vormen, dan zal een plot         discriminatiematen per dimensie te berekenen. De
van de categoriekwantificaties op de eerste en          bijdrage is de categoriekwantificatie in het
tweede dimensie een hoefijzerpatroon te zien            kwadraat vermenigvuldigd met de relatieve
geven. Zo’n hoefijzerpatroon kan onder bepaalde         frequentie van de desbetreffende categorie. Een
voorwaarden gezien worden als een signaal dat de        categorie met een geringe bijdrage kan als “outlier”
dimensie alle relevante informatie bevat.               beschouwd worden (mogelijke oplossingen :
                                                        hercodering, categorie op “missing” zetten).
Als bij een gegeven oplossing, zeg in twee
dimensies, een derde dimensie wordt berekend,           Zowel       HOMALS        als    ANACOR        zijn
dan    blijven de    eerste    (twee)   dimensies       dimensiereductietechnieken.       HOMALS        en
onveranderd. Net zoals in het geval van ANACOR          ANACOR zullen trachten de chikwadraatafstanden
zijn de verschillende dimensies bij HOMALS              tussen rijen en kolommen in een zo klein mogelijk
“genest”.                                               aantal dimensies weer te geven. Het weglaten van
                                                        dimensies leidt tot verlies aan informatie. In een
Als alle dimensies worden berekend dan zal de som
                                                        aantal gevallen zal een tweedimensionele grafische
van de discriminatiewaarden per variabele gelijk
                                                        weergave van de HOMALS-resultaten tot een
zijn aan het aantal categorieën per variabele minus
                                                        verkeerd beeld van de afstand tussen categorieën
1.    Dit betekent dat een variabele met veel
                                                        van variabelen leiden.
categorieën een potentieel hogere discriminatiemaat
kan hebben dan een dichotome variabele. Een
gevolgtrekking is dan ook dat indien er grote
verschillen zijn in het aantal categorieën van de
variabelen die aan een HOMALS-analyse worden             4. Toepassingen van correspondentie-analyse in
onderworpen, dit ook de interpretatie van de                            marktonderzoek
bekomen resultaten zal bemoeilijken. Het verdient
daarom aanbeveling om na te gaan of via                 We zullen in hetgeen volgt de toepassing van
hercodering er voor gezorgd kan worden dat de           correspondentie-analyse       in   marktonderzoek
variabelen die in een HOMALS-analyse betrokken          illustreren aan de hand van een tweetal
worden, zoveel mogelijk een gelijk aantal               voorbeelden. In een eerste voorbeeld wordt de
categorieën hebben.                                     bruikbaarheid       van     correspondentie-analyse
                                                        aangetoond        voor    het    analyseren    van
HOMALS       is    gevoelig    voor   “outliers”   :
                                                        (dis)similariteitsgegevens. Voor deze toepassing
respondenten met een unieke score. Het niet
                                                        maken we gebruik van een onderzoek van Bouts en
opmerken van “outliers” kan tot gevolg hebben dat
                                                        Mackor (1991) over merkassociaties bij banken. In
men oplossingen inspecteert die volledig bepaald
                                                        een tweede toepassing wordt aangetoond hoe via
worden door één of enkele respondenten. Het is
                                                        een indicatormatrix inzicht kan verkregen worden
dus van belang ook (en vooral) bij grotere databases
                                                        in gebruikspatronen van frisdranken. De gegevens
de objectscores te inspecteren op extreme (absolute
                                                        voor deze analyse ontlenen we aan Kuylen (1990).
waarde) objectscores. Indien zo’n situatie zich
                                                        In beide gevallen werden de gegevens van
voordoet zijn er enkele strategieën mogelijk, w.o.
                                                        voornoemde auteurs door onszelf geanalyseerd
   •   de desbetreffende respondenten elimineren ;      door gebruikmaking van de ANACOR, resp.
   •   de waarde(n) voor de desbetreffende              HOMALS-procedure zoals opgenomen in de SPSS-
       respondenten op de betrokken variabele(n)        module “Categories”.
       op “missing” zetten ;
   •   hercodering ;
   •   indien alleen de eerste en tweede dimensie
       enkele “outliers” bevatten deze dimensies                 4.1. Merkassociaties bij banken
       negeren en alleen de derde en volgende
       dimensies gebruiken.
                                                        Het beeld van de bank als merk bestaat, zoals bij
                                                        alle merken, uit een veelheid van associaties. Door
Indien er hoge discriminatiewaarden (bijna 1.0)         deze associaties van de consument krijgt het
worden gevonden, hoeft dit niet altijd een              onvatbare merk voor hem/haar gestalte.          Het
bruikbaar resultaat op te leveren. Het is goed          psychologische merk (het merk in hoofde van de
mogelijk dat een hoge discriminatiemaat een gevolg      consument) kan worden onderverdeeld in drie
is van een categorie met een laag randtotaal. Het is    categorieën : zintuiglijk, emotioneel en rationeel.
daarom aan te bevelen om de bijdrage van de             Zintuiglijk roepen banken weinig associaties op.




                                       J. Blomme – info@dmreview.be
Correspondentie-analyse in Marktonderzoek - 16
  __________________________________________________________________________________________________
Dat heeft te maken met het feit dat de                       eigenlijke vragenlijst te zien kregen, werd gevraagd
dienstverlening van een bank voor een belangrijk             welke van deze banken zij niet kenden.
deel onzichtbaar en ongrijpbaar is. Emotionele en            Respondenten die één of meerdere banken niet
vooral rationele associaties bestaan daarentegen             kenden werden niet in het onderzoek opgenomen.
wel bij banken. Het beeld dat mensen van een bank            Respondenten die de banken wel kenden, kregen
hebben, wordt echter sterk opgehangen aan de                 alle mogelijke (10) combinaties van deze (6) banken
eigen bank. Het gevolg hiervan is dat bij imago-             op het beeldscherm te zien. De vraagstelling was
onderzoek naar banken heel sterk het profiel van de          als volgt : Welke van deze banken vindt u het meest
eigen bank wordt teruggespeeld. Dat wil echter               bij elkaar passen ? Vervolgens werd gevraagd
niet zeggen dat consumenten geen beeld hebben                waarom ze een bepaalde combinatie van banken als
van andere banken dan hun eigen bank. Dagelijks              het meest bij elkaar passend vonden. Hierbij
zien ze advertenties van banken en worden zij                konden de respondenten kiezen uit een lijst met
geconfronteerd         met    verhalen    over     de        associaties.          Om       de     bruikbaarheid        van
dienstverlening van banken. Alleen rijst de vraag :          correspondentie-analyse aan te tonen voor het
hoe krijgen we die beelden boven water ? Hoe                 analyseren van (dis)similariteitsgegevens, beperken
brengen we die meerdimensionele beeldvorming                 we ons in hetgeen volgt tot de combinaties van
nu tevoorschijn ?                                            banken die door de respondenten werden naar
                                                             voren geschoven als meest passend.                    Om de
In de eerste plaats is er kwalitatief onderzoek naar
                                                             ‘afstand’ tussen banken te bepalen, is in het
het imago van banken.           Imago-onderzoek bij
                                                             onderzoek gebruik gemaakt van het aantal keren
banken in een kwalitatieve opzet wordt uitgevoerd
                                                             dat een combinatie van banken wordt genoemd als
door middel van groepsdiscussies en diepte-
                                                             meest passend.
interviews. Hierbij wordt o.m. gebruik gemaakt
van projectieve technieken (bv. foto-sort).                  In tabel 14 is voor elke combinatie tussen banken
Kwalitatief onderzoek kan een heel levendig beeld            aangegeven hoeveel keer deze door de
van     banken       naar   voren    brengen,   maar         respondenten als meest passend naar voren werd
kwantificering ontbreekt. Uiteindelijk willen we             geschoven. Zoals eerder aangestipt, dienen “non
immers te weten komen hoe banken zich                        frequency”-data in het geval van correspondentie-
positioneren in hoofde van consumenten en welke              analyse (ANACOR) behandeld te worden als
dimensies die positionering kunnen verklaren.                similariteiten. In het door ons gekozen voorbeeld
                                                             van combinaties tussen banken , geven de
In sommige kwantitatieve studies moeten
                                                             frequenties waarmee banken als meest passend
respondenten aangeven of een bepaalde eigenschap
                                                             worden gepercipieerd een aanduiding van de
al of niet past bij een bank. Deze methode geeft vrij
                                                             gelijkenis of similariteit tussen banken.                   De
vlakke beelden. Het is daarom minder aangewezen
                                                             gegevens dienen derhalve niet aangepast te
mensen te vragen ‘wat past bij wat’, maar ze te
                                                             worden4. Aangezien we een symmetrische matrix
confronteren met groepen (sets) van banken en
                                                             invoeren,        worden          de      diagonaalwaarden
daartussen overeenkomsten en verschillen laten
                                                             gelijkgesteld aan de grootste gelijkenis + 1 (59 +1 =
aangeven. Respondenten zijn immers in staat om
                                                             60).
banken in groepen in te delen en vanuit deze
vergelijking associaties te formuleren.           Een
voorbeeld hiervan is de “natural grouping”-                    Tabel 14 : Aantal keren dat combinaties van banken als meest
                                                               passend worden genoemd (Bouts & Mackor, 1991 : 55 ; eigen
techniek die zeer geschikt is om associatieve
                                                                                        bewerking)
netwerken in kaart te brengen.           Een andere
methode is het gebruik van triade-technieken,                                                           POST             SPAAR
                                                                             ABN     AMRO      NMB              RABO
waarbij de respondent bij groepjes van drie (triade)                                                    BANK              BANK
moet aangeven welke van de drie hij/zij het meest             ABN             60       59       43       24      25         16
bij elkaar vindt passen en welke twee het minst bij           AMRO            59       60       34       17      43         19
elkaar passen. In het onderzoek van Bouts en
                                                              NMB             43       34       60       44      26         21
Mackor (1991) is gebruik gemaakt van deze
methode. Het onderzoek is uitgevoerd met behulp               POSTBANK        24       17       44       60      25         55
van een telepanel dat een representatief staal is van         RABO            25       43       26       25      60         48
de Nederlandse bevolking. De leden van het                    SPAAR
telepanel hebben thuis een homecomputer staan.                BANK
                                                                              16       19       21       55      48         60

Het gaat dus om computergestuurde enquêtering.
Aan de respondenten werd een lijst van zes banken            Hoewel de interpretatie van het begrip
voorgelegd : ABN, AMRO, NMB, Postbank, RABO                  “chikwadraatafstand” in het geval van “non-
en Spaarbank.         Vooraleer de respondenten de           frequency”-data met de nodige voorzichtigheid



                                          J. Blomme – info@dmreview.be
Correspondentie Analyse
Correspondentie Analyse
Correspondentie Analyse

More Related Content

Viewers also liked

Viewers also liked (7)

Exploratory factor analysis
Exploratory factor analysisExploratory factor analysis
Exploratory factor analysis
 
Research Methology -Factor Analyses
Research Methology -Factor AnalysesResearch Methology -Factor Analyses
Research Methology -Factor Analyses
 
factor analysis
factor analysisfactor analysis
factor analysis
 
Factor Analysis in Research
Factor Analysis in ResearchFactor Analysis in Research
Factor Analysis in Research
 
Factor analysis
Factor analysisFactor analysis
Factor analysis
 
Exploratory factor analysis
Exploratory factor analysisExploratory factor analysis
Exploratory factor analysis
 
Factor analysis (fa)
Factor analysis (fa)Factor analysis (fa)
Factor analysis (fa)
 

More from Johan Blomme

Spatial data analysis
Spatial data analysisSpatial data analysis
Spatial data analysisJohan Blomme
 
Curieuzeneuzen ww belgie
Curieuzeneuzen ww belgieCurieuzeneuzen ww belgie
Curieuzeneuzen ww belgieJohan Blomme
 
Assessing spatial heterogeneity
Assessing spatial heterogeneityAssessing spatial heterogeneity
Assessing spatial heterogeneityJohan Blomme
 
Text mining and social network analysis of twitter data part 1
Text mining and social network analysis of twitter data part 1Text mining and social network analysis of twitter data part 1
Text mining and social network analysis of twitter data part 1Johan Blomme
 
Spatial data analysis 2
Spatial data analysis 2Spatial data analysis 2
Spatial data analysis 2Johan Blomme
 
Trends voor data analyse 2014
Trends voor data analyse 2014Trends voor data analyse 2014
Trends voor data analyse 2014Johan Blomme
 
Spatial data analysis 1
Spatial data analysis 1Spatial data analysis 1
Spatial data analysis 1Johan Blomme
 
Trends in business_intelligence_2013
Trends in business_intelligence_2013Trends in business_intelligence_2013
Trends in business_intelligence_2013Johan Blomme
 
Trends in business intelligence 2012
Trends in business intelligence 2012Trends in business intelligence 2012
Trends in business intelligence 2012Johan Blomme
 
The new normal in business intelligence
The new normal in business intelligenceThe new normal in business intelligence
The new normal in business intelligenceJohan Blomme
 
Business intelligence in the real time economy
Business intelligence in the real time economyBusiness intelligence in the real time economy
Business intelligence in the real time economyJohan Blomme
 
E Business Integration. Enabling the Real Time Enterprise
E Business Integration. Enabling the Real Time EnterpriseE Business Integration. Enabling the Real Time Enterprise
E Business Integration. Enabling the Real Time EnterpriseJohan Blomme
 
Knowledge Discovery In Data. Van ad hoc data mining naar real-time predictie...
Knowledge Discovery In Data.  Van ad hoc data mining naar real-time predictie...Knowledge Discovery In Data.  Van ad hoc data mining naar real-time predictie...
Knowledge Discovery In Data. Van ad hoc data mining naar real-time predictie...Johan Blomme
 
Operational B I In Supply Chain Planning
Operational  B I In Supply Chain PlanningOperational  B I In Supply Chain Planning
Operational B I In Supply Chain PlanningJohan Blomme
 
What is data mining ?
What is data mining ?What is data mining ?
What is data mining ?Johan Blomme
 

More from Johan Blomme (15)

Spatial data analysis
Spatial data analysisSpatial data analysis
Spatial data analysis
 
Curieuzeneuzen ww belgie
Curieuzeneuzen ww belgieCurieuzeneuzen ww belgie
Curieuzeneuzen ww belgie
 
Assessing spatial heterogeneity
Assessing spatial heterogeneityAssessing spatial heterogeneity
Assessing spatial heterogeneity
 
Text mining and social network analysis of twitter data part 1
Text mining and social network analysis of twitter data part 1Text mining and social network analysis of twitter data part 1
Text mining and social network analysis of twitter data part 1
 
Spatial data analysis 2
Spatial data analysis 2Spatial data analysis 2
Spatial data analysis 2
 
Trends voor data analyse 2014
Trends voor data analyse 2014Trends voor data analyse 2014
Trends voor data analyse 2014
 
Spatial data analysis 1
Spatial data analysis 1Spatial data analysis 1
Spatial data analysis 1
 
Trends in business_intelligence_2013
Trends in business_intelligence_2013Trends in business_intelligence_2013
Trends in business_intelligence_2013
 
Trends in business intelligence 2012
Trends in business intelligence 2012Trends in business intelligence 2012
Trends in business intelligence 2012
 
The new normal in business intelligence
The new normal in business intelligenceThe new normal in business intelligence
The new normal in business intelligence
 
Business intelligence in the real time economy
Business intelligence in the real time economyBusiness intelligence in the real time economy
Business intelligence in the real time economy
 
E Business Integration. Enabling the Real Time Enterprise
E Business Integration. Enabling the Real Time EnterpriseE Business Integration. Enabling the Real Time Enterprise
E Business Integration. Enabling the Real Time Enterprise
 
Knowledge Discovery In Data. Van ad hoc data mining naar real-time predictie...
Knowledge Discovery In Data.  Van ad hoc data mining naar real-time predictie...Knowledge Discovery In Data.  Van ad hoc data mining naar real-time predictie...
Knowledge Discovery In Data. Van ad hoc data mining naar real-time predictie...
 
Operational B I In Supply Chain Planning
Operational  B I In Supply Chain PlanningOperational  B I In Supply Chain Planning
Operational B I In Supply Chain Planning
 
What is data mining ?
What is data mining ?What is data mining ?
What is data mining ?
 

Correspondentie Analyse

  • 1. CORRESPONDENTIE-ANALYSE IN MARKTONDERZOEK Johan Blomme email : info@dmreview.be
  • 2. Correspondentie-analyse in Marktonderzoek - 2 __________________________________________________________________________________________________ 1. Situering en kernbegrippen betrokken worden in een correspondentie-analyse categorische variabelen genoemd. Dit zijn variabelen Hoewel correspondentie-analyse een reeds lang die de te onderzoeken objecten sorteren in een bestaande techniek is, neemt de belangstelling betrekkelijk klein aantal groepen, welke als ervoor de laatste jaren gestadig toe. Dit houdt categorieën worden aangeduid. Er worden dus verband met de toegenomen populariteit van gegevens geanalyseerd van een aantal objecten met exploratieve gegevensanalyse, waarvoor betrekking tot een aantal variabelen. Een variabele correspondentie-analyse zich goed leent. wordt gedefinieerd door de mogelijkheid om Correspondentie-analyse kan in het algemeen objecten in te delen in onderscheiden en elkaar beschouwd worden als een techniek om de uitsluitende categorieën. samenhang tussen categorische variabelen te Een onderscheid wordt gemaakt tussen drie soorten exploreren. Traditioneel worden daartoe variabelen. In het geval van een nominale variabele kruistabellen gehanteerd. Grote kruistabellen en zijn de categorieën niet volgens een van tevoren meerdere kruistabellen maken het evenwel vlug vastgelegde volgorde ingedeeld. Bij de verwerking lastig om samenhangen op te sporen. van ordinale variabelen dient er rekening mee Correspondentie-analyse (CA) maakt het mogelijk gehouden te worden dat de categorieën in een samenhangen grafisch voor te stellen. Meestal voorafbepaalde volgorde staan. De derde wordt gekozen voor een tweedimensionele plot mogelijkheid is dat de categorieën van tevoren een waarin de categorieën van variabelen als punten bepaalde getalwaarde krijgen met de bedoeling dat voorkomen en waarbij het nulpunt (de oorsprong (anders dan bij ordinale variabelen) verschillen van het assenstelsel) staat voor de totale populatie. tussen die getallen geïnterpreteerd mogen worden De techniek zorgt ervoor dat de onderlinge als verschillen tussen objecten in die categorieën. afstanden tussen deze punten zoveel mogelijk de Zo’n variabelen noemen we numerieke variabelen samenhang in de tabel(len) reflecteren. De (bv. het verschil tussen 25 jaar en 20 jaar is even technieken en procedures die onder CA sorteren, groot als het verschil tussen 55 jaar en 50 jaar). kunnen als een deelverzameling van schaaltechnieken beschouwd worden. Zo hebben Het is van belang om in te zien dat het onderscheid de in de SPSS-module “Categories” opgenomen tussen nominale, ordinale en numerieke variabelen niet technieken zoals ANACOR, HOMALS, PRINCALS voortvloeit uit de eigenschappen van de variabelen en OVERALS (ook “ALS”-technieken genoemd zelf, maar dat het gaat om eigenschappen die door omdat ze werken overeenkomstig het principe van een onderzoeker aan deze variabelen worden “alternating least squares”)1 als gezamenlijk opgelegd. Zo kan de variabele ‘leeftijd’ door een kenmerk dat op een of andere manier onderzoeker ook als een ordinale variabele worden schaalwaarden worden berekend voor de gehanteerd. De onderzoeker gaat er dan van uit dat categorieën van de in de analyse betrokken de categorieën wel op een bepaalde volgorde staan, variabelen. Ter verduidelijking hiervan dienen een maar niet dat afstanden tussen opeenvolgende aantal kernbegrippen van naderbij beschouwd te categorieën gelijk zijn. Anderzijds kan een worden. variabele als politieke voorkeur (nominaal) door een onderzoeker ook als een ordinale variabele behandeld worden (o.m. door politieke partijen op 1.1. Niet-lineariteit een schaal van ‘links’ naar ‘rechts’ te rangordenen). Kortom, of een variabele nominaal, ordinaal of CA is een geheel van technieken die voorzien in de numeriek behandeld moet worden, wordt niet niet-lineaire analyse van categorische variabelen. voorgeschreven door intrinsieke eigenschappen Als zodanig zijn de “ALS”-technieken de van de variabele zelf, maar wordt bepaald door de tegenhangers van de klassieke multivariate lineaire eisen die de onderzoeker aan de variabele stelt. technieken zoals factoranalyse, regressie-analyse, discriminantanalyse, e.a. Niet-lineariteit heeft In tal van onderzoeken komt het voor dat gegevens betrekking op het feit dat bij CA geen voorafgaande ontbreken. De oorzaken hiervan zijn velerlei. Wat eisen aan het meetniveau van de te behandelen te doen als er ontbrekende gegevens zijn ? Er zijn variabelen worden gesteld. Dit is eveneens het drie mogelijkheden. Voor de ontbrekende gegevens geval bij log-lineaire analyse. Deze laatste techniek van een variabele voeren we één nieuwe, heeft echter als nadeel dat het vinden van een afzonderlijke categorie in. Alle objecten met spaarzaam (“parsimonious”) model moeilijk wordt ontbrekende gegevens op de variabele worden aan bij een grote steekproefomvang. CA fungeert hier de aparte categorie toegewezen. Deze aanpak als een te overwegen alternatief. Zoals dit het geval veronderstelt uiteraard, dat objecten waarvan de is bij log-lineaire analyse, worden de variabelen die gegevens ontbreken, om deze reden op elkaar lijken en dat het hierom gewettigd is de ontbrekende J. Blomme – info@dmreview.be
  • 3. Correspondentie-analyse in Marktonderzoek - 3 __________________________________________________________________________________________________ gegevens als één categorie op te vatten. Het is kan blijken dat de resultaten in hoofdzaak hetzelfde natuurlijk de vraag of deze veronderstelling zijn, ook al werden verschillende opties gekozen. realistisch is. Deze aanpak krijgt de naam : Ook kan blijken dat de resultaten verschillend zijn, ontbrekende gegevens actief enkelvoudig behandelen. al naar gelang welke optie genomen werd. In dit ‘Enkelvoudig’ betekent : de ontbrekende gegevens laatste geval moet de onderzoeker er zich worden in één categorie ondergebracht ; ‘actief’ rekenschap van geven waar zulke verschillen betekent dat deze categorie in de verdere vandaan kunnen komen : de onderzoeker moet verwerking volwaardig meetelt. De tweede aanpak proberen te achterhalen wat er met de gegevens aan is dat aan elke variabele net zoveel nieuwe de hand is waardoor zulke verschillen kunnen categorieën worden toegevoegd als er objecten met optreden. Bij exploratieve gegevensanalyse is het ontbrekende gegevens zijn. Dit houdt in dat in elke zo dat de onderzoeker nog niet overal duidelijke nieuwe categorie slechts één object voorkomt. In vragen heeft. Vergelijking van verschillende dit geval worden ontbrekende gegevens actief analyses van dezelfde data kan ertoe bijdragen dat meervoudig behandeld. Een belangrijk nadeel van de onderzoeker ontdekt wat de zinnige vragen zijn. deze aanpak is dat de toegevoegde categorieën een In dit opzicht is CA een techniek die het verdere zeer lage marginale frequentie hebben (immers, ze analyseverloop in goede banen kan helpen leiden. bevatten slechts één object). De derde aanpak laat alle ontbrekende gegevens buiten beschouwing in de verdere analyse. Ontbrekende gegevens worden passief behandeld. 1.2. “Optimal scaling” Het begrip ‘ontbrekende gegevens’ is afhankelijk van de interpretatie door de onderzoeker. Nemen Bij klassieke multivariate analyses wordt het we als voorbeeld een enquête naar leesgewoonten meetniveau van de variabelen als gegeven van kranten. Nu kan men stellen dat respondenten beschouwd. Op basis van het meetniveau van de die niet regelmatig Het Nieuwsblad lezen in één variabelen wordt een geschikte analysetechniek categorie vallen, nl. de categorie niet-regelmatige gekozen. Bij de “ALS”-technieken wordt niet a Het Nieuwsblad-lezers (actief enkelvoudig). Het is priori een bepaald meetniveau verondersteld, maar echter de vraag of deze laatste groep respondenten worden in de analyse zogenaamde optimale op elkaar lijken, louter en alleen op grond van de schaalwaarden (optimale kwantificatie, “optimal vaststelling dat ze iets niet doen. Mensen die Het scaling”) berekend voor de categorieën van de in de Nieuwsblad wel lezen, hebben iets met elkaar analyse betrokken variabelen. Optimale gemeen, maar geldt daarom dat zij die Het schaalwaarden zijn nieuwe waarden voor de Nieuwsblad niet lezen iets met elkaar gemeen oorspronkelijke waarden van één of meer hebben ? Dit laatste kan betwijfeld worden, en om variabelen. Deze optimale schaalwaarden zijn in deze reden kan de onderzoeker besluiten om ervan een of meer opzichten ‘beter’ dan de uit te gaan dat voor de niet-lezers de gegevens oorspronkelijke waarden van de variabelen, o.m. ontbreken (passieve behandeling). Meervoudig omdat ze de correlatie tussen twee variabelen actieve behandeling houdt daarentegen in dat elke maximaliseren. Optimale schaalwaarden kunnen niet-lezer een uniek exemplaar wordt in zijn eigen dan ook dienen om de oorspronkelijke waarden categorie. Passieve behandeling houdt duidelijke van variabelen te vervangen. Omdat optimale voordelen in. Er wordt dan bij de verdere schaalwaarden worden berekend voor variabelen bewerking wel gelet op het feit dat lezers van ongeacht het a priori toegedachte meetniveau leidt eenzelfde krant iets gemeenschappelijks hebben, het gebruik van optimale schaalprocedures ertoe maar daaraan wordt niet de conclusie verbonden dat variabelen van ongelijk meetniveau in eenzelfde dat niet-lezers iets met elkaar gemeen hebben. analyse kunnen betrokken worden. Voor de praktijk van het marktonderzoek is dit een Het voorgaande leidt tot de conclusie dat er een belangrijke aanvulling op het arsenaal van element van willekeur bestaat. Het is aan de analysemogelijkheden. onderzoeker om te bepalen of een variabele nominaal, ordinaal of numeriek is terwijl er geen Relaties tussen variabelen komen slechts tot hun stricte regels bestaan over de vraag hoe recht indien de categorieën van variabelen optimaal ontbrekende gegevens behandeld moeten worden. gekwantificeerd worden. Wat ‘optimaal’ betekent, Die willekeur kan worden ingeperkt doordat de hangt af van de onderzoekscontext. De optimale onderzoeker niet slechts één keuze uit de opties kwantificatie van een variabele is daarom relatief. doet, maar een aantal analyses doet onder Dit betekent dat de kwantificatie van een variabele verschillende opties en dan de resultaten van die moet beschouwd worden in de context van andere verschillende analyses met elkaar vergelijkt. Dan variabelen die in de analyse betrokken worden. J. Blomme – info@dmreview.be
  • 4. Correspondentie-analyse in Marktonderzoek - 4 __________________________________________________________________________________________________ Naargelang van deze laatste kan blijken dat een betekent dit hetzelfde als dat er een willekeurige a variabele anders gekwantificeerd moet worden. priori-kwantificatie is (in dit geval wordt aan de categorieën van een variabele een etiket gegeven Stel dat er een a priori-kwantificatie bestaat voor een onder de vorm van cijfers, in een of andere variabele. Er kan dan een transformatiegrafiek volgorde). Wordt de variabele vervolgens getekend worden. In dergelijke grafiek staan de a nominaal behandeld, dan speelt de getalwaarde die priori- kwantificaties op de horizontale as en op de aan de categorieën is toegekend geen enkele rol. verticale as staan de optimale kwantificaties. Elke Een transformatiegrafiek heeft in dit geval m.a.w. categorie van een variabele wordt dus afgebeeld als geen zin. een punt van de grafiek. Dit geeft de mogelijkheid opnieuw te definiëren wat we verstaan onder Om na te gaan of voldaan wordt aan de assumpties numerieke, ordinale en nominale variabelen. van multivariate analyse-technieken kan op de Numerieke behandeling eist dat de punten in de variabelen een correspondentie-analyse worden transformatiegrafiek op een rechte lijn liggen. toegepast. Met behulp van een eenvoudig voorbeeld kan dit geadstrueerd worden. In het Ordinale behandeling stelt de minder strenge eis geval van factoranalyse wordt verondersteld dat de dat de punten op een monotoon stijgende curve variabelen numeriek geschaald zijn. Stel dat liggen. Dit betekent dat als de a priori-kwantificatie uitgegaan wordt van Likert-items (5-punts items) van categorie j groter is dan die van categorie i, de waarbij de code 1 staat voor zeer oneens en de code optimale kwantificatie van categorie j niet kleiner 5 staat voor zeer eens. De veronderstelling bij dit mag zijn dan die van kategorie i (wel is toegestaan soort items is dat de afstanden tussen de dat de optimale kwantificaties gelijk aan elkaar schaalwaarden 1,2,3,4 en 5 gelijk zijn, dus dat er worden). Wordt een variabele nominaal sprake is van een intervalschaal. Het is echter goed behandeld, dan worden aan de mogelijk dat in werkelijkheid de schaalwaarden transformatiegrafiek geen eisen gesteld. De curve voor de verschillende items deze veronderstelling mag dus op meerdere plaatsen een knik vertonen. tegenspreken. Een voorbeeld ter verduidelijking. Het kan blijken dat de transformatiegrafiek toch Veronderstel dat we optimale kwantificaties monotoon stijgend is, wat er dan op wijst dat berekenen voor een reeks Likert-items. Uit tabel 1 hetzelfde resultaat gevonden zal worden als de blijkt o.m. dat voor item 1 de afstand tussen “eens” variabele ordinaal behandeld zou zijn. Terloops (code 4) en “zeer eens” (code 5) 1,25 bedraagt. Voor dient erop gewezen te worden dat als een variabele item 2 is de afstand slechts 0,10. slechts twee categorieën heeft (een binaire variabele) de transformatiegrafiek slechts twee punten bevat die altijd op een rechte lijn liggen. De Tabel 1 : Schaalwaarden voor (5 punts-) antwoordcategorieën gevolgtrekking is dat het voor een binaire variabele na optimale kwantificatie niets uitmaakt of deze numeriek, ordinaal of nominaal wordt behandeld. (1) (2) (3) (4) (5) Transformatiegrafieken hebben alleen zin als er een a priori-kwantificatie van de categorieën van een variabele bestaat. Uit de transformatiegrafiek kan Item 1 -1,30 -1,29 0,03 0,70 1,95 dan bv. blijken dat deze een logaritmisch of kwadratisch verloop kent, hetgeen inhoudt dat de a Item 2 -1,15 -1,11 -0,02 1,10 1,20 priori-kwantificatie dient vervangen te worden door algebraïsche functie van de oorspronkelijke waarden. De items in dit voorbeeld vormen dus duidelijk In klassieke multivariate analyse wordt ervan geen intervalschalen. Optimale kwantificatie kan uitgegaan dat elke variabele een a priori- derhalve leiden tot schaalwaarden die beter kwantificatie heeft en dat elke variabele numeriek voldoen dan de oorspronkelijke waarden. Dit zou moet worden behandeld. In dit geval vertonen de bv. kunnen blijken door eerst een factoranalyse toe transformatiegrafieken alle de vorm van rechte te passen op de oorspronkelijke variabelen en lijnen. Men spreekt daarom van lineaire daarna de resultaten te vergelijken met die multivariate analyse. Worden echter één of meer verkregen bij factoranalyse na optimale variabelen ordinaal of nominaal behandeld kwantificatie. (aangenomen dat er een a priori- kwantificatie is), dan geldt de lineaire restrictie niet en kan men Zelfs indien er sprake is van nominaal meetniveau, spreken van niet-lineaire multivariate analyse. kunnen optimale schaalwaarden worden berekend die toelaten de correlatie tussen variabelen te Indien er geen a priori-kwantificatie is, dan J. Blomme – info@dmreview.be
  • 5. Correspondentie-analyse in Marktonderzoek - 5 __________________________________________________________________________________________________ maximaliseren. Wat optimaal is, hangt af van de Met betrekking tot optimale kwantificatie kan een betrokken analysetechniek en de in de analyse onderscheid gemaakt worden tussen enkelvoudige betrokken variabelen. Er is dus niet zoiets als een en meervoudige kwantificatie. Enkelvoudige soort absolute optimale schaling van categorieën kwantificatie komt er op neer dat voor elke categorie van variabelen. Voor de procedures ANACOR en van een variabele een kwantificatie wordt gezocht HOMALS wordt slechts een nominaal meetniveau die geldig blijft in alle dimensies van de analyse. van de variabelen verondersteld (cfr. infra). Door Meervoudige kwantificatie houdt in dat de de optimale schalingsresultaten uit deze analyses te kwantificatie van de categorieën voor elke dimensie vergelijken met de oorspronkelijke scores van de van de oplossing verschillend mag zijn. categorieën kan men nagaan of bv. een Aangenomen dat er een a priori-kwantificatie intervalschaal aanwezig is. In dit geval zouden de bestaat, betekent enkelvoudige kwantificatie dat er afstanden tussen opeenvolgende schaalwaarden een transformatiegrafiek is die de a priori- gelijk moeten zijn. Bij de procedures PRINCALS en kwantificatie omzet in een optimale kwantificatie. OVERALS kan het meetniveau van de variabelen Die grafiek blijft geldig voor alle dimensies van de nominaal, ordinaal of interval zijn. oplossing. Daar staat tegenover dat bij meervoudige kwantificatie elke dimensie van de oplossing een eigen transformatiegrafiek heeft. Is er geen a priori-kwantificatie, dan kunnen we 1.3. Dimensie-reductietechnieken desondanks een willekeurige a priori-kwantificatie kiezen en de variabele vervolgens nominaal behandelen. Nominale behandeling betekent De zojuist genoemde “ALS”-technieken kunnen immers : de kwantificatie van de categorieën trekt beschouwd worden als dimensie- zich niets aan van de a priori-kwantificatie. Dan reductietechnieken. Dit betekent dat de samenhang blijft het verschil bestaan dat enkelvoudige tussen de categorieën van variabelen door middel kwantificatie van zo’n variabele zal gelden voor van de berekening van optimale schaalwaarden in alle dimensies van de oplossing, terwijl beeld wordt gebracht in een zo klein mogelijk meervoudige kwantificatie voor elke dimensie aantal dimensies. De dimensies geven elk bepaalde afzonderlijk een optimale kwantificatie van de aspecten weer van de samenhang of verschillen categorieën kiest. tussen categorieën van variabelen. Een techniek die zich goed leent voor optimale kwantificatie van variabelen is PRINCALS (“PRINciple Components analysis by Alternating Least Squares”). De PRINCALS-opties berusten op 2. Transformatie en optimale kwantificatie twee uitgangspunten. Het eerste is dat de gebruiker kan kiezen of variabelen numeriek, In voorgaand punt werd er reeds op gewezen dat ordinaal of nominaal behandeld worden. Het relaties tussen variabelen beter tot hun recht komen tweede uitgangspunt is dat gekozen kan worden als de categorieën van variabelen optimaal tussen enkelvoudige of meervoudige kwantificatie. gekwantificeerd zijn. Nemen we als voorbeeld de De combinatie van deze twee uitgangspunten leidt variabele ‘leeftijd’. Uit een onderzoek naar tot de vier mogelijkheden in tabel 2. eetgewoonten kan blijken dat de optimale kwantificatie van de leeftijdscategorieën de verschillen tussen de oudere groepen kleiner neemt Tabel 2 : PRINCALS-opties dan die tussen de jongere groepen. De optimale kwantificatie zou zelfs kunnen laten zien dat de oudere groepen samengevoegd kunnen worden ; kwantificatie variabelen alleen de verschillen in leeftijd tussen jongeren enkelvoudig meervoudig enerzijds en die tussen jongeren en ouderen numeriek X niet van toepassing anderzijds spelen een rol. Een dergelijke kwantificatie is optimaal in relatieve zin, d.w.z. met ordinal X niet van toepassing betrekking tot de andere variabelen in het onderzoek. Het is best mogelijk dat in een nominaal X X onderzoek naar politiek komt vast te staan dat leeftijdscategorieën anders moeten gekwantificeerd worden. Uit tabel 2 kan afgelezen worden dat twee combinaties niet voorkomen. De eerste is die van J. Blomme – info@dmreview.be
  • 6. Correspondentie-analyse in Marktonderzoek - 6 __________________________________________________________________________________________________ meervoudige kwantificatie van numerieke attention is focused on the interaction, (c) the user’s variabelen. De reden hiervoor is dat de numerieke curiosity is aroused during the interaction, and (d) behandeling van een variabele inhoudt dat de the user finds the interaction intrinsically kwantificatie van de variabele op verschillende interesting”. Het door Novak en Hoffman dimensies steeds een lineaire functie moet zijn van ontwikkelde conceptueel model voorziet o.m. in de a priori-kwantificatie. Dit uitgangspunt staat een verklaring van “flow” in termen van de haaks op het principe van meervoudige antecedenten ervan. In het bijzonder schrijven de kwantificatie, dat in dit geval zou inhouden dat de beide onderzoekers de ervaring van intrinsiek kwantificaties van de categorieën van een amusement toe aan het bestaan van een congruentie numerieke variabele op meerdere dimensies tussen enerzijds de (navigatie)vaardigheden van de onderling verschillen. Ook de combinatie gebruiker en de uitdagingen die uitgaan van het ordinaal/meervoudig komt niet voor, maar dit om navigeren op het World Wide Web. Meer in het een andere reden. Meervoudige ordinale bijzonder omschrijven Novak en Hofmann “flow” kwantificatie van een variabele impliceert dat de als “a cognitive state experienced during online kwantificaties op achtereenvolgende dimensies navigation that is determined by : 1) high levels of allemaal dezelfde rangorde hebben als de a priori- skill and control ; 2) high levels of challenge and kwantificatie. Ze hebben dus ook onderling een arousal ; 3) focused attention ; and is 4) enhanced rangcorrelatie van 1 zodat de meervoudig ordinale by interactivity and telepresence” (Novak & kwantificatie maar weinig zal verschillen van de Hofmann, 1999 : 6). enkelvoudig ordinale oplossing. In hetgeen volgt zullen we de constructie van de antecedente variabele ‘vaardigheden’ (“skills”) van De enkelvoudig nominale behandeling van een naderbij analyseren aan de hand van een subset van variabele houdt ook iets tegenstrijdigs in. De respondenten die participeerden aan het door behandeling veronderstelt immers dat de Novak en Hoffman uitgevoerde onderzoek. Uit onderzoeker geen rekening kan of wil houden met een aanvankelijk uitgevoerde factoranalyse op een een a priori-kwantificatie maar desondanks toch zestal items waarmee het begrip ‘vaardigheden’ verlangt dat de categoriekwantificaties op elke geïndiceerd werd, bleken twee factoren met een dimensies van de oplossing evenredig met elkaar eigenwaarde groter dan één gezamenlijk 69,1 % van zijn. Ligt het dan niet voor de hand dat de de variantie in de oorspronkelijke items te onderzoeker die enkelvoudige kwantificatie wil verklaren. In tabel 3 zijn deze items vermeld met omdat gehoopt wordt dat de categoriekwantificatie de antwoordfrequenties ervan op de 9-punten overeenkomt met een bepaalde van tevoren schalen die gebruikt werden in het onderzoek. bestaande verwachting omtrent die kwantificaties ? Zou het dan niet beter zijn om die verwachting Op de vier items is een optimale schaalanalyse meteen vast te leggen als een ordinale a priori- verricht door gebruikmaking van PRINCALS. In ordening waarmee in de oplossing rekening wordt het voorbeeld worden alle variabelen enkelvoudig gehouden ? Tegenover die redenering staat dat de ordinaal behandeld. Hiervoor zijn twee onderzoeker soms wel een a priori-verwachting argumenten. Het eerste is dat de categorieën van heeft over een aantal categorieën van een variabele, elke variabele (de getallen 1 tot 9) kennelijk in een maar dat sommige categorieën in die reeks niet bepaalde volgorde staan. Het tweede argument is goed te plaatsen zijn. dat een numerieke analyse ervan uitgaat dat de afstand tussen opeenvolgende categoriewaarden We zullen de toepassing van optimale steeds gelijk is. De juistheid van deze schaalanalyse illustreren aan de hand van een veronderstelling is erg betwistbaar. Ordinale onderzoek van Novak en Hoffman (1999) over het kwantificatie zal laten zien of er reden is de navigatiegedrag van gebruikers van het World categorieën zodanig te kwantificeren dat hun Wide Web. Bij de ontwikkeling van een onderlinge afstanden niet meer gelijk zijn. conceptueel model ter verklaring van het navigatiegedrag van WWW-gebruikers maken Uit tabel 3 kan afgeleid worden dat een Novak en Hoffman gebruik van het begrip “flow”, afzonderlijke analyse van categoriekwantificaties dat zij omschrijven als de intrinsieke amusement op zijn plaats is. De frequentieverdeling ziet er dat gebruikers ervaren. Trevino en Webster (1992 : immers niet uit als een normale verdeling. Bij elk 542) geven volgende operationele omschrijving van van de vier items is de frequentieverdeling zelfs “flow” : “Flow represents the extent to which (a) the extreem scheef te noemen. user perceives a sense of control over the computer interaction, (b) the user perceives that his or her De resultaten van de PRINCALS-analyse J. Blomme – info@dmreview.be
  • 7. Correspondentie-analyse in Marktonderzoek - 7 __________________________________________________________________________________________________ onderschrijven in de eerste plaats de resultaten van samengevoegd (in rood weergegeven de factoranalyse. De PRINCALS-eigenwaarden categoriekwantificaties). De PRINCALS-analyse hebben een waarde van 0,558 op de eerste dimensie geeft eveneens een bevestiging voor de ordinale en 0,172 op de tweede dimensie. Als we als kwantificatie van de categorieën van de variabelen : vuistregel hanteren dat een eigenwaarde groter de getransformeerde waarden moet zijn dan (1/aantal variabelen), dan kan uit de (categoriekwantificaties) vertonen voor elk van de itemanalyse afgeleid worden dat de tweede items een monotoon stijgend verloop. dimensie (eigenwaarde 0,172 > 0,167) nog net kan weerhouden worden maar op zichzelf weinig Tabel 4 : Categoriekwantificaties voor “skills”-items toevoegt aan de eendimensionele oplossing. item 1 2 3 4 5 6 7 8 9 Tabel 3 : Antwoordfrequenties voor “skills”-items skilled -2.56 -1.93 -1.93 -1.90 -1.31 -0.82 -0.23 0.40 1.27 Item 1 2 3 4 5 6 7 8 9 Find -1.49 -1.49 -1.49 -1.49 -1.49 -1.47 -0.71 0.29 1.43 I am extremely skilled at using the Web 5 4 18 12 45 56 110 126 124 (skilled)(*) searchtech -1.62 -1.62 -1.62 -1.62 -1.41 -0.96 -0.65 0.41 1.37 I know how to find knowless -1.58 -1.58 -1.58 -1.58 -1.58 -1.58 -1.04 -0.33 0.96 what I am looking for 3 3 9 12 13 46 125 174 115 on the Web (find)(*) rate1 -7.54 -6.63 -5.65 -1.77 -0.76 -0.16 0.54 0.76 1.47 I consider myself rate2 -3.06 -3.06 -2.29 -2.29 -0.25 -0.03 0.27 0.27 1.14 knowledgeable about good search techniques 2 12 9 18 17 56 125 138 123 on the Web (searchtech)(*) I know somewhat less about the Web than 4 9 8 11 20 30 57 122 239 most users (knowless)(*)(***) 3. Werkwijze CA How would you rate Bij de klassieke multivariate analysetechnieken your skill at using the zoals factoranalyse en meervoudige regressie- Web, compared to other things you do on the 1 1 4 11 147 84 130 96 26 analyse wordt als regel de analyse uitgevoerd op computer ? een correlatiematrix. Bij de “ALS”-technieken (rate1)(**) wordt uitgegaan van een zogenaamde indicatormatrix. Zo’n indicatormatrix wordt How would you rate verkregen door de categorieën van de variabelen your skill at using the om te coderen tot dummy-variabelen. Stel dat we Web, compared to the sport or game you are 9 10 22 11 105 67 102 74 100 een datamatrix hebben met drie variabelen en vijf best at ? respondenten. De variabelen zijn geslacht (man, (rate2)(**) vrouw), opleiding (hoog, middelbaar, laag) en type krantengebruiker (light user, medium user, heavy (*) 1 = volledig akkoord ; 9 = helemaal niet akkoord user). De indicatormatrix ziet er dan uit zoals (**) 1 = veel minder goed ; 9 = veel beter voorgesteld in tabel 5. (***) omscoring itemcategorieën Intuïtief zal duidelijk zijn dat wanneer analyses worden uitgevoerd op de categorieën van Bekijken we nu de categoriekwantificaties zelf in variabelen en niet op de variabelen zelf, de tabel 4. Wat uit de tabel onmiddellijk kan resultaten ook betrekking zullen hebben op wat opgemaakt worden is dat de afstand tussen de categorieën van variabelen met elkaar gemeen verschillende categorieën voor geen van de items hebben. Terwijl in het geval van HOMALS gelijk is. Met uitzondering van één item worden vertrokken wordt van een indicatormatrix, vindt de twee of meerdere categorieën van de items analyse bij ANACOR plaats op gegevens die J. Blomme – info@dmreview.be
  • 8. Correspondentie-analyse in Marktonderzoek - 8 __________________________________________________________________________________________________ georganiseerd zijn in kruistabelformaat. ∇ hoe moet de plot geïnterpreteerd worden ? Tabel 5 : Indicatormatrix bij correspondentie-analyse 1. Wat wordt er van de samenhang in een tabel afgebeeld geslacht opleiding user in een plot ? resp.nr M V L M H L M H Als in een kruistabel de rijpercentages en kolompercentages worden berekend, kan de 1 1 0 1 0 0 1 0 0 overeenkomst tussen rijen en kolommen onderling en met betrekking tot de randverdelingen worden 2 1 0 0 1 0 1 0 0 bepaald. Nemen we als voorbeeld het verband 3 0 1 0 0 1 0 0 1 tussen opleidingsniveau en Internetgebruik. In 4 1 0 1 0 0 0 1 0 onderstaande tabel worden deze beide variabelen tegen elkaar afgezet. 5 1 0 1 0 0 1 0 0 6 1 0 0 0 0 0 1 0 7 1 0 0 0 1 0 0 1 Tabel 6 : Internetgebruik naar opleidingsniveau (Bron : Hoffman & Novak, 1999)2 Opleidingsniveau Internet totaal 3.1. CA toegepast op gegevens georganiseerd in gebruik high school some college less than kruistabelformaat high graduate college graduate school In hetgeen voorafging werden enkele kernbegrippen van de “ALS”-technieken uiteengezet. Deze begrippen krijgen meer betekenis no access 408 701 349 172 1630 wanneer ze worden gedemonstreerd aan de hand van een voorbeeld. In hetgeen volgt worden de zojuist behandelde kernbegrippen geadstrueerd en access only 27 108 111 39 285 wordt eveneens het begrip ‘chikwadraatafstand’ toegelicht. Wat de techniek van correspondentie- Web user 201 283 453 585 1522 analyse doet kan als volgt worden samengevat : correspondentie-analyse tracht de samenhang in een of meer tabellen zo goed mogelijk grafisch weer totaal 636 1092 913 796 3437 te geven. Meestal kiest men voor een tweedimensionele plot. In de plot komen de In correspondentie-analyse wordt de proportionele categorieën van de variabelen als punten terug en verdeling binnen een rijcategorie van een tabel een staat de oorsprong (het nulpunt) voor de totale rijprofiel genoemd. In het gegeven voorbeeld populatie. De techniek zorgt ervoor, dat de zouden we kunnen spreken van het profiel van onderlinge afstanden tussen deze punten zoveel hoog opgeleiden (‘’college graduate’’), het profiel mogelijk de samenhang in de tabel(len) reflecteren. van middelbaar opgeleiden (‘’some college’’ en Een dergelijke afbeelding is evenwel meestal niet ‘’high school graduate’’) en het profiel van laag mogelijk zonder enig verlies aan informatie. Het is opgeleiden (‘’less than high school”). In plaats van aan de onderzoeker om te beoordelen of dit een rijprofielen onderling te vergelijken, kan men ze belangrijk deel vormt of tot een klein en ook relateren aan de proportionele verdeling van de verwaarloosbaar deel beperkt blijft. We zullen totale populatie, het zogenaamde gemiddelde hierop nader ingaan aan de hand van drie vragen, rijprofiel (d.i. het profiel van de marginale die voor een toepassing van correspondentie- distributie van de kolomvariabele). Gemiddelde analyse relevant zijn : rijprofielen zijn te omschrijven als het gewogen ∇ wat wordt er van de samenhang in een tabel gemiddelde van de afzonderlijke rijprofielen en afgebeeld in een plot ? worden vaak omschreven als ‘’centroids’’ omdat ze ∇ hoe is, wanneer de plot eenmaal tot stand is de totale onderzoeksgroep representeren en in het gekomen, het verlies aan tabelinformatie te centrum (de oorsprong) van het assenstelsel bepalen ? geplaatst worden. Ten slotte kunnen rijprofielen J. Blomme – info@dmreview.be
  • 9. Correspondentie-analyse in Marktonderzoek - 9 __________________________________________________________________________________________________ vergeleken worden met de marginale rijprofielen. rijprofiel (kolomprofiel). Gemiddelde rij- en Aangezien rijprofielen onafhankelijk zijn van het kolomprofielen (‘’centroids’’) worden in aantal in elke rij, leveren marginale rijprofielen correspondentie-analyse in de oorsprong van het informatie over het aantal in elke rijcategorie. Op assenstelsel geplaatst. Het is duidelijk dat naarmate dezelfde wijze kunnen kolomprofielen berekend de samenhang in een tabel sterker is, de profielen worden, kunnen kolomprofielen onderling van de rij- en kolomcategorieën sterker zullen vergeleken worden en kunnen kolomprofielen verschillen, zowel onderling als t.o.v. het profiel vergeleken worden met het gemiddelde van de totale populatie. kolomprofiel en met de marginale kolomprofielen. Vooraleer evenwel verschillen tussen rijen (kolommen) onderling en verschillen tussen rijen Tabel 7 : Rij- en kolomprofielen voor het voorbeeld van het (kolommen) en het gemiddelde rijprofiel verband tussen opleidingsniveau en Internetgebruik (kolomprofiel) worden berekend, is het noodzakelijk na te gaan of er in de tabel sprake is van een statistisch significant verband. In het Internet Opleidingsniveau marginale voorbeeld van het verband tussen opleidingsniveau gebruik less than rij-profielen en Internetgebruik blijkt dit inderdaad het geval te high school some College high graduate college graduate zijn : de berekende chikwadraatwaarde (539,365) is school bij 6 vrijheidsgraden significant op het .001-niveau. Indien geen statistisch significant verband wordt no access 0,250 0,430 0,214 0,106 0,474 gevonden in een tabel is toepassing van correspondentie-analyse niet relevant. De access only 0,095 0,379 0,389 0,137 0,083 afwijkingen van rijen of kolommen in een kruistabel ten opzichte van elkaar en ten opzichte van het gemiddelde (rij- of kolom)profiel worden Web user 0,132 0,186 0,298 0,384 0,443 berekend met behulp van de zgn. chikwadraatafstand. De chikwadraatafstand heeft een analoge betekenis als de (dis)similariteit bij 0,185 0,318 0,266 0,232 1,000 multidimensionele schaalanalyse. Indien een rij of gem. rij- profielen kolom precies gelijk is aan de randverdeling (het gemiddelde rij- of kolomprofiel) is de chikwadraatafstand gelijk aan 0. Bijgevolg zal zo’n rij of kolom ook precies in de oorsprong van het Opleidingsniveau Internet gem. assenstelsel vallen. De oorsprong van het gebruik less than high some college kolom- assenstelsel (het nulpunt) representeert immers de high school profielen totale steekproef. Ook voor het bepalen in hoeverre college graduate school graduate rijen en kolommen onderling van elkaar verschillen wordt gebruik gemaakt van de chikwadraatafstand. no access 0,642 0,642 0,382 0,216 0,474 Hoe groter de chikwadraatafstand tussen twee rijen of kolommen, hoe meer de verdelingen van die access 0,042 0,099 0,122 0,049 0,083 twee rijen of kolommen van elkaar zullen only verschillen. Eveneens geldt hoe groter de chikwadraatafstand tussen rijen of kolommen, hoe Web user 0,316 0,259 0,496 0,735 0,443 verder die van elkaar verwijderd zijn in een grafische weergave. In tabel 8 vermelden we de chikwadraatafstanden tussen rijen en kolommen marginale voor het voorbeeld van het verband tussen 0,185 0,318 0,266 0,232 1,000 kolom- opleidingsniveau en Internetgebruik. profielen In het voorgaande is uiteengezet dat voor twee variabelen kan worden nagegaan of er al dan niet een samenhang bestaat. Bij een significante chikwadraatwaarde weten we dan dat twee Behalve de rij- en kolomprofielen en het variabelen niet onafhankelijk van elkaar zijn. Als gemiddelde rij- en kolomprofiel is in tabel 7 ook het we echter meer gedetailleerde informatie willen marginale rijprofiel en het marginale kolomprofiel hebben over die afhankelijkheid, dan kunnen we opgenomen. Zoals vermeld, kunnen verschillen nagaan in hoeverre de categorieën van de ene bepaald worden tussen rijen (kolommen) onderling variabele, bijvoorbeeld de rijen, onderling nog en tussen rijen (kolommen) en het gemiddelde J. Blomme – info@dmreview.be
  • 10. Correspondentie-analyse in Marktonderzoek - 10 __________________________________________________________________________________________________ gelijkenis vertonen met betrekking tot de (3 categorieën) is het maximaal aantal dimensies 2. categorieën van de andere variabele, de kolommen. Er kunnen namelijk nooit meer zinvolle dimensies Om die gelijkenis (of afstand) tussen rijen of worden gevonden dan het minimum van het aantal kolommen onderling te bepalen, wordt gebruik rijen (3) en kolommen (4), verminderd met 1, dus gemaakt van de chikwadraatafstand. Met behulp min(3-1),(4-1) = 2. De samenhang tussen beide van de chikwadraatafstand kan dus worden variabelen op de eerste dimensie wordt nagegaan in hoeverre rijen van elkaar verschillen. weergegeven door de ‘’singular value’’ van de De overeenkomsten of verschillen hebben altijd eerste dimensie, nl. 0,379. De samenhang tussen betrekking op de kolomcategorieeën. Omgekeerd opleidingsniveau en Internetgebruik op de tweede kan worden nagegaan of de kolomcategorieën dimensie daalt naar 0,115. verschillen met betrekking tot de rijen. Tabel 9 : : Anacor-oplossing voor het voorbeeld van het verband Tabel 8 : Chikwadraatafstanden tussen rijen en kolommen voor tussen opleiding en beroepsstatus het voorbeeld van het verband tussen opleidingsniveau en Internetgebruik dimensie singular inertia proportie cumulatieve value verklaarde proportie chikwadraatafstanden tussen rijen variantie verklaarde variantie R1 R2 R3 1 0,37923 0,14381 0,916 0,916 R1 . 0,561 0,924 2 0,11452 0,01311 0,084 1,000 R2 0,561 . 0,764 R3 0,924 0,764 . Totaal 0,15693 1,000 Chi2 = 539,365 chikwadraatafstanden tussen kolommen Een belangrijke waarde in tabel 9 is de ‘’inertia’’- K1 K2 K3 K4 waarde die berekend wordt als het quotiënt van de deling van de totale chi2-waarde (539,365) door het K1 . 0,495 0,493 0,426 aantal onderzoekseenheden (3437). CA kan opgevat worden als een methode voor de decompositie (in K2 0,495 . 0,354 0,654 een zo gering mogelijk aantal dimensies) van de variantie (‘’inertia’’) in een tabel, waarbij de K3 0,493 0,354 . 0,417 variantie wordt aangegeven door de chi2-waarde. In dit opzicht vertoont CA een gelijkenis met K4 0,426 0,654 0,417 . factoranalyse, aangezien het ook de bedoeling is van factoranalyse om de totale variantie in een set variabelen weer te geven in een zo gering mogelijk aantal dimensies. Samenhang in een kruistabel blijkt in eerste 2. Hoe is het verlies aan tabelinformatie te bepalen ? instantie uit de mate waarin afwijkingen Wanneer uitgaande van de hiervoor besproken voorkomen tussen geobserveerde en verwachte principes, de kruistabel met de gegevens van frequenties. Als de waargenomen en verwachte opleidingsniveau en Internetgebruik wordt celfrequenties in een tabel nauwelijks van elkaar onderworpen aan een correspondentie-analyse verschillen en de rijen en kolommen derhalve worden de volgende resultaten verkregen zoals onafhankelijk van elkaar zijn, dan hebben we vermeld in tabel 9. genoeg aan de rij- en kolomprofielen om de ‘’samenhang’’ tussen variabelen te beschrijven. In de tabel worden in de eerste plaats de ‘’singular Naarmate de verschillen tussen waargenomen en value’’ vermeld van de dimensies. In het verwachte celfrequenties toenemen, stijgt ook de voorbeeld van de samenhang tussen chi2-waarde. opleidingsniveau (4 categorieën) en Internetgebruik J. Blomme – info@dmreview.be
  • 11. Correspondentie-analyse in Marktonderzoek - 11 __________________________________________________________________________________________________ In het voorbeeld van het verband tussen Internetgebruik voor de categorie ‘’high school’’ opleidingsniveau en Internetgebruik wordt 91,6 % (99,3%). In de plot (zie pag. 12) betekent dit dat van de chikwadraat afgesplitst door de eerste deze beide categorieën, gezien als vectoren vanuit dimensie. Op grond van deze resultaten kan de oorsprong, veel meer in de richting van de eerste geconcludeerd worden dat de eerste dimensie het dan de tweede dimensie liggen. meest van de samenhang tussen opleiding en Internetgebruik in beeld brengt. Anderzijds blijkt de tweedimensionele oplossing te resulteren in een Tabel 11 : Procentuele bijdrage van dimensies aan de verklaring volledige verklaring van de variantie. van de verschillen in Interne gebruik naar opleidingsniveau De rijscores onder dimensie 1 en 2 (zie tabel 10) zijn dimensie 1 dimensie 2 optimale scores voor categorieën van rijcategorie Internetgebruik op de eerste en tweede dimensie. no access .987 .013 De kolomscores onder dimensie 1 en 2 zijn de optimale scores voor de opleidingscategorieën op access only .053 .947 de eerste en de tweede dimensie. Het marginaal Web user .996 .004 profiel bevat de relatieve frequenties. kolomcategorie Tabel 10 : Optimale scores voor rij- en kolomcategorieëen in het less than high school 0,754 0,246 voorbeeld van het verband tussen opleidingsniveau en Internetgebruik high school 0,993 0,007 some college 0,464 0,536 marginaal dimensie Dimensie profiel 1 2 college graduate 0,981 0,019 rijscores no access .474 -.607 .126 3. Hoe moet de plot geïnterpreteerd worden ? Wanneer de fit van de oplossing redelijk voldoet, access only .083 -.146 -1.123 komen we toe aan de beantwoording van de derde Web user .443 .677 .075 vraag, nl. hoe de plot geïnterpreteerd moet worden. In de praktijk zal correspondentie-analyse vaak worden aangewend vanwege de mogelijkheden tot kolomscores grafische weergave van de resultaten. Rij- en kolomcategorieëen kunnen via correspondentie- analyse grafisch worden weergegeven omdat less than high school .185 -.478 .497 coördinaten worden berekend, waarmee de plaats van een rij-of kolomcategorie vastligt. De high school .318 -.602 -.093 coördinaten hebben als eigenschap dat het zoals eerder vermeld optimale schaalwaarden zijn. Dit some college .266 .228 -.445 betekent dat de correlatie tussen de rij- en college graduate .232 .947 .241 kolomvariabele zal maximaal zijn, ongeacht het meetniveau van de rij- en kolomvariabele in de kruistabel. De kruistabel die met behulp van correspondentie-analyse wordt geanalyseerd, Het is eveneens mogelijk meer specifiek de fit van wordt zodanig getransformeerd dat de gemiddelde de oplossing te controleren. De output van een rij- en kolomproefielen in de oorsprong van de correspondentie-analyse geeft de procentuele grafische weergave vallen. Bij de interpretatie van bijdrage weer van de dimensies aan de verklaring een plot dienen de volgende vuistregels in acht van de verschillen tussen de categorieën en de genomen te worden. totale groep. In tabel 11 worden deze procentuele bijdragen weergegeven voor de rijcategorieën. Uit In de eerste plaats dient gelet te worden op de bovenstaande proporties valt o.m. af te leiden dat afstanden van de rij- en kolompunten ten opzichte verschillen in Internetgebruik tussen hoger van de oorsprong. Naarmate deze afstand groter is, opgeleiden (‘’college’’) en de totale groep voor is de afwijking van het betreffende rij- of 98,1% verklaard worden door de eerste dimensie. kolomprofiel ten opzichte van het profiel van de Dit is nog meer het geval voor verschillen in totale groep groter. Rijen of kolommen met een klein randtotaal worden verder weggeplaatst van J. Blomme – info@dmreview.be
  • 12. Correspondentie-analyse in Marktonderzoek - 12 __________________________________________________________________________________________________ de oorsprong dan rijen of kolommen met een groot Tabel 12 : Procentuele bijdragen van rij- en kolomcateorieën randtotaal. In extremo kan een bepaalde rij of aan de decompositie van de variantie kolom zelfs de hele oplossing domineren dimensie 1 dimensie 2 (“outliers”). Het is daarom van belang niet alleen rijcategorie de plaats van een rij/kolom in de plot te bekijken maar ook de marginale frequentie ervan. Zo wordt no access .460 .066 de categorie ‘’access only’’ in het assenstelsel het access only .005 .912 verst van de oorsprong geplaatst. Dit betekent dat het profiel van deze gebruikers sterk afwijkt van het Web user .535 .022 gemiddelde. Het marginaal profiel (0,083) van ‘’access only’’-gebruikers geeft aan dat slechts een kolomcategorie minderheid van de Internetgebruikers tot deze less than high 0,112 0,399 categorie behoort. school high school 0,304 0,024 some college 0,036 0,459 college graduate 0,548 0,118 In de tweede plaats dienen de afstanden van de rijpunten en de kolompunten ten opzichte van elkaar in beschouwing genomen te worden. Naarmate deze afstand kleiner is, lijken de categorieën, die door deze punten worden voorgesteld, meer op elkaar. In het voorbeeld van het verband tussen opleidingsniveau en Internetgebruik is gekozen voor een symmetrische oplossing, waarbij de afstanden tussen de rijcategorieën en de afstanden tussen de kolomcategorieën direct interpreteerbaar zijn als verschillen tussen profielen. Afstanden tussen opleidingsniveaus kunnen geïnterpreteerd worden als verschillen in Internetgebruik. Afstanden in Internetgebruik kunnen geïnterpreteerd worden als verschillen naar opleidingsniveau. Plot van het verband tussen opleidngsniveau en Internetgebruik (leeftijdscategorieën zijn toegevoegd als supplementaire categorieën) Ten slotte dient gelet te worden op de afstanden van de rijpunten ten opzichte van de kolompunten. Anderzijds geeft de contributietabel (zie tabel 12) Ondervertegenwoordiging (dus een lagere dan aan wat de bijdrage is van een rij of kolom aan de verwachte frequentie) is een indicatie van negatieve correlatieratio op een bepaalde dimensie. Een samenhang. Oververtegenwoordiging (dus een rij/kolom met een absoluut grote optimale score en hogere dan verwachte frequentie) is een indicatie een geringe bijdrage kan als “outlier” beschouwd van een positieve samenhang tussen een bepaalde worden. rij- en kolomcategorie in een kruistabel. Wanneer in een bepaalde rijcategorie een bepaalde kolomcategorie oververtegenwoordigd is, zullen de corresponderende rij- en kolompunten in de plot dicht bij elkaar liggen. Hoe verder deze punten van de oorsprong verwijderd zijn, hoe sterker de samenhang (positieve samenhang). Is daarentegen een kolomcategorie ondervertegenwoordigd in een rijcategorie, dan liggen deze beide punten ver van elkaar verwijderd en aan verschillende kanten van de oorsprong (negatieve samenhang). Komt een kolomcategorie ongeveer even vaak voor als verwacht kan worden op basis van de marginale proportie, dan staan de betreffende rij- en J. Blomme – info@dmreview.be
  • 13. Correspondentie-analyse in Marktonderzoek - 13 __________________________________________________________________________________________________ kolompunten, gezien als vectoren vanuit de zijn bepalender voor een groep dan categorieën die oorsprong, ongeveer loodrecht op elkaar. Rij- en meer in het middelpunt staan. Om die sterkte van kolompunten hangen dan niet samen. de verbanden meer inzichtelijk te maken kan men rondom het middelpunt een onregelmatige cirkel Wanneer de verschillen tussen geobserveerde en tekenen die de groepen (bv. rijcategorieën) in de verwachte frequenties worden gedeeld door de plot met elkaar verbindt. Op die manier ontstaat wortel uit de verwachte frequenties krijgen we een een polygoon of veelhoek (waarvan de hoeken beeld van de mate waarin tussen rijen en worden afgerond). Op basis hiervan kunnen we kolommen positieve of negatieve samenhangen stellen dat categorieën die binnen de cirkel staan, bestaan. In tabel 13 vermelden we de resultaten weinig groepsonderscheidend zijn terwijl de van deze berekening voor het voorbeeld van het categorieën die buiten de cirkel staan het meest verband tussen opleidingsniveau en groepsspecifiek en dus het meest interessant zijn. Internetgebruik. We nemen als voorbeeld de categorie ‘’less than high school’’. Voor deze opleidingscategorie is de kans op ‘’no access’’ groter dan verwacht (6.13). De kans op ‘’no access’’ voor hoog opgeleiden (‘’college’’) is veel lager dan verwacht (-14.33). De plot laat zien dat correspondentie-analyse de afstanden tussen verwachte en geobserveerde 3.2. Uitbreidingen van ANACOR frequenties in een kruistabel in beeld brengt. Bij een correspondentie-analyse is de hoek tussen De kruistabel die we in voorgaand punt de lijn middelpunt-rijcategorie en de lijn analyseerden, had als voornaamste eigenschap dat middelpunt-kolomcategorie van groot belang. Als beide randverdelingen sommeren tot het aantal die hoek nul is en een rijcategorie en een observaties. De randtotalen bevatten de verdeling kolomcategorie staan op eenzelfde lijn, dan per variabele. Beide variabelen habben betrekking betekent dit dat de kolomcategorie uniek is voor de op eigenschappen van respondenten binnen rijcategorie. Als de hoek tussen de twee lijnen eenzelfde steekproef. Elke respondent kwam maar groter wordt, neemt de samenhang af. Als de hoek in 1 rij en 1 kolom voor. De kruistabellen die hierna 90 graden is, is de correlatie afwezig en als de hoek vernoemd worden, wijken alle in meer of mindere nog groter is, wil dat zeggen dat de samenhang mate af van deze eigenschappen van een “gewone” negatief is. kruistabel. Andere soorten kruistabellen, die met behulp van correspondentie-analyse, i.c. ANACOR, Tabel 13 : De samenhang tussen rijen en kolommen voor het kunnen worden geanalyseerd, zijn bijvoorbeeld : voorbeeld van het verband tussen opleiding en Internetgebruik (geobserveerde-verwachte frequentie) /√ (verwachte frequentie) • kruistabellen, die zowel over rijen als kolommen niet sommeren tot het aantal objecten in de steekproef ; no access access Web user • tijdreeksgegevens ; only • respondenten x variabelen ; • produkten x eigenschappen ; less than • dissimilariteiten, enz. high 6.13 -3.54 -4.80 school Bij de analyse van dergelijke data, dienen een aantal high regels in acht genomen te worden. school 8.04 1.84 -9.12 graduate • In het geval van de analyse van “non- frequency”-data is het niet zinvol om some -4.04 4.07 2.42 interpretaties te verbinden aan chikwadraat- college afstanden. De toepassing van ANACOR op “non-frequency”-data heeft in eerste instantie college -14.33 -3.33 12.39 tot doel een visuele voorstelling van de . structuur van de data te bekomen3. • Indien ANACOR wordt toegepast op rangorde- data (e.g. bekomen door toepassing van de Categorieën die ver buiten het middelpunt staan, methode van de paarsgewijze vergelijking) dan J. Blomme – info@dmreview.be
  • 14. Correspondentie-analyse in Marktonderzoek - 14 __________________________________________________________________________________________________ dient de meest geprefereerde keuze de hoogste verschillend meetniveau in eenzelfde analyse waarde te krijgen in de te analyseren matrix van kunnen betrokken worden. rangorden. Omdat HOMALS betrekking heeft op meer dan • Indien de data die met behulp van ANACOR twee variabelen zijn er ook belangrijke verschillen geanalyseerd worden, georganiseerd zijn onder in uitvoer en resultaten in vergelijking met gewone de vorm van ongelijkheden (“dissimilarities”), correspondentie-analyse. Een van de meest dan dienen alle ongelijkheden in de matrix wezenlijke verschillen is dat bij correspondentie- afgetrokken te worden van een getal groter dan analyse (ANACOR) de eta of correlatieratio de grootste ongelijkheid (meestal wordt bij dit aangeeft wat de correlatie is op een bepaalde laatste gekozen voor een getal dat 1 groter is dimensie tussen twee optimaal geschaalde dan de grootste dissimilariteit). variabelen. Bij HOMALS geeft de eta aan wat de • In het geval van de analyse van symmetrische gemiddelde bijdrage is van alle betrokken relaties dienen de diagonaalwaarden analysevariabelen aan een bepaalde dimensie. Per gelijkgesteld te worden aan de grootste waarde dimensie wordt per variabele een zogenaamde +1. discriminatiemaat berekend. Deze discriminatiemaat geeft o.m. aan hoe goed de categorieën van een variabele ruimtelijk gespreid zullen worden bij een grafische weergave. De discriminatiemaat geeft in feite dus de variantie 3.3. HOMALS : Meervoudige correspondentie- weer van een optimaal geschaalde variabele. analyse Hoe hoger de discriminatiemaat van een variabele, hoe verder de categorieën van die variabele uit Om de relatie met het voorgaande te benadrukken elkaar en van de oorsprong liggen. Als we alle zij opgemerkt dat HOMALS ook bekend staat als discriminatiematen op een bepaalde dimensie meervoudige correspondentie-analyse. Het optellen en delen door het aantal variabelen krijgen belangrijkste verschil met ANACOR is dat nu meer we een beeld van de “fit” (de gemiddelde dan twee variabelen in de analyse worden discriminatiemaat). Indien de gemiddelde betrokken. Waar bij ANACOR de datamatrix een discriminatiemaat laag is, kan dit een gevolg zijn kruistabel is, is bij HOMALS de datamatrix de van het feit dat enkele variabelen een zeer hoge eerder vermelde indicatormatrix. Dus de matrix discriminatiemaat hebben en sommige een zeer van dummy-variabelen per respondent. De lage, zodat vaak meer dimensies nodig zijn om een respondenten staan doorgaans in rijen en de compleet beeld te krijgen. Een lage gemiddelde categorieën van de variabelen in kolommen. Bij discriminatiemaat kan ook betekenen dat geen HOMALS houdt optimale schaling in dat per enkele variabele een grote bijdrage levert aan een variabele zodanige categoriekwantificaties bepaalde dimensie. (optimale scores) worden berekend dat de Bij de interpretatie van de resultaten van een categorieën van een variabele zover mogelijk uit HOMALS-analyse dient rekening te worden elkaar liggen. Naar analogie met ANACOR krijgen gehouden met een aantal “eigenaardigheden”. ook de rijen, bij HOMALS de respondenten, een score, de zogenaamde objectscores. De objectscores Net zoals bij ANACOR worden categorieën met een worden zodanig berekend dat de klein randtotaal verder van de oorsprong gelegd categoriekwantificaties het gemiddelde vormen van dan categorieën met een groot randtotaal. de objecten (respondenten) die in die categorie HOMALS rekent per dimensie aparte vallen. HOMALS tracht respondenten die in categoriekwantificaties uit per variabele. Het aantal dezelfde categorie vallen zo dicht mogelijk bij onafhankelijke kwantificaties kan nooit groter zijn elkaar te plaatsen en respondenten die in dan het aantal categorieën minus 1. Dus als bv. 10 verschillende categorieën vallen ver van elkaar te variabelen met elk drie categorieën onderworpen plaatsen. Idealiter verdelen de categorieën de worden aan een HOMALS-analyse dan zullen er respondenten in homogene groepen. Variabelen maximaal (3-1) = 2 dimensies mogelijk zijn met worden homogeen genoemd als ze de onafhankelijke kwantificaties. respondenten in nagenoeg dezelfde subgroepen opsplitsen. HOMALS kan krachtens het Indien de variabelen die aan een HOMALS-analyse voorgaande in marktonderzoektermen dan ook onderworpen worden een “goede” schaal vormen gezien worden als een techniek waarmee men (d.w.z. een ééndimensionele schaal vormen), dan segmentatie-analyses kan verrichten. Met het zal de tweede dimensie lineair afhankelijk zijn van bijkomend voordeel, dat variabelen van de eerste dimensie. Dit kan grafisch gevisualiseerd J. Blomme – info@dmreview.be
  • 15. Correspondentie-analyse in Marktonderzoek - 15 __________________________________________________________________________________________________ worden. Indien een aantal variabelen een categorieën van variabelen aan de ééndimensionele schaal vormen, dan zal een plot discriminatiematen per dimensie te berekenen. De van de categoriekwantificaties op de eerste en bijdrage is de categoriekwantificatie in het tweede dimensie een hoefijzerpatroon te zien kwadraat vermenigvuldigd met de relatieve geven. Zo’n hoefijzerpatroon kan onder bepaalde frequentie van de desbetreffende categorie. Een voorwaarden gezien worden als een signaal dat de categorie met een geringe bijdrage kan als “outlier” dimensie alle relevante informatie bevat. beschouwd worden (mogelijke oplossingen : hercodering, categorie op “missing” zetten). Als bij een gegeven oplossing, zeg in twee dimensies, een derde dimensie wordt berekend, Zowel HOMALS als ANACOR zijn dan blijven de eerste (twee) dimensies dimensiereductietechnieken. HOMALS en onveranderd. Net zoals in het geval van ANACOR ANACOR zullen trachten de chikwadraatafstanden zijn de verschillende dimensies bij HOMALS tussen rijen en kolommen in een zo klein mogelijk “genest”. aantal dimensies weer te geven. Het weglaten van dimensies leidt tot verlies aan informatie. In een Als alle dimensies worden berekend dan zal de som aantal gevallen zal een tweedimensionele grafische van de discriminatiewaarden per variabele gelijk weergave van de HOMALS-resultaten tot een zijn aan het aantal categorieën per variabele minus verkeerd beeld van de afstand tussen categorieën 1. Dit betekent dat een variabele met veel van variabelen leiden. categorieën een potentieel hogere discriminatiemaat kan hebben dan een dichotome variabele. Een gevolgtrekking is dan ook dat indien er grote verschillen zijn in het aantal categorieën van de variabelen die aan een HOMALS-analyse worden 4. Toepassingen van correspondentie-analyse in onderworpen, dit ook de interpretatie van de marktonderzoek bekomen resultaten zal bemoeilijken. Het verdient daarom aanbeveling om na te gaan of via We zullen in hetgeen volgt de toepassing van hercodering er voor gezorgd kan worden dat de correspondentie-analyse in marktonderzoek variabelen die in een HOMALS-analyse betrokken illustreren aan de hand van een tweetal worden, zoveel mogelijk een gelijk aantal voorbeelden. In een eerste voorbeeld wordt de categorieën hebben. bruikbaarheid van correspondentie-analyse aangetoond voor het analyseren van HOMALS is gevoelig voor “outliers” : (dis)similariteitsgegevens. Voor deze toepassing respondenten met een unieke score. Het niet maken we gebruik van een onderzoek van Bouts en opmerken van “outliers” kan tot gevolg hebben dat Mackor (1991) over merkassociaties bij banken. In men oplossingen inspecteert die volledig bepaald een tweede toepassing wordt aangetoond hoe via worden door één of enkele respondenten. Het is een indicatormatrix inzicht kan verkregen worden dus van belang ook (en vooral) bij grotere databases in gebruikspatronen van frisdranken. De gegevens de objectscores te inspecteren op extreme (absolute voor deze analyse ontlenen we aan Kuylen (1990). waarde) objectscores. Indien zo’n situatie zich In beide gevallen werden de gegevens van voordoet zijn er enkele strategieën mogelijk, w.o. voornoemde auteurs door onszelf geanalyseerd • de desbetreffende respondenten elimineren ; door gebruikmaking van de ANACOR, resp. • de waarde(n) voor de desbetreffende HOMALS-procedure zoals opgenomen in de SPSS- respondenten op de betrokken variabele(n) module “Categories”. op “missing” zetten ; • hercodering ; • indien alleen de eerste en tweede dimensie enkele “outliers” bevatten deze dimensies 4.1. Merkassociaties bij banken negeren en alleen de derde en volgende dimensies gebruiken. Het beeld van de bank als merk bestaat, zoals bij alle merken, uit een veelheid van associaties. Door Indien er hoge discriminatiewaarden (bijna 1.0) deze associaties van de consument krijgt het worden gevonden, hoeft dit niet altijd een onvatbare merk voor hem/haar gestalte. Het bruikbaar resultaat op te leveren. Het is goed psychologische merk (het merk in hoofde van de mogelijk dat een hoge discriminatiemaat een gevolg consument) kan worden onderverdeeld in drie is van een categorie met een laag randtotaal. Het is categorieën : zintuiglijk, emotioneel en rationeel. daarom aan te bevelen om de bijdrage van de Zintuiglijk roepen banken weinig associaties op. J. Blomme – info@dmreview.be
  • 16. Correspondentie-analyse in Marktonderzoek - 16 __________________________________________________________________________________________________ Dat heeft te maken met het feit dat de eigenlijke vragenlijst te zien kregen, werd gevraagd dienstverlening van een bank voor een belangrijk welke van deze banken zij niet kenden. deel onzichtbaar en ongrijpbaar is. Emotionele en Respondenten die één of meerdere banken niet vooral rationele associaties bestaan daarentegen kenden werden niet in het onderzoek opgenomen. wel bij banken. Het beeld dat mensen van een bank Respondenten die de banken wel kenden, kregen hebben, wordt echter sterk opgehangen aan de alle mogelijke (10) combinaties van deze (6) banken eigen bank. Het gevolg hiervan is dat bij imago- op het beeldscherm te zien. De vraagstelling was onderzoek naar banken heel sterk het profiel van de als volgt : Welke van deze banken vindt u het meest eigen bank wordt teruggespeeld. Dat wil echter bij elkaar passen ? Vervolgens werd gevraagd niet zeggen dat consumenten geen beeld hebben waarom ze een bepaalde combinatie van banken als van andere banken dan hun eigen bank. Dagelijks het meest bij elkaar passend vonden. Hierbij zien ze advertenties van banken en worden zij konden de respondenten kiezen uit een lijst met geconfronteerd met verhalen over de associaties. Om de bruikbaarheid van dienstverlening van banken. Alleen rijst de vraag : correspondentie-analyse aan te tonen voor het hoe krijgen we die beelden boven water ? Hoe analyseren van (dis)similariteitsgegevens, beperken brengen we die meerdimensionele beeldvorming we ons in hetgeen volgt tot de combinaties van nu tevoorschijn ? banken die door de respondenten werden naar voren geschoven als meest passend. Om de In de eerste plaats is er kwalitatief onderzoek naar ‘afstand’ tussen banken te bepalen, is in het het imago van banken. Imago-onderzoek bij onderzoek gebruik gemaakt van het aantal keren banken in een kwalitatieve opzet wordt uitgevoerd dat een combinatie van banken wordt genoemd als door middel van groepsdiscussies en diepte- meest passend. interviews. Hierbij wordt o.m. gebruik gemaakt van projectieve technieken (bv. foto-sort). In tabel 14 is voor elke combinatie tussen banken Kwalitatief onderzoek kan een heel levendig beeld aangegeven hoeveel keer deze door de van banken naar voren brengen, maar respondenten als meest passend naar voren werd kwantificering ontbreekt. Uiteindelijk willen we geschoven. Zoals eerder aangestipt, dienen “non immers te weten komen hoe banken zich frequency”-data in het geval van correspondentie- positioneren in hoofde van consumenten en welke analyse (ANACOR) behandeld te worden als dimensies die positionering kunnen verklaren. similariteiten. In het door ons gekozen voorbeeld van combinaties tussen banken , geven de In sommige kwantitatieve studies moeten frequenties waarmee banken als meest passend respondenten aangeven of een bepaalde eigenschap worden gepercipieerd een aanduiding van de al of niet past bij een bank. Deze methode geeft vrij gelijkenis of similariteit tussen banken. De vlakke beelden. Het is daarom minder aangewezen gegevens dienen derhalve niet aangepast te mensen te vragen ‘wat past bij wat’, maar ze te worden4. Aangezien we een symmetrische matrix confronteren met groepen (sets) van banken en invoeren, worden de diagonaalwaarden daartussen overeenkomsten en verschillen laten gelijkgesteld aan de grootste gelijkenis + 1 (59 +1 = aangeven. Respondenten zijn immers in staat om 60). banken in groepen in te delen en vanuit deze vergelijking associaties te formuleren. Een voorbeeld hiervan is de “natural grouping”- Tabel 14 : Aantal keren dat combinaties van banken als meest passend worden genoemd (Bouts & Mackor, 1991 : 55 ; eigen techniek die zeer geschikt is om associatieve bewerking) netwerken in kaart te brengen. Een andere methode is het gebruik van triade-technieken, POST SPAAR ABN AMRO NMB RABO waarbij de respondent bij groepjes van drie (triade) BANK BANK moet aangeven welke van de drie hij/zij het meest ABN 60 59 43 24 25 16 bij elkaar vindt passen en welke twee het minst bij AMRO 59 60 34 17 43 19 elkaar passen. In het onderzoek van Bouts en NMB 43 34 60 44 26 21 Mackor (1991) is gebruik gemaakt van deze methode. Het onderzoek is uitgevoerd met behulp POSTBANK 24 17 44 60 25 55 van een telepanel dat een representatief staal is van RABO 25 43 26 25 60 48 de Nederlandse bevolking. De leden van het SPAAR telepanel hebben thuis een homecomputer staan. BANK 16 19 21 55 48 60 Het gaat dus om computergestuurde enquêtering. Aan de respondenten werd een lijst van zes banken Hoewel de interpretatie van het begrip voorgelegd : ABN, AMRO, NMB, Postbank, RABO “chikwadraatafstand” in het geval van “non- en Spaarbank. Vooraleer de respondenten de frequency”-data met de nodige voorzichtigheid J. Blomme – info@dmreview.be