Analisi Dei Dati Spaziali Per Il Marketing

marco.cerri@unicatt.it

Cerri Marco

Analisi di Dati Spaziali per il Geomarketing

Luglio 2005

Introduzione
Ogni azienda che distribuisca prodotti e/o servizi attraverso una rete commerciale, ha
l’esigenza di determinare l’assetto ottimale dei punti vendita o della forza vendita al fine di
relazionarsi al meglio con i propri attuali clienti e con i clienti potenziali.
L'analisi dei dati aziendali, provenienti dai database gestionali e di marketing o da
banche dati create ad hoc attraverso ricerche di mercato, è spesso incompleta se non
affiancata da considerazioni di tipo geografico o meglio di marketing geografico.
La ristrutturazione della rete di punti vendita esistenti e l'apertura di nuovi, la
ridefinizione dei mandati delle agenzie e degli obiettivi di vendita in funzione del potenziale di
mercato e della pressione competitiva, la scelta e l'ottimizzazione delle attività di local
marketing, in store marketing e direct marketing sono alcuni esempi delle decisioni che i
manager delle aziende possono prendere per ottenere un miglioramento significativo delle
performance aziendali.
Il geomarketing è, in tale contesto, una metodologia innovativa che consente di
conoscere a fondo i mercati locali e di visualizzare direttamente su mappe i fenomeni di
mercato.

Nozioni di base di Geostatistica

Prima di addentrarci negli aspetti legati alla modellizzazione dei fenomeni microeconomici è
necessario comprendere alcune caratteristiche peculiari dei dati statistici riferiti ad unità
elementari del territorio (Province, Comuni, Sezioni di Censimento, ecc.), o, più
genericamente, dello spazio (punti, linee, poligoni).
I dati territoriali, per loro natura, non sono tra loro indipendenti. Infatti, si verifica facilmente
nella realtà quotidiana che il valore osservato nello spazio relativamente ad una certa entità
influenzi generalmente i valori della stessa entità nelle aree “vicine” - fenomeno che va sotto
il nome di autocorrelazione spaziale.
Inoltre, a differenza delle serie storiche, dove i dati passati possono influenzare quelli
presenti o futuri, le serie territoriali presentano interdipendenza in tutti e tre gli assi spaziali.
Per questo e per altri problemi emersi in una serie di studi si è riscontrato spesso
l’impossibilità di estendere a due dimensioni il bagaglio conoscitivo secolare dell’analisi delle
serie storiche1.
La complessità dell’analisi dei dati spaziali aumenta poi nel momento in cui ci si rende conto
che l’ “unità statistica” di riferimento è talvolta soggetta (per necessità) alle decisioni di colui
che effettua l’indagine, in quanto deve assumere come livello di dettaglio territoriale minimo
quello in cui è disponibile l’informazione rilevata (ad es. province, comuni, sezioni di
censimento, ecc.). Tale soggettività nella scelta delle unità spaziali di analisi, se
sottovalutata, può spesso portare a risultati erronei che vanificano qualunque tipo di analisi o
modello costruito su di essi.

Scopo di questo capitolo non è, evidentemente, quello di entrare nei dettagli tecnici
dell’analisi dei dati spaziali e per i quali si rimanda alla letteratura (Ripley,1981, Cressie,
1993, e Wackernagel, 2003), ma piuttosto quello di fornire una panoramica dei principali
metodi statistici oggi utilizzati o utilizzabili per l’analisi economica del territorio.

1
Tra questi va ricordato il problema, spesso riscontrato, della scarsa rilevanza pratica dell’ipotesi di
stazionarietà per i processi aleatori nello spazio, nonché la presenza di innegabili effetti di frontiera (Ripley,
1988).

Come accennato precedentemente le manifestazioni di un fenomeno risentono solitamente
in qualche modo della contiguità spaziale tra le unità territoriali di osservazione. In
particolare, si parla di autocorrelazione positiva nel caso di uniformità del fenomeno tra dati
appartenenti a unità contigue, e negativa nel caso opposto. In altre parole facendo
riferimento alla legge di Tobler, tutto è correlato con tutto, ma le cose più vicine sono più
correlate delle cose lontane (Tobler, 1970).
Diventa, quindi, fondamentale definire e formalizzare il concetto di “vicinanza” prima di
introdurre quello di correlazione spaziale.

Formalizzando alcuni aspetti che da qui in avanti risulteranno utili, definiamo S={s1,s2,…,sn}
un insieme finito di n entità geografiche, che possono essere considerate sia come punti di
un grafo che come poligoni.
L’area di analisi sj si definisce vicina all’area si, con i ≠ j, rispetto ad una variabile aleatoria Xj,
se la probabilità P(Xi=xi|Xk=xk, ∀k≠ i) dipende da xj, realizzazione di Xj nell’area sj. In altre
parole la vicinanza è riferita innanzitutto dalla variabile X oggetto di interesse che ha
probabilità di verificarsi in una certa zona i condizionata dal valore assunto in un’altra zona j.
Ne consegue la definizione di clique come insieme di aree, contenuto in S, tale che tutte le
coppie di aree che lo compongono sono mutuamente vicine nel senso della definizione
precedente. E’ ovvio che le singole aree costituiscono per definizione dei cliques e va
precisato che solitamente i cliques si presentano a due a due non disgiunti.
Si tende poi a specificare come vicini di primo ordine le aree che condividono un lato, e vicini
di secondo ordine quelli che hanno un lato e uno spigolo di contatto con le altre aree.

2° 1° 2°

1° i 1°

2° 1° 2°

Figura 1. Ordine di vicinanza alla generica area i ed esempi di cliques di un sistema di vicinato

Dalla definizione di vicinanza necessita quasi spontaneamente della definizione di contiguità
(o connettività) che è solitamente rappresentata da una matrice, C, composta dagli elementi

cij ( = cji ) tali che cij=1 se sj appartiene all’insieme C(i) delle aree contigue a si e cij=0
altrimenti2.
E chiaro che dal punto di vista operativo gli strumenti informatici descritti nei paragrafi
precedenti sono fondamentali per l’individuazione automatica delle aree contigue, mentre gli
strumenti statistici entrano in gioco per l’analisi delle variabili economiche su di esse
osservate.
Definito, quindi, il concetto di vicinanza e di contiguità, la situazione che si presenta
nell’analisi statistica dei fenomeni economici tra loro interagenti può essere sintetizzata nel
concetto di dipendenza locale (o effetto contagio). Infatti si tratta di valutare se e come una
variabile economica Xi osservata in due aree contigue possano assumere valori simili o
dissimili con una certa regolarità e si è in grado o meno di individuare delle aree con peso
rilevante dal punto vista delle relazioni che si instaurano sul territorio.
Una delle misure maggiormente utilizzate per l’individuazione del fenomeno di interazione
spaziale è il ben noto indice I di Moran, dato dalla seguente espressione:

∑∑ c ( x − x )( x
n
ij i j − x)
I= ⋅
i j

∑∑ c
i j
∑ (x − x)
ij
i
i
2

dove xi sono determinazioni della variabile X e cij sono le componenti della matrice di
contiguità n×n, C.
Precisiamo che I sintetizza l’eventuale presenza di legami in relazione alla struttura della
matrice C, ma non è evidentemente in grado di far emergere all’interno del sistema la
presenza di zone formate da unità particolarmente legate tra loro in funzione della variabile
presa in esame. E’ una problematica che anche l’indice alternativo c di Geary,

n −1
∑∑ c ( x − x ) ij i j
2

c= ⋅
i j

2∑∑ c ∑ (x − x)
ij i
2

i j i

non è in grado di soddisfare nonostante l’esigenza spesso concreta da parte del ricercatore
di disporre di una graduatoria delle unità in funzione del relativo grado di attrazione3.

Gli insiemi C(i), sono insiemi sufficienti, nel senso che P(Xi=xi|Xj=xj, ∀j∈C(i)) = P(Xi=xi|Xj=xj, ∀j≠ i), vale a
2

dire racchiudono in sé l’informazione su si contenute in tutte gli altri elementi dello spazio geografico di
riferimento.

3
Il problema potrebbe essere risolto stabilendo una gerarchia di livelli di contiguità e replicando il calcolo di
uno dei due indici di autocorrelazione per ciascuno di questi livelli. La rappresentazione grafica dei valori

Entrambi gli indici, I e c, possono assumere segno negativo in caso di autocorrelazione
negativa e segno positivo nella situazione opposta in cui prevalgono coppie di elementi di
ugual segno. Infine, l’assenza di autocorrelazione, relativamente la fenomeno X oggetto di
analisi, nelle coppie contigue fa sì che i due indici non assumano valore nullo, ma:
1
I =− e c = 1.
n −1

Un altro strumento molto utile di geostatistica è il variogramma che oltre a fornire un prima
indicazione della omogeneità/eterogeneità di un fenomeno X al variare delle distanza tra
coppie di aree, costituisce il primo passo fondamentale per l’analisi di kriging che verrà
presentata nel prossimo paragrafo.

Se si indica con s il vettore di coordinate spaziali (ad es. s=[a,b]) su cui è osservata la
variabile aleatoria X, una misura di dissimilarità della stessa tra le coppia di punti dello
spazio s=[a1, b1] e t=[a2, b2] è data:

(x(s) − x(t ))2
2
Ne consegue che per ciascuna coppia di punti unita da un vettore h di lunghezza || s - t ||
(dove con ||.|| indichiamo la norma, per semplicità euclidea, del vettore), come mostrato in
figura 2, si può calcolare:
1
γ*(h)= (x(s)-x(s+h))2
2

t
b2
h

s
b1

a1 a2

Figura 2. Struttura spaziale di base

dell’indice in funzione dei livelli decrescenti di contiguità da luogo al correlogramma spaziale, il cui andamento
fornisce utili indicazioni per la conoscenza del processo spaziale, così come il correlogramma per le serie
storiche. Tuttavia questa soluzione non è quasi mai perseguita (soprattutto per dati spaziali poligonali) a causa
della notevole difficoltà di interpretazione del correlogramma spaziale.

E’ chiaro che essendo la dissimilarità un quadrato di una differenza, il segno del vettore h,
vale a dire l’orientamento dei punti, non viene preso in considerazione e pertanto la misura
γ*(.) è tale che γ*(h)= γ*(-h).
Se si rappresentano graficamente in un diagramma cartesiano (h, γ*(h)) , si ottiene una
nuvola di punti (variogramma a nuvola) rappresentante il livello di dissimilarità al variare
della distanza tra i punti dello spazio preso in considerazione.

Predefinendo m classi di nc punti è possibile e utile sintetizzare il comportamento del
variogramma a nuvola calcolando la dissimilarità media all’interno di ciascun a classe:
1 nc
γ*(hk)= ∑ (x(sα)-x(sα+h))2
2nc α=1
con h∈hk

γ*(hk) è detto variogramma empirico distinguendolo da quello teorico
1
γ*(h)= E[(x(s)-x(s+h))2]
2
che rappresenta, dal punto di vista della teoria geostatistica, uno strumento fondamentale di
collegamento con la stazionarietà debole4 (di primo e secondo ordine) dei campi spaziali
aleatori sottostanti.
Si dimostra facilmente, infatti, che la varianza del campo aleatorio stazionario (in media e
covarianza) “dissimilarità”, (X(s)-X(s+h)), è pari a 2γ*(h), nonché a 2C(0)-2C(h), dove C(.)
rappresenta la funzione di covarianza spaziale o correlogramma definita dalla seguente
formula:
C (h) = E[ X (s) ⋅ X (s + h)] − m 2 con m = E[ X (s)] .

Il variogramma teorico può inoltre essere modellato tramite un’opportuna funzione analitica.
La letteratura offre diverse ipotesi di modello tra cui vale la pena ricordare le seguenti:

4
Si ricorda che per stazionarietà in senso stretto si intende (in maniera non rigorosa) che un sottoinsieme della
funzione di densità di probabilità congiunta non muta se il sottoinsieme viene traslato (omogeneità) o ruotato
(isotropia) rispetto al piano cartesiano di riferimento. Per stazionarietà in senso debole si intende, invece,
l’immutabilità dei momenti fino al secondo ordine (media, covarianza e varianza). Per approfondimenti si veda
Cressie, 1993.

Variogramma sferico:

Variogramma gaussiano:

Variogramma esponenziale:

Variogramma Potenza:

In sintesi in questo paragrafo sono state brevemente presentate una serie di misure di
autocorrelazione parziale che hanno lo scopo di aiutare il ricercatore a comprendere
l’eterogeneità dei dati spaziali oggetto di analisi, per mezzo di strumenti di valutazione
“globale” – gli indici I e c – in grado di fornire una misura complessiva della “forza” del
legame spaziale esistente tra tutte le aree geografiche prese in considerazione, e di
strumenti “grafici” – il variogramma – attraverso i quali comprendere, relativamente ad un
dato carattere, il grado di “somiglianza” delle aree in funzione delle distanze tra esse.

Modelli Geo-Statistici per l’analisi economica dei mercati

Modelli di Regressione Kriging

Come conseguenza diretta dell’analisi di un variogramma nasce l’esigenza di sviluppare una
struttura matematica che spieghi la dipendenza spaziale di una variabile economica (prezzi,
fatturati, consumi, ecc.) in funzione della localizzazione geografica.
Il modello di kriging, infatti, consiste in un metodo non parametrico di previsione lineare del
valore x0 della variabile X, oggetto di indagine, in una prefissata localizzazione geografica s
attraverso le manifestazioni della stessa nelle altre aree geografiche.

Date N osservazioni da variabili X(s1), ... , X(sN) di un campo aleatorio stazionario in senso
debole X(s), relativamente a s1, ... , sN localizzazioni geografiche note di uno spazio ⊂ R2, si
ˆ
è, dunque, interessati od ottenere una stima X di X in una localizzazione geografica s0.
Come dimostrato in Cressie (1993), è possibile ottenere lo stimatore di ordinary kriging
avente le seguenti tre proprietà:

• ˆ
X è lineare in X(s1), ... , X(sN).
• ˆ
X è stimatore non distorto .
• ˆ ˆ
X minimizza l’errore medio quadratico di previsione E[(X(s0) - X (s0))2].

Partendo, quindi dalla prima proprietà, e definendo lo stimatore come combinazione lineare
di X(s1), ... , X(sN), otteniamo:
N
X (s 0 ) = ∑ λi X (s i ) .
ˆ
i =1

Per assicurare la non distorsione, occorre che il valore atteso dello stimatore sia pari alla
media del processo:

[ ]
N
E X (s 0 ) = ∑ λi E [X (s i )] = µ
ˆ
i =1

N N
il che implica ∑ λi µ = µ ovvero
i =1
∑λ
i =1
i =1.

N
Infine, la proprietà di minimizzare la funzione E[(X(s0) - ∑ λi X (s i ) )2] rispetto ai parametri λi, è
i =1

facilmente soddisfabile per mezzo della funzione lagrangiana
 N
 
2
 N 
L = E  X (s 0 ) − ∑ λi X (s i )   − 2m ∑ λi − 1

 i =1    i =1 

Definendo il vettore N ×1, λ=(λ1,…,λN)’, e il vettore (N+1) ×1, λο=(λ1,…,λN, m)’, l’ottimizzazione
∂L
della funzione L si ottiene risolvendo l’equazione = 0 , rispetto a λ1,…,λN e m.
∂λ o

La suddetta equazione può essere riformulata in termini di covarianza CX(sα,sβ) (o come
detto precedentemente di variogramma γ*(sα,sβ)), ottenendo:

λ
Cλο=Co

 C X ( 0) C X (s1 − s 2 ) ... C X (s1 − s N ) 1  C X (s 0 − s1 ) 
 C (s − s ) C X ( 0) ... C X (s 2 − s N ) 1   C (s − s ) 
 X 2 1   X 0 2 
dove C =  ... ... ... ... ... e Co =  ... ,
   
C X (s N − s1 ) C X (s N − s 2 ) ... C X ( 0) 1 C X (s 0 − s N )

 1 1 ... 1 0 
 1 


Da tale sistema si ricava la soluzione di ordinary kriging, λ 0 = C −1C 0 , di cui è costituita la
ˆ

stima di X(s0):

X (s 0 ) = λ1 X (s1 ) + λ2 X (s 2 ) + ... + λN X (s N )
ˆ ˆ ˆ ˆ

con un errore pari a:

σ X (s0 ) = C X (0) − λ′c o + m
ˆ

dove co è il vettore Co senza l’1 nell’ultima riga, ossia un vettore N ×1.

Per ulteriori dettagli si veda Cressie (1993, pp. 119 -123).

Una naturale estensione del metodo di kriging è la procedura di cokriging, che consente di
trattare con una distribuzione multivariata per ottenere una stima del valore della variabile di
interesse X, in una prefissata localizzazione geografica s in funzione di se stessa e di altre
variabili ausiliarie osservate nelle aree geografiche limitrofe.

La stima ottenuta attraverso una procedura di ordinary cokriging è una combinazione lineare
con pesi λik di k differenti variabili Xk osservate nelle vicinanze si dell’area oggetto di stima s0:
K nk
X k 0 (s 0 ) = ∑∑ λik X k (si )
ˆ
k =1 i =1

dove k0 indica la variabile oggetto di stima tra le K prese in considerazione e il numero nk
dipende dal numero di volta in volta variabili utilizzabili.
I pesi λik , coerentemente con quanto visto per l’ordinary kriging, sono tali per cui:
nk
 1 k = k0
∑λ k
i = δ kk 0 =  .
i =1 0 altrove
Attraverso un semplici passaggi matematici è possibile riscrivere l’equazione dello
ˆ
stimatore X k0 (s 0 ) , sopra presentata, nel seguente modo:
K nk
X k 0 (s 0 ) = µ k 0 + ∑∑ λik ( X k (si ) − µ k ) ,
ˆ
k =1 i =1

il che consente di evidenziare che la stima ottenuta attraverso il metodo di cokriging è
composta dalla media della variabile di interesse e dalla combinazione lineare dei residui
delle variabili esplicative rispetto alle rispettive medie.
La stima dei parametri è ottenuta, anche in questo caso, minimizzando l’errore quadratico
 K nk
 
2 nk
medio E  X k 0 (s 0 ) − ∑∑ λi X k (si )   , sotto i vincoli

k
 ∑λ k
i = δ kk 0 , ottenendo il sistema:

 k =1 i =1    i =1

 C11 ... C1 j ... C1K   λ1   c1k0 
 ...
 ... ... ... ...   ...   ... 
   
 C k1 ... Ckj ... CkK   λ k  =  c kk0 
    
 ... ... ... ... ...   ...   ... 
C K 1
 ... C Kj ... C KK  λ K  c Kk0 
   
dove Ckj rappresentano le matrici covarianza nk × nj tra le diverse locazioni, di ciascuna delle
K variabili, c kk0 è il vettore di covarianze tra ciascuna variabile esplicativa e quella di interesse

ed infine λk rappresenta il vettore di pesi associato (per una spiegazione più dettagliata si
veda Wackernagel, 2003).

Modelli gravitazionali

Recentemente in ambito geografico – economico sono stati sviluppati una serie di modelli
che passano sotto il nome di modelli gravitazionali, il cui scopo è quello di spiegare
l’interdipendenza esistente tra località geografiche in cui avvengono movimenti di beni,
individui e informazioni. In altri termini l’obiettivo di tali modelli è quello di stimare i flussi
spaziali che collegano i diversi agenti economici presenti sul territorio.
Il modello sicuramente più conosciuto nell’ambito del geomarketing è quello di Reilly, detto
anche legge della gravitazione degli acquisti, direttamente derivato dalla legge di
gravitazione universale, che rappresenta un metodo per determinare la quota di acquisti che
due punti vendita attraggono da una località. Formalmente la legge si esprime attraverso la
formula:
2
CiA S A  d iB 
=  
CiB S B  d iA 
 
dove CiA e CiB rappresentano le quote di spesa sostenute dall’i-esimo individuo
rispettivamente nel punto vendita A e B, SA e SB rappresentano il peso dei due punti vendita
ed, infine, diA e diB le distanze tra l’individuo i-esimo ed i due punti vendita stessi.

B A

diB diA

i
Figura 3 Schema esemplificativo della legge di Reilly

Dalla legge di Reilly sono stati sviluppati, dagli anni ’50 in poi, una serie di modelli di
gravitazione tra i quali ha avuto particolare successo il modello di Wilson per il quale si
ipotizza che la spesa Fij effettuata dall’agente economico “famiglia” della i-esima area
geografica nel j-esimo punto vendita sia data da:

Fij = KS j Di f (d ij )

dove Sj e Di sono le funzioni di offerta e di domanda intesi rispettivamente come misure di
“attrattività” del j-esimo punto vendita e la misura della capacità di spesa delle famiglia
collocata nella i-esima area geografica. Il parametro K rappresenta, invece, una costante di

−1
 
proporzionalità tale che K = ∑ S j Di f (dij ) in modo da consentire che la somma totale dei
 i, j 
flussi dia la spesa complessivamente sostenuta dalle famiglie dell’area considerata. Infine
f(dij) rappresenta una funzione decrescente della distanza tra i-esima area geografica e il j-
esimo punto vendita e per la quale in letteratura sono state proposte numerose formulazioni:
- f(dij) = dij-2
- f(dij) = exp(- dij)
- f(dij) = exp(- β dij) con β, detto parametro di frizione rappresentante la resistenza
che lo spazio offre allo spostamento degli individui, diverso a seconda del bene da
essi cercato.

Mantenendoci nella medesima logica sostanziale della “gravitazione” della domanda, un
altro modello che ha avuto enormemente successo negli ultimi anni è quello di Huff (1964).
Scopo di quest’ultimo è determinare le probabilità che una opportuna funzione (urbana o
territoriale), detta funzione di utilità, assuma determinati valori all'interno di una zona
geografica, a seconda dell'andamento di alcune variabili indipendenti, ed in condizioni di
concorrenza con altre funzioni di utilità anch'esse allocabili nella stessa zona.
La struttura del modello proposto da Huff è la seguente:

αβ
U ij S j Dij
pij = J
= J

∑U ij ∑S
α β
k Dik
j =1 j =1

dove Sj esprime l’offerta del j-esimo punto vendita e Dij la distanza che separa il punto
vendita j dal i-esimo cliente.
Diversi autori (vedi ad es. McFadden, 1977) hanno generalizzato la funzione di utilità, Uij,
attraverso un modello moltiplicativo del tipo:
K
U ij = ∏ X ijkk
β

k =1

dove Xkij, rappresenta il valore della k-esima variabile, caratteristico dell’ i-esimo punto
vendita, per un consumatore posto nella j-esima area di interesse; βk, rappresentano invece
i parametri di sensibilità del consumatore al fattore Xk.

Tale modello prende anche il nome di modello Moltiplicativo di Interazione Concorrenziale
(MIC).
Tra tali fattori è compresa ovviamente anche la distanza (o, in senso lato, i tempi di
percorrenza) che sarà caratterizzata da un parametro negativo in perfetta coerenza con la
logica gravitazionale del modello di Huff.
La funzione di offerta è, come accennato in precedenza, una funzione di diverse misure di
attrattività, che vanno da quelle di facile rilevazione, ad esempio i metri quadri di vendita, la
presenza di parcheggio, l’essere all’interno di un centro commerciale, il numero di addetti,
ecc., a quelle di più complessa individuazione come il potere percepito dell’insegna.
Una problematica conseguente è la stima dei parametri, βk, che si presenta, ad esempio,
negli studi di site location o site evaluation per l’apertura di un nuovo punto vendita non è
possibile ricostruire i comportamenti di consumo della clientela in modo puramente
oggettivo. In tal caso, solitamente si ricorre, quando possibile, a determinare i pesi della
funzione di offerta, Sj, attraverso le informazioni sui punti vendita già esistenti e adottando
una delle possibili alternative ordinate dalle meno rigorose alle più eleganti dal punto di vista
metodologico:
• la prima componente principale delle variabili di offerta (se ovviamente misurate su
scala ad intervalli o rapporti);
• assegnando i pesi in modo soggettivo, se pur per mezzo di esperienze passate e/o di
informazioni ed analisi relative a punti vendita e merceologie simili a quello in esame,
simulando di volta in volta diverse situazioni possibili. Ad esempio, si è soliti calcolare
il valore del parametro relativo alla distanza imponendo che la curva di utilità assuma,
dopo una soglia prefissata, valori trascurabili (ad. es 0,001);
• un modello di Conjoint Analysis, in cui a ciascun intervistato viene fornito, da ordinare,
un elenco, deciso a priori, delle modalità con cui si presentano le componenti di scelta
del punto vendita;
• un modello di regressione lineare con variabile dipendente rappresentata della
domanda della microarea urbana considerata (approssimando e generalizzando,
quindi, i comportamenti d’acquisto dei consumatori del punto vendita con quelli delle
sezioni di censimento che ricadono nell’area considerata);
• un modello di regressione logistica con variabile dipendente rappresentata dalla
percentuale di consumatori in ciascuna microarea urbana.

Esempio Applicativo di un modello gravitazionale

La stima del potere attrattivo di un punto vendita (o di una catena di punti vendita) è
un’informazione di fondamentale importanza per comprendere da un lato le dinamiche della
domanda rispetto alla concorrenza, dall’altro per intraprendere azioni di monitoraggio sulla
propria rete di vendita stimando, ad esempio, il fatturato e impostando analisi di benchmark
oppure simulando ipotesi di nuova apertura di un punto vendita in una determinata area
geografica (site evaluation).
Il modello gravitazionale di Huff, sotto opportune condizioni, può essere utile a tali scopi,
purché si posseggano le informazioni relative alla concorrenza, alla domanda, al grafo
stradale sottostante.
Una delle problematiche più complesse da affrontare è la stima dei parametri del modello o
calibrazione. Tuttavia in alcuni casi, come sottolineato nel precedente paragrafo, sotto
opportune assunzioni, è possibile ottenere le informazioni necessarie per stimare i parametri
del modello gravitazionale MIC.
Se, infatti, si è in grado di localizzare la clientela esistente di un punto vendita esistente
(georeferenziando, ad esempio, l’indirizzo dei clienti del punto vendita), è possibile
individuare le microaree (sezioni di censimento) maggiormente “attratte” dal punto vendita è
quelle che invece non lo sono (e che quindi per necessità di consumo sono attratte da altri
punti vendita).
Attraverso il dato di presenza/assenza di clienti è possibile ricavare i pesi della funzione di
utilità, βk, per un j-esimo punto vendita.
Trasformando mediante logit le probabilità del modello gravitazionale MIC, è possibile
ricondurre la funzione di utilità ad un modello lineare e stimare, attraverso il criterio della
massima verosimiglianza, i parametri del modello linearizzato.

Si prenda in considerazione, a titolo esemplificativo, è relativo ad un punto vendita di
elettronica di consumo nella città di Torino. Per coerenza con le assunzioni del modello di
Huff sono stati scelti i clienti della catena nel Comune di Torino e i punti vendita (che
costituiscono le possibili offerte al consumatore) dell’intera provincia di Torino in modo da
ridurre gli errori di stima del modello nelle zone di frontiera.
Il motivo di tale scelta è dovuta al fatto che l’analisi di un singolo punto vendita per mezzo di
un modello gravitazionale, determina, per costruzione, l’analisi delle probabilità di attrazione
di tutti i punti vendita (concorrenti e non) dell’area considerata.

Nella Figura 4 sotto riportata, sono rappresentati:
• il punto vendita oggetto d’analisi
• i punti vendita della medesima categoria merceologica concorrenti (rombi verdi)
• i punti vendita della medesima rete di vendita (rombi blu)
• le sezioni di censimento evidenziate (in cui sono presenti dei consumatori del punto
vendita in esame) .

Figura 4. Caratteristiche geografiche di un punto vendita

Supponiamo, pertanto, di voler stimare i parametri della funzione di utilità di un dato punto
vendita relativamente alle tre variabili che solitamente si è in gradi di reperire:
• metrature di vendita (mq) di tutti i punti vendita,
• presenza/assenza di ciascun punto vendita all’interno un centro commerciale
• distanza tra clienti e punti vendita.
Come variabile dipendente nel modello MIC sopraccitato si consideri la presenza/assenza
(cij) di consumatori del j-esimo punto vendita considerato nell’ i-esima sezione di
censimento:
1 se i consumator i nell' i - esima sezione di censimento

 scelgono prevalente mente il j - esimo pdv
cij = 
0 se i consumator i nell' i - esima sezione di censimento


 scelgono prevalente mente altri pdv

In particolare l’interesse è centrato sui clienti relativi al punto vendita oggetto di analisi (ciP).
Tuttavia vale al pena di sottolineare che, come ogni modello gravitazionale, il database di
partenza è il prodotto cartesiano di clienti × pdv e che pertanto è richiesto l’utilizzo di
algoritmi e macchine in grado trattare un’ingente numerosità di dati.
Applicando la trasformazione logit, attraverso il criterio della massima verosimiglianza si
ricavano le stime dei parametri, evidenziando così il peso di ciascuna componente dell’utilità
Uij. Le stime dei parametri sono di seguito riportate5:

Variables in the Equation

B S.E. Wald df Sig. Exp(B)
Step ln_mq
,120 ,019 40,393 1 ,000 1,127
1(a)
ln_cc ,666 ,073 83,291 1 ,000 1,947
ln_dist -,616 ,008 5716,755 1 ,000 ,540
Constant -3,158 ,126 628,247 1 ,000 ,042
a Variable(s) entered on step 1: ln_mq, ln_cc, ln_dist.

E’ interessante notare come agiscono le variabili prese in considerazione. Si nota, ad
esempio, che al crescere di una unità della variabile relativa ai metri quadri dei punti vendita
(ln_mq) la probabilità di attrarre clienti aumenta del 13%, mentre l’essere in un centro
commerciale (ln_cc), piuttosto che no, raddoppia tale probabilità. Infine, un aumento di una
unità della distanza (ln_cc) dimezza la probabilità di attrazione.
Nella figura 13, di seguito riportata, è presentato il tematismo della probabilità di attrazione
del punto vendita preso in esame ottenuta con il software GEOGRAVITY ® attraverso la
quale vengono evidenziate le aree geografiche di maggior attrazione (rosso scuro) e le aree
di minor attrazione (giallo) o per distanza dal punto vendita o per presenza di concorrenti.

5
Le stime dei parametri sono state elaborate con SPSS ® e la stima delle probabilità di attrazione con
Geogravity ®, software Value Lab, sviluppato su tecnologia ESRI®.

Figura 5. Applicazione del modello gravitazionale e tematismo delle probabilità di scelta

La probabilità di attrazione di un punto vendita è spesso uno strumento utilissimo per poter
stimare il fatturato di un punto vendita di nuova apertura, o quello di un punto vendita
concorrente nella medesima zona geografica in modo da effettuare analisi di benchmark.
Inoltre l’insieme di tutte le probabilità di attrazione di tutti i punti vendita di una zona
geografica consente di individuare le aree di maggior pressione competitiva e di effettuare
analisi di site selection simulando processi di chiusura e apertura di punti vendita.

8.4.4. Cenni ai modelli di interazione spaziale basati sui processi markoviani

I modelli di seguito presentati fanno riferimento ad una classe dei modelli detti “di interazione
spaziale” sebbene non abbiano a che fare con i modelli gravitazionali citati nel paragrafo
precedente, relativi ai flussi di interazione fisica (per una chiara distinzione si veda Arbia e
Espa 1996).
La classe di modelli di interazione a cui si fa riferimento in questo breve paragrafo mirano a
comprendere la struttura di dipendenza o di autocorrelazione spaziale tra unità geografiche,
è quella basata sui campi aleatori di Markov.
Tali modelli appartengono ad una branca della letteratura statistico-matematica
estremamente più complessa di quella precedentemente accennata e forse per questo
motivo le applicazioni alla microeconomia territoriale stentano ad emergere. Tuttavia, a
nostro parere, i numerosi contributi teorici dell’analisi econometrica spaziale (si veda Arbia,
1993), a cui appartengono i modelli che nel seguito richiameremo rapidamente ed in
maniera non approfondita, trovano nel Geomarketing un vastissimo campo di applicazione.
Lo scopo principale, nel contesto economico spaziale, è quello di spiegare il comportamento
di un agente economico (nel senso più esteso del termine, vale a dire mercato, famiglie,
punti vendita, filiali, promotori finanziari, ecc.) in funzione del comportamento della totalità
(interazione globale) o di una parte (interazione locale) degli altri agenti.
L’idea che gli agenti economici, caratterizzati dalle loro preferenze e dotazioni iniziali, siano
influenzati dall’ambiente circostante, o meglio dall’insieme degli agenti vicini rilevanti (nel
senso espresso nel paragrafo 8.3), ha portato Föllmer (1974) a rimuovere due ipotesi
fondamentali su cui si basava la teoria microeconomica classica, ovvero:
- le caratteristiche di un agente economico, ed in particolare le sue preferenze,
sono dati fissi iniziali,
- le caratteristiche di un agente sono indipendenti dall’ambiente in cui esso opera,
e ad estendere alle dimensioni geografiche la proprietà markoviana originariamente definita
per i processi temporali.
L’estensione della proprietà di Markov temporale, “il futuro del processo, dato il presente,
non è condizionato dal passato”, alle dimensioni spaziali non è immediata data la
multilateralità della dipendenza nello spazio ed è per tale motivo che è stato necessario
definire il concetto di campo aleatorio markoviano (Markov Random Field, MRF).
In pratica, sebbene ciò sia possibile unicamente per pochi casi banali, si tratta di definire una
particolare forma funzionale per le distribuzioni condizionate di ciascuna variabile aleatoria

(componente del processo) e derivare tramite la detta proprietà, la funzione di distribuzione
di probabilità congiunta.
L’unico teorema che garantisce che la funzione di probabilità congiunta del campo aleatorio
esista e sia unica, è quello di Hammersey e Clifford (si veda Arbia, 1993 e Besag 1974) che
sotto alcune restrizioni permette di identificare una ben precisa classe di modelli di campi
markoviani.
Della suddetta classe di modelli di campi markoviani ne indichiamo due in particolare:
- il modello autologistico (o di Ising)
- il modello autonormale (o conditional autoregressive, CAR).

Il modello autologistico ha la sua rilevanza in quanto consente di trattare variabili di tipo
dicotomico. E’ quindi utile nel caso di rilevazione della presenza assenza di un determinato
agente economico in una località, come ad esempio la presenza o meno di un particolare
insieme di popolazione con determinate caratteristiche di interesse per un certo business
(clientela target) oppure la presenza o meno sul territorio di aree attrattive per l’insediamento
di nuovi punti vendita o ancora l’individuazione di zone urbane ad alto flusso di passaggio,
ecc..
Secondo quanto detto precedentemente, le probabilità condizionate assumono la seguente
scrittura:
πij=P(X(si)| X(sj), si≠sj) = P(X(si)| X(sj); si≠sj, j ∈C(i))
dove C(i) rappresenta l’insieme delle aree contigue alla i-esima zona geografica e le variabili
aleatorie X(si) possono assumere i soli valori 0 ed 1.

Un campo aleatorio {X(s), s∈ ⊂ R2} è detto autologistico (o di Ising), se la densità di
probabilità condizionata di ciascuna variabile aleatoria, πij, rispetto alle altre è formulabile
come segue:
exp[( X (s i )(α i + β ij X (s j ))]
πij =
1 + exp[( X (s i )(α i + β ij X (s j ))]

 β se j ∈ C (i )
con X(si) = (0, 1), ed αi e β ij parametri. Solitamente si sceglie β ij =  , in modo
0 altrimenti

tale da consentire al ricercatore di evidenziare l’intensità con la quale le informazioni circa il

contesto locale modificano le probabilità di "presenza". (per un esempio didattico si veda

Arbia, 1993).

L’estensione a variabili di tipo politomiche ordinabili è possibile ipotizzando la funzione di

distribuzione condizionata di ciascuna variabile aleatoria X(si) segua una legge di tipo

binomiale ed in tal caso il processo è detto autobinomiale (si vede a tale proposito Besag,

1974).

Se la variabile osservata, X(si), è di tipo continuo, allora é possibile formulare un processo

markoviano basato sulla distribuzione normale ed il campo aleatorio {X(s),s∈ ⊂ R2} é detto

autonormale (o condizionale autoregressivo, CAR; Besag, 1974), se la densità condizionata

di ciascuna variabile aleatoria rispetto alle altre e’:

−
1
 1 
 
π ij = (2πσ ) exp−  X (s i ) − µ i − ∑ k ij ( X (s j ) − µ j ) 
2 2

 2σ i 
i

2
 i≠ j 

dove µi = E(X(si)), σi2 = Var(X(si)), e kij é un insieme di costanti tali per cui

ρ se j ∈ C (i )
k ij =  .
0 altrimenti

La dicitura “condizionale autoregressivo”, deriva dal fatto che il valore atteso condizionato

del processo assume la forma di un modello di regressione con X(sj), j∈ C(i), come variabili

esplicative:

[ ]
E X (s i ) | X (s j ) s j ∈ C (i ) = µ i − ∑ k ij ( X (s j ) − µ j )
i≠ j

con varianza

[
Var X (s i ) | X (s j ) s j ∈ C (i ) = σ i2 .]

Sotto tale condizioni si dimostra che la densità congiunta delle variabili, {X(s1), ...., X(sN)} =

=X(s) è multinormale ovvero:

det(V ) −1 / 2  1 
f ( X(s)) = exp− ( X(s) − µ(s))' V −1 ( X(s) − µ (s))
(2π ) n/2
 2 

con V = [γ(si, sj)] i, j= 1,...,N, matrice di autocovarianze di dimensioni NxN e

µ = [µ( s1), µ(s2),...., µ(sn)]’ vettore delle medie di dimensione Nx1.

E’ implicita, data la simmetria della matrice V, l’assunzione che nessun agente economico
può influenzarne un altro senza a sua volta esserne influenzato, cosa che in alcuni casi
potrebbe risultare un limite per tali modelli. Un altro limite, inoltre è dato dal fatto che
l’insieme dei “vicini” sia sempre il medesimo sia per numerosità che per composizione,
nonché spazialmente invariante (di fatto ogni agente viene “collocato” nella stessa posizione
per tutta la durate del processo).
Ciò può rivelarsi coerente con la realtà di taluni operatori economici (quali potrebbero essere
i punti vendita, le filiali o gli sportelli di una banca) che si muovano sempre nel medesimo
ambiente statico tale per cui il livello di interazione con gli altri operatori è sempre lo stesso.

Tali modelli risultano tuttavia molto indicati per gli studi economico territoriali riguardanti i
processi di diffusione, influenza e di contagio e rispetto ad altre tipologie di modelli
permettono di ottenere risultati analitici e possono essere stimati sulla base di osservazioni
reali.

Riferimenti Bibliografici

ARBIA, G. (1993) Recenti sviluppi nella modellistica spaziale", in Metodi statistici per le

analisi territoriali, a cura di S. Zani, Franco Angeli Editore, 193-217, Milano.

ARBIA G., ESPA G. (1996) Statistica economica territoriale, CEDAM, Padova.

BESAG, J. (1974) Spatial interaction and the statistical analysis of lattice systems, Journal of

the Royal Statistical Society, B, 36, 192-236.

CRESSIE, N.A.C. (1993) Statistics for Spatial Data, New York: John Wiley & Sons, Inc.

FÖLLMER, H. (1974) Random Economies with Many Interacting Agents, Journal of

Mathematical Economics, 1, 51-62.

HUFF, D. L. (1964) Defining and Estimating a Trading Area, Journal of Marketing 28 (July,
1964), 34-38.
HUFF, D. L. (2003) Parameter Estimation in the Huff Model ArcUser. www.esri.com.
MCFADDEN, D. (1977) Econometric Models of Probabilistic Choice, Structural Analysis of
Discrete Data with Econometric Applications, Cambridge, Mass. MIT Press.
RIPLEY, B. D. (1981) Spatial Statistics, New York: John Wiley & Sons, Inc.

RIPLEY, B. D. (1988) Statistical Inference for Spatial Procesess, Cambridge University

Press, Cambridge.

RIPLEY, B. D. (1990) Gibbsian interaction models, in Spatial Statistics: Past present and

future, a cura di D. Griffith, Monographn. 12, Institute of Mathematical Geography.

TOBLER, W.R. (1970) A computer movie simulating urban growth in the Detriot Region,

Economic Geography (Supplement), 46, 234-240.

WACKERNAGEL, H (2003) Multivariate Geostatistica, An Introduction with Applications,
Springer – Verlag Berlin Heidelberg New York.

Analisi Dei Dati Spaziali Per Il Marketing

Recomendados

Recomendados

Más contenido relacionado

Similar a Analisi Dei Dati Spaziali Per Il Marketing

Similar a Analisi Dei Dati Spaziali Per Il Marketing (11)

Último

Último (9)

Analisi Dei Dati Spaziali Per Il Marketing