SlideShare una empresa de Scribd logo
1 de 15
Descargar para leer sin conexión
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                       ANÁLISIS CLUSTER
                  IDEA CONCEPTUAL BÁSICA:
♦   La heterogeneidad de una población constituye la materia prima del
    análisis cuantitativo.....
♦   ... sin embargo, en ocasiones, el individuo u objeto particular, aislado,
    resulta un "recipiente" de heterogeneidad demasiado pequeño,..... la unidad
    de observación es demasiado reducida con relación al objetivo del
    análisis....
♦   ... en estos casos, se trata entonces de agrupar a los sujetos originales en
    grupos, centrando el análisis en esos grupos, y no en cada uno de los
    individuos......
♦   ... si existe una "taxonomía" ya diseñada que resulte útil, ajustada al
    objetivo de análisis, se recurre a ella,
♦   ... pero si no es así, deberemos crearla, generando una nueva "agrupación"
    que responda bien a las dimensiones de nuestro análisis.

                               DEFINICIÓN:
♦   Se utiliza la información de una serie de variables para cada sujeto u
    objeto y, conforme a estas variables se mide la similitud entre ellos.
    Una vez medida la similitud se agrupan en: grupos homogéneos
    internamente y diferentes entre sí.

♦   La "nueva dimensión" lograda con el cluster se aprovecha después para
    facilitar la aproximación "segmentada" de un determinado análisis.

CONVIENE TENER CLARO DESDE EL PRINCIPIO:

♦   Que la técnica no tiene vocación / propiedades inferenciales

♦   Que por tanto, los resultados logrados para una muestra sirven sólo para
    ese diseño (su valor atañe sólo a los objetivos del analista): elección de
    individuos, variables relevantes utilizadas, criterio similitud utilizado, nivel
    de agrupación final elegido.... definen diferentes soluciones.

♦   Que cluster y discriminante no tiene demasiado en común: el discriminante
    intenta explicar una estructura y el Cluster intenta determinarla.
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                     ANÁLISIS CLUSTER

                     2 OBJETIVOS BÁSICOS:
♦   Análisis "taxonómico" con fines exploratorios o confirmatorios.

♦   Cambio (simplificación) de la dimensión de los datos (lo descrito al
    inicio de este documento: agrupación de objetos individuales en nuevas
    estructuras de estudio (grupales))


                     CLUSTER (Un ejemplo):
   (Objetivo) Una empresa desea clasificar a sus consumidores en "tipos"
según sus distintas percepciones de determinados atributos de la marca:
CALIDAD GLOBAL, NIVEL SERVICIO, PRECIO, SERVICIO
POSTVENTA Y VARIEDAD.

   (Diseño) Para ello, se diseña una muestra con 100 compradores a los que
cuestiona sobre su percepción, en una escala de intervalo, de las anteriores 5
características de los productos de la empresa.

   (Resultado) La idea final consiste en diseñar distintas estrategias de
promoción en función de sus diversos perfiles, si es que estos existen.
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                     ANÁLISIS CLUSTER
            ETAPAS DE UN ANÁLISIS CLUSTER

1.-     SELECCIÓN DE LA MUESTRA DE DATOS


2.-     SELECCIÓN y TRANSFORMACIÓN DE VARIABLES A
        UTILIZAR


3.-     SELECCIÓN DE CONCEPTO DE DISTANCIA O SIMILITUD
        Y MEDICIÓN DE LAS MISMAS


4.-     SELECCIÓN y           APLICACIÓN        DEL     CRITERIO          DE
        AGRUPACIÓN


5.-     DETERMINACIÓN DE LA ESTRUCTURA CORRECTA
        (Elección del número de grupos)
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                      ANÁLISIS CLUSTER
              1.- SELECCIÓN DE LA MUESTRA
♦   Adecuar al máximo la muestra al objeto de análisis
♦   Depuración de atípicos (interesan elementos como miembros de grupos,
    no interesa la excesiva "individualidad")

                2.- SELECCIÓN DE VARIABLES
CANTIDAD

♦   No elegir variables indiscriminadamente: RECORDAMOS: cada
    estructura se manifiesta en una serie de variables y cada grupo de variables
    revela, sólo, una determinada estructura.

♦   Resultado muy sensible a la inclusión de alguna variable irrelevante.

♦   La inclusión indiscriminada de variables aumenta la probabilidad de
    atípicos.

TRANSFORMACIÓN ?
♦   Depende / Afecta a muchas decisiones posteriores (medida de distancia /
    similitud empleada, por ejemplo)
♦   Estandarización por variable: aunque resulta útil para mediciones
    posteriores de distancia puede afectar al resultado del análisis y no se
    recomienda si las diferencias de medidas reflejan alguna cualidad natural
    de interés conceptual.
♦   Estandarización por encuestado: singular, pero en baterías de
    indicadores elimina patrones de respuesta en los sujetos, ofreciendo la
    importancia relativa de cada indicador.
♦   Factorización: puede resultar interesante factorizar previamente las
    variables y realizar el Cluster con factores en lugar de con variables.
♦   El tipo de escala de medida afectará a fases posteriores del
    procedimiento.
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                      ANÁLISIS CLUSTER
        3.- MEDIDAS DE SIMILITUD O DISTANCIA

                                   TIPOS

A.-     CORRELACIÓN: Se traslada el concepto tradicional de co-
        variación, de conexión entre variables, de "pautas" de
        transición (por ejemplo, el cálculo de un coeficiente de
        correlación) aplicándolo a las observaciones de los sujetos
        como si fuesen observaciones de variables.

B.-     Medidas de SIMILITUD / DISTANCIA: Definen
        proximidad, no Covariación, y su elección (tipos) viene
        determinada por la escala de medida de las variables: binaria
        u ordinal o de intervalo/razón.

        ♦   Medidas de distancia para escalas ordinales, de intervalo o razón;
            amplia variedad,

        ♦   Medidas de similitud para variables nominales binarias: reciben
            el nombre de medidas de asociación



                  UNA ADVERTENCIA BÁSICA:

        ¡¡¡¡¡ El resultado final del Cluster depende radicalmente de
        de la medida de ASOCIACIÓN / SIMILITUD / DISTANCIA
        utilizada. Se recomienda, en cada contexto, observar
        empíricamente esas diferencias. !!!!!
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                 ANÁLISIS CLUSTER
         ALGUNAS MEDIDAS DE DISTANCIA
               EUCLÍDEA (para "t" variables)

                                  t
                     dij =       ∑(X
                                 k =1
                                        ik   − X jk )2


    ♦   Problemas con las unidades de medida: normalización previa de
        variables recomendable. Ojo: en SPSS obtenemos por defecto su
        cuadrado

MANHATTAN (o función de la distancia absoluta, o City-Block)

                                  t
                     d ij = ∑ X ik − X jk
                                 k =1

    ♦   Problemas con la colinealidad. En SPSS esta medida aparece con
        el nombre de BLOCK

        FORMULACIÓN GENERAL DE POWER (s,r)

                                                         1
                                         s
                  dij =  ∑ (X ik − X jk ) 
                             t                               r


                         k =1             
    ♦   En SPSS aparece como Power. Su variante más clásica es la de
        Minkowski (s=r).
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                    ANÁLISIS CLUSTER
                         D 2 DE MAHALANOBIS


              d ij = (X i − X j ) ∑                  (X       − Xj)
                                 ′              −1
                                                          i


         Donde Xi y Xj son matrices fila (1 x p) de observaciones para cada sujeto
         y Σ es la matriz de varianzas - covarianzas de las variables consideradas.

     ♦   Dos ventajas de la D 2:

     1.- Se consigue mitigar el problema de las unidades en la medida
          en que cada variable entra en el cálculo de distnacia corregida por
          su variabilidad (función del tamaño)

     2.- Se elimina la información redundante. La más correcta en caso
         de elevada multi - colinealidad.


         ALGUNAS MEDIDAS DE ASOCIACIÓN

                                            VARIABLE
             INDIVIDUO         A        B      C              D   E
                 I             1        0       0             1   1
                 J             1        1       0             1   1
                 K             0        1       1             0   1


 −    Convenimos: (a) si los individuos I y J tienen la variable, (b) si
      el individuo I tiene la variable y J no, (c) el individuo J tiene la
      variable e I no, (d) los individuos I y J no tienen la variable y p
      =a+b+c+d

                (* *)   SEMEJANZA SIMPLE: (a+d) /p
                             JACARD: a / (a+b+c)
                             DICE: 2a/ (2a+b+c+)
                         (* *) RUSSELL Y KAO: a/p
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                       ANÁLISIS CLUSTER

     4.- ALGORITMO DE AGRUPACIÓN - DIVISIÓN
     PARA LA OBTENCIÓN DE CONGLOMERADOS

I.    JERÁRQUICOS              (ESTRUCTURA             PROGRESIVA
      ARBOL)
      I.A.- JERÁRQUICOS AGLOMERATIVOS
            I.A.1.- Distancia mínima (single linkage)
            I.A.2.- Distancia máxima (complete linkage)
            I.A.3.- Distancia entre centros (centroid)
            I.A.4.- Distancia mediana (median)
            I.A.5.- Distancia promedio
                   -    simple (average linkage)
                   -    entre grupos (between groups)
                   -    intragrupos (within groups)
            I.A.6.- Método de Ward
      I.B.- JERÁRQUICOS DIVISIVOS
            I.B.1.- Por cálculo iterativo de centros
            I.B.2.- Monothetic
            I.B.3.- Polythetic

II. NO JERÁRQUICOS (K-MEDIAS):

      II.B.- UMBRAL SECUENCIAL
      II.C.- UMBRAL PARALELO
      III.D.- OPTIMIZACIÓN
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                   ANÁLISIS CLUSTER

                  MÉTODOS JERÁRQUICOS
♦    Definición: la agrupación se realiza mediante proceso un con fases de
     agrupación o desagrupación sucesivas. El resultado final es una
     jerarquía de unión completa en la que cada grupo se une o separa en una
     determinada fase.

                    Método jerárquico aglomerativo:

Elemento 1

Elemento 2

Elemento 3

Elemento 4

Elemento 5

                       Método jerárquico divisivo:


                                                               Elemento 1

                                                                Elemento 2

                                                                Elemento 3

                                                                Elemento 4

                                                                Elemento 5
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                    ANÁLISIS CLUSTER

    DISTINTOS MÉTODOS AGLOMERATIVOS (Ejemplos)
♦     La selección de uno u otro método se basa en la forma en que la
      distancia se considera en el algoritmo de agrupación:

           I.A.1.- Distancia mínima (single linkage)

           Los grupos se unen considerando la menor de las
           distancias existentes entre los miembros más
           cercanos de distintos grupos.

       (crea grupos más homogéneos pero permite cadenas de
       alineamientos entre sujetos muy lejanos)

           I.A.2.- Distancia máxima (complete linkage)

           Los grupos se unen considerando la menor de las
           distancias existentes entre los miembros más
           lejanos de distintos grupos.

       (resuelve el anterior problema aunque los grupos son más
       heterogéneos)

            I.A.6.- Método de Ward

           IDEA BÁSICA: Se trata de ir agrupando de forma
           jerárquica elementos de modo que se minimice una
           determinada función objetivo.

           FUNCIÓN A MINIMIZAR: Se perseguirá la
           minimización de la Variación Intra Grupal de la
           estructura formada.

       (tiende a generar conglomerados demasiado pequeños y
       demasiado equilibrados en tamaño)
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                        ANÁLISIS CLUSTER



                                          h
                                SCI = ∑ SCI K
                                         k =1



                Partiendo de “h” grupos y “m” variables:

                               Para cada grupo


                                                (      )
                                   m    nk              2

                        SCI K = ∑∑ X ijk − X ik
                                   i =1 j =1

                                                               Media de la
Suma cuadrática intra                                          variable “i” en el
del grupo “k”                                                  grupo “k”


            Suma de desviaciones en
            todas las variables (m) para            Valor de la variable “i” para
            todos los sujetos (nj ) dentro          cada sujeto “j” perteneciente
            del grupo “k”.                          al grupo “k” .
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                ANÁLISIS CLUSTER

DISTINTOS MÉTODOS NO JERÁRQUICOS (Ejemplos)

  II.B.- UMBRAL SECUENCIAL

       Se seleccionan una tras otra, "semillas" de conglomerado
       agrupando en torno a ellas todos los objetos que caen
       dentro de una determinada distancia. Cada objeto ya
       asignado no se considera para posteriores asignaciones.

  II.B.- UMBRAL PARELELO
       Similar al anterior pero se generan todas las semillas al
       mismo tiempo y los umbrales mínimas de aceptación en
       cada grupo.


  III.D.- OPTIMIZACIÓN

       Similares a los jerárquicos pero no se clasifican como
       tales porque en las etapas sucesivas se permite la
       reasignación de sujetos.
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                    ANÁLISIS CLUSTER

             5.- NÚMERO ÓPTIMO DE GRUPOS

♦    No existen criterios objetivos y ampliamente válidos

♦    Hay una IDEA importante: A medida que vamos formando grupos
     estos son menos homogéneos (las distancias para las que se forman los
     grupos iniciales son menores que las de los grupos finales)..... pero la
     estructura es más clara...

♦    Por tanto, podemos fijar un OBJETIVO: Identificar el punto de
     equilibrio entre la estructura incompleta y la estructura mezclada o
     confusa.....

♦    No obstante, tenemos un problema......: Es difícil definir
     conceptualmente y más aún estadísticamente la situación de estructura
     correcta, no confusa, o la contraria de falta de estructura. (Estructura por
     asociación o diferenciación)....

♦    NOS APOYAREMOS, PARA DEFINIR LA ESTRUCTURA, en la
     observación, tanto de las variables iniciales, como de la definición
     inicial de los sujetos y el significado de cada una de las etapas del
     proceso de agrupación.

♦    Podemos, además, utilizar alguna herramienta técnica:
     discriminante, caída brusca en la similitud o en la homogeneidad, ....
     dendograma, .
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                  ANÁLISIS CLUSTER

     TÉCNICAS DE AYUDA PARA DETERMINAR LA
              AGRUPACIÓN ÓPTIMA

 - Observación de la variación intragrupal

     Variación Intra Total



        Punto de C. Tendencia



                                             Número de Grupos


       …….. 7         6      5   4     3      2     1

 -    Dendograma

                                                  Distancia de agrupación

0        5      ……………                                               25
INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO


                      ANÁLISIS CLUSTER

      -   - Gráfico ICICLE

                                 Sujetos


      1     6     2     4    3      1      7   5     9     1     8       1
                                    2                      0             1
1
2
3
4
5
6
7
8
9
10
11

                       Número de grupos


Las barras negras delimitan la separación entre grupos.
En el ejemplo, los cinco grupos son: (1,6) - (2,4) –
(3,12,7,5,9,10) – (8) y (11)

Más contenido relacionado

La actualidad más candente

R perez herramientas que gestionan la calidad parte ii
R perez herramientas que gestionan la calidad parte iiR perez herramientas que gestionan la calidad parte ii
R perez herramientas que gestionan la calidad parte iiRICARDOPEREZ418
 
15 aplicats classe
15 aplicats classe15 aplicats classe
15 aplicats classebetana
 
Normalidad uni y multivariante en r
Normalidad uni y multivariante en rNormalidad uni y multivariante en r
Normalidad uni y multivariante en redgar carpio
 
Inferencia estadística - ESTIMACIÓN por Bioq. José Luis Soto Velásquez (3-0)
Inferencia estadística - ESTIMACIÓN por Bioq. José Luis Soto Velásquez (3-0)Inferencia estadística - ESTIMACIÓN por Bioq. José Luis Soto Velásquez (3-0)
Inferencia estadística - ESTIMACIÓN por Bioq. José Luis Soto Velásquez (3-0)joseluissotovelasquez
 
Análisis de varianza
Análisis de varianzaAnálisis de varianza
Análisis de varianzaAngel Salazar
 
Analisis de datos categoricos
Analisis de datos categoricosAnalisis de datos categoricos
Analisis de datos categoricosAsura Nephilim
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariantejpgv84
 
Urbisaia y brufman estimacion robusta
Urbisaia y brufman  estimacion robustaUrbisaia y brufman  estimacion robusta
Urbisaia y brufman estimacion robustaluis Gonzales Pineda
 
Equipo erp diagnostico y desicion 1era parte good
Equipo erp diagnostico y desicion 1era parte goodEquipo erp diagnostico y desicion 1era parte good
Equipo erp diagnostico y desicion 1era parte goodJhonathan Gonzalez
 

La actualidad más candente (17)

Hipotesis maricela
Hipotesis maricelaHipotesis maricela
Hipotesis maricela
 
R perez herramientas que gestionan la calidad parte ii
R perez herramientas que gestionan la calidad parte iiR perez herramientas que gestionan la calidad parte ii
R perez herramientas que gestionan la calidad parte ii
 
One way anova
One way anovaOne way anova
One way anova
 
Mic sesión 11
Mic sesión 11Mic sesión 11
Mic sesión 11
 
Informe de lab 1 mat1135
Informe de lab 1 mat1135Informe de lab 1 mat1135
Informe de lab 1 mat1135
 
Capítulo vii modelos logit y probit
Capítulo vii modelos logit y probitCapítulo vii modelos logit y probit
Capítulo vii modelos logit y probit
 
15 aplicats classe
15 aplicats classe15 aplicats classe
15 aplicats classe
 
Normalidad uni y multivariante en r
Normalidad uni y multivariante en rNormalidad uni y multivariante en r
Normalidad uni y multivariante en r
 
2 modelos lineales
2 modelos lineales2 modelos lineales
2 modelos lineales
 
Tema12 ud5
Tema12 ud5Tema12 ud5
Tema12 ud5
 
Capítulo iv econometría var
Capítulo iv econometría varCapítulo iv econometría var
Capítulo iv econometría var
 
Inferencia estadística - ESTIMACIÓN por Bioq. José Luis Soto Velásquez (3-0)
Inferencia estadística - ESTIMACIÓN por Bioq. José Luis Soto Velásquez (3-0)Inferencia estadística - ESTIMACIÓN por Bioq. José Luis Soto Velásquez (3-0)
Inferencia estadística - ESTIMACIÓN por Bioq. José Luis Soto Velásquez (3-0)
 
Análisis de varianza
Análisis de varianzaAnálisis de varianza
Análisis de varianza
 
Analisis de datos categoricos
Analisis de datos categoricosAnalisis de datos categoricos
Analisis de datos categoricos
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariante
 
Urbisaia y brufman estimacion robusta
Urbisaia y brufman  estimacion robustaUrbisaia y brufman  estimacion robusta
Urbisaia y brufman estimacion robusta
 
Equipo erp diagnostico y desicion 1era parte good
Equipo erp diagnostico y desicion 1era parte goodEquipo erp diagnostico y desicion 1era parte good
Equipo erp diagnostico y desicion 1era parte good
 

Similar a Análisis cluster económico FSE

Ud 12 distribuciones bidimensionales
Ud 12 distribuciones bidimensionalesUd 12 distribuciones bidimensionales
Ud 12 distribuciones bidimensionalesalfonnavarro
 
Informe de estadística descriptiva.
Informe de estadística descriptiva.Informe de estadística descriptiva.
Informe de estadística descriptiva.Cookie179
 
Estadistica aplicada
Estadistica aplicadaEstadistica aplicada
Estadistica aplicadacarri1019
 
SEMANA 12 - POBLACION Y MUESTRA.pdf
SEMANA 12 - POBLACION Y MUESTRA.pdfSEMANA 12 - POBLACION Y MUESTRA.pdf
SEMANA 12 - POBLACION Y MUESTRA.pdfjoelyaringao
 
SEMANA 12 - POBLACION Y MUESTRA.pptx
SEMANA 12 - POBLACION Y MUESTRA.pptxSEMANA 12 - POBLACION Y MUESTRA.pptx
SEMANA 12 - POBLACION Y MUESTRA.pptxjoelyaringao
 
Estadistica tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datosEstadistica    tratamiento estadistico de datos
Estadistica tratamiento estadistico de datosVelmuz Buzz
 
EL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdf
EL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdfEL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdf
EL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdfSaulRamonestorres
 
Metodos estadísticos 09 primera unidad
Metodos estadísticos 09 primera unidadMetodos estadísticos 09 primera unidad
Metodos estadísticos 09 primera unidadsolymarysol
 
Poblacion y muestra.
Poblacion y muestra.Poblacion y muestra.
Poblacion y muestra.N Andre Vc
 
SEMANA 11 - POBLACION Y MUESTRA.pdf
SEMANA 11 - POBLACION Y MUESTRA.pdfSEMANA 11 - POBLACION Y MUESTRA.pdf
SEMANA 11 - POBLACION Y MUESTRA.pdfJoelitoYaringaoGonza
 
SEMANA 11 - POBLACION Y MUESTRA.pptx
SEMANA 11 - POBLACION Y MUESTRA.pptxSEMANA 11 - POBLACION Y MUESTRA.pptx
SEMANA 11 - POBLACION Y MUESTRA.pptxJoelitoYaringaoGonza
 

Similar a Análisis cluster económico FSE (20)

Ud 12 distribuciones bidimensionales
Ud 12 distribuciones bidimensionalesUd 12 distribuciones bidimensionales
Ud 12 distribuciones bidimensionales
 
Unidad 3 Estadistica descriptiva
Unidad 3 Estadistica descriptivaUnidad 3 Estadistica descriptiva
Unidad 3 Estadistica descriptiva
 
La prueba anova
La prueba anovaLa prueba anova
La prueba anova
 
20101 d403020321203010401114460
20101 d40302032120301040111446020101 d403020321203010401114460
20101 d403020321203010401114460
 
Informe de estadística descriptiva.
Informe de estadística descriptiva.Informe de estadística descriptiva.
Informe de estadística descriptiva.
 
Estadistica aplicada
Estadistica aplicadaEstadistica aplicada
Estadistica aplicada
 
SEMANA 12 - POBLACION Y MUESTRA.pdf
SEMANA 12 - POBLACION Y MUESTRA.pdfSEMANA 12 - POBLACION Y MUESTRA.pdf
SEMANA 12 - POBLACION Y MUESTRA.pdf
 
SEMANA 12 - POBLACION Y MUESTRA.pptx
SEMANA 12 - POBLACION Y MUESTRA.pptxSEMANA 12 - POBLACION Y MUESTRA.pptx
SEMANA 12 - POBLACION Y MUESTRA.pptx
 
Error relativo
Error relativoError relativo
Error relativo
 
Cap1.2001 2
Cap1.2001 2Cap1.2001 2
Cap1.2001 2
 
Estadistica tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datosEstadistica    tratamiento estadistico de datos
Estadistica tratamiento estadistico de datos
 
EL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdf
EL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdfEL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdf
EL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdf
 
Metodos estadísticos 09 primera unidad
Metodos estadísticos 09 primera unidadMetodos estadísticos 09 primera unidad
Metodos estadísticos 09 primera unidad
 
Poblacion y muestra.
Poblacion y muestra.Poblacion y muestra.
Poblacion y muestra.
 
SEMANA 11 - POBLACION Y MUESTRA.pdf
SEMANA 11 - POBLACION Y MUESTRA.pdfSEMANA 11 - POBLACION Y MUESTRA.pdf
SEMANA 11 - POBLACION Y MUESTRA.pdf
 
Sesión 7
Sesión 7Sesión 7
Sesión 7
 
MA175_cuaderno_201302 (1).pdf
MA175_cuaderno_201302 (1).pdfMA175_cuaderno_201302 (1).pdf
MA175_cuaderno_201302 (1).pdf
 
MA175_cuaderno_201302 (2).pdf
MA175_cuaderno_201302 (2).pdfMA175_cuaderno_201302 (2).pdf
MA175_cuaderno_201302 (2).pdf
 
MA175_cuaderno_201302 (3).pdf
MA175_cuaderno_201302 (3).pdfMA175_cuaderno_201302 (3).pdf
MA175_cuaderno_201302 (3).pdf
 
SEMANA 11 - POBLACION Y MUESTRA.pptx
SEMANA 11 - POBLACION Y MUESTRA.pptxSEMANA 11 - POBLACION Y MUESTRA.pptx
SEMANA 11 - POBLACION Y MUESTRA.pptx
 

Último

Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfFrancisco158360
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaDecaunlz
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arteRaquel Martín Contreras
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfAngélica Soledad Vega Ramírez
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularMooPandrea
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADauxsoporte
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxlclcarmen
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSjlorentemartos
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAEl Fortí
 
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.Alejandrino Halire Ccahuana
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dstEphaniiie
 
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdfGUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdfPaolaRopero2
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxMaritzaRetamozoVera
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfMaritzaRetamozoVera
 
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...JAVIER SOLIS NOYOLA
 
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñoproyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñotapirjackluis
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxzulyvero07
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxYadi Campos
 
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxTECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxKarlaMassielMartinez
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSYadi Campos
 

Último (20)

Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativa
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arte
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circular
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDAD
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes d
 
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdfGUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docx
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
 
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
 
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñoproyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
 
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxTECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
 

Análisis cluster económico FSE

  • 1. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER IDEA CONCEPTUAL BÁSICA: ♦ La heterogeneidad de una población constituye la materia prima del análisis cuantitativo..... ♦ ... sin embargo, en ocasiones, el individuo u objeto particular, aislado, resulta un "recipiente" de heterogeneidad demasiado pequeño,..... la unidad de observación es demasiado reducida con relación al objetivo del análisis.... ♦ ... en estos casos, se trata entonces de agrupar a los sujetos originales en grupos, centrando el análisis en esos grupos, y no en cada uno de los individuos...... ♦ ... si existe una "taxonomía" ya diseñada que resulte útil, ajustada al objetivo de análisis, se recurre a ella, ♦ ... pero si no es así, deberemos crearla, generando una nueva "agrupación" que responda bien a las dimensiones de nuestro análisis. DEFINICIÓN: ♦ Se utiliza la información de una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogéneos internamente y diferentes entre sí. ♦ La "nueva dimensión" lograda con el cluster se aprovecha después para facilitar la aproximación "segmentada" de un determinado análisis. CONVIENE TENER CLARO DESDE EL PRINCIPIO: ♦ Que la técnica no tiene vocación / propiedades inferenciales ♦ Que por tanto, los resultados logrados para una muestra sirven sólo para ese diseño (su valor atañe sólo a los objetivos del analista): elección de individuos, variables relevantes utilizadas, criterio similitud utilizado, nivel de agrupación final elegido.... definen diferentes soluciones. ♦ Que cluster y discriminante no tiene demasiado en común: el discriminante intenta explicar una estructura y el Cluster intenta determinarla.
  • 2. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER 2 OBJETIVOS BÁSICOS: ♦ Análisis "taxonómico" con fines exploratorios o confirmatorios. ♦ Cambio (simplificación) de la dimensión de los datos (lo descrito al inicio de este documento: agrupación de objetos individuales en nuevas estructuras de estudio (grupales)) CLUSTER (Un ejemplo): (Objetivo) Una empresa desea clasificar a sus consumidores en "tipos" según sus distintas percepciones de determinados atributos de la marca: CALIDAD GLOBAL, NIVEL SERVICIO, PRECIO, SERVICIO POSTVENTA Y VARIEDAD. (Diseño) Para ello, se diseña una muestra con 100 compradores a los que cuestiona sobre su percepción, en una escala de intervalo, de las anteriores 5 características de los productos de la empresa. (Resultado) La idea final consiste en diseñar distintas estrategias de promoción en función de sus diversos perfiles, si es que estos existen.
  • 3. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER ETAPAS DE UN ANÁLISIS CLUSTER 1.- SELECCIÓN DE LA MUESTRA DE DATOS 2.- SELECCIÓN y TRANSFORMACIÓN DE VARIABLES A UTILIZAR 3.- SELECCIÓN DE CONCEPTO DE DISTANCIA O SIMILITUD Y MEDICIÓN DE LAS MISMAS 4.- SELECCIÓN y APLICACIÓN DEL CRITERIO DE AGRUPACIÓN 5.- DETERMINACIÓN DE LA ESTRUCTURA CORRECTA (Elección del número de grupos)
  • 4. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER 1.- SELECCIÓN DE LA MUESTRA ♦ Adecuar al máximo la muestra al objeto de análisis ♦ Depuración de atípicos (interesan elementos como miembros de grupos, no interesa la excesiva "individualidad") 2.- SELECCIÓN DE VARIABLES CANTIDAD ♦ No elegir variables indiscriminadamente: RECORDAMOS: cada estructura se manifiesta en una serie de variables y cada grupo de variables revela, sólo, una determinada estructura. ♦ Resultado muy sensible a la inclusión de alguna variable irrelevante. ♦ La inclusión indiscriminada de variables aumenta la probabilidad de atípicos. TRANSFORMACIÓN ? ♦ Depende / Afecta a muchas decisiones posteriores (medida de distancia / similitud empleada, por ejemplo) ♦ Estandarización por variable: aunque resulta útil para mediciones posteriores de distancia puede afectar al resultado del análisis y no se recomienda si las diferencias de medidas reflejan alguna cualidad natural de interés conceptual. ♦ Estandarización por encuestado: singular, pero en baterías de indicadores elimina patrones de respuesta en los sujetos, ofreciendo la importancia relativa de cada indicador. ♦ Factorización: puede resultar interesante factorizar previamente las variables y realizar el Cluster con factores en lugar de con variables. ♦ El tipo de escala de medida afectará a fases posteriores del procedimiento.
  • 5. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER 3.- MEDIDAS DE SIMILITUD O DISTANCIA TIPOS A.- CORRELACIÓN: Se traslada el concepto tradicional de co- variación, de conexión entre variables, de "pautas" de transición (por ejemplo, el cálculo de un coeficiente de correlación) aplicándolo a las observaciones de los sujetos como si fuesen observaciones de variables. B.- Medidas de SIMILITUD / DISTANCIA: Definen proximidad, no Covariación, y su elección (tipos) viene determinada por la escala de medida de las variables: binaria u ordinal o de intervalo/razón. ♦ Medidas de distancia para escalas ordinales, de intervalo o razón; amplia variedad, ♦ Medidas de similitud para variables nominales binarias: reciben el nombre de medidas de asociación UNA ADVERTENCIA BÁSICA: ¡¡¡¡¡ El resultado final del Cluster depende radicalmente de de la medida de ASOCIACIÓN / SIMILITUD / DISTANCIA utilizada. Se recomienda, en cada contexto, observar empíricamente esas diferencias. !!!!!
  • 6. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER ALGUNAS MEDIDAS DE DISTANCIA EUCLÍDEA (para "t" variables) t dij = ∑(X k =1 ik − X jk )2 ♦ Problemas con las unidades de medida: normalización previa de variables recomendable. Ojo: en SPSS obtenemos por defecto su cuadrado MANHATTAN (o función de la distancia absoluta, o City-Block) t d ij = ∑ X ik − X jk k =1 ♦ Problemas con la colinealidad. En SPSS esta medida aparece con el nombre de BLOCK FORMULACIÓN GENERAL DE POWER (s,r) 1  s dij =  ∑ (X ik − X jk )  t r  k =1  ♦ En SPSS aparece como Power. Su variante más clásica es la de Minkowski (s=r).
  • 7. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER D 2 DE MAHALANOBIS d ij = (X i − X j ) ∑ (X − Xj) ′ −1 i Donde Xi y Xj son matrices fila (1 x p) de observaciones para cada sujeto y Σ es la matriz de varianzas - covarianzas de las variables consideradas. ♦ Dos ventajas de la D 2: 1.- Se consigue mitigar el problema de las unidades en la medida en que cada variable entra en el cálculo de distnacia corregida por su variabilidad (función del tamaño) 2.- Se elimina la información redundante. La más correcta en caso de elevada multi - colinealidad. ALGUNAS MEDIDAS DE ASOCIACIÓN VARIABLE INDIVIDUO A B C D E I 1 0 0 1 1 J 1 1 0 1 1 K 0 1 1 0 1 − Convenimos: (a) si los individuos I y J tienen la variable, (b) si el individuo I tiene la variable y J no, (c) el individuo J tiene la variable e I no, (d) los individuos I y J no tienen la variable y p =a+b+c+d (* *) SEMEJANZA SIMPLE: (a+d) /p JACARD: a / (a+b+c) DICE: 2a/ (2a+b+c+) (* *) RUSSELL Y KAO: a/p
  • 8. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER 4.- ALGORITMO DE AGRUPACIÓN - DIVISIÓN PARA LA OBTENCIÓN DE CONGLOMERADOS I. JERÁRQUICOS (ESTRUCTURA PROGRESIVA ARBOL) I.A.- JERÁRQUICOS AGLOMERATIVOS I.A.1.- Distancia mínima (single linkage) I.A.2.- Distancia máxima (complete linkage) I.A.3.- Distancia entre centros (centroid) I.A.4.- Distancia mediana (median) I.A.5.- Distancia promedio - simple (average linkage) - entre grupos (between groups) - intragrupos (within groups) I.A.6.- Método de Ward I.B.- JERÁRQUICOS DIVISIVOS I.B.1.- Por cálculo iterativo de centros I.B.2.- Monothetic I.B.3.- Polythetic II. NO JERÁRQUICOS (K-MEDIAS): II.B.- UMBRAL SECUENCIAL II.C.- UMBRAL PARALELO III.D.- OPTIMIZACIÓN
  • 9. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER MÉTODOS JERÁRQUICOS ♦ Definición: la agrupación se realiza mediante proceso un con fases de agrupación o desagrupación sucesivas. El resultado final es una jerarquía de unión completa en la que cada grupo se une o separa en una determinada fase. Método jerárquico aglomerativo: Elemento 1 Elemento 2 Elemento 3 Elemento 4 Elemento 5 Método jerárquico divisivo: Elemento 1 Elemento 2 Elemento 3 Elemento 4 Elemento 5
  • 10. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER DISTINTOS MÉTODOS AGLOMERATIVOS (Ejemplos) ♦ La selección de uno u otro método se basa en la forma en que la distancia se considera en el algoritmo de agrupación: I.A.1.- Distancia mínima (single linkage) Los grupos se unen considerando la menor de las distancias existentes entre los miembros más cercanos de distintos grupos. (crea grupos más homogéneos pero permite cadenas de alineamientos entre sujetos muy lejanos) I.A.2.- Distancia máxima (complete linkage) Los grupos se unen considerando la menor de las distancias existentes entre los miembros más lejanos de distintos grupos. (resuelve el anterior problema aunque los grupos son más heterogéneos) I.A.6.- Método de Ward IDEA BÁSICA: Se trata de ir agrupando de forma jerárquica elementos de modo que se minimice una determinada función objetivo. FUNCIÓN A MINIMIZAR: Se perseguirá la minimización de la Variación Intra Grupal de la estructura formada. (tiende a generar conglomerados demasiado pequeños y demasiado equilibrados en tamaño)
  • 11. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER h SCI = ∑ SCI K k =1 Partiendo de “h” grupos y “m” variables: Para cada grupo ( ) m nk 2 SCI K = ∑∑ X ijk − X ik i =1 j =1 Media de la Suma cuadrática intra variable “i” en el del grupo “k” grupo “k” Suma de desviaciones en todas las variables (m) para Valor de la variable “i” para todos los sujetos (nj ) dentro cada sujeto “j” perteneciente del grupo “k”. al grupo “k” .
  • 12. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER DISTINTOS MÉTODOS NO JERÁRQUICOS (Ejemplos) II.B.- UMBRAL SECUENCIAL Se seleccionan una tras otra, "semillas" de conglomerado agrupando en torno a ellas todos los objetos que caen dentro de una determinada distancia. Cada objeto ya asignado no se considera para posteriores asignaciones. II.B.- UMBRAL PARELELO Similar al anterior pero se generan todas las semillas al mismo tiempo y los umbrales mínimas de aceptación en cada grupo. III.D.- OPTIMIZACIÓN Similares a los jerárquicos pero no se clasifican como tales porque en las etapas sucesivas se permite la reasignación de sujetos.
  • 13. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER 5.- NÚMERO ÓPTIMO DE GRUPOS ♦ No existen criterios objetivos y ampliamente válidos ♦ Hay una IDEA importante: A medida que vamos formando grupos estos son menos homogéneos (las distancias para las que se forman los grupos iniciales son menores que las de los grupos finales)..... pero la estructura es más clara... ♦ Por tanto, podemos fijar un OBJETIVO: Identificar el punto de equilibrio entre la estructura incompleta y la estructura mezclada o confusa..... ♦ No obstante, tenemos un problema......: Es difícil definir conceptualmente y más aún estadísticamente la situación de estructura correcta, no confusa, o la contraria de falta de estructura. (Estructura por asociación o diferenciación).... ♦ NOS APOYAREMOS, PARA DEFINIR LA ESTRUCTURA, en la observación, tanto de las variables iniciales, como de la definición inicial de los sujetos y el significado de cada una de las etapas del proceso de agrupación. ♦ Podemos, además, utilizar alguna herramienta técnica: discriminante, caída brusca en la similitud o en la homogeneidad, .... dendograma, .
  • 14. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER TÉCNICAS DE AYUDA PARA DETERMINAR LA AGRUPACIÓN ÓPTIMA - Observación de la variación intragrupal Variación Intra Total Punto de C. Tendencia Número de Grupos …….. 7 6 5 4 3 2 1 - Dendograma Distancia de agrupación 0 5 …………… 25
  • 15. INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER - - Gráfico ICICLE Sujetos 1 6 2 4 3 1 7 5 9 1 8 1 2 0 1 1 2 3 4 5 6 7 8 9 10 11 Número de grupos Las barras negras delimitan la separación entre grupos. En el ejemplo, los cinco grupos son: (1,6) - (2,4) – (3,12,7,5,9,10) – (8) y (11)