SlideShare una empresa de Scribd logo
1 de 53
Universidad
de Costa Rica

 CIMPA          Modelos de Clasificación
                        Javier Trejos Zelaya

                   Centro de Investigación en Matemática
                         Pura y Aplicada (CIMPA)
                         Universidad de Costa Rica


                       Foro Nacional de Estadística
                        México D.F., octubre 2003
Universidad
de Costa Rica

 CIMPA                      Contenido
                1.   Introducción
                2.   Medidas de Semejanza
                3.   Clasificación Jerárquica
                4.   Clasificación por Particiones
                5.   Métodos Arbóreos no Jerárquicos
                6.   Otros Métodos
                7.   Validación de Resultados
Universidad
de Costa Rica

 CIMPA              Aplicaciones (UCR)
                • Consumidores del sistema eléctrico: Clasificar
                  “curvas de carga”     tarifas electricas
                • Solicitantes de beca en un sistema educativo
                • Cantones productores de café; Climas
                • Temas de conflicto en encuestas de opinión
                  pública
                • Plantas epífitas; Especies de pejibaye
                • Clasificación de habas asturianas; de ñame
Universidad
de Costa Rica         Introduccion a la
 CIMPA
                        Clasificación
                                                                  p
                “Cluster analysis”
                Análisis de conglomerados
                                                            
                                                     X   Xij
                Análisis tipológico
                Análisis de grupos                   n
                                                         {1,2,...,n}
                Objetivo: Obtener grupos de objetos o individuos,
                          homogéneos internamente,
                          bien separados entre sí.
Universidad
de Costa Rica

 CIMPA             Tipos de Clasificación
                Por el resultado buscado:
                • Clasificación Arbórea
                • Particionamiento

                Importante para la interpretación de los
                  resultados y los objetivos de la
                  investigación
Universidad
de Costa Rica

 CIMPA              Clasificación Arbórea
                • Clasificación Jerárquica:
                  construye árboles jerárquicos
                  (ascendente, descendente, aproximación)


                • Arboles aditivos
                  (aproximación, descomposición)


                • Pirámides
                  (ascendente, aproximación)
Universidad
de Costa Rica

 CIMPA                  Particionamiento
                • Particiones disjuntas:
                   –   K-Medias: núcleos son centros de gravedad
                   –   Nubes Dinamicas: núcleos generales
                   –   Optimización (Fisher, heurísticas)
                   –   Cruzada o bimodal
                   –   Programación lineal
                • Particiones no disjuntas:
                   – Clasificación difusa
                   – Clasificación superpuesta (Ej: método del líder)
Universidad
de Costa Rica

 CIMPA                           Los Datos
                                   j
                                                       : individuos u objetos
                      X=i    xij 
                                                      xij : variable j observada
                                                      sobre objeto i
                 xi      : xi1 , xi 2 ,..., xip
                •Cuantitativas: peso, talla, edad, … xij
                •Cualitativas: sexo (F-M), nivel de ingreso,… xij A
                •Binarias (Presencia-ausencia) Sí - 1 , No - 0   xij {0,1}

                                                                  
                                                  D=       d 
                •Tabla de distancias                         ij
                                                                  
Universidad
de Costa Rica

 CIMPA             Medidas de Semejanza
                • Distancias y Disimilitudes
                  Semejanza entre individuos u objetos



                • Agregaciones
                  Semejanza entre conjuntos de individuos u
                    objetos
Universidad
de Costa Rica

 CIMPA          Distancias y Disimilitudes
                 Disimilitud:              d:
                                                i, j  d i, j

                        con       d i, j    0    i   j definida
                                  d i, j    d j, i     simétrica

                “Entre menor sea d, más parecidos son i, j.
                Entre mayor sea d, más diferentes son i, j.”

                Distancia = Disimilitud + Desigualdad triangular
                                            d i, j    d i, k    d k, j
Universidad
de Costa Rica

 CIMPA                      Ultramétricas
                Ultramétrica = Disimilitud + Desigualdad ultramétrica
                               d i, j      Max{d i, k , d k , j }

                Obs:
                  •Desigualdad Ultramétrica        desigualdad Triangular
                  •Geometría: todos los triángulos son isóceles agudos
                       no se puede hacer
                  una representación plana
                  de más de 3 puntos
Universidad
de Costa Rica
                                                                                                         
 CIMPA                       Datos Cuantitativos                                                         xi           p



                                                                                               2
                Euclídea Clásica:                                           p
                                                                                                                         t             
                                                           d i, j                xik   x jk                   xi      xj        xi        xj
                                                                           k 1


                Euclídea: M matriz simétrica, definida y positiva
                                                  t                                                                              
                    d M i, j                 xi   x j M xi            xj                                                             xj
                                                                                            x j2
                                                                                                            
                                   xi        xj                            1                                  xi
                                                  M
                                                      Ej : M        diag                      xi 2
                                                                         var k

                                                                                                               x i1            x j1
                Chi-cuadrado (                    χ2   )
                                                                       2
                                         p
                    2                          1 xik           x jk                                  p                                n
                d       2
                            i. j                                           con         xi                xik          xk                    xik
                                        k 1   x k xi           xj                                  k 1                                i 1
Universidad
de Costa Rica

 CIMPA              Datos cuantitativos (2)
                                                                                      1
                                                               p                          r
                Minkowski: r           0,         d r i, j           xik   x jk
                                                                                  r

                                                              k 1

                Chebychev o L :
                      r                  d i, j    max xik         x jk
                                                                                              j
                 City-block,
                 Manhattan o L1:                                    
                            p
                                                                    
                 d1 i, j         xik   x jk                     
                           k 1

                   r 1                               i
Universidad
de Costa Rica

 CIMPA                    Datos Binarios
                  xik   {0,1}
                                              xj = 1 xj = 0
                                       xi = 1 aij      cij      ni
                                       xi = 0 bij      dij
                                                 nj             p

                • Jaccard:      d1(xi,xj) = 1 – aij/(aij + bij + cij)
                • Czekanowski: d2(xi,xj) = 1 –2 aij/(ni + nj)
                • Russel & Rao: d3(xi,xj) = 1 – aij/p
Universidad
de Costa Rica

 CIMPA          Ejemplo de datos binarios
                Especies Var 1 Var 2 Var 3       Var 4 Var 5          Var 6
                   1      1      1       0           0    1               0
                   2      0      1       0           0    0               0
                   3      1      1       1           1    0               0

                  1   1
                          2        1        3
                                            1             1   3   0
                      0       2        2    1       2
                                                                  2
                              3        2                  3
                                  1    2
                d Jacard 1,2 1
                                1 2 0    3
                                                              1               3
                                           d Jacard 2,3   1
                                  2   3                     1 0 3                 4
                 d Jacard 1,3 1
                                2 2 1 5
Universidad
de Costa Rica

 CIMPA
                               Datos Cualitativos
                A: conjunto de modalidades (códigos)                                  xij   A
                Hamming:                        p
                                 d H i, j              ij   k
                                               k 1

                con        k     1 si xik      xjk ,                     # de veces que son
                      ij
                               {0 si x = x
                                        ik      jk                       diferentes
                Euclídea:      d i, j        2d H i , j
                                                                p
                                                     2              ij   k
                Chi-cuadrado:      d i, j
                                                     p2     k 1     nk
                                  Con nk : cardinal de modalidad k
Universidad
de Costa Rica

 CIMPA                        Tablas Mixtas
                                                                 Clases:
                                                                 Mismo tamaño
                  Qt    Ql                                       histograma
                                  discretizar       x Qt         Mismo efectivo
                                                                 Optimas (Fisher)

                cuantificar

                1.Ql        Análisis de Correspondencias Múltiples
                            C
                                           Ponderar
                2. Qt  C
                                           d i, j     pt d qt i, j   pl d ql i, j
Universidad
de Costa Rica

 CIMPA                 Agregaciones

                Indices de disimilitud
                entre conjuntos de objetos

                :                   con
                    A, B    A, B            A, B   0
                                             A, B       B, A
Universidad
de Costa Rica

 CIMPA                   Agregaciones Generales
                •Salto mínimo
                                          min   A, B     min{ d i, j / i A, j B}
                     A            B

                •Salto máximo

                                          max    A, B    max{ d i, j / i A, j B}
                A                     B
                •Salto promedio
                                                             1
                                          prom    A, B                      d i, j
                                  B                         AB    i A j B
                 A
Universidad
de Costa Rica

 CIMPA            Agregaciones Euclídeas
                •Ward (incremento de la inercia)
                                                              AB                 2
                  ward   A, B   I A       B   I A   I B            2
                                                                       gA   gB
                                                          A    B


                •Distancia entre
                centros de gravedad           A                    B
                                          2
                   cg    A, B   gA   gB
Universidad
de Costa Rica

 CIMPA          Semejanza entre variables
                Medidas de asociación (simétricas):
                  – Correlaciones: entre variables
                    cuantitativas
                  – Asociación entre variables cualitativas
                                  2       2
                                      ,       ,T 2

                  – Asociación entre variables binarias
Universidad
de Costa Rica

 CIMPA           Clasificación Jerárquica
                • Construcción de un árbol jerárquico
                  de clasificación
                • El dendrograma es fácil de interpretar
                  en términos de clasificación
Universidad
de Costa Rica

 CIMPA                         Jerarquías
                 H       P      es una jerarquía total si:
                                H,       H
                             i      : {i} H
                             h1 , h2 H : h1  h2                 ó
                                             h1     h2       ó   h2          h1
                Jerarquía binaria:

                     h   H : h1 , h2   H     tq   h1  h2        , h1  h2    h
                     h   1
Universidad
de Costa Rica

 CIMPA               Jerarquías Indexadas
                Jerarquía indexada:   f :H         R     tq
                                      h1      h2       f h1    f h2
                                       f {i}       0, f h      0      h {i}

                Indexada en sentido amplio:
                                      h1      h2        f h1       f h2
                            f
                                
                                
                                
                                
                                   i j
Universidad
de Costa Rica

 CIMPA              Clas. Jer. Ascendente
                Agrupar sucesivamente las clases (de individuos) más
                próximas (en el sentido de una agregación)
                1. Considerar P0 = {{1},{2},...,{n}} k = 0            H = P0

                2. Escoger en Pk a h1, h2 tq      h1 , h2     mín{ a, b / a, b Pk }

                3. Unir h1, h2: h   h1  h2 Pk      1       Pk  {h1  h2 } {h1 , h2 }
                   k    k 1     H     H  {h1  h2 }

                4. Repetir 2 y 3 hasta que Pk =

                  Indice: f h       h1 , h2   donde h          h1  h2
Universidad
de Costa Rica

 CIMPA                   La CJA paso a paso
                1. Po {{a}, {b}, {c}, {d }, {e}, { f }}

                2. Escoge {c},{d}, Forma {c,d}
                    P {{a}, {b}, {c, d }, {e}, { f }}
                     1


                3. Escoge {a},{b}, Forma {a,b}
                    P2    {{a, b}, {c, d }, {e}, { f }}   a b c d   e f

                4. Escoge {e},{f}, Forma {e,f}
                     P3    {{a, b}, {c, d }, {e, f }}

                     
Universidad
de Costa Rica

 CIMPA
                      Ilustracion de la CJA
                                a b     c d e
                Entrada:
                            a   0
                            b       0             disimilitud
                             c     0
                             d        0                   i, j
                             e           0
                Si c, d, son los más cercanos: se forma grupo {c, d}

                Nueva                •Eliminar fila / columna c y d
                tabla: a b {c, d } e •Calcular             {c, d }, a
                      a
                      b                                         {c, d }, b
                  {c, d }
                                                                {c, d }, e
                     e
Universidad
de Costa Rica

 CIMPA                        Ejemplo 1:                       min
                     a        b          c                 d
                 a0           1          3             5.5
                 b            0          2             4.5
                 c                       0             2.5
                d                                          0
                     {a, b}          c           d
                {a, b} 0             2           4.5
                     c               0           2.5   3

                     d                           0     2
                                                       1
                         {a, b, c}           d                 a     b   c   d
                {a, b, c} 0              2.5
                         d                   0
Universidad
de Costa Rica

 CIMPA                        Ejemplo 1:                          max
                    a             b        c                d
                a0                1        3                5.5
                b                 0       2                 4.5
                c                         0                 2.5
                d                                            0
                     {a, b}           c           d
                {a, b} 0              3           5.5 5
                    c                 0           2.5   4
                                                        3
                    d                             0
                                                        2
                          {a, b}          {c, d }
                                                        1
                {a, b}        0            5.5
                                                                  a     b   c   d
                {c, d }                       0
Universidad
de Costa Rica

 CIMPA                        Ejemplo 1:                prom
                    a         b         c         d
                a0            1         3         5.5
                b             0         2         4.5
                c                       0         2.5
                d                                  0
                     {a, b}       c         d
                {a, b} 0          2.5        5          tomar una decisión
                    c             0         2.5
                                                  3
                    d                       0
                                                  2
                                                  1
                                                         a     b   c   d
Universidad
de Costa Rica

 CIMPA                 Resultados con                          prom

                         {a, b, c}    d                        {a, b}   {c, d }
                {a, b, c} 0          4.16            {a, b}
                                                                0
                                                                            3.75
                                                                             0
                      d                  0           {c, d }
                  5                              5
                  4                              4

                  3
                                                 3

                  2                              2
                  1                              1
                          a      b   c       d           a        b     c        d
Universidad
de Costa Rica

 CIMPA             Fórmula de recurrencia
                Lance & Williams (1967), Jambu (1978)
                 h, h1  h2             a1 h, h1   a2 h, h2                  a3 h1 , h2            a4 h, h1       h, h2
                              a1                       a2                                          a3             a4
                              1                            1                                        0             1
                   mín                                         2                                                      2
                                   2
                                                              1                                                   1
                              1
                                   2                              2                                0                  2
                   máx
                                   h1                         h2
                  prom h1                                                                          0              0
                                        h2               h1        h2
                               h         h1              h         h2                               h
                  ward    h         h1        h2                                          h        h1        h2   0
                                                     h        h1        h2
                                   h1                         h2                                   h1 h2
                    cg        h1        h2                                                                    2   0
                                                      h1           h2                         h1        h2
Universidad
de Costa Rica

 CIMPA                                Ejemplo 2
                                                     2
                                                     1 3   4             5
                  •disimilitud                  1 0 16 1 9               10
                  (distancia)
                                                2 16 0 17 25             2
                                                3 1 17 0 4               9
                 •agregación          m in      4 9 25         4     0   13
                                                5 10 2         9    13    0
                          6   2   5     4                                            8   7
                                                           6   7    4
                1,3   6   0 16 9       4                                 1,3,4   8   0   9
                                             1,3,4       6 0   9    4
                      2   16 0 2       25     5,2        7 9                     7   9   0
                                                               0    13
                      5   9 2 0        13                4 4   13   0
                      4   4 25 13       0
Universidad
de Costa Rica

 CIMPA              Ejemplo 2: Arbol Jer.
                           9
                                                   9
                           8
                           7
                6   13    6
                7   25
                           5
                8   46    4
                9   78    3
                                           8

                           2
                                                           7
                           1
                                   6

                               1       3       4       2       5
Universidad
de Costa Rica

 CIMPA          Uso de la Fórmula de Recur.
                                  a      b      c      d          e                  a        b     {c, d }          e
                            a 0         25      18     25      10            a 0          25        21.5          10
                 prom b                  0      30     40      34
                                                                             b                0         35        34
                                                                       {c, d }                          0        16.5
                            c                    0     10      15            e                                       0
                            d                           0      18                    {a, e}        b          {c, d }
                             e                                  0          {a, e} 0               29.5           19
                                                                                 b                 0             35
                                        1            1                     {c, d }                               0
                        {c, d }, a           c, a       d, a
                                        2            2
                                     1               43               30
                                       18 25            21.5
                                     2               2
                                                                      20
                                     1             1
                 {a, e},{c, d }          a,{c, d }    e,{c, d }
                                     2             2                  10
                                      1              38
                                        21.5 16.5         19                     c d a              e
                                      2              2                                                       b
Universidad
de Costa Rica

 CIMPA                 Tabla de Notas CR
                           Mate.   Ciencias   Espa.   Hist.   Ed. Fis.
                Lucia       7.0      6.5       9.2     8.6      8.0
                Pedro       7.5      9.4       7.3     7.0      7.0
                Ines        7.6      9.2       8.0     8.0      7.5
                Luis        5.       6.5       6.5     7.0      9.0
                Andres      6.0      6.0       7.8     8.9      7.3
                Ana         7.8      9.6       7.7     8.0      6.5
                Carlos      6.3      6.4       8.2     9.0      7.2
                Jose        7.9      9.7       7.5     8.0      6.0
                Sonia       6.0      6.0       6.5     5.5      8.7
                Maria       6.8      7.2       8.7     9.0      7.0
Universidad
de Costa Rica

 CIMPA          ACP de tabla de notas
Universidad
de Costa Rica

 CIMPA             Ej.: notas escolares (CR)
                  Arbol Jerárquico: ( Ward )
                         0                     1
                 Lucía
                 María
                Andrés
                Carlos
                  Luis
                 Sonia
                 Pedro
                 Inés
                  Ana
                  José
Universidad
de Costa Rica

 CIMPA            Clasificación (notas CR)
                    Corte en tres clases:     B = 19.72


                   Clase                      Mat Cie Esp His E.Fi    Interpretación

                1: Lucía, María, Andrés, Carlos 6.5 6.5 8.5 8.9 7.4   Humanística

                2: Luis, Sonia                 5.5 6.2 6.5 6.2 8.8 Flojos; Ed. Fís.


                3: Pedro, Carmen, Ana, José    7.7 9.5 8.0 7.8 6.7    Buenos; Cient.

                        Promedio general: 6.8 7.7 7.9 7.9 7.4
Universidad
de Costa Rica

 CIMPA
                   Notas escolares (Fr.)
                           Mate.   Ciencias   Historia   Latín   Ed. Fis.
                Jean        6         6          5        5.5       8
                Alain       8         8          8        8         9
                Anne        6         7         11        9.5      11
                Monique    14.5     14.5       15.5       15        8
                Didier      14       14         12       12.5      10
                André       11       10         5.5       7        13
                Pierre      5.5       7         14       11.5      10
                Brigitte    13      12.5        8.5       9.5      12
                Evelyne     9        9.5       12.5       12       18
Universidad
de Costa Rica

 CIMPA          Clasificación (notas Fr.)
                  1


                 0.9


                 0.8


                 0.7


                 0.6


                0.5


                0.4


                0.3


                0.2


                0.1


                 0
                       Jean Alain Andr Ana Pier Evel   Didr   Moni   Brig
Universidad
de Costa Rica

 CIMPA                    Ejemplo Pintores

                          Color   Expresividad Composició   Diseño
                                               n
                Bassano    6         8           17           0
                Bellini    4         6           14           0

                Certona   16         14          12           6
Universidad
de Costa Rica

 CIMPA               Clasificación de Pintores
                  Perugivo

                  Durero
                  Pordenone
                Del Piombo
                  Murillo
                  Da Udien

                  Bassano
                  Bellini
                  Guercino
                  Cortona
                  Teniers
                  Tintoretto

                  Veronesse
                  Holbein
                  Van Dyck
                  Rembrandt
                    Rubens
                    Rafael
                    Pousini
                  Da Vinci
                 Romano O.
                 L. Jordans
                  Del Sarto
Universidad
de Costa Rica

 CIMPA          Interpretación (pintores)
                  Excelente color: 15.0
                  Excelente expres: 16.6
                  Pésima composic: 4.6     Buen color:    13.0

                  Excelente diseño: 14.6   Excel. Expres: 15.8

                  Color normal:    11.0    Def. Compos:    6.0

                  Excel. expres:   15.0    Diseño normal: 11.0

                  Defic. compos:     7.3
                  Def. diseño:       7.3
Universidad
de Costa Rica

 CIMPA           Clientes de sist. eléctrico
                Curva de carga:
                             max




                                   0        24

                Se nencesita conocer el comportamiento del consumo de
                los clientes para decidir cuales torces se conectan a
                ciertas horas.
                    tarifas eléctricas x sectores

                                                 (residencial,
                                                 industrial,…)
                Aplicación de método de nubes dinámicas y de
                clasificación jerárquica de Ward.
Universidad
de Costa Rica

 CIMPA                Inversiones en CJA
                Sea H , f
                Inversión: Si h, h        H tq            h   h      h        f h   f h
                                                          h
                                                            


                Propiedad ( Diday, 1981 ) :
                •( H, f ) jerarquía indexada en sentido amplio
                •Condición local:             f h  h              i    j
                                          hi  h j
                                       f
                                                                    hi       VI
                                     hi              hj           f hj
Universidad
de Costa Rica

 CIMPA          Teorema de Batalegj-Diday
                •Condición global:         ff hh  h
                                                                              i      j         hi , h j
                                        
                                         
                                        h  ih   j

                                                                               i


                            P
                         h
                               hi
                                                                          h1
                            i 1                           hj
                                       hi   2
                                                                     h    j       hi 1 , h j      hi      2

                Teorema de Batalegj - Diday
                No hay inversiones al usar la fórmula de L-W si y
                sólo si: a)a4   mín{a1 , a2 }
                        b)a1 a2 0
                        c)a1 a2 a3 1
                Hay inversiones        a4            mín{a1 , a2 }
                                       a1       a2     0, a1   a2    a3        1
Universidad
de Costa Rica

 CIMPA                    CJ Descendente
                Problema combinatorio: 2n-1-1 dicotomías
                • Williams & Lambert: cada variable genera
                  dicotomía   tomar la que maximiza Var Inter.
                • Hubert: tomar clase de mayor diámetro, agregar
                  alrededor de los “polos”
                • Roux: inercia asociada a una bipartición (pares)
                • Lacoste: análisis factorial
                • Cavalli-Sforza: · todas las dicotomías
                                  · escoger la que mín W
Universidad
de Costa Rica

 CIMPA                Teorema de Benzécri
                Existe una biyección entre el conjunto J de jerarquías
                indexadas de e y el conjunto U de ultramétricas s / .

                     :J       U         con  H, f                   con   i, j       mín{ f h / i, j   h}
                     :U             J    con  s                  H, f   con:
                                  H={clases de equivalencia de R /                        0}
                                  f h        inf{       0/ h        P x}
                   con: iR    j              i, j
                          P        : Partición inducida por R
                   Lema: h        P f h
                     Si            max{         i, j         P                 P 0   {{i} / i     }
                •H es una jerarquía indexada
                      Si h1 , h2 H : h1             P    1   , h2    P     2   :
                               •si 1            2       h1  h2
                              •si        1      2       h1   h2
Universidad
de Costa Rica

 CIMPA                     Consecuencias
                       
                                                , son inversas
                        H, f    H, f          una de la otra
                 Consecuencia: medir “distancias” en un árbol
                 jerárquico, es medir una ultramétrica



                i, j   


                            i   j
Universidad
de Costa Rica
                     Aproximación de una
 CIMPA
                         ultramétrica
                Sea d una disimilitud sobre
                    d i, j   sup{ i, j / ultram. , i, j       d i, j }
                Entonces d es una ultramétrica (el máximo se alcanza)
                 Problema de optimización:                                              2
                 hallar ultramétrica tq Mín d ,                     d i, j       i, j
                                                            i, j

                Construcción de la subdominante
                Arbol de longitud mínima:
                Si A es un árbol de longitud mínima sobre
                entonces d(i,j) = longitud del camino de i a j.
                 •Algoritmo de Kruskal                             Ejemplo:
                 •Algoritmo de Prim (1957)                         •red telefónica
                 •Clasificación jerárquica (salto mínimo)
                                                                   •Pb transporte
                 •Algoritmo de Roux
                                                                   •conexión de
                                                                   terminales de
                                                                   computador
Universidad
de Costa Rica

 CIMPA                  Corte del árbol
                                            una partición   C1   {a, b, c}
                                                            C2   {d , e, f }

                  a b c d e   f
                                                  f h
                •“Mayor salto” del índice


                •Método del codo: inercias (caso cuantitativo )
                              Wk
                       Max                              w
                              Wk 1
                •Control difuso
                •Mojena, Jambu, Lerman,...
Universidad
de Costa Rica

 CIMPA             Observaciones a la CJA
                Ventajas
                •Es fácil de interpretar
                •Complejidad O ( n2 )
                •Dadas d y , hay una única solución.
                Desventajas
                • Se ajusta los datos a una ultramétrica
                • Resultado depende de y de cómo resolver las igualdades
                • Una jerarquía impone restricciones de inclusión
                • Cargar en memoria tabla de n2 disimilitudes

Más contenido relacionado

Más de Facultad de Ciencias, UCR

Más de Facultad de Ciencias, UCR (11)

Análisis de correspondencias múltiples
Análisis de correspondencias múltiplesAnálisis de correspondencias múltiples
Análisis de correspondencias múltiples
 
Ilustracion de K-medias
Ilustracion de K-mediasIlustracion de K-medias
Ilustracion de K-medias
 
Clasificacion automática (II parte) - clustering.pdf
Clasificacion automática (II parte) - clustering.pdfClasificacion automática (II parte) - clustering.pdf
Clasificacion automática (II parte) - clustering.pdf
 
Clasificacion Automática - clustering (I parte)
Clasificacion Automática - clustering (I parte)Clasificacion Automática - clustering (I parte)
Clasificacion Automática - clustering (I parte)
 
Regresión Lineal Múltiple
Regresión Lineal MúltipleRegresión Lineal Múltiple
Regresión Lineal Múltiple
 
Regresión Logística
Regresión LogísticaRegresión Logística
Regresión Logística
 
7_Discriminacion.pdf
7_Discriminacion.pdf7_Discriminacion.pdf
7_Discriminacion.pdf
 
Analisis Canonico
Analisis CanonicoAnalisis Canonico
Analisis Canonico
 
Clasificación óptima: algoritmo de Fisher
Clasificación óptima: algoritmo de FisherClasificación óptima: algoritmo de Fisher
Clasificación óptima: algoritmo de Fisher
 
Regresión PLS
Regresión PLSRegresión PLS
Regresión PLS
 
Modelos de clasificación
Modelos de clasificaciónModelos de clasificación
Modelos de clasificación
 

Último

RESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptx
RESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptxRESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptx
RESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptx
pvtablets2023
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
Wilian24
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
EliaHernndez7
 
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
UPTAIDELTACHIRA
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
El Fortí
 

Último (20)

ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
 
Abril 2024 - Maestra Jardinera Ediba.pdf
Abril 2024 -  Maestra Jardinera Ediba.pdfAbril 2024 -  Maestra Jardinera Ediba.pdf
Abril 2024 - Maestra Jardinera Ediba.pdf
 
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptxEL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
 
Infografía EE con pie del 2023 (3)-1.pdf
Infografía EE con pie del 2023 (3)-1.pdfInfografía EE con pie del 2023 (3)-1.pdf
Infografía EE con pie del 2023 (3)-1.pdf
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
 
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdf
 
FUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
FUERZA Y MOVIMIENTO ciencias cuarto basico.pptFUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
FUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
 
RESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptx
RESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptxRESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptx
RESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptx
 
Los avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesLos avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtuales
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
 
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024
 
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
SESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.docSESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.doc
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
 

Curso(1)-Clasificacion

  • 1. Universidad de Costa Rica CIMPA Modelos de Clasificación Javier Trejos Zelaya Centro de Investigación en Matemática Pura y Aplicada (CIMPA) Universidad de Costa Rica Foro Nacional de Estadística México D.F., octubre 2003
  • 2. Universidad de Costa Rica CIMPA Contenido 1. Introducción 2. Medidas de Semejanza 3. Clasificación Jerárquica 4. Clasificación por Particiones 5. Métodos Arbóreos no Jerárquicos 6. Otros Métodos 7. Validación de Resultados
  • 3. Universidad de Costa Rica CIMPA Aplicaciones (UCR) • Consumidores del sistema eléctrico: Clasificar “curvas de carga” tarifas electricas • Solicitantes de beca en un sistema educativo • Cantones productores de café; Climas • Temas de conflicto en encuestas de opinión pública • Plantas epífitas; Especies de pejibaye • Clasificación de habas asturianas; de ñame
  • 4. Universidad de Costa Rica Introduccion a la CIMPA Clasificación p “Cluster analysis” Análisis de conglomerados  X Xij Análisis tipológico Análisis de grupos n {1,2,...,n} Objetivo: Obtener grupos de objetos o individuos, homogéneos internamente, bien separados entre sí.
  • 5. Universidad de Costa Rica CIMPA Tipos de Clasificación Por el resultado buscado: • Clasificación Arbórea • Particionamiento Importante para la interpretación de los resultados y los objetivos de la investigación
  • 6. Universidad de Costa Rica CIMPA Clasificación Arbórea • Clasificación Jerárquica: construye árboles jerárquicos (ascendente, descendente, aproximación) • Arboles aditivos (aproximación, descomposición) • Pirámides (ascendente, aproximación)
  • 7. Universidad de Costa Rica CIMPA Particionamiento • Particiones disjuntas: – K-Medias: núcleos son centros de gravedad – Nubes Dinamicas: núcleos generales – Optimización (Fisher, heurísticas) – Cruzada o bimodal – Programación lineal • Particiones no disjuntas: – Clasificación difusa – Clasificación superpuesta (Ej: método del líder)
  • 8. Universidad de Costa Rica CIMPA Los Datos j  : individuos u objetos X=i  xij   xij : variable j observada  sobre objeto i xi : xi1 , xi 2 ,..., xip •Cuantitativas: peso, talla, edad, … xij •Cualitativas: sexo (F-M), nivel de ingreso,… xij A •Binarias (Presencia-ausencia) Sí - 1 , No - 0 xij {0,1}  D= d  •Tabla de distancias ij 
  • 9. Universidad de Costa Rica CIMPA Medidas de Semejanza • Distancias y Disimilitudes Semejanza entre individuos u objetos • Agregaciones Semejanza entre conjuntos de individuos u objetos
  • 10. Universidad de Costa Rica CIMPA Distancias y Disimilitudes Disimilitud: d: i, j  d i, j con d i, j 0 i j definida d i, j d j, i simétrica “Entre menor sea d, más parecidos son i, j. Entre mayor sea d, más diferentes son i, j.” Distancia = Disimilitud + Desigualdad triangular d i, j d i, k d k, j
  • 11. Universidad de Costa Rica CIMPA Ultramétricas Ultramétrica = Disimilitud + Desigualdad ultramétrica d i, j Max{d i, k , d k , j } Obs: •Desigualdad Ultramétrica desigualdad Triangular •Geometría: todos los triángulos son isóceles agudos no se puede hacer una representación plana de más de 3 puntos
  • 12. Universidad de Costa Rica  CIMPA Datos Cuantitativos xi p 2 Euclídea Clásica: p   t   d i, j xik x jk xi xj xi xj k 1 Euclídea: M matriz simétrica, definida y positiva   t    d M i, j xi x j M xi xj xj x j2    xi xj 1 xi M Ej : M diag xi 2 var k x i1 x j1 Chi-cuadrado ( χ2 ) 2 p 2 1 xik x jk p n d 2 i. j con xi xik xk xik k 1 x k xi xj k 1 i 1
  • 13. Universidad de Costa Rica CIMPA Datos cuantitativos (2) 1 p r Minkowski: r 0, d r i, j xik x jk r k 1 Chebychev o L : r d i, j max xik x jk j City-block, Manhattan o L1:  p  d1 i, j xik x jk     k 1 r 1 i
  • 14. Universidad de Costa Rica CIMPA Datos Binarios xik {0,1} xj = 1 xj = 0 xi = 1 aij cij ni xi = 0 bij dij nj p • Jaccard: d1(xi,xj) = 1 – aij/(aij + bij + cij) • Czekanowski: d2(xi,xj) = 1 –2 aij/(ni + nj) • Russel & Rao: d3(xi,xj) = 1 – aij/p
  • 15. Universidad de Costa Rica CIMPA Ejemplo de datos binarios Especies Var 1 Var 2 Var 3 Var 4 Var 5 Var 6 1 1 1 0 0 1 0 2 0 1 0 0 0 0 3 1 1 1 1 0 0 1 1 2 1 3 1 1 3 0 0 2 2 1 2 2 3 2 3 1 2 d Jacard 1,2 1 1 2 0 3 1 3 d Jacard 2,3 1 2 3 1 0 3 4 d Jacard 1,3 1 2 2 1 5
  • 16. Universidad de Costa Rica CIMPA Datos Cualitativos A: conjunto de modalidades (códigos) xij A Hamming: p d H i, j ij k k 1 con k 1 si xik xjk , # de veces que son ij {0 si x = x ik jk diferentes Euclídea: d i, j 2d H i , j p 2 ij k Chi-cuadrado: d i, j p2 k 1 nk Con nk : cardinal de modalidad k
  • 17. Universidad de Costa Rica CIMPA Tablas Mixtas Clases: Mismo tamaño Qt Ql histograma discretizar x Qt Mismo efectivo Optimas (Fisher) cuantificar 1.Ql Análisis de Correspondencias Múltiples C Ponderar 2. Qt  C d i, j pt d qt i, j pl d ql i, j
  • 18. Universidad de Costa Rica CIMPA Agregaciones Indices de disimilitud entre conjuntos de objetos : con A, B  A, B A, B 0 A, B B, A
  • 19. Universidad de Costa Rica CIMPA Agregaciones Generales •Salto mínimo min A, B min{ d i, j / i A, j B} A B •Salto máximo max A, B max{ d i, j / i A, j B} A B •Salto promedio 1 prom A, B d i, j B AB i A j B A
  • 20. Universidad de Costa Rica CIMPA Agregaciones Euclídeas •Ward (incremento de la inercia) AB 2 ward A, B I A B I A I B 2 gA gB A B •Distancia entre centros de gravedad A B 2 cg A, B gA gB
  • 21. Universidad de Costa Rica CIMPA Semejanza entre variables Medidas de asociación (simétricas): – Correlaciones: entre variables cuantitativas – Asociación entre variables cualitativas 2 2 , ,T 2 – Asociación entre variables binarias
  • 22. Universidad de Costa Rica CIMPA Clasificación Jerárquica • Construcción de un árbol jerárquico de clasificación • El dendrograma es fácil de interpretar en términos de clasificación
  • 23. Universidad de Costa Rica CIMPA Jerarquías H P es una jerarquía total si: H, H i : {i} H h1 , h2 H : h1  h2 ó h1 h2 ó h2 h1 Jerarquía binaria: h H : h1 , h2 H tq h1  h2 , h1  h2 h h 1
  • 24. Universidad de Costa Rica CIMPA Jerarquías Indexadas Jerarquía indexada: f :H R tq h1 h2 f h1 f h2 f {i} 0, f h 0 h {i} Indexada en sentido amplio: h1 h2 f h1 f h2 f     i j
  • 25. Universidad de Costa Rica CIMPA Clas. Jer. Ascendente Agrupar sucesivamente las clases (de individuos) más próximas (en el sentido de una agregación) 1. Considerar P0 = {{1},{2},...,{n}} k = 0 H = P0 2. Escoger en Pk a h1, h2 tq h1 , h2 mín{ a, b / a, b Pk } 3. Unir h1, h2: h h1  h2 Pk 1 Pk  {h1  h2 } {h1 , h2 } k k 1 H H  {h1  h2 } 4. Repetir 2 y 3 hasta que Pk = Indice: f h h1 , h2 donde h h1  h2
  • 26. Universidad de Costa Rica CIMPA La CJA paso a paso 1. Po {{a}, {b}, {c}, {d }, {e}, { f }} 2. Escoge {c},{d}, Forma {c,d} P {{a}, {b}, {c, d }, {e}, { f }} 1 3. Escoge {a},{b}, Forma {a,b} P2 {{a, b}, {c, d }, {e}, { f }} a b c d e f 4. Escoge {e},{f}, Forma {e,f} P3 {{a, b}, {c, d }, {e, f }} 
  • 27. Universidad de Costa Rica CIMPA Ilustracion de la CJA a b c d e Entrada: a 0 b 0 disimilitud c 0 d 0 i, j e 0 Si c, d, son los más cercanos: se forma grupo {c, d} Nueva •Eliminar fila / columna c y d tabla: a b {c, d } e •Calcular {c, d }, a a b {c, d }, b {c, d } {c, d }, e e
  • 28. Universidad de Costa Rica CIMPA Ejemplo 1: min a b c d a0 1 3 5.5 b 0 2 4.5 c 0 2.5 d 0 {a, b} c d {a, b} 0 2 4.5 c 0 2.5 3 d 0 2 1 {a, b, c} d a b c d {a, b, c} 0 2.5 d 0
  • 29. Universidad de Costa Rica CIMPA Ejemplo 1: max a b c d a0 1 3 5.5 b 0 2 4.5 c 0 2.5 d 0 {a, b} c d {a, b} 0 3 5.5 5 c 0 2.5 4 3 d 0 2 {a, b} {c, d } 1 {a, b} 0 5.5 a b c d {c, d } 0
  • 30. Universidad de Costa Rica CIMPA Ejemplo 1: prom a b c d a0 1 3 5.5 b 0 2 4.5 c 0 2.5 d 0 {a, b} c d {a, b} 0 2.5 5 tomar una decisión c 0 2.5 3 d 0 2 1 a b c d
  • 31. Universidad de Costa Rica CIMPA Resultados con prom {a, b, c} d {a, b} {c, d } {a, b, c} 0 4.16 {a, b} 0 3.75 0 d 0 {c, d } 5 5 4 4 3 3 2 2 1 1 a b c d a b c d
  • 32. Universidad de Costa Rica CIMPA Fórmula de recurrencia Lance & Williams (1967), Jambu (1978) h, h1  h2 a1 h, h1 a2 h, h2 a3 h1 , h2 a4 h, h1 h, h2 a1 a2 a3 a4 1 1 0 1 mín 2 2 2 1 1 1 2 2 0 2 máx h1 h2 prom h1 0 0 h2 h1 h2 h h1 h h2 h ward h h1 h2 h h1 h2 0 h h1 h2 h1 h2 h1 h2 cg h1 h2 2 0 h1 h2 h1 h2
  • 33. Universidad de Costa Rica CIMPA Ejemplo 2 2 1 3 4 5 •disimilitud 1 0 16 1 9 10 (distancia) 2 16 0 17 25 2 3 1 17 0 4 9 •agregación m in 4 9 25 4 0 13 5 10 2 9 13 0 6 2 5 4 8 7 6 7 4 1,3 6 0 16 9 4 1,3,4 8 0 9 1,3,4 6 0 9 4 2 16 0 2 25 5,2 7 9 7 9 0 0 13 5 9 2 0 13 4 4 13 0 4 4 25 13 0
  • 34. Universidad de Costa Rica CIMPA Ejemplo 2: Arbol Jer. 9 9 8 7 6 13 6 7 25 5 8 46 4 9 78 3 8 2 7 1 6 1 3 4 2 5
  • 35. Universidad de Costa Rica CIMPA Uso de la Fórmula de Recur. a b c d e a b {c, d } e a 0 25 18 25 10 a 0 25 21.5 10 prom b 0 30 40 34 b 0 35 34 {c, d } 0 16.5 c 0 10 15 e 0 d 0 18 {a, e} b {c, d } e 0 {a, e} 0 29.5 19 b 0 35 1 1 {c, d } 0 {c, d }, a c, a d, a 2 2 1 43 30 18 25 21.5 2 2 20 1 1 {a, e},{c, d } a,{c, d } e,{c, d } 2 2 10 1 38 21.5 16.5 19 c d a e 2 2 b
  • 36. Universidad de Costa Rica CIMPA Tabla de Notas CR Mate. Ciencias Espa. Hist. Ed. Fis. Lucia 7.0 6.5 9.2 8.6 8.0 Pedro 7.5 9.4 7.3 7.0 7.0 Ines 7.6 9.2 8.0 8.0 7.5 Luis 5. 6.5 6.5 7.0 9.0 Andres 6.0 6.0 7.8 8.9 7.3 Ana 7.8 9.6 7.7 8.0 6.5 Carlos 6.3 6.4 8.2 9.0 7.2 Jose 7.9 9.7 7.5 8.0 6.0 Sonia 6.0 6.0 6.5 5.5 8.7 Maria 6.8 7.2 8.7 9.0 7.0
  • 37. Universidad de Costa Rica CIMPA ACP de tabla de notas
  • 38. Universidad de Costa Rica CIMPA Ej.: notas escolares (CR) Arbol Jerárquico: ( Ward ) 0 1 Lucía María Andrés Carlos Luis Sonia Pedro Inés Ana José
  • 39. Universidad de Costa Rica CIMPA Clasificación (notas CR) Corte en tres clases: B = 19.72 Clase Mat Cie Esp His E.Fi Interpretación 1: Lucía, María, Andrés, Carlos 6.5 6.5 8.5 8.9 7.4 Humanística 2: Luis, Sonia 5.5 6.2 6.5 6.2 8.8 Flojos; Ed. Fís. 3: Pedro, Carmen, Ana, José 7.7 9.5 8.0 7.8 6.7 Buenos; Cient. Promedio general: 6.8 7.7 7.9 7.9 7.4
  • 40. Universidad de Costa Rica CIMPA Notas escolares (Fr.) Mate. Ciencias Historia Latín Ed. Fis. Jean 6 6 5 5.5 8 Alain 8 8 8 8 9 Anne 6 7 11 9.5 11 Monique 14.5 14.5 15.5 15 8 Didier 14 14 12 12.5 10 André 11 10 5.5 7 13 Pierre 5.5 7 14 11.5 10 Brigitte 13 12.5 8.5 9.5 12 Evelyne 9 9.5 12.5 12 18
  • 41. Universidad de Costa Rica CIMPA Clasificación (notas Fr.) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Jean Alain Andr Ana Pier Evel Didr Moni Brig
  • 42. Universidad de Costa Rica CIMPA Ejemplo Pintores Color Expresividad Composició Diseño n Bassano 6 8 17 0 Bellini 4 6 14 0 Certona 16 14 12 6
  • 43. Universidad de Costa Rica CIMPA Clasificación de Pintores Perugivo Durero Pordenone Del Piombo Murillo Da Udien Bassano Bellini Guercino Cortona Teniers Tintoretto Veronesse Holbein Van Dyck Rembrandt Rubens Rafael Pousini Da Vinci Romano O. L. Jordans Del Sarto
  • 44. Universidad de Costa Rica CIMPA Interpretación (pintores) Excelente color: 15.0 Excelente expres: 16.6 Pésima composic: 4.6 Buen color: 13.0 Excelente diseño: 14.6 Excel. Expres: 15.8 Color normal: 11.0 Def. Compos: 6.0 Excel. expres: 15.0 Diseño normal: 11.0 Defic. compos: 7.3 Def. diseño: 7.3
  • 45. Universidad de Costa Rica CIMPA Clientes de sist. eléctrico Curva de carga: max 0 24 Se nencesita conocer el comportamiento del consumo de los clientes para decidir cuales torces se conectan a ciertas horas. tarifas eléctricas x sectores (residencial, industrial,…) Aplicación de método de nubes dinámicas y de clasificación jerárquica de Ward.
  • 46. Universidad de Costa Rica CIMPA Inversiones en CJA Sea H , f Inversión: Si h, h H tq h h h f h f h h  Propiedad ( Diday, 1981 ) : •( H, f ) jerarquía indexada en sentido amplio •Condición local:  f h  h i j hi  h j  f  hi VI hi hj f hj
  • 47. Universidad de Costa Rica CIMPA Teorema de Batalegj-Diday •Condición global:   ff hh  h  i j hi , h j     h  ih j i    P h    hi h1 i 1 hj hi 2 h j hi 1 , h j hi 2 Teorema de Batalegj - Diday No hay inversiones al usar la fórmula de L-W si y sólo si: a)a4 mín{a1 , a2 } b)a1 a2 0 c)a1 a2 a3 1 Hay inversiones a4 mín{a1 , a2 } a1 a2 0, a1 a2 a3 1
  • 48. Universidad de Costa Rica CIMPA CJ Descendente Problema combinatorio: 2n-1-1 dicotomías • Williams & Lambert: cada variable genera dicotomía tomar la que maximiza Var Inter. • Hubert: tomar clase de mayor diámetro, agregar alrededor de los “polos” • Roux: inercia asociada a una bipartición (pares) • Lacoste: análisis factorial • Cavalli-Sforza: · todas las dicotomías · escoger la que mín W
  • 49. Universidad de Costa Rica CIMPA Teorema de Benzécri Existe una biyección entre el conjunto J de jerarquías indexadas de e y el conjunto U de ultramétricas s / . :J U con H, f con i, j mín{ f h / i, j h} :U J con s H, f con: H={clases de equivalencia de R / 0} f h inf{ 0/ h P x} con: iR j i, j P : Partición inducida por R Lema: h P f h Si max{ i, j P P 0 {{i} / i } •H es una jerarquía indexada Si h1 , h2 H : h1 P 1 , h2 P 2 : •si 1 2 h1  h2 •si 1 2 h1 h2
  • 50. Universidad de Costa Rica CIMPA Consecuencias  , son inversas  H, f H, f una de la otra Consecuencia: medir “distancias” en un árbol jerárquico, es medir una ultramétrica i, j  i j
  • 51. Universidad de Costa Rica Aproximación de una CIMPA ultramétrica Sea d una disimilitud sobre d i, j sup{ i, j / ultram. , i, j d i, j } Entonces d es una ultramétrica (el máximo se alcanza) Problema de optimización: 2 hallar ultramétrica tq Mín d , d i, j i, j i, j Construcción de la subdominante Arbol de longitud mínima: Si A es un árbol de longitud mínima sobre entonces d(i,j) = longitud del camino de i a j. •Algoritmo de Kruskal Ejemplo: •Algoritmo de Prim (1957) •red telefónica •Clasificación jerárquica (salto mínimo) •Pb transporte •Algoritmo de Roux •conexión de terminales de computador
  • 52. Universidad de Costa Rica CIMPA Corte del árbol una partición C1 {a, b, c} C2 {d , e, f } a b c d e f f h •“Mayor salto” del índice •Método del codo: inercias (caso cuantitativo ) Wk Max w Wk 1 •Control difuso •Mojena, Jambu, Lerman,...
  • 53. Universidad de Costa Rica CIMPA Observaciones a la CJA Ventajas •Es fácil de interpretar •Complejidad O ( n2 ) •Dadas d y , hay una única solución. Desventajas • Se ajusta los datos a una ultramétrica • Resultado depende de y de cómo resolver las igualdades • Una jerarquía impone restricciones de inclusión • Cargar en memoria tabla de n2 disimilitudes