SlideShare una empresa de Scribd logo
1 de 58
proceso de datos aplicadocon barbwin 7 nivel avanzado robertogil sauradepartamento de desarrollo tesi robertogil@tesigandia.com http://www.tesigandia.com Departamento Desarrollo TESI 1
módulo 1. introducción al análisis de datos proceso de datos aplicado Departamento Desarrollo TESI 2
etapas del proceso de datos preparación de los datos para el análisis creación de la base de datos codificación de la información cualitativa registro o grabación de la información adecuación de los datos a las necesidades de análisis análisis básico de los datos análisis descriptivo univariante análisis cruzado o tabulación análisis avanzado de los datos análisis multivariante de la información reducción de datos clasificación Departamento Desarrollo TESI / 3
creación de la base y preparación del proceso base de datos (matriz de trabajo)‏ preguntas (variables en columnas) en columnas individuos (registros, cuestionarios) en filas nivel de análisis redacción del plan de tabulación documento que guía el análisis tabulación básica obtención de marginales de los datos de muestra y de perfil social (sección de clasificación)‏ obtención de marginales de las preguntas del cuestionario (sección de preguntas temáticas)‏ obtención de descriptivos y recuentos anexos tabulación cruzada (clasificación por temáticas)‏ tabulación avanzada aplicación de filtros clasificatorios y obtención de tablas temáticas gráficos fundamentales análisis avanzado de la información Departamento Desarrollo TESI / 4
plan de análisis el plan de análisis, tabulación o explotación, es un documento de trabajo que debe ser diseñado para cumplir con tres propósitos … 1) proporcionar datos de la  muestra total de forma descriptiva. 2) determinar mediante tabulación qué diferencias existen entre subgrupos socio - demográficos y actitudinales dentro de la muestra. 3) seleccionar cualquier otro tipo de análisis complejo univariado, bivariado o multivariado necesario para ayudar a interpretar los resultados.  Departamento Desarrollo TESI / 5
escalas de medida Departamento Desarrollo TESI / 6 escala métrica, de razón o proporcional + cuanti tativa escala de intervalo escala ordinal tipos de escala de medida cuali tativa - escala nominal
módulo 2. análisis de variables individuales (univariante) proceso de datos aplicado Departamento Desarrollo TESI 7
análisis univariante – escalas nominal y ordinal cálculo de frecuencias valores reales del fichero (recuento) valores por intervalos (tabulación de marginales) aporta... información sobre el número de apariciones % que representa ese número de apariciones sobre  el total de muestra acumulado de los % a tener en cuenta bases de pregunta niveles de análisis en variables múltiples, base casos o base respuestas caso especial: moda valor/es más repetido/s en la distribución; una distribución puede ser multimodal. Departamento Desarrollo TESI / 8
análisis univariante – escala ordinal y de intervalo medida de tendencia central mediana valor que deja el 50% de los casos de la distribución por arriba y por abajo del mismo. si no existe valor exacto, siempre toma aquel valor que se acerca más al 50%.  de la misma forma, el primer cuartil, valor que deja el 25% de los casos por detrás y el 75% de los casos por delante en la distribución. si no existe valor exacto, siempre toma aquel valor que se acerca más al 25%. por último, el tercer cuartil, valor que deja el 75% de los casos por detrás y el 25% de los casos por delante en la distribución. si no existe valor exacto, siempre toma aquel valor que se acerca más al 75% Departamento Desarrollo TESI / 9
análisis univariante – escala de razón e intervalo cálculo de frecuencias valores reales del fichero (recuento) valores por intervalos (tabulación de marginales) aporta... información sobre el número de apariciones porcentaje que representa ese número de apariciones sobre  el total de muestra acumulado de los porcentajes cálculo de estadísticos medidas de caracterización (máximo, mínimo, rango) medidas de tendencia central (media, mediana) medidas de dispersión (desviación coeficiente variación, varianza) medidas de error (error, intervalo de confianza) Departamento Desarrollo TESI / 10
análisis univariante Departamento Desarrollo TESI / 11 escala de razón e intervalo
análisis univariante – estadísticos Departamento Desarrollo TESI / 12  (escala de razón o proporción métrica y algunas ordinales)
pruebas sobre una muestra estas pruebas persiguen caracterizar la distribución para asumir una serie de propiedades o alternativas para las variables analizadas. binomial la distribución binomial es la distribución muestral de las proporciones observadas en muestras tomadas de forma aleatoria de una población de dos clases. nuestra hipótesis nula será en este caso la pertenencia de los datos de proporción a una población particular. esta es una prueba de la bondad del ajuste a la distribución binomial.  jhi2 en algunas ocasiones el investigador se plantea por el número de sujetos, objetos o respuestas  que se clasifican en diferentes categorías. la prueba c2 es adecuada para analizar este supuesto ya que puede utilizarse para analizar si la diferencia entre los observado y lo esperado en una determinada distribución arrojan unas diferencias significativas.  kolgomorov-smirnov prueba estadística en la que compramos las frecuencias relativas acumuladas (esperadas y observadas) de las distribuciones (uniforme o normal) para saber si los datos de que disponemos pueden provenir de una muestra con esas características.  Departamento Desarrollo TESI / 13
módulo 3. análisis entre dos variables (bivariante) proceso de datos aplicado Departamento Desarrollo TESI 14
análisis bivariante escalas nominales, ordinales y de intervalo en ocasiones, no sólo nos interesa conocer las medidas más importantes de una variable, sino también las relaciones entre ellas. para ello acudimos a las tablas de contingencia. ¿cómo se lee una tabla? conocer la muestra mediante los marginales de fila en cabecera mirar las variables y sus categorías mirar los marginales de filas y columnas mirar relaciones celda / totales dentro de la tabla (prueba jhi²)‏ ¿cómo se leen los porcentajes? porcentajes verticales  o calculados en base al total de la columna porcentajes horizontales o calculados en base al total de la fila porcentajes totales o calculados en base a la n de muestra total para la variable seleccionada (eliminando filtros o bases no deseadas) Departamento Desarrollo TESI / 15
análisis de tablas cruzadas - tabulación de casos marginal bivariada bivariada con estadísticos 3d – tridimensional de grupos de casos marginal bivariada bivariada con estadísticos 3d – tridimensional Departamento Desarrollo TESI / 16
condiciones / segmentación en las tablas concepto de base:  fila de la tabla de contingencia que nos informa de un cambio en el total de registros que se utilizan como “base”  para el cálculo de porcentajes, generando un nuevo subtotal que será base 100%. concepto de filtro columna de la tabla de contingencia que nos informa de un cambio en el total de registros que se utilizan como “base”  para el cálculo de porcentajes, generando un nuevo subtotal que será base 100%. los porcentajes  siempre deben mostrarse con un rango de 0 a 100, evitar el uso de ,00 (decimales) si el error de la muestra es mayor al 1%. Departamento Desarrollo TESI / 17
pruebas de asociación o independencia Departamento Desarrollo TESI / 18 conjunto de pruebas que nos miden si hay asociación o independencia entre las celdas relacionadas en la tabla. jhi² (de celda,  pearson), se pretende con este test, válido para escalas nominales pero extensivo al resto, ver de un solo vistazo aquellas celdas cuyo porcentaje (vertical) es significativamente mayor (>) o menor (<) al porcentaje que cabría esperar ante un comportamiento proporcional de las categorías testadas en sus marginales. (significación < 0,05, valor de comparación 3,84) jhi² (de tabla, pearson), se pretende con esta prueba analizar la relación existente entre dos variables medidas en escalas nominales, ordinales o de intervalo (en menor medida) si existe relación de dependencia entre ambas o si su relación sólo es debida a efectos aleatorios de la muestra. a mayor valor de jhi², mayor grado de dependencia (significación < 0,05). v de cramer, igual objetivo que el anterior, pero sitúa entre 0 y 1 los valores extremos de la prueba. basado en jhi², ofrece un valor 1 cuando las variables son absolutamente dependientes (diagonal principal) y un 0 cuando son absolutamente independientes (equitativamente distribuidos).
limitaciones de jhi² es una técnica de aproximación, no exacta. por ello, a menor muestra, más pequeño debe ser el nivel de significación para tomar la decisión con relativa seguridad. en esencia, la prueba parte de una utilización de variables continuas, sin embargo se utiliza con variables nominales, lo cual genera una incorrección, que sólo es insalvable en las tablas de 2x2, donde se utiliza la corrección por continuidad de yates. es una prueba que depende de la unidad de medida, efecto que salvan otras pruebas como v de cramer. la disparidad entre la aproximación de pearson y la distribución jhi aumenta conforme disminuye n. utilizar probabilidad exacta de fisher si hay frecuencias menores a 5. el modelo puede no funcionar correctamente cuando existen frecuencias esperadas inferiores a 5. se considera válido si menos del 20% de las celdas tienen frecuencias esperadas inferiores a 5. caso de no ser así, no queda más remedio que agrupar categorías columna o fila. Departamento Desarrollo TESI / 19
pruebas de significación t - student para contraste de proporciones o medias e muestra indepenedientes en esta prueba se trata de ver si las diferencias entre las columnas porcentuales dentro de una misma categoría en una variable son significativas en la población de la cual se extrajeron las muestras prueba equivalente para la media aritmética esta prueba sólo se realizará si las muestras provienen de poblaciones que son independientes formatos de ejecución con base real o base ponderada con datos de una columnas de variable o columnas de tabla diferentes niveles de confianza Departamento Desarrollo TESI / 20
pruebas de correlación (1)‏ objetivo, medir relación métrica y lineal cuando la variables de las que se desea calcular la relación son numéricas métricas se aplica la correlación de pearson o análisis de regresión simple si no es métrica la relación ante relaciones entre otro tipo de escalas acudiremos a las pruebas no paramétricas donde coexisten spearman o los diferentes coeficientes de kendall. valores los valores suelen estar en la mayoría de coeficientes entre [ -1 ≥ r ≤ 1] tipo de relación lineal directa inversa Departamento Desarrollo TESI / 21
pruebas de correlación (2)‏ pearson ... nos indicará si existe relación entre las variables analizadas, cuantifica esa relación y el signo del coeficiente muestra la dirección de la misma. spearman ...conocido como “rho”, es una medida de asociación que requiere que al menos una de las dos variables que intervengan en el análisis esté reflejando ordenaciones, es decir, medición ordinal. tau de kendall ... tiene igual funcionamiento que el coeficiente de rangos de spearman y es muy utilizado para mediciones medias de jueces. valora la relación entre las ordenaciones otorgadas por los jueces, teniendo en cuenta las concordancias y las discordancias. concordancia de kendall (w)‏ ... se diferencia de los anteriores por trabajar con k ordenaciones en lugar de con 2 ordenaciones. Departamento Desarrollo TESI / 22
análisis de la varianza descripción el análisis de la varianza es un método explicativo que se utiliza para comprender la relación existente entre dos variables (nominal :: explicativa o independiente:: y otra métrica :: cuantitativa a explicar::)  objetivo el modelo de cálculo implica analizar si las puntuaciones medias de la variable dependiente en cada uno de los cortes o grupos de la variable independiente pueden diferir significativamente.  la prueba está basada en el análisis de las sumas de cuadrados explicadas entre los grupos y también intra grupo. la suma de cuadrados de la variable total viene expresada por la suma de las dos anteriores.  lectura de la prueba se dice que hay una relación de dependencia entre ambas variables cuando la fuente de variación inter grupo es superior a la fuente de variación intra grupo. estadístico la existencia de esa relación viene materializada por el uso del estadístico f.  la hipótesis nula es la igualdad de medias entre los grupos.  si rechazamos esta hipótesis, es decir si el estadístico f es significativo (<0,05), rechazaremos la ho y aceptaremos la existencia de relación entre las variables. las puntuaciones medias de la variable dependiente están condicionadas por la pertenencia al grupo de la independiente.  Departamento Desarrollo TESI / 23
regresión simple Departamento Desarrollo TESI / 24 descripción se usa para detectar la relación de dependencia entre dos variables medidas en escala métrica o de intervalos, es decir, cuantitativas. los objetivos de este análisis son: determinar si la variable explicada lo es por medio de la variable explicativa determinar el tipo de relación entre ambas variables conocer la intensidad de la relación entre las variables.  el análisis se realiza por medio del estudio de las fuentes de variación de las variables: suma de cuadrados  de la variable a explicar, sumatorio de la diferencia cuadrática del sumatorio de los valores de la variable a explicar menos su media. suma de cuadrados de la regresión, sumatorio de la diferencia cuadrática de los valores predichos por la regresión menos su media suma de cuadrados residual, sumatorio de la diferencia cuadrática de los valores reales de la variable a explicar menos los valores predichos por el modelo. la ecuación que representa el modelo es y=b0+b1x+e b0 es el término independiente,  b1 es el moderador o multiplicador del valor de x  e, el término residual.  b0 indica el valor que tomaría y en el caso de que x fuera 0.  b1 >0 indica que un aumento en la variable explicativa, repercutiría en la variable a explicar en un aumento de esa cantidad proporcional. b1 >0 indica que una aumento en la variable explicativa, repercutiría en la variable a explicar en una disminución en esa cantidad proporcional. ambos coeficientes deben ser significativos para la aceptación del análisis, dado que así confirmamos su participación real en el modelo.
proceso de datos aplicado Departamento Desarrollo TESI 25 módulo 4. análisis entre n variables (multivariante)
supuestos paramétricos en multivariado normalidad en las mediciones los test de significatividad pueden dejar de ser válidos igualdad de varianzas (homocedasticidad) en todos los niveles de la variable dependiente afecta al error típico, y por tanto a los test de significatividad linealidad en las relaciones sólo aplicable a aquellas técnicas que se basan en la correlación lineal de los datos independencia entre las observaciones la probabilidad de ocurrencia de un evento no afecta a la probabilidad de ocurrencia de otro tamaño muestral suficiente para la técnica elegida Departamento Desarrollo TESI / 26
criterios de clasificación del multivariado dependencia técnicas de interdependencia técnicas de dependencia objetivo de la técnica modelización lineal (regresión)‏ reducción de datos, comprensión del espacio muestral clasificación de sujetos u objetos en la muestra fiabilidad de escalas Departamento Desarrollo TESI / 27
técnicas objeto de este módulo regresión lineal múltiple modelo forward stepwise reducción de datos análisis de correspondencias análisis de correspondencias múltiple factorial de componentes clasificación segmentación (jhi², a.i.d.)‏ cluster jerárquico y k medias fiabilidad de escalas alpha de cronbach Departamento Desarrollo TESI / 28
regresión múltiple proceso de datos avanzado 29
análisis de regresión lineal múltiple definición y utilidad paradigma de las técnicas de dependencia y base de una gran parte de las técnicas multivariantes, su objetivo es explicar el comportamiento de una variable dependiente a partir de las relaciones entre variables independientes. trata de captar los efectos de cada variable por separado. analizamos sólo ols (mínimos cuadrados ordinarios)‏ grado de utilización en la práctica en desuso como tal, porque se está modelando hoy en día con evoluciones o especificaciones del mismo: logit, probit, logística, etc. condiciones para el análisis variables de tipo numérico con las que se cree puede haber una relación lineal. linealidad de parámetros existencia de perturbación estocástica en el modelo con media igual a 0 homocedasticidad ausencia de correlación serial ausencia de multicolinealidad matriz de datos no estocástica e independiente Departamento Desarrollo TESI / 30
términos utilizados (1)‏ modelo utilizado: paso a paso en este tipo de metodología, las variables se incorporan una a una, comenzado por aquella que tiene un mayor poder explicativo de la variable dependiente. excepciones se puede combinar con una metodología de forzado de participación suma de cuadrados explicada por la variable actual total de la varianza explicada por el modelo que aporta la variable que se introduce en el paso n r cuadrado de la variable % de la varianza explicada por el modelo que aporta la variable que se introduce en el paso n suma de cuadrados explicada por las variables (acumulado)‏ total de la varianza explicada por el modelo que aportan las variables introducidas en el modelo hasta el paso n r cuadrado de las variables (acumulado)  % de la varianza explicada por el modelo que aportan las variables introducidas en el modelo hasta el paso n Departamento Desarrollo TESI / 31
términos utilizados (2)‏ Departamento Desarrollo TESI / 32 suma de cuadrados total total de la varianza explicada por el modelo que aportan las variables introducidas al final del modelo. coeficiente de correlación múltiple bondad del ajuste producido por la totalidad del modelo (R2>=0,7); cociente entre la suma de cuadrados de la regresión y la suma de cuadrados explicada. coeficiente de correlación múltiple ajustado a los grados de libertad bondad del ajuste producido por la totalidad del modelo, y corregido al número de variables y tamaño muestral. aumenta muy poco  con el aumento de variables explicativas. error estándar de estimación y error estándar de estimación ajustado a los grados de libertad estimación del error que se produce en el modelo     R2 mala notación en barbwin
términos utilizados (3)‏ 33 predicción por el modelo valor de la variable dependiente utilizando el modelo lineal de regresión residuo diferencia entre el valor real y el predicho por el modelo coeficiente de regresión valor que permite medir la relación de la variable independiente con la dependiente del modelo. normal, dirección de la relación entre explicativa y explicada en el sentido indicado por el signo  estandarizado, importancia de la variable en la explicación de la variable explicada error estándar de regresión medida de precisión de los coeficientes de regresión proporcional al error de estimación e inversamente proporcional a la variabilidad de la variable, descontada la del resto de variables del modelo. valor t - sudent y significación prueba inferencial que aporta la significatividad de la relación lineal planteada específicamente para el regresor especificado valor f para el análisis de varianza y significación prueba inferencial que aporta la significatividad de la relación lineal planteada en el conjunto del modelo.
análisis de residuales	 34 interpretación de coeficientes beta interpretación de los beta estandarizados análisis de los residuales (eliminación de outliers) normalización de la variable residual eliminación de los que estén sobre 2 desviaciones
correspondencias proceso de datos avanzado 35
análisis de correspondencias simple y múltiple concepto y utilidad análisis geométrico que permite visualizar la relación geométrica entre las categorías que conforman una tabla de contingencia. permite conocer las asociaciones que se producen entre las categorías de columna y fila y entre ellas mismas. condiciones de utilización variables de cualquier tipo que conformen una tabla de contingencia. se trabajará con los datos cualitativos de la misma. grado de utilización en la práctica muy utilizado para realizar posicionamientos de atributos y marcas. máximo número de dimensiones menor número de filas o columnas -1 (máximo de 6 en barbwin)‏ Departamento Desarrollo TESI / 36
términos utilizados perfiles de fila y columna (no impresos)‏ el perfil es un vector que contiene las frecuencias relativas de cada fila o columna. resultado del cociente entre la celda y su total fila o columna; en gandiabarbwin son los porcentajes verticales y horizontales en el análisis. son utilizados para calcular la distancia entre todas las categorías. distancia (no impresas)‏ operación realizada para obtener una medición de la separación o cercanía entre las categorías analizadas, se utiliza la distancia jhi² masa representa el peso de cada categoría de fila o columna sobre el total de la muestra, es decir,  porcentajes totales de categoría. valor propio o inercia (peso) resultado de operar la masa con la distancia, es el indicativo del peso que tendrá cada variable original en las dimensiones finales. contribuciones absolutas indica el peso que cada punto de fila o columna (de forma independiente) tiene en el total de la dimensión contribuciones relativas indican el peso de cada dimensión en cada categoría de fila y columna distancia al centroide (baricentro)‏ medida de la separación de cada categoría del centro del la representación gráfica Departamento Desarrollo TESI / 37
“reglas” de interpretación 38 estas reglas son una idea general, la intepretación subjetiva del investigador, al igual que un ejercicio estimativo es muy importante en este análisis ,[object Object]
proximidad entre puntos columna, tienen los mismos puntos fuertes y débiles o características parecidas, se asocian igual,
proximidad al origen, distribución poco discriminadora, muy parecida a la distribución total,[object Object]
componentes principales proceso de datos avanzado 40
análisis de componentes principales concepto y utilidad prueba muy conocida y utilizada que permite reducir el espacio dimensional de un conjunto multivariante de datos a un conjunto de factores cuya composición proviene de combinaciones lineales y normales que maximizan la representatividad de los datos originales y minimizan la pérdida de información. en la práctica permite reducir y agrupar el número de dimensiones de un problema condiciones de utilización variables con escala al menos de intervalo. matriz de individuos por variables.  correlaciones significativas entre las variables que participan. se comparte las mismas fuentes de variabilidad, es decir que las correlaciones sean elevadas. 5-15 registros por variable variantes infinidad, presentadas para estructuras de datos específicos: componentes principales, factorial, máxima verosimilitud, alpha, etc. … máximo número de componentes igual número que variables originales incluidas en la estructura de datos situación ideal pocos componentes explican mucha varianza, pero suficientes como para poder expresar la multidimensionalidad de una estructura Departamento Desarrollo TESI / 41
términos utilizados (1)‏ saturaciones o cargas peso de la variable en cada componente o factor el ideal es que cada variable tenga saturaciones altas en un único factor y bajas en el resto. matriz de correlaciones matriz que nos permite observar a simple vista los coeficientes de correlación de pearson entre las variables que intervienen en el análisis. prueba de esfericidad de bartlett prueba que reafirma la viabilidad del análisis de componentes principales, pues testa que la matriz de correlaciones es significativamente diferente de la matriz identidad. en este caso, la nube de puntos sería una esfera. si se obtiene un valor de jhi² que si es significativo, se rechaza la hipótesis nula de esfericidad o incorrelación. valor propio este valor indica la varianza de la matriz de correlaciones explicada por el componente o factor.  Departamento Desarrollo TESI / 42
términos utilizados (2)‏ solución directa / rotada directa -> matriz de pesos factoriales donde se puede observar la participación o peso de cada variable en el componente rotada -> ídem tras la rotación de los ejes factoriales. contribuciones absolutas cada celda muestra el porcentaje de participación de cada variable en el componente extraído. el porcentaje es vertical. contribuciones relativas (1) la primera fila de valores muestra el porcentaje de participación  de cada variable en los diferentes factores extraídos y por tanto suma 100. (2) la segunda fila de valores muestra el porcentaje de participación  de cada variable en los diferentes factores, contabilizando los extraídos y los no extraídos. comunalidad final proporción de la varianza inicial de una variable explicada por el componente o factor. suma de los cuadrados de las saturaciones de una variable en todos los factores. rotación método matemático utilizado para rotarlos ejes factoriales y facilitar el análisis de los investigadores. varimax que tiende a que cada variable cargue mucho en un componente y poco en el resto. el método de componentes principales extrae componentes con baja correlación. Departamento Desarrollo TESI / 43
técnicas de clasificación concepto y utilidad conjunto de técnicas con una orientación común hacia la clasificación de la información, donde agrupamos técnicas de interdependencia y técnicas de dependencia. la elección de una u otra dependerá del tipo de información de partida y destino que se tenga y requiera. tipos segmentación cluster discriminante Departamento Desarrollo TESI / 44
segmentación proceso de datos avanzado 45
segmentación Departamento Desarrollo TESI / 46 técnica de clasificación que tiene como objetivo la elaboración de subgrupos muestrales en base a el mayor poder de explicación en la variable dependiente. segmentación aid técnica de segmentación que basada en el análisis de varianza, parte del intento de clasificar una muestra a partir de dicotomías grupales en las variable independientes que serán cualitativas y codificadas segmentación jhi² técnica de segmentación que basada en la realización de pruebas jhi², parte del intento de clasificar una muestra a partir de dicotomías grupales en las variable independientes que serán cualitativas y codificadas segmentación de jhi² tabla técnica de segmentación que basada en la realización de pruebas jhi² de tabla, parte del intento de clasificar una muestra a partir de la búsqueda de la asociación más alta en pruebas de asociación.
segmentación Departamento Desarrollo TESI / 47 condiciones para el análisis variable dependiente de tipo numérica métrica en aid, e independientes cualitativas y codificadas variable dependiente como dicotomía en una muestra, numérica métrica en jhi², e independientes cualitativas y codificadas variables codificadas con diferentes niveles en jhi² de tabla.  ejecución en gbw disponemos de dos peculiaridades … forzar al test de un grupo con el resto agrupar por continuidad de categoría fijación de un número mínimo de casos para considerar el grupo fijación del nivel de segmentación máximo
cluster proceso de datos avanzado 48
tipología, cluster o análisis de conglomerados definición y utilidad  conjunto de técnicas cuyo fin último es la clasificación de la información en base a una serie de atributos relevantes señalados por el investigador; para ellos se utilizan las similitudes entre las valoraciones dadas a los atributos señalados. ejecución en barbwin selección de variables de tipo numérico métrico o de tipo nominal. las variables nominales o múltiples se binarizan, el proceso de binarización (0/1) es interno y automático, resultando en nueva variable para cada código. Departamento Desarrollo TESI / 49
análisis cluster tipos cluster jerárquico, análisis en el que se parte de una agrupación unitaria a una agrupación total. análisis asociativo. basado en el cálculo de distancias entre objetos. cluster no jerárquico o k medias, análisis en el que hay una conjetura inicial sobre el número de grupos a formar y se itera el método de clasificación hasta clasificar toda la información en el número de grupos marcados. análisis partitivo o de optimización. basado en la distancia del objeto al grupo formado. condiciones para el análisis representatividad muestral ausencia de multicolinealidad Departamento Desarrollo TESI / 50
tipos de cluster jerárquico k-medias 51 ascendente y aglomerativo, se pasa de n objetos en n grupos a n objetos en 1 grupo trabajo con matriz de distancias se trabajan criterios de pertenencia (mínimo, máximo, mediana, centroide) no requiere de matriz de proximidades permite tamaños de muestra mucho más amplios se eligen los grupos a priori la iteración conlleva reasignación de individuos en grupos en marketing se usan los métodos de reasignación el proceso finaliza cuando no se puede mejorar la reasignación de los grupos
terminología (1)‏ distancia euclídeas o euclídeas al cuadrado si los datos son mediciones. recordemos que la distancia euclídea al cuadrado reforzará más las distancias entre los puntos de un plano. jhi² si los datos a agrupar son frecuencias (sólo no jerárquico). método de análisis distancia mínima (single linkage), agrupa a aquellos casos que tengan una menor distancia entre ellos; la distancia entre objetos y cluster es la distancia entre el objeto y el objeto más próximo del grupo. distancia máxima (complete linkage), agrupa en función de la distancia entre los puntos más alejados; la distancia entre objeto y cluster es la distancia entre el objeto y el objeto más alejado del grupo.  agrupación de centroides, donde la distancia se calcula al centro de gravedad del grupo, definido por la media de las distancias entre los objetos del grupo. el centro del nuevo grupo es la media directa de los dos centroides; minimiza la influencia de los outliers. agrupación de medianas , variación del anterior que pondera por el nº de grupos que hay a la hora de calcular el centroide del nuevo grupo. Departamento Desarrollo TESI / 52 Lejanos Próximos
criterios de asignación 53 mínimo centroide máximo mediana
terminología (2)‏ en cluster no jerárquico, puntos de partida k primeros k aleatorios k con máxima distancia k del jerárquico k del usuario k más numerosos cálculo de distancias distancia de cada individuo al centro del cluster distancia promedio de todos los individuos que pertenecen al centro matriz final de distancias intra y entre los clusters.  variable de grupo guarda el código de grupo de pertenencia en el cluster. dendograma análisis de varianza correlaciones entre los clusters análisis post-hoc de variables activas, media de las variables que participan en el grupo de variables pasivas, cruces y jhi2, t-student Departamento Desarrollo TESI / 54
fiabilidad proceso de datos avanzado 55
análisis de fiabilidad definición y utilidad método que nos permite analizar la precisión de la relación lineal y sumativa de las valoraciones ofrecidas a diferentes ítems que conforman dimensiones de una dimensión de mayor rango mejor explicada por el conjunto de variables que por sí misma. condiciones para el análisis variables de medición mayor fiabilidad a mayor cantidad de ítems ejecución en gbw en gandiabarbwin se utiliza el alpha de cronbach como medida de la fiabilidad de escalas Departamento Desarrollo TESI / 56
métodos de análisis y terminología (1)‏ método normal, incluye todas las variable del análisis aunque su varianza sea 0. covarianzas, elimina del análisis aquellas variables que tienen varianza 0. análisis de varianza técnica bivariante o multivariante que permite analizar la relación entre las medias de los grupos y la media total en diferentes niveles de la variable de agrupación entre personas cada persona es analizada como un grupo; se analiza la diferencia entre las medias individuales de las puntuaciones en el conjunto de elementos con la media global de todos los elementos de la escala intra personas cada persona es analizada como un grupo; se analiza la diferencia entre las puntuaciones individuales e cada elemento de la escala con las medias de cada individuo en la escala entre medidas se analiza la diferencia entre las puntuaciones individuales de cada elemento en relación con la media de la muestra para cada elemento Departamento Desarrollo TESI / 57

Más contenido relacionado

La actualidad más candente

Validez y confiabilidad
Validez y confiabilidadValidez y confiabilidad
Validez y confiabilidad
jamarg0811
 
Mann Whitney U Test And Chi Squared
Mann Whitney U Test And Chi SquaredMann Whitney U Test And Chi Squared
Mann Whitney U Test And Chi Squared
guest2137aa
 
Validez y confiabilidad, Noguera/Gutierrez
Validez y confiabilidad, Noguera/GutierrezValidez y confiabilidad, Noguera/Gutierrez
Validez y confiabilidad, Noguera/Gutierrez
ogp72
 
Multidimensional scaling
Multidimensional scalingMultidimensional scaling
Multidimensional scaling
H9460730008
 
Inferential statistics (2)
Inferential statistics (2)Inferential statistics (2)
Inferential statistics (2)
rajnulada
 

La actualidad más candente (20)

Investigacion Correlacion
Investigacion CorrelacionInvestigacion Correlacion
Investigacion Correlacion
 
Capítulo 10 análisis de los datos cuantitativos
Capítulo 10 análisis de los datos cuantitativosCapítulo 10 análisis de los datos cuantitativos
Capítulo 10 análisis de los datos cuantitativos
 
Confiabilidad y validez de un instrumento
Confiabilidad y validez de un instrumentoConfiabilidad y validez de un instrumento
Confiabilidad y validez de un instrumento
 
One Way ANOVA and Two Way ANOVA using R
One Way ANOVA and Two Way ANOVA using ROne Way ANOVA and Two Way ANOVA using R
One Way ANOVA and Two Way ANOVA using R
 
Logistic Regression in Case-Control Study
Logistic Regression in Case-Control StudyLogistic Regression in Case-Control Study
Logistic Regression in Case-Control Study
 
Prueba de normalidad
Prueba de normalidadPrueba de normalidad
Prueba de normalidad
 
Validez y confiabilidad
Validez y confiabilidadValidez y confiabilidad
Validez y confiabilidad
 
Mann Whitney U Test And Chi Squared
Mann Whitney U Test And Chi SquaredMann Whitney U Test And Chi Squared
Mann Whitney U Test And Chi Squared
 
Validez y confiabilidad, Noguera/Gutierrez
Validez y confiabilidad, Noguera/GutierrezValidez y confiabilidad, Noguera/Gutierrez
Validez y confiabilidad, Noguera/Gutierrez
 
Validez y métodos de aplicación
Validez y métodos de aplicaciónValidez y métodos de aplicación
Validez y métodos de aplicación
 
Escalas de medicion
Escalas de medicionEscalas de medicion
Escalas de medicion
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
Coeficiente de correlación de pearson y spearman
Coeficiente de correlación de pearson y spearmanCoeficiente de correlación de pearson y spearman
Coeficiente de correlación de pearson y spearman
 
Medición_validez_confiabilidad en los diseños cuantitativos de investigación
Medición_validez_confiabilidad en los diseños cuantitativos  de investigaciónMedición_validez_confiabilidad en los diseños cuantitativos  de investigación
Medición_validez_confiabilidad en los diseños cuantitativos de investigación
 
Multidimensional scaling
Multidimensional scalingMultidimensional scaling
Multidimensional scaling
 
Inferential statistics (2)
Inferential statistics (2)Inferential statistics (2)
Inferential statistics (2)
 
Inferential statictis ready go
Inferential statictis ready goInferential statictis ready go
Inferential statictis ready go
 
Presentación de Validez y Confiabilidad.
Presentación de Validez y Confiabilidad.Presentación de Validez y Confiabilidad.
Presentación de Validez y Confiabilidad.
 
Validez y confiabilidad de los instrumentos de inv
Validez y confiabilidad  de los instrumentos de invValidez y confiabilidad  de los instrumentos de inv
Validez y confiabilidad de los instrumentos de inv
 
Análisis bivariado
Análisis bivariadoAnálisis bivariado
Análisis bivariado
 

Destacado

Resultados Y Discusion De Hallazgos
Resultados Y Discusion De HallazgosResultados Y Discusion De Hallazgos
Resultados Y Discusion De Hallazgos
Sandra Zapata
 
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN. Facultad de...
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN.Facultad de...ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN.Facultad de...
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN. Facultad de...
Nancy Rodriguez Aizprua
 
Análisis e interpretación de los resultados
Análisis e interpretación de los resultadosAnálisis e interpretación de los resultados
Análisis e interpretación de los resultados
jorge
 

Destacado (14)

Analisis de datos-cualitativos_jvidales
Analisis de datos-cualitativos_jvidalesAnalisis de datos-cualitativos_jvidales
Analisis de datos-cualitativos_jvidales
 
El análisis de los datos
El análisis de los datosEl análisis de los datos
El análisis de los datos
 
Proceso de investigación y análisis de datos
Proceso de investigación y análisis de datosProceso de investigación y análisis de datos
Proceso de investigación y análisis de datos
 
Fase De DiseñO Y Analisis De Datos
Fase De DiseñO Y Analisis De DatosFase De DiseñO Y Analisis De Datos
Fase De DiseñO Y Analisis De Datos
 
Analisis de datos
Analisis de datosAnalisis de datos
Analisis de datos
 
Resultados Y Discusion De Hallazgos
Resultados Y Discusion De HallazgosResultados Y Discusion De Hallazgos
Resultados Y Discusion De Hallazgos
 
Exposicion Tema Analisis De Datos
Exposicion Tema Analisis De DatosExposicion Tema Analisis De Datos
Exposicion Tema Analisis De Datos
 
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN. Facultad de...
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN.Facultad de...ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN.Facultad de...
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN. Facultad de...
 
Analisis de datos cuantitativos
Analisis de  datos cuantitativosAnalisis de  datos cuantitativos
Analisis de datos cuantitativos
 
Interpretacion y Reportes de Resultados de Estadística Descriptiva
Interpretacion y Reportes de Resultados de Estadística DescriptivaInterpretacion y Reportes de Resultados de Estadística Descriptiva
Interpretacion y Reportes de Resultados de Estadística Descriptiva
 
Análisis de Datos
Análisis de DatosAnálisis de Datos
Análisis de Datos
 
9.Análisis de los datos. Los 10 pasos de la Investigacion
9.Análisis de los datos. Los 10 pasos de la Investigacion9.Análisis de los datos. Los 10 pasos de la Investigacion
9.Análisis de los datos. Los 10 pasos de la Investigacion
 
Análisis e interpretación de los resultados
Análisis e interpretación de los resultadosAnálisis e interpretación de los resultados
Análisis e interpretación de los resultados
 
Paso 8 presentacion y analisis de datos
Paso 8  presentacion y analisis de datosPaso 8  presentacion y analisis de datos
Paso 8 presentacion y analisis de datos
 

Similar a Barbwin 7 [análisis de datos]

Clase10 analisisdedatos
Clase10 analisisdedatosClase10 analisisdedatos
Clase10 analisisdedatos
cesar vallejo
 
analisisestadistico-090317160604-phpapp01, evisar los sesgos.ppt
analisisestadistico-090317160604-phpapp01, evisar los sesgos.pptanalisisestadistico-090317160604-phpapp01, evisar los sesgos.ppt
analisisestadistico-090317160604-phpapp01, evisar los sesgos.ppt
ProfeJaime2
 
Analisis de datos cuantitativos
Analisis de datos cuantitativosAnalisis de datos cuantitativos
Analisis de datos cuantitativos
Dila0887
 
Analisis estadistico
Analisis estadisticoAnalisis estadistico
Analisis estadistico
axiomara
 

Similar a Barbwin 7 [análisis de datos] (20)

Metodoscuantitativos1 090329123317-phpapp02 (1)
Metodoscuantitativos1 090329123317-phpapp02 (1)Metodoscuantitativos1 090329123317-phpapp02 (1)
Metodoscuantitativos1 090329123317-phpapp02 (1)
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
Clase10 analisisdedatos
Clase10 analisisdedatosClase10 analisisdedatos
Clase10 analisisdedatos
 
analisisestadistico-090317160604-phpapp01, evisar los sesgos.ppt
analisisestadistico-090317160604-phpapp01, evisar los sesgos.pptanalisisestadistico-090317160604-phpapp01, evisar los sesgos.ppt
analisisestadistico-090317160604-phpapp01, evisar los sesgos.ppt
 
Análisis Estadístico
Análisis EstadísticoAnálisis Estadístico
Análisis Estadístico
 
Analisis de datos cuantitativos
Analisis de datos cuantitativosAnalisis de datos cuantitativos
Analisis de datos cuantitativos
 
Analisis estadistico
Analisis estadisticoAnalisis estadistico
Analisis estadistico
 
Analisis estadistico
Analisis estadisticoAnalisis estadistico
Analisis estadistico
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 

Más de Roberto Gil-Saura

Investigación de mercados y empresa comercial
Investigación de mercados y empresa comercialInvestigación de mercados y empresa comercial
Investigación de mercados y empresa comercial
Roberto Gil-Saura
 
Presentación BarbWin V6 // V7
Presentación BarbWin V6 // V7Presentación BarbWin V6 // V7
Presentación BarbWin V6 // V7
Roberto Gil-Saura
 

Más de Roberto Gil-Saura (9)

Manejo de encuestas con fines científicos
Manejo de encuestas con fines científicosManejo de encuestas con fines científicos
Manejo de encuestas con fines científicos
 
Online Surveys - Investigación Online
Online Surveys - Investigación OnlineOnline Surveys - Investigación Online
Online Surveys - Investigación Online
 
Diseño del instrumento de medición y formación a campo
Diseño del instrumento de medición y formación a campoDiseño del instrumento de medición y formación a campo
Diseño del instrumento de medición y formación a campo
 
Delimitación de la muestra
Delimitación de la muestraDelimitación de la muestra
Delimitación de la muestra
 
Briefing y preparación de la oferta de investigación de mercados
Briefing y preparación de la oferta de investigación de mercadosBriefing y preparación de la oferta de investigación de mercados
Briefing y preparación de la oferta de investigación de mercados
 
Investigación de mercados y empresa comercial
Investigación de mercados y empresa comercialInvestigación de mercados y empresa comercial
Investigación de mercados y empresa comercial
 
Fact sheet gandia integra
Fact sheet   gandia integraFact sheet   gandia integra
Fact sheet gandia integra
 
Presentación BarbWin V6 // V7
Presentación BarbWin V6 // V7Presentación BarbWin V6 // V7
Presentación BarbWin V6 // V7
 
investigacion de mercados online: ¿evolucion o revolucion?
investigacion de mercados online: ¿evolucion o revolucion?investigacion de mercados online: ¿evolucion o revolucion?
investigacion de mercados online: ¿evolucion o revolucion?
 

Último

NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
UPTAIDELTACHIRA
 
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
MiNeyi1
 
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Francisco158360
 
Criterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosCriterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficios
JonathanCovena1
 
Proyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdfProyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdf
patriciaines1993
 

Último (20)

Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
 
PIAR v 015. 2024 Plan Individual de ajustes razonables
PIAR v 015. 2024 Plan Individual de ajustes razonablesPIAR v 015. 2024 Plan Individual de ajustes razonables
PIAR v 015. 2024 Plan Individual de ajustes razonables
 
Supuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docxSupuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docx
 
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
 
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
 
2024 KIT DE HABILIDADES SOCIOEMOCIONALES.pdf
2024 KIT DE HABILIDADES SOCIOEMOCIONALES.pdf2024 KIT DE HABILIDADES SOCIOEMOCIONALES.pdf
2024 KIT DE HABILIDADES SOCIOEMOCIONALES.pdf
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativa
 
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
 
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática5    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática5    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdf
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDAD
 
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdfTema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
 
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICABIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
 
Abril 2024 - Maestra Jardinera Ediba.pdf
Abril 2024 -  Maestra Jardinera Ediba.pdfAbril 2024 -  Maestra Jardinera Ediba.pdf
Abril 2024 - Maestra Jardinera Ediba.pdf
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptx
 
Criterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosCriterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficios
 
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdfGUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
 
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJOACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
 
Proyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdfProyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdf
 

Barbwin 7 [análisis de datos]

  • 1. proceso de datos aplicadocon barbwin 7 nivel avanzado robertogil sauradepartamento de desarrollo tesi robertogil@tesigandia.com http://www.tesigandia.com Departamento Desarrollo TESI 1
  • 2. módulo 1. introducción al análisis de datos proceso de datos aplicado Departamento Desarrollo TESI 2
  • 3. etapas del proceso de datos preparación de los datos para el análisis creación de la base de datos codificación de la información cualitativa registro o grabación de la información adecuación de los datos a las necesidades de análisis análisis básico de los datos análisis descriptivo univariante análisis cruzado o tabulación análisis avanzado de los datos análisis multivariante de la información reducción de datos clasificación Departamento Desarrollo TESI / 3
  • 4. creación de la base y preparación del proceso base de datos (matriz de trabajo)‏ preguntas (variables en columnas) en columnas individuos (registros, cuestionarios) en filas nivel de análisis redacción del plan de tabulación documento que guía el análisis tabulación básica obtención de marginales de los datos de muestra y de perfil social (sección de clasificación)‏ obtención de marginales de las preguntas del cuestionario (sección de preguntas temáticas)‏ obtención de descriptivos y recuentos anexos tabulación cruzada (clasificación por temáticas)‏ tabulación avanzada aplicación de filtros clasificatorios y obtención de tablas temáticas gráficos fundamentales análisis avanzado de la información Departamento Desarrollo TESI / 4
  • 5. plan de análisis el plan de análisis, tabulación o explotación, es un documento de trabajo que debe ser diseñado para cumplir con tres propósitos … 1) proporcionar datos de la muestra total de forma descriptiva. 2) determinar mediante tabulación qué diferencias existen entre subgrupos socio - demográficos y actitudinales dentro de la muestra. 3) seleccionar cualquier otro tipo de análisis complejo univariado, bivariado o multivariado necesario para ayudar a interpretar los resultados. Departamento Desarrollo TESI / 5
  • 6. escalas de medida Departamento Desarrollo TESI / 6 escala métrica, de razón o proporcional + cuanti tativa escala de intervalo escala ordinal tipos de escala de medida cuali tativa - escala nominal
  • 7. módulo 2. análisis de variables individuales (univariante) proceso de datos aplicado Departamento Desarrollo TESI 7
  • 8. análisis univariante – escalas nominal y ordinal cálculo de frecuencias valores reales del fichero (recuento) valores por intervalos (tabulación de marginales) aporta... información sobre el número de apariciones % que representa ese número de apariciones sobre el total de muestra acumulado de los % a tener en cuenta bases de pregunta niveles de análisis en variables múltiples, base casos o base respuestas caso especial: moda valor/es más repetido/s en la distribución; una distribución puede ser multimodal. Departamento Desarrollo TESI / 8
  • 9. análisis univariante – escala ordinal y de intervalo medida de tendencia central mediana valor que deja el 50% de los casos de la distribución por arriba y por abajo del mismo. si no existe valor exacto, siempre toma aquel valor que se acerca más al 50%. de la misma forma, el primer cuartil, valor que deja el 25% de los casos por detrás y el 75% de los casos por delante en la distribución. si no existe valor exacto, siempre toma aquel valor que se acerca más al 25%. por último, el tercer cuartil, valor que deja el 75% de los casos por detrás y el 25% de los casos por delante en la distribución. si no existe valor exacto, siempre toma aquel valor que se acerca más al 75% Departamento Desarrollo TESI / 9
  • 10. análisis univariante – escala de razón e intervalo cálculo de frecuencias valores reales del fichero (recuento) valores por intervalos (tabulación de marginales) aporta... información sobre el número de apariciones porcentaje que representa ese número de apariciones sobre el total de muestra acumulado de los porcentajes cálculo de estadísticos medidas de caracterización (máximo, mínimo, rango) medidas de tendencia central (media, mediana) medidas de dispersión (desviación coeficiente variación, varianza) medidas de error (error, intervalo de confianza) Departamento Desarrollo TESI / 10
  • 11. análisis univariante Departamento Desarrollo TESI / 11 escala de razón e intervalo
  • 12. análisis univariante – estadísticos Departamento Desarrollo TESI / 12 (escala de razón o proporción métrica y algunas ordinales)
  • 13. pruebas sobre una muestra estas pruebas persiguen caracterizar la distribución para asumir una serie de propiedades o alternativas para las variables analizadas. binomial la distribución binomial es la distribución muestral de las proporciones observadas en muestras tomadas de forma aleatoria de una población de dos clases. nuestra hipótesis nula será en este caso la pertenencia de los datos de proporción a una población particular. esta es una prueba de la bondad del ajuste a la distribución binomial. jhi2 en algunas ocasiones el investigador se plantea por el número de sujetos, objetos o respuestas que se clasifican en diferentes categorías. la prueba c2 es adecuada para analizar este supuesto ya que puede utilizarse para analizar si la diferencia entre los observado y lo esperado en una determinada distribución arrojan unas diferencias significativas. kolgomorov-smirnov prueba estadística en la que compramos las frecuencias relativas acumuladas (esperadas y observadas) de las distribuciones (uniforme o normal) para saber si los datos de que disponemos pueden provenir de una muestra con esas características. Departamento Desarrollo TESI / 13
  • 14. módulo 3. análisis entre dos variables (bivariante) proceso de datos aplicado Departamento Desarrollo TESI 14
  • 15. análisis bivariante escalas nominales, ordinales y de intervalo en ocasiones, no sólo nos interesa conocer las medidas más importantes de una variable, sino también las relaciones entre ellas. para ello acudimos a las tablas de contingencia. ¿cómo se lee una tabla? conocer la muestra mediante los marginales de fila en cabecera mirar las variables y sus categorías mirar los marginales de filas y columnas mirar relaciones celda / totales dentro de la tabla (prueba jhi²)‏ ¿cómo se leen los porcentajes? porcentajes verticales o calculados en base al total de la columna porcentajes horizontales o calculados en base al total de la fila porcentajes totales o calculados en base a la n de muestra total para la variable seleccionada (eliminando filtros o bases no deseadas) Departamento Desarrollo TESI / 15
  • 16. análisis de tablas cruzadas - tabulación de casos marginal bivariada bivariada con estadísticos 3d – tridimensional de grupos de casos marginal bivariada bivariada con estadísticos 3d – tridimensional Departamento Desarrollo TESI / 16
  • 17. condiciones / segmentación en las tablas concepto de base: fila de la tabla de contingencia que nos informa de un cambio en el total de registros que se utilizan como “base” para el cálculo de porcentajes, generando un nuevo subtotal que será base 100%. concepto de filtro columna de la tabla de contingencia que nos informa de un cambio en el total de registros que se utilizan como “base” para el cálculo de porcentajes, generando un nuevo subtotal que será base 100%. los porcentajes siempre deben mostrarse con un rango de 0 a 100, evitar el uso de ,00 (decimales) si el error de la muestra es mayor al 1%. Departamento Desarrollo TESI / 17
  • 18. pruebas de asociación o independencia Departamento Desarrollo TESI / 18 conjunto de pruebas que nos miden si hay asociación o independencia entre las celdas relacionadas en la tabla. jhi² (de celda, pearson), se pretende con este test, válido para escalas nominales pero extensivo al resto, ver de un solo vistazo aquellas celdas cuyo porcentaje (vertical) es significativamente mayor (>) o menor (<) al porcentaje que cabría esperar ante un comportamiento proporcional de las categorías testadas en sus marginales. (significación < 0,05, valor de comparación 3,84) jhi² (de tabla, pearson), se pretende con esta prueba analizar la relación existente entre dos variables medidas en escalas nominales, ordinales o de intervalo (en menor medida) si existe relación de dependencia entre ambas o si su relación sólo es debida a efectos aleatorios de la muestra. a mayor valor de jhi², mayor grado de dependencia (significación < 0,05). v de cramer, igual objetivo que el anterior, pero sitúa entre 0 y 1 los valores extremos de la prueba. basado en jhi², ofrece un valor 1 cuando las variables son absolutamente dependientes (diagonal principal) y un 0 cuando son absolutamente independientes (equitativamente distribuidos).
  • 19. limitaciones de jhi² es una técnica de aproximación, no exacta. por ello, a menor muestra, más pequeño debe ser el nivel de significación para tomar la decisión con relativa seguridad. en esencia, la prueba parte de una utilización de variables continuas, sin embargo se utiliza con variables nominales, lo cual genera una incorrección, que sólo es insalvable en las tablas de 2x2, donde se utiliza la corrección por continuidad de yates. es una prueba que depende de la unidad de medida, efecto que salvan otras pruebas como v de cramer. la disparidad entre la aproximación de pearson y la distribución jhi aumenta conforme disminuye n. utilizar probabilidad exacta de fisher si hay frecuencias menores a 5. el modelo puede no funcionar correctamente cuando existen frecuencias esperadas inferiores a 5. se considera válido si menos del 20% de las celdas tienen frecuencias esperadas inferiores a 5. caso de no ser así, no queda más remedio que agrupar categorías columna o fila. Departamento Desarrollo TESI / 19
  • 20. pruebas de significación t - student para contraste de proporciones o medias e muestra indepenedientes en esta prueba se trata de ver si las diferencias entre las columnas porcentuales dentro de una misma categoría en una variable son significativas en la población de la cual se extrajeron las muestras prueba equivalente para la media aritmética esta prueba sólo se realizará si las muestras provienen de poblaciones que son independientes formatos de ejecución con base real o base ponderada con datos de una columnas de variable o columnas de tabla diferentes niveles de confianza Departamento Desarrollo TESI / 20
  • 21. pruebas de correlación (1)‏ objetivo, medir relación métrica y lineal cuando la variables de las que se desea calcular la relación son numéricas métricas se aplica la correlación de pearson o análisis de regresión simple si no es métrica la relación ante relaciones entre otro tipo de escalas acudiremos a las pruebas no paramétricas donde coexisten spearman o los diferentes coeficientes de kendall. valores los valores suelen estar en la mayoría de coeficientes entre [ -1 ≥ r ≤ 1] tipo de relación lineal directa inversa Departamento Desarrollo TESI / 21
  • 22. pruebas de correlación (2)‏ pearson ... nos indicará si existe relación entre las variables analizadas, cuantifica esa relación y el signo del coeficiente muestra la dirección de la misma. spearman ...conocido como “rho”, es una medida de asociación que requiere que al menos una de las dos variables que intervengan en el análisis esté reflejando ordenaciones, es decir, medición ordinal. tau de kendall ... tiene igual funcionamiento que el coeficiente de rangos de spearman y es muy utilizado para mediciones medias de jueces. valora la relación entre las ordenaciones otorgadas por los jueces, teniendo en cuenta las concordancias y las discordancias. concordancia de kendall (w)‏ ... se diferencia de los anteriores por trabajar con k ordenaciones en lugar de con 2 ordenaciones. Departamento Desarrollo TESI / 22
  • 23. análisis de la varianza descripción el análisis de la varianza es un método explicativo que se utiliza para comprender la relación existente entre dos variables (nominal :: explicativa o independiente:: y otra métrica :: cuantitativa a explicar::) objetivo el modelo de cálculo implica analizar si las puntuaciones medias de la variable dependiente en cada uno de los cortes o grupos de la variable independiente pueden diferir significativamente. la prueba está basada en el análisis de las sumas de cuadrados explicadas entre los grupos y también intra grupo. la suma de cuadrados de la variable total viene expresada por la suma de las dos anteriores. lectura de la prueba se dice que hay una relación de dependencia entre ambas variables cuando la fuente de variación inter grupo es superior a la fuente de variación intra grupo. estadístico la existencia de esa relación viene materializada por el uso del estadístico f. la hipótesis nula es la igualdad de medias entre los grupos. si rechazamos esta hipótesis, es decir si el estadístico f es significativo (<0,05), rechazaremos la ho y aceptaremos la existencia de relación entre las variables. las puntuaciones medias de la variable dependiente están condicionadas por la pertenencia al grupo de la independiente. Departamento Desarrollo TESI / 23
  • 24. regresión simple Departamento Desarrollo TESI / 24 descripción se usa para detectar la relación de dependencia entre dos variables medidas en escala métrica o de intervalos, es decir, cuantitativas. los objetivos de este análisis son: determinar si la variable explicada lo es por medio de la variable explicativa determinar el tipo de relación entre ambas variables conocer la intensidad de la relación entre las variables. el análisis se realiza por medio del estudio de las fuentes de variación de las variables: suma de cuadrados de la variable a explicar, sumatorio de la diferencia cuadrática del sumatorio de los valores de la variable a explicar menos su media. suma de cuadrados de la regresión, sumatorio de la diferencia cuadrática de los valores predichos por la regresión menos su media suma de cuadrados residual, sumatorio de la diferencia cuadrática de los valores reales de la variable a explicar menos los valores predichos por el modelo. la ecuación que representa el modelo es y=b0+b1x+e b0 es el término independiente, b1 es el moderador o multiplicador del valor de x e, el término residual. b0 indica el valor que tomaría y en el caso de que x fuera 0. b1 >0 indica que un aumento en la variable explicativa, repercutiría en la variable a explicar en un aumento de esa cantidad proporcional. b1 >0 indica que una aumento en la variable explicativa, repercutiría en la variable a explicar en una disminución en esa cantidad proporcional. ambos coeficientes deben ser significativos para la aceptación del análisis, dado que así confirmamos su participación real en el modelo.
  • 25. proceso de datos aplicado Departamento Desarrollo TESI 25 módulo 4. análisis entre n variables (multivariante)
  • 26. supuestos paramétricos en multivariado normalidad en las mediciones los test de significatividad pueden dejar de ser válidos igualdad de varianzas (homocedasticidad) en todos los niveles de la variable dependiente afecta al error típico, y por tanto a los test de significatividad linealidad en las relaciones sólo aplicable a aquellas técnicas que se basan en la correlación lineal de los datos independencia entre las observaciones la probabilidad de ocurrencia de un evento no afecta a la probabilidad de ocurrencia de otro tamaño muestral suficiente para la técnica elegida Departamento Desarrollo TESI / 26
  • 27. criterios de clasificación del multivariado dependencia técnicas de interdependencia técnicas de dependencia objetivo de la técnica modelización lineal (regresión)‏ reducción de datos, comprensión del espacio muestral clasificación de sujetos u objetos en la muestra fiabilidad de escalas Departamento Desarrollo TESI / 27
  • 28. técnicas objeto de este módulo regresión lineal múltiple modelo forward stepwise reducción de datos análisis de correspondencias análisis de correspondencias múltiple factorial de componentes clasificación segmentación (jhi², a.i.d.)‏ cluster jerárquico y k medias fiabilidad de escalas alpha de cronbach Departamento Desarrollo TESI / 28
  • 29. regresión múltiple proceso de datos avanzado 29
  • 30. análisis de regresión lineal múltiple definición y utilidad paradigma de las técnicas de dependencia y base de una gran parte de las técnicas multivariantes, su objetivo es explicar el comportamiento de una variable dependiente a partir de las relaciones entre variables independientes. trata de captar los efectos de cada variable por separado. analizamos sólo ols (mínimos cuadrados ordinarios)‏ grado de utilización en la práctica en desuso como tal, porque se está modelando hoy en día con evoluciones o especificaciones del mismo: logit, probit, logística, etc. condiciones para el análisis variables de tipo numérico con las que se cree puede haber una relación lineal. linealidad de parámetros existencia de perturbación estocástica en el modelo con media igual a 0 homocedasticidad ausencia de correlación serial ausencia de multicolinealidad matriz de datos no estocástica e independiente Departamento Desarrollo TESI / 30
  • 31. términos utilizados (1)‏ modelo utilizado: paso a paso en este tipo de metodología, las variables se incorporan una a una, comenzado por aquella que tiene un mayor poder explicativo de la variable dependiente. excepciones se puede combinar con una metodología de forzado de participación suma de cuadrados explicada por la variable actual total de la varianza explicada por el modelo que aporta la variable que se introduce en el paso n r cuadrado de la variable % de la varianza explicada por el modelo que aporta la variable que se introduce en el paso n suma de cuadrados explicada por las variables (acumulado)‏ total de la varianza explicada por el modelo que aportan las variables introducidas en el modelo hasta el paso n r cuadrado de las variables (acumulado) % de la varianza explicada por el modelo que aportan las variables introducidas en el modelo hasta el paso n Departamento Desarrollo TESI / 31
  • 32. términos utilizados (2)‏ Departamento Desarrollo TESI / 32 suma de cuadrados total total de la varianza explicada por el modelo que aportan las variables introducidas al final del modelo. coeficiente de correlación múltiple bondad del ajuste producido por la totalidad del modelo (R2>=0,7); cociente entre la suma de cuadrados de la regresión y la suma de cuadrados explicada. coeficiente de correlación múltiple ajustado a los grados de libertad bondad del ajuste producido por la totalidad del modelo, y corregido al número de variables y tamaño muestral. aumenta muy poco con el aumento de variables explicativas. error estándar de estimación y error estándar de estimación ajustado a los grados de libertad estimación del error que se produce en el modelo     R2 mala notación en barbwin
  • 33. términos utilizados (3)‏ 33 predicción por el modelo valor de la variable dependiente utilizando el modelo lineal de regresión residuo diferencia entre el valor real y el predicho por el modelo coeficiente de regresión valor que permite medir la relación de la variable independiente con la dependiente del modelo. normal, dirección de la relación entre explicativa y explicada en el sentido indicado por el signo estandarizado, importancia de la variable en la explicación de la variable explicada error estándar de regresión medida de precisión de los coeficientes de regresión proporcional al error de estimación e inversamente proporcional a la variabilidad de la variable, descontada la del resto de variables del modelo. valor t - sudent y significación prueba inferencial que aporta la significatividad de la relación lineal planteada específicamente para el regresor especificado valor f para el análisis de varianza y significación prueba inferencial que aporta la significatividad de la relación lineal planteada en el conjunto del modelo.
  • 34. análisis de residuales 34 interpretación de coeficientes beta interpretación de los beta estandarizados análisis de los residuales (eliminación de outliers) normalización de la variable residual eliminación de los que estén sobre 2 desviaciones
  • 35. correspondencias proceso de datos avanzado 35
  • 36. análisis de correspondencias simple y múltiple concepto y utilidad análisis geométrico que permite visualizar la relación geométrica entre las categorías que conforman una tabla de contingencia. permite conocer las asociaciones que se producen entre las categorías de columna y fila y entre ellas mismas. condiciones de utilización variables de cualquier tipo que conformen una tabla de contingencia. se trabajará con los datos cualitativos de la misma. grado de utilización en la práctica muy utilizado para realizar posicionamientos de atributos y marcas. máximo número de dimensiones menor número de filas o columnas -1 (máximo de 6 en barbwin)‏ Departamento Desarrollo TESI / 36
  • 37. términos utilizados perfiles de fila y columna (no impresos)‏ el perfil es un vector que contiene las frecuencias relativas de cada fila o columna. resultado del cociente entre la celda y su total fila o columna; en gandiabarbwin son los porcentajes verticales y horizontales en el análisis. son utilizados para calcular la distancia entre todas las categorías. distancia (no impresas)‏ operación realizada para obtener una medición de la separación o cercanía entre las categorías analizadas, se utiliza la distancia jhi² masa representa el peso de cada categoría de fila o columna sobre el total de la muestra, es decir, porcentajes totales de categoría. valor propio o inercia (peso) resultado de operar la masa con la distancia, es el indicativo del peso que tendrá cada variable original en las dimensiones finales. contribuciones absolutas indica el peso que cada punto de fila o columna (de forma independiente) tiene en el total de la dimensión contribuciones relativas indican el peso de cada dimensión en cada categoría de fila y columna distancia al centroide (baricentro)‏ medida de la separación de cada categoría del centro del la representación gráfica Departamento Desarrollo TESI / 37
  • 38.
  • 39. proximidad entre puntos columna, tienen los mismos puntos fuertes y débiles o características parecidas, se asocian igual,
  • 40.
  • 41. componentes principales proceso de datos avanzado 40
  • 42. análisis de componentes principales concepto y utilidad prueba muy conocida y utilizada que permite reducir el espacio dimensional de un conjunto multivariante de datos a un conjunto de factores cuya composición proviene de combinaciones lineales y normales que maximizan la representatividad de los datos originales y minimizan la pérdida de información. en la práctica permite reducir y agrupar el número de dimensiones de un problema condiciones de utilización variables con escala al menos de intervalo. matriz de individuos por variables. correlaciones significativas entre las variables que participan. se comparte las mismas fuentes de variabilidad, es decir que las correlaciones sean elevadas. 5-15 registros por variable variantes infinidad, presentadas para estructuras de datos específicos: componentes principales, factorial, máxima verosimilitud, alpha, etc. … máximo número de componentes igual número que variables originales incluidas en la estructura de datos situación ideal pocos componentes explican mucha varianza, pero suficientes como para poder expresar la multidimensionalidad de una estructura Departamento Desarrollo TESI / 41
  • 43. términos utilizados (1)‏ saturaciones o cargas peso de la variable en cada componente o factor el ideal es que cada variable tenga saturaciones altas en un único factor y bajas en el resto. matriz de correlaciones matriz que nos permite observar a simple vista los coeficientes de correlación de pearson entre las variables que intervienen en el análisis. prueba de esfericidad de bartlett prueba que reafirma la viabilidad del análisis de componentes principales, pues testa que la matriz de correlaciones es significativamente diferente de la matriz identidad. en este caso, la nube de puntos sería una esfera. si se obtiene un valor de jhi² que si es significativo, se rechaza la hipótesis nula de esfericidad o incorrelación. valor propio este valor indica la varianza de la matriz de correlaciones explicada por el componente o factor. Departamento Desarrollo TESI / 42
  • 44. términos utilizados (2)‏ solución directa / rotada directa -> matriz de pesos factoriales donde se puede observar la participación o peso de cada variable en el componente rotada -> ídem tras la rotación de los ejes factoriales. contribuciones absolutas cada celda muestra el porcentaje de participación de cada variable en el componente extraído. el porcentaje es vertical. contribuciones relativas (1) la primera fila de valores muestra el porcentaje de participación de cada variable en los diferentes factores extraídos y por tanto suma 100. (2) la segunda fila de valores muestra el porcentaje de participación de cada variable en los diferentes factores, contabilizando los extraídos y los no extraídos. comunalidad final proporción de la varianza inicial de una variable explicada por el componente o factor. suma de los cuadrados de las saturaciones de una variable en todos los factores. rotación método matemático utilizado para rotarlos ejes factoriales y facilitar el análisis de los investigadores. varimax que tiende a que cada variable cargue mucho en un componente y poco en el resto. el método de componentes principales extrae componentes con baja correlación. Departamento Desarrollo TESI / 43
  • 45. técnicas de clasificación concepto y utilidad conjunto de técnicas con una orientación común hacia la clasificación de la información, donde agrupamos técnicas de interdependencia y técnicas de dependencia. la elección de una u otra dependerá del tipo de información de partida y destino que se tenga y requiera. tipos segmentación cluster discriminante Departamento Desarrollo TESI / 44
  • 46. segmentación proceso de datos avanzado 45
  • 47. segmentación Departamento Desarrollo TESI / 46 técnica de clasificación que tiene como objetivo la elaboración de subgrupos muestrales en base a el mayor poder de explicación en la variable dependiente. segmentación aid técnica de segmentación que basada en el análisis de varianza, parte del intento de clasificar una muestra a partir de dicotomías grupales en las variable independientes que serán cualitativas y codificadas segmentación jhi² técnica de segmentación que basada en la realización de pruebas jhi², parte del intento de clasificar una muestra a partir de dicotomías grupales en las variable independientes que serán cualitativas y codificadas segmentación de jhi² tabla técnica de segmentación que basada en la realización de pruebas jhi² de tabla, parte del intento de clasificar una muestra a partir de la búsqueda de la asociación más alta en pruebas de asociación.
  • 48. segmentación Departamento Desarrollo TESI / 47 condiciones para el análisis variable dependiente de tipo numérica métrica en aid, e independientes cualitativas y codificadas variable dependiente como dicotomía en una muestra, numérica métrica en jhi², e independientes cualitativas y codificadas variables codificadas con diferentes niveles en jhi² de tabla. ejecución en gbw disponemos de dos peculiaridades … forzar al test de un grupo con el resto agrupar por continuidad de categoría fijación de un número mínimo de casos para considerar el grupo fijación del nivel de segmentación máximo
  • 49. cluster proceso de datos avanzado 48
  • 50. tipología, cluster o análisis de conglomerados definición y utilidad conjunto de técnicas cuyo fin último es la clasificación de la información en base a una serie de atributos relevantes señalados por el investigador; para ellos se utilizan las similitudes entre las valoraciones dadas a los atributos señalados. ejecución en barbwin selección de variables de tipo numérico métrico o de tipo nominal. las variables nominales o múltiples se binarizan, el proceso de binarización (0/1) es interno y automático, resultando en nueva variable para cada código. Departamento Desarrollo TESI / 49
  • 51. análisis cluster tipos cluster jerárquico, análisis en el que se parte de una agrupación unitaria a una agrupación total. análisis asociativo. basado en el cálculo de distancias entre objetos. cluster no jerárquico o k medias, análisis en el que hay una conjetura inicial sobre el número de grupos a formar y se itera el método de clasificación hasta clasificar toda la información en el número de grupos marcados. análisis partitivo o de optimización. basado en la distancia del objeto al grupo formado. condiciones para el análisis representatividad muestral ausencia de multicolinealidad Departamento Desarrollo TESI / 50
  • 52. tipos de cluster jerárquico k-medias 51 ascendente y aglomerativo, se pasa de n objetos en n grupos a n objetos en 1 grupo trabajo con matriz de distancias se trabajan criterios de pertenencia (mínimo, máximo, mediana, centroide) no requiere de matriz de proximidades permite tamaños de muestra mucho más amplios se eligen los grupos a priori la iteración conlleva reasignación de individuos en grupos en marketing se usan los métodos de reasignación el proceso finaliza cuando no se puede mejorar la reasignación de los grupos
  • 53. terminología (1)‏ distancia euclídeas o euclídeas al cuadrado si los datos son mediciones. recordemos que la distancia euclídea al cuadrado reforzará más las distancias entre los puntos de un plano. jhi² si los datos a agrupar son frecuencias (sólo no jerárquico). método de análisis distancia mínima (single linkage), agrupa a aquellos casos que tengan una menor distancia entre ellos; la distancia entre objetos y cluster es la distancia entre el objeto y el objeto más próximo del grupo. distancia máxima (complete linkage), agrupa en función de la distancia entre los puntos más alejados; la distancia entre objeto y cluster es la distancia entre el objeto y el objeto más alejado del grupo. agrupación de centroides, donde la distancia se calcula al centro de gravedad del grupo, definido por la media de las distancias entre los objetos del grupo. el centro del nuevo grupo es la media directa de los dos centroides; minimiza la influencia de los outliers. agrupación de medianas , variación del anterior que pondera por el nº de grupos que hay a la hora de calcular el centroide del nuevo grupo. Departamento Desarrollo TESI / 52 Lejanos Próximos
  • 54. criterios de asignación 53 mínimo centroide máximo mediana
  • 55. terminología (2)‏ en cluster no jerárquico, puntos de partida k primeros k aleatorios k con máxima distancia k del jerárquico k del usuario k más numerosos cálculo de distancias distancia de cada individuo al centro del cluster distancia promedio de todos los individuos que pertenecen al centro matriz final de distancias intra y entre los clusters. variable de grupo guarda el código de grupo de pertenencia en el cluster. dendograma análisis de varianza correlaciones entre los clusters análisis post-hoc de variables activas, media de las variables que participan en el grupo de variables pasivas, cruces y jhi2, t-student Departamento Desarrollo TESI / 54
  • 56. fiabilidad proceso de datos avanzado 55
  • 57. análisis de fiabilidad definición y utilidad método que nos permite analizar la precisión de la relación lineal y sumativa de las valoraciones ofrecidas a diferentes ítems que conforman dimensiones de una dimensión de mayor rango mejor explicada por el conjunto de variables que por sí misma. condiciones para el análisis variables de medición mayor fiabilidad a mayor cantidad de ítems ejecución en gbw en gandiabarbwin se utiliza el alpha de cronbach como medida de la fiabilidad de escalas Departamento Desarrollo TESI / 56
  • 58. métodos de análisis y terminología (1)‏ método normal, incluye todas las variable del análisis aunque su varianza sea 0. covarianzas, elimina del análisis aquellas variables que tienen varianza 0. análisis de varianza técnica bivariante o multivariante que permite analizar la relación entre las medias de los grupos y la media total en diferentes niveles de la variable de agrupación entre personas cada persona es analizada como un grupo; se analiza la diferencia entre las medias individuales de las puntuaciones en el conjunto de elementos con la media global de todos los elementos de la escala intra personas cada persona es analizada como un grupo; se analiza la diferencia entre las puntuaciones individuales e cada elemento de la escala con las medias de cada individuo en la escala entre medidas se analiza la diferencia entre las puntuaciones individuales de cada elemento en relación con la media de la muestra para cada elemento Departamento Desarrollo TESI / 57
  • 59. terminología (2)‏ residuos diferencia de los residuos individuales en cada elemento de la escala en relación con la media de los residuos individuales en la escala prueba f valida si hay diferencias entre las medias de las variables que conforman la escala. significaciones valores a 0 nos llevan a aceptar la ha y rechaza la ho de igualdad de medias. media y varianza si ítem borrado medición si eliminamos un ítem de la escala correlación corregida correlación del ítem con la escala alpha si ítem borrado coeficiente final si borramos el ítem seleccionado alpha de cronbach coeficiente de correlación entre los ítems de la escala. una escala fiable debe producir valores altos de alpha. estadísticos entre los ítems media, varianza, covarianza y correlación t² de hotelling medida utilizada para contrastar la hipótesis de medias iguales en el análisis de fiabilidad; se distribuye como una f iteración del proceso Departamento Desarrollo TESI / 58