Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...
Análisis Estadístico en la Analítica Predictiva
1.
Pedro Enrique Chávez Farfan
pedro.chavez@addkw.org
LPI Director
Limitless Power of Information
Business Analytics Society
https://addkw.com/
El análisis estadístico
El análisis estadístico es un conjunto de procesos logicos y matematicos que incluyen diversas
actividades como: recolección, organización, resumen, presentación de datos, análisis, y
comienza con la identificación de la población o proceso a estudiar.
La población representa el conjunto de individuos que deseamos estudiar y generalmente suele
ser inaccesible. Es, en definitiva, un colectivo homogéneo que reúne unas características
determinadas. La muestra es un subconjunto accesible y limitado de la población, sobre el que
realizamos las mediciones o el experimento con la idea de obtener conclusiones o inferencias
generalizables a la población.
2.
Pedro Enrique Chávez Farfan
pedro.chavez@addkw.org
LPI Director
Limitless Power of Information
Business Analytics Society
https://addkw.com/
El análisis estadístico puede dividirse en: estadística descriptiva y estadística inferencial.
La estadística descriptiva analiza y describe a una población en base a sus datos agregados, en
tanto la estadística inferencial establece conclusiones, suposiciones o juicios anticipados que
deben demostrarse en base a experimentos o pruebas.
La estadística descriptiva analiza los datos agregados de la población y los muestra de una
manera gráfica o numérica. Cuando los datos de la muestra poblacional son de tipo numérico
continuo se emplea la media o desviación estándar para el análisis de agregados, en tanto en los
casos que los datos sean de tipo categoría se emplean los valores de frecuencias y/o
porcentajes.
3.
Pedro Enrique Chávez Farfan
pedro.chavez@addkw.org
LPI Director
Limitless Power of Information
Business Analytics Society
https://addkw.com/
De otro lado para realizar inferencias sobre la población la estadística emplea patrones sobre los
datos muestrales, tomando en consideración también la aleatoriedad.
Una inferencia o hipótesis es una conclusión o juicio anticipada que debe ser demostrada y que
está basada en hechos, proposiciones o principios generales o particulares sobre los datos.
Toda inferencia se enuncia a través de hipótesis. Las pruebas de hipótesis en palabras simples
consisten en responder si/no a preguntas específicas sobre los datos. Las inferencias o hipótesis
pueden convertirse en pronósticos o predicciones. Este análisis puede también incluir
extrapolación para replicar las conclusiones a otros ámbitos y obtener nuevas conclusiones, o
interpolación de series de tiempo o datos espaciales y también procesos de minería de datos.
4.
Pedro Enrique Chávez Farfan
pedro.chavez@addkw.org
LPI Director
Limitless Power of Information
Business Analytics Society
https://addkw.com/
Procedimientos y pruebas estadísticas
Algunas de las pruebas estadísticas más usadas en Analítica Predictiva son:
- Análisis Varianza (ANOVA): Estos modelos son usados para analizar las diferencias entre
grupos de medias y la varianza entre los grupos.
- Prueba de Chi Cuadrado: sirve para someter a prueba hipótesis referidas a distribuciones
de frecuencias. Esta prueba contrasta frecuencias observadas con las frecuencias
esperadas de acuerdo con la hipótesis nula.
- Coeficiente de correlación Pearson: medida del grado de dependencia lineal entre dos
variables
- Coeficiente de correlacion - rango de Spearman: medida de la dependencia estadística
entre 2 variables.
- Análisis de Factores: Describe la varianza entre variables observadas y correlacionadas y
variables no observadas.
- Desviación ponderada de la media al cuadrado: medida de bondad del ajuste
- Análisis de regresión: estimación de la relación existente entre variables.
- T de Student: medida de la diferencia significativa entre 2 grupos de datos.
- Análisis de series de tiempo: análisis de la secuencia de datos medidos en intervalos de
tiempos sucesivos.
- K vecinos más cercanos (k nearest-neighbor): es un método no paramétrico para
clasificación y regresión, que predice los valores de los objetos o las categorías de los
elementos basadas en las k muestras de entrenamiento más cercanas.
- Clasificador Naive Bayes: clasificador probabilístico simple basado en la aplicación del
teorema de Bayes con fuerte suposiciones independientes.
- Support vector machines: modelo de aprendizaje supervisado con algoritmos asociados
que analizan datos y reconocen parámetros y que son usados para análisis de regresión y
clasificación.
- El clasificador mayoritario: toma datos no anómalos y los incorpora dentro de sus
cálculos. Esto hace que los resultados del modelo de predicción sean lo mas validos
posibles.
- Regresión logística: técnica mediante la cual valores desconocidos de una variable
discreta pueden predecirse basados en valores conocidos de una o más variables discretas
o continuas.
- Modelamiento UpLift: modela el cambio en la probabilidad causada por el desarrollo de
una acción.
5.
Pedro Enrique Chávez Farfan
pedro.chavez@addkw.org
LPI Director
Limitless Power of Information
Business Analytics Society
https://addkw.com/