2. ¿ Qué es la estadística ?
Ciencia dedicada al estudio sistemático de los datos
Transforma datos en información
Contribuye a la generación de conocimiento
Historia de la estadística :
Como ciencia de Estado (2600 A.C.)
Como cálculo de probabilidades (siglo XVIII)
Rol de la estadística :
Proporcionar métodos para evaluar y juzgar la
teoría y la realidad
4. La Estadística en la era de la Información
Destrezas lectoras para la sociedad del
Conocimiento
EL PENSAMIENTO ESTADÍSTICO
El pensamiento estadístico algún día será
parte del ciudadano eficiente, y tan necesario
como la habilidad para leer y escribir
W. H. WELLS
6. Dos ejemplos de investigaciones estadísticas
PREGUNTA Cómo diseñar un equipo de Cómo aumentar el
mantenimiento rendimiento de un proceso
MODELO Variables: Variables:
- Número de averías (x1) - Rendimiento en % (y)
- Tiempo reparación (x2) - Temperatura x1
Hipótesis: las averías - Concentración x2
•Se producen Hipótesis:
independientemente •El rendimiento aumenta en
•La probabilidad de no promedio linealmente con la
avería disminuye temperatura y la
exponencialmente con el concentración
tiempo •Para valores fijos de x1 y x2
Para
Hipótesis:tiempo reparación el rendimiento varía
•Depende de muchos aleatoriamente alrededor de
pequeños factores su valor medio
7. RECOLECCIÓN Muestreo de máquinas para Diseño de un experimento
DE estudiar sus averías y tiempo que se varíen x1 y x2 y se
INFORMACIÓN de reparación mida y
ESTIMACIÓN Estimar: Estimar:
PARÁMETROS • λ , tasa media de averías • El efecto de la temperatura
• µ , tiempo medio de (b) y el de la concentración
reparación (c) sobre el rendimiento
• σ , variabilidad en el •Variabilidad experimental
tiempo de reparación
CONTRASTES ¿Tienen todos los tipos de ¿Es el efecto de la
DE SIMPLIFI- máquinas el mismo λ ? temperatura y concentración
CACIÓN ¿Los tipos de averías, el idéntico (b=c ) ?
mismo µ y σ ?
CRÍTICA DEL ¿Es cierta la independencia ¿Es la relación entre y
MODELO entre las averías? (x1 , x2) lineal?
¿Son la variabilidad de x1 y ¿Es la variabilidad de y para
x2 en la muestra consistentes x1, x2 fijos, independ. de los
con las hipótesis ? valores concretos de x1, x2 ?
8. Problema real
Planteamiento del problema
Objetos y medios
Objetos y medios
Modelos Estadísticos
(Cálculo de probabilidades)
(Cálculo de probabilidades)
Recolección de información muestral
(Técnicas de muestreo ;; diseño de experimentos)
muestreo diseño de experimentos)
Depuración de los datos
(Análisis de datos)
datos)
Estimación de los parámetros
(Teoría de la estimación)
de
9. Contrastes de Simplificación
(Contrastes de hipótesis)
Crítica y Diagnosis del Modelo
(Análisis de datos)
Nuevo Conocimiento
Previsiones Decisiones
10. La estadística en el nuevo mundo:
Era Industrial Era de la información
Gestión del Conocimiento
Datos Información
Estadística
Problemas que resuelve la Estadística :
• Análisis de datos (Data Mining)
• Verificación de hipótesis (DSS)
• Patrones de Reconocimiento
• Procesamiento de Imágenes
11. Muestreo
♦ Costo reducido
♦ Mayor rapidez
♦ Mayor posibilidad (Sistemas complejos)
APLICACIONES:
Mercadotecnia
Análisis de Imágenes
Modelos de Simulación
12. Teoría de muestreo
♦ Población finita
♦ Población infinita
Muestreo
Probabilístico
Probabilístico No Probabilístico
No Probabilístico
♦ Definición del conjunto de muestras
♦ Asignación de Probabilidad ( πi )
♦ Selección ( πi )
♦ Estimación
13. Medidas de Probabilidad
• Probabilidad una medida de la certidumbre
– La confiabilidad de una Inferencia
• Aproximación frecuentista - “A Priori”
– Pr (Ai) = n/N
• n = número de todas las posibles formas en que “Ai” puede ser
observado
• N = número total de posibles resultados
• Aproximación Subjectiva
– Una “Opinión de Experto”
14. Población
Conjunto de elementos u objetos - que obedecen a
reglas de pertenencia definidas por el observador -
de los cuales se desea conocer ciertos parámetros
de comportamiento característicos de la Población.
Cada sujeto o elemento de la Población es una
“observación”. Cada uno es una “incognita” en el
sentido que puede tener uno de los tantos valores
posibles de observar de cierta característica.
La Población puede ser:
• Finita : si los elementos son contables
• Infinita : si los elementos son enumerables
15. Población: Definición
La Teoría de Muestreo pretende desarrollar
métodos para obtener un conocimiento
adecuado de ciertas características de una
Población, mediante el estudio de un
número reducido de elementos u objetos
representativos de dicha Población
17. Muestreo
• Experimento: Un proceso de Observación
• Evento Simple: Un Resultado de un experimento
que no puede ser descompuesto
-“Mutuamente Excluyente”
-“Idéntica Posibilidad”
• Espacio Muestral: El conjunto de todos los
resultados posibles
• Evento “A”: El conjunto de todos los
eventos simples que
pertenecen al resultado “A”
18. Espacio Muestral
Conjunto de todos los resultados u observaciones
que se pueden observar al realizar un experimento
Puede ser
• Discreto
• Continuo
Sea
n : Tamaño de la Muestra
N : Tamaño de la Población
{Si: i = 1, 2, ....
N
n
}
todas las muestras posibles
Si se denomina el Espacio
Muestral o Universo
19. Clasificación de Métodos de Muestreo
1.- Por la Forma de Considerar un Evento
• Sin Reposición
• Con Reposición
2.- Por la Forma de Tomar la Muestra
• Juicio
• Aletaroria - Simple
- Sistemática
- Estratificada
- Conglomerados
3.- Por el número de Muestras
• Simple
• Múltiple
20. Muestreo Aleatorio
• Conjunto de observaciones tomadas de
una Población.
• Se dice que la muestra es aleatoria
cuando la manera de selección de cada
elemento de la población tiene igual
oportunidad de ser seleccionado.
• El método de selección es decisivo en las
conclusiones que se pueden obtener de la
muestra.
21. Tipo de Variable
Tanto en la escala intervalar como en la de razón es posible distinguir
dos tipos de variables aleatorias:
Variables Discretas: una que puede tomar sus valores de un conjunto
de puntos aislados (subconjunto de valores en R)
Variables Continuas: una que puede tomar sus valores en un conjunto
donde todos sus elementos son puntos de acumulación (un intervalo en
R). Siempre es posible tratar una variable continua como discreta
mediante la construcción de “intervalos de clase” representando cada
uno de los intervalos por su valor medio denominado “marca de clase”
Variables Categóricas o Cualitativas
Variables Cuantitativas
22. Estimación
Parámetro:
Medida para describir alguna característica de los
elementos de una Población, tal como Valor Esperado,
Moda o Varianza poblacional.
Estos guarismos son valores “verdaderos”, pero
deconocidos.
Estadística ( Estadígrafo):
Medida para describir una característica de la Muestra,
tal como Promedio, Varianza o Moda muestral. Estos
valores son calculados a partir de la Muestra, pero son
valores aproximados de los parámetros que
representan
23. Muestreo Aleatorio Simple: M.A.S.
Es un método de selección de n unidades sacadas de
N, de tal manera que cada una de las muestras C(N,n)
tiene la misma probabilidad de ser escogida.
En la prática un m.a.s. es sacado unidad por unidad:
• Las unidades de la población son numerados
del 1 al N.
• A continuación son seleccionados n números
aleatorios entre 1 y N, ya sea de tablas o de una
urna como en la lotería
24. Muestreo Estratificado Aleatorio
Se emplea cuando la población está agrupada en
pocos estratos, cada uno de ellos con muchos
individuos. Consiste en sacar un m.a.s. de cada uno
de los estratos.
Los Estratos, por lo general, son de diferente tamaño;
la muestra, por consiguiente, para ser representativa
debe contener elementos de cada estrato en forma
proporcional a la población. (Esto se llama afijación
proporcional, la que no siempre resulta ser la más conveniente
por cuanto los costos de muestreo en cada uno de los estratos
pueden ser distintos).
25. Muestreo Sistemático
Se utiliza cuando las unidades de la población están, de
algún modo, totalmente ordenadas. Para seleccionar una
muestra se aprovecha la ordenación de las unidades.
Para seleccionar una muestra de tamaño n
• se divide la población en “n” subpoblaciones
de tamaño K = N/n
• se toma una unidad al azar de la primera
subpoblación y
• de ahí en adelante cada k-ésima unidad.
Si n1 es la unidad seleccionada de la primera población,
entonces las siguientes observaciones serán n2 n1+K,
n3 n2+K ó n1+2K
26. Muestreo por Conglomerado
Se emplea cuando la población está dividida en
grupos pequeños.
Consiste en obtener una m.a.s. de algunos grupos y
luego censar cada uno de estos.
Hay dos razones para principales para la extensa
aplicación de estos planes de muestreo: falta de una
lista confiable de elementos en la población y
consideraciones del tipo económica.
27. Muestreo por Múltiple (doble)
La muestra se toma en dos pasos:
• en el primero se selecciona la muestra de
unidades primarias y
• en la segunda se selecciona una muestra de
elementos a partir de cada unidad primaria
escogida
28. Ejemplo 1
• Se tienen 2000 pernos en una urna
• El largo de cada perno puede estar entre 99,5 y
100,5 mm
• Se toma una muestra de cinco pernos y se mide
•• “Variable Aleatoria” Continua
su largo “Variable Aleatoria” Continua
• Cada observación es una “variable aleatoria
•• “Población”
“Población” Finita
Finita
continua”. Todas obedecen a la misma
•• “Espacio Muestral”
“Espacio Muestral” Finito si
distribución y son independientes Finito
entre
• Los pernos medidos se dejan a un lado y se toma
otra muestra de cinco pernos. De continuar así a
habrá observado toda la población
• Hacer un gráfico de barras – histograma – con la
frecuencia que aparece cada número
29. Ejemplo 2
• Se tiene 2000 pernos en una urna
• El largo de cada perno puede estar entre 99,5 y
100,5 mm
•• “Variable Aleatoria” Continua
• Se toma una muestra de cinco pernos y se mide
“Variable Aleatoria” Continua
su largo
•• “Población” Finita
“Población” Finita
• Cada observación es una “variable aleatoria
•• “Espacio Muestral” Infinito
continua”. Todas obedecen la Infinito
“Espacio Muestral” a misma
distribución y son independientes entre si
• Por pernos medidos se devulven a la urna y se
toma otra muestra de cinco pernos. El
experimento se puede repetir indefinidamente,
porque siempre existirán 2000 pernos en la urna
30. Estáticos Dinámicos
y=µ +u y = µ + φ yt-1 + ut
Extrapolativos
(Primera parte) (Quinta parte)
y=µ +β x+u y=µ +β x+
Explicativos (Tercera y cuarta φ yt-1 + ut
parte) (Quinta parte)
32. Knowledge Discovery in
Data Bases (KDD)
“Es un proceso de identificación de patrones
válidos, innovativos, potencialmente útiles,
no explícitos y comprensibles a partir de los
datos”.
33. KDD
Etapas del KDD :
1. Data Selection
2. Cleaning
3. Enrichment
4. Coding
5. Data Mining
6. Reporting
34. KDD
Requiremientos de Información
Selección de
Data Bases Datos
Cleaning:
•Domain consistency
•De-duplication
• Outliers detection
Feedback Enrichment
Datos Externos
Coding
Data Mining
• Association
• Clustering
• Classification
• Regression
Reporting
Action
35. Data Mining (DM)
“Etapa de reconocimiento de patrones, a través de
algoritmos automáticos o semiautomáticos de
grandes bases de datos con el objeto de apoyar a la
toma de decisiones dentro de una organización”.
36. Algoritmos en DM
•Existen diversos algoritmos en Data Mining los que se
pueden clasificar
•Machine Learning
•Pattern Recognition
•Actividades de Data Mining:
•Preparación de los datos
•Aplicación de algoritmos de DM
•Análisis de datos
37. DM
•Algoritmos de DM:
•Asociación de datos (ANN)
•Pattern recognition (Time Series)
•Clustering
•Clasificación
•Regresión
•Pronósticos
38. Aplicaciones de DM
•Energía: Apoyo a la toma de decisiones en plantas energía
eléctrica (centro de despacho de cargas)
•Medicina: Mejora de diagnósticos y asignación de
tratamientos en base a reconocimiento de patrones.
•Marketing: información demográfica y sistemas geo-
referenciados, patrones de compra, segmentación de mercados.
•Finanzas: predicción de valores y riesgo en el mercado de
opciones.