Cap1.2001 2

Capítulo 1
Introducción
II- 2001

¿ Qué es la estadística ?
Ciencia dedicada al estudio sistemático de los datos
Transforma datos en información
Contribuye a la generación de conocimiento

Historia de la estadística :
Como ciencia de Estado (2600 A.C.)
Como cálculo de probabilidades (siglo XVIII)

Rol de la estadística :
Proporcionar métodos para evaluar y juzgar la
teoría y la realidad

USOS
Ciencias naturales
Ciencias económicas
Ciencias políticas y sociales
Ciencias médicas etc.

ABUSOS
Encuestas de opinión
Índices económicos
Pronósticos

La Estadística en la era de la Información
Destrezas lectoras para la sociedad del
Conocimiento

EL PENSAMIENTO ESTADÍSTICO
El pensamiento estadístico algún día será
parte del ciudadano eficiente, y tan necesario
como la habilidad para leer y escribir
W. H. WELLS

DATOS

MODELOS

HECHOS

TEORÍAS

FENÓMENOS

INTUICIONES

Dos ejemplos de investigaciones estadísticas
PREGUNTA Cómo diseñar un equipo de Cómo aumentar el
mantenimiento rendimiento de un proceso
MODELO Variables: Variables:
- Número de averías (x1) - Rendimiento en % (y)
- Tiempo reparación (x2) - Temperatura x1
Hipótesis: las averías - Concentración x2
•Se producen Hipótesis:
independientemente •El rendimiento aumenta en
•La probabilidad de no promedio linealmente con la
avería disminuye temperatura y la
exponencialmente con el concentración
tiempo •Para valores fijos de x1 y x2
Para
Hipótesis:tiempo reparación el rendimiento varía
•Depende de muchos aleatoriamente alrededor de
pequeños factores su valor medio

RECOLECCIÓN Muestreo de máquinas para Diseño de un experimento
DE estudiar sus averías y tiempo que se varíen x1 y x2 y se
INFORMACIÓN de reparación mida y
ESTIMACIÓN Estimar: Estimar:
PARÁMETROS • λ , tasa media de averías • El efecto de la temperatura
• µ , tiempo medio de (b) y el de la concentración
reparación (c) sobre el rendimiento
• σ , variabilidad en el •Variabilidad experimental
tiempo de reparación
CONTRASTES ¿Tienen todos los tipos de ¿Es el efecto de la
DE SIMPLIFI- máquinas el mismo λ ? temperatura y concentración
CACIÓN ¿Los tipos de averías, el idéntico (b=c ) ?
mismo µ y σ ?
CRÍTICA DEL ¿Es cierta la independencia ¿Es la relación entre y
MODELO entre las averías? (x1 , x2) lineal?
¿Son la variabilidad de x1 y ¿Es la variabilidad de y para
x2 en la muestra consistentes x1, x2 fijos, independ. de los
con las hipótesis ? valores concretos de x1, x2 ?

Problema real

Planteamiento del problema
Objetos y medios
Objetos y medios

Modelos Estadísticos
(Cálculo de probabilidades)
(Cálculo de probabilidades)

Recolección de información muestral
(Técnicas de muestreo ;; diseño de experimentos)
muestreo diseño de experimentos)

Depuración de los datos
(Análisis de datos)
datos)

Estimación de los parámetros
(Teoría de la estimación)
de

Contrastes de Simplificación
(Contrastes de hipótesis)

Crítica y Diagnosis del Modelo
(Análisis de datos)

Nuevo Conocimiento

Previsiones Decisiones

La estadística en el nuevo mundo:
Era Industrial Era de la información
Gestión del Conocimiento

Datos Información
Estadística

Problemas que resuelve la Estadística :

• Análisis de datos (Data Mining)
• Verificación de hipótesis (DSS)
• Patrones de Reconocimiento
• Procesamiento de Imágenes

Muestreo
♦ Costo reducido
♦ Mayor rapidez
♦ Mayor posibilidad (Sistemas complejos)
APLICACIONES:
Mercadotecnia
Análisis de Imágenes
Modelos de Simulación

Teoría de muestreo
♦ Población finita
♦ Población infinita
Muestreo

Probabilístico
Probabilístico No Probabilístico
No Probabilístico

♦ Definición del conjunto de muestras
♦ Asignación de Probabilidad ( πi )
♦ Selección ( πi )
♦ Estimación

Medidas de Probabilidad
• Probabilidad una medida de la certidumbre
– La confiabilidad de una Inferencia

• Aproximación frecuentista - “A Priori”
– Pr (Ai) = n/N
• n = número de todas las posibles formas en que “Ai” puede ser
observado
• N = número total de posibles resultados

• Aproximación Subjectiva
– Una “Opinión de Experto”

Población

Conjunto de elementos u objetos - que obedecen a
reglas de pertenencia definidas por el observador -
de los cuales se desea conocer ciertos parámetros
de comportamiento característicos de la Población.
Cada sujeto o elemento de la Población es una
“observación”. Cada uno es una “incognita” en el
sentido que puede tener uno de los tantos valores
posibles de observar de cierta característica.
La Población puede ser:
• Finita : si los elementos son contables
• Infinita : si los elementos son enumerables

Población: Definición

La Teoría de Muestreo pretende desarrollar
métodos para obtener un conocimiento
adecuado de ciertas características de una
Población, mediante el estudio de un
número reducido de elementos u objetos
representativos de dicha Población

Planes de Muestreo

♦ Muestreo Aleatorio Simple

♦ Muestreo Estratificado Aleatorio

♦ Muestreo Sistemático

♦ Muestreo por Conglomerado

♦ Muestreo Múltiple

Muestreo
• Experimento: Un proceso de Observación
• Evento Simple: Un Resultado de un experimento
que no puede ser descompuesto
-“Mutuamente Excluyente”
-“Idéntica Posibilidad”
• Espacio Muestral: El conjunto de todos los
resultados posibles
• Evento “A”: El conjunto de todos los
eventos simples que
pertenecen al resultado “A”

Espacio Muestral

Conjunto de todos los resultados u observaciones
que se pueden observar al realizar un experimento
Puede ser
• Discreto
• Continuo
Sea
n : Tamaño de la Muestra
N : Tamaño de la Población

{Si: i = 1, 2, ....



N
n

}


todas las muestras posibles
Si se denomina el Espacio
Muestral o Universo

Clasificación de Métodos de Muestreo

1.- Por la Forma de Considerar un Evento
• Sin Reposición
• Con Reposición

2.- Por la Forma de Tomar la Muestra
• Juicio
• Aletaroria - Simple
- Sistemática
- Estratificada
- Conglomerados

3.- Por el número de Muestras
• Simple
• Múltiple

Muestreo Aleatorio

• Conjunto de observaciones tomadas de
una Población.
• Se dice que la muestra es aleatoria
cuando la manera de selección de cada
elemento de la población tiene igual
oportunidad de ser seleccionado.
• El método de selección es decisivo en las
conclusiones que se pueden obtener de la
muestra.

Tipo de Variable
Tanto en la escala intervalar como en la de razón es posible distinguir
dos tipos de variables aleatorias:
Variables Discretas: una que puede tomar sus valores de un conjunto
de puntos aislados (subconjunto de valores en R)
Variables Continuas: una que puede tomar sus valores en un conjunto
donde todos sus elementos son puntos de acumulación (un intervalo en
R). Siempre es posible tratar una variable continua como discreta
mediante la construcción de “intervalos de clase” representando cada
uno de los intervalos por su valor medio denominado “marca de clase”
Variables Categóricas o Cualitativas

Variables Cuantitativas

Estimación
Parámetro:
Medida para describir alguna característica de los
elementos de una Población, tal como Valor Esperado,
Moda o Varianza poblacional.
Estos guarismos son valores “verdaderos”, pero
deconocidos.

Estadística ( Estadígrafo):
Medida para describir una característica de la Muestra,
tal como Promedio, Varianza o Moda muestral. Estos
valores son calculados a partir de la Muestra, pero son
valores aproximados de los parámetros que
representan

Muestreo Aleatorio Simple: M.A.S.

Es un método de selección de n unidades sacadas de
N, de tal manera que cada una de las muestras C(N,n)
tiene la misma probabilidad de ser escogida.

En la prática un m.a.s. es sacado unidad por unidad:
• Las unidades de la población son numerados
del 1 al N.
• A continuación son seleccionados n números
aleatorios entre 1 y N, ya sea de tablas o de una
urna como en la lotería

Muestreo Estratificado Aleatorio

Se emplea cuando la población está agrupada en
pocos estratos, cada uno de ellos con muchos
individuos. Consiste en sacar un m.a.s. de cada uno
de los estratos.
Los Estratos, por lo general, son de diferente tamaño;
la muestra, por consiguiente, para ser representativa
debe contener elementos de cada estrato en forma
proporcional a la población. (Esto se llama afijación
proporcional, la que no siempre resulta ser la más conveniente
por cuanto los costos de muestreo en cada uno de los estratos
pueden ser distintos).

Muestreo Sistemático
Se utiliza cuando las unidades de la población están, de
algún modo, totalmente ordenadas. Para seleccionar una
muestra se aprovecha la ordenación de las unidades.
Para seleccionar una muestra de tamaño n
• se divide la población en “n” subpoblaciones
de tamaño K = N/n
• se toma una unidad al azar de la primera
subpoblación y
• de ahí en adelante cada k-ésima unidad.
Si n1 es la unidad seleccionada de la primera población,
entonces las siguientes observaciones serán n2  n1+K,
n3  n2+K ó n1+2K

Muestreo por Conglomerado

Se emplea cuando la población está dividida en
grupos pequeños.
Consiste en obtener una m.a.s. de algunos grupos y
luego censar cada uno de estos.
Hay dos razones para principales para la extensa
aplicación de estos planes de muestreo: falta de una
lista confiable de elementos en la población y
consideraciones del tipo económica.

Muestreo por Múltiple (doble)

La muestra se toma en dos pasos:
• en el primero se selecciona la muestra de
unidades primarias y
• en la segunda se selecciona una muestra de
elementos a partir de cada unidad primaria
escogida

Ejemplo 1
• Se tienen 2000 pernos en una urna
• El largo de cada perno puede estar entre 99,5 y
100,5 mm
• Se toma una muestra de cinco pernos y se mide
•• “Variable Aleatoria”  Continua
su largo “Variable Aleatoria”  Continua
• Cada observación es una “variable aleatoria
•• “Población”
“Población”  Finita
 Finita
continua”. Todas obedecen a la misma
•• “Espacio Muestral”
“Espacio Muestral”  Finito si
distribución y son independientes Finito
 entre
• Los pernos medidos se dejan a un lado y se toma
otra muestra de cinco pernos. De continuar así a
habrá observado toda la población
• Hacer un gráfico de barras – histograma – con la
frecuencia que aparece cada número

Ejemplo 2

• Se tiene 2000 pernos en una urna
• El largo de cada perno puede estar entre 99,5 y
100,5 mm
•• “Variable Aleatoria”  Continua
• Se toma una muestra de cinco pernos y se mide
“Variable Aleatoria”  Continua
su largo
•• “Población”  Finita
“Población”  Finita
• Cada observación es una “variable aleatoria
•• “Espacio Muestral”  Infinito
continua”. Todas obedecen la Infinito
“Espacio Muestral” a  misma
distribución y son independientes entre si
• Por pernos medidos se devulven a la urna y se
toma otra muestra de cinco pernos. El
experimento se puede repetir indefinidamente,
porque siempre existirán 2000 pernos en la urna

Estáticos Dinámicos

y=µ +u y = µ + φ yt-1 + ut
Extrapolativos
(Primera parte) (Quinta parte)

y=µ +β x+u y=µ +β x+
Explicativos (Tercera y cuarta φ yt-1 + ut
parte) (Quinta parte)

Métodos Estadísticos
en
DATA MINING

Knowledge Discovery in
Data Bases (KDD)

“Es un proceso de identificación de patrones
válidos, innovativos, potencialmente útiles,
no explícitos y comprensibles a partir de los
datos”.

KDD

Etapas del KDD :
1. Data Selection
2. Cleaning
3. Enrichment
4. Coding
5. Data Mining
6. Reporting

KDD
Requiremientos de Información

Selección de
Data Bases Datos
Cleaning:
•Domain consistency
•De-duplication
• Outliers detection

Feedback Enrichment
Datos Externos

Coding
Data Mining
• Association
• Clustering
• Classification
• Regression
Reporting

Action

Data Mining (DM)

“Etapa de reconocimiento de patrones, a través de
algoritmos automáticos o semiautomáticos de
grandes bases de datos con el objeto de apoyar a la
toma de decisiones dentro de una organización”.

Algoritmos en DM
•Existen diversos algoritmos en Data Mining los que se
pueden clasificar
•Machine Learning
•Pattern Recognition
•Actividades de Data Mining:
•Preparación de los datos
•Aplicación de algoritmos de DM
•Análisis de datos

DM

•Algoritmos de DM:
•Asociación de datos (ANN)
•Pattern recognition (Time Series)
•Clustering
•Clasificación
•Regresión
•Pronósticos

Aplicaciones de DM
•Energía: Apoyo a la toma de decisiones en plantas energía
eléctrica (centro de despacho de cargas)
•Medicina: Mejora de diagnósticos y asignación de
tratamientos en base a reconocimiento de patrones.
•Marketing: información demográfica y sistemas geo-
referenciados, patrones de compra, segmentación de mercados.
•Finanzas: predicción de valores y riesgo en el mercado de
opciones.

Cap1.2001 2

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Cap1.2001 2

Similar a Cap1.2001 2 (20)

Cap1.2001 2