Información Diplomado en Administración de Bases de Datos con Mysql primera E...
Pres unid i estadistica descriptiva 2011
1. UNIVERSIDAD NACIONAL DE INGENIERIA
FACULTAD DE CIENCIAS Y SISTEMA
INGENIERIA DE SISTEMA
ESTADISTICA I
UNIDAD I: ESTADISTICA DESCRIPTIVA
MSC. ROBERTO JOSE AGUILERA LOPEZ
RJAL
2. RJAL
DEFINICION DE ESTADISTICA
Se define como la ciencia que se encarga de reunir,
organizar, presentar, analizar e interpretar datos para
ayudar a tomar mejores decisiones.
Se dice que es la ciencia de la toma de decisiones a partir
de datos cuantitativos y cualitativos, este proceso incluye
determinar los atributos y cualidades reales al igual que
realizar estimaciones y verificar hipótesis mediante las
cuales se determinan valores probables o esperados.
Rama de las matemáticas que aborda el tema de la
organización, recolección, presentación, análisis e
interpretación de grupos de datos numéricos
02/12/2011 2 ING. ROBERTO AGUILERA LOPEZ
3. RJAL
IMPORTANCIA DE LA ESTADISTICA
En términos de áreas funcionales de negocios la
estadística puede aplicarse por ejemplo en:
Contabilidad: Para seleccionar muestras con
propósitos de auditoría.
Finanzas: Para decidir si se concede o no un préstamo
basado en las características demográficas, historial
crediticio, ingresos, etc. Predecir la tasa de rendimiento
de un activo. Evaluar oportunidades de inversión.
Administración: Para describir características de
empleados dentro de una organización.
02/12/2011 3 ING. ROBERTO AGUILERA LOPEZ
4. RJAL
IMPORTANCIA DE LA ESTADISTICA
Mercadeo: Para estimar la demanda
de un producto. Para determinar los
efectos de una campaña publicitaria
Producción: Para el control de
calidad de un proceso de
producción.
Macroeconómico: Para analizar el
comportamiento de las tasas
tributarias, el comportamiento de la
inversión, del consumo y el de la
producción entre otros.
02/12/2011 4 ING. ROBERTO AGUILERA LOPEZ
5. RJAL
IMPORTANCIA DE LA ESTADISTICA
Para tomar una decisión eficaz y oportuna se
necesita de la estadística para ser capaz de:
Determinar si la información existente es
adecuada o si se necesita información adicional.
Conseguir información adicional, si es necesaria,
de manera que no lleve resultados erróneos.
Resumir la información de una manera útil e
informativa
Analizar la información disponible.
Sacar conclusiones y hacer inferencias
determinando el riesgo de una conclusión
incorrecta.
02/12/2011 5 ING. ROBERTO AGUILERA LOPEZ
6. RJAL
IMPORTANCIA DE LA ESTADISTICA
USARIOS DE LA ESTADISTICA
Organismos oficiales
Administradores y gerentes de línea
Investigadores científicos
Diarios y revistas
Políticos
Deportistas
Marketing
Control de calidad
Policía
Médicos, etc.
02/12/2011 6 ING. ROBERTO AGUILERA LOPEZ
7. RJAL
RAMAS DE LA ESTADISTICA
ESTADISTICA DESCRIPTIVA
La estadística descriptiva se puede definir como aquellos
métodos que incluyen la recolección, organización,
presentación y caracterización de un conjuntos de datos
con el fin de describir apropiadamente las diversas
características de ese conjunto de datos
Ejemplo 1: Los datos del Censo de población de 2001.
Ejemplo 2: La cantidad de robos ocurridos el último mes en
el municipio.
Ejemplo 3: La cantidad de pacientes atendidos en un
Hospital municipal el último año.
02/12/2011 7 ING. ROBERTO AGUILERA LOPEZ
8. RJAL
RAMAS DE LA ESTADISTICA
ESTADISTICA INFERENCIAL
La estadística inferencial puede definirse como aquellos
métodos que hacen posible la estimación de una
característica de una población o la toma de decisión
referente a una población , basándose en los resultados de
una muestra.
Población(1) es la colección o conjunto de individuos,
objetos o eventos cuyas propiedades serán analizadas.
Puede ser finita o infinita
Muestra es un subconjunto de la población de interés.
(1) Algunos autores utilizan Universo como sinónimo
02/12/2011 8 ING. ROBERTO AGUILERA LOPEZ
9. RJAL
RAMAS DE LA ESTADISTICA
Ejemplos de inferencia estadística
Predecir el periodo de vida útil de
un equipo (sobre la base del
desempeño de estas maquinas)
Determinar las dosis de un
medicamento (sobre la base de
pruebas realizadas)
Pronosticar la cantidad de ventas
de un producto (sobre la base de
su precio, diseño, ubicación,
publicidad)
02/12/2011 9 ING. ROBERTO AGUILERA LOPEZ
10. RJAL
RECOPILACION DE DATOS
Datos de fuentes primarias: Son aquellos
datos que no han sido recopilados
anteriormente por parte de organismos
que trabajan en la obtención y
elaboración de datos y que por
consiguiente, son observados y anotados
por el investigador.
• Encuestas
• Observación
• Entrevistas con expertos
• Entrevistas de grupo con personas
informadas
02/12/2011 10 ING. ROBERTO AGUILERA LOPEZ
11. RJAL
RECOPILACION DE DATOS
Datos de fuentes secundarias son datos ya
han sido recopilados y elaborados para
propósito diferentes de las necesidades
inmediatas y específicas de una investigación
Los datos secundarios se clasifican como
provenientes de:
Fuentes internas: disponible dentro de la
organización.
Fuentes externas: son proporcionados por
fuentes externas a la organización
02/12/2011 11 ING. ROBERTO AGUILERA LOPEZ
12. RJAL
RECOPILACION DE DATOS
Por correo
Encuestas Telefónicas
Personales
De grupos
Entrevistas Personales
Personal
Observación Mecánica
Recolección de
información primaria Test
Recolección de Experimental Retorno
Etiquetas
información secundaria Mercado
Registros contables
Fuentes internas Banco de datos de marketing
Censos
Fuentes externas Publicaciones periódicas
Informes
02/12/2011 12 ING. ROBERTO AGUILERA LOPEZ
13. RJAL
RECOPILACION DE DATOS
Parámetro: Valor numérico que resume todos los datos
de una población completa. Se utilizan letras griegas
para simbolizar un parámetro como ser y .
Ejemplos: La calificación “promedio” del estudiante de
secundaria en el momento de admisión de todos los
estudiantes a una Universidad.
Estadística: Valor numérico que resume los datos de
una muestra. Se utilizan letras del alfabeto español para
simbolizarlas como y s .
Ejemplo: La edad “promedio” registrada en una encuesta
de 150 consumidores de gaseosas.
02/12/2011 13 ING. ROBERTO AGUILERA LOPEZ
14. RJAL
RECOPILACION DE DATOS
Variable: Característica de interés sobre
cada elemento individual de una población
o muestra.
Datos: conjunto de valores recolectados de
la variable asociada a un elemento de la
población o muestra. Estos valores pueden
ser números, palabras o símbolos.
Ejemplo: La familia López tiene “6”
miembros, sus ingresos mensuales son de
“C$ 12,355”, “4” son de sexo femenino y “2”
masculino.
02/12/2011 14 ING. ROBERTO AGUILERA LOPEZ
15. RJAL
RECOPILACION DE DATOS
Cualitativa o de Atributos: clasifica o describe un elemento
de la población. Los valores que puede asumir no constituyen
un espacio métrico, por lo tanto las operaciones aritméticas,
como sumar y obtener promedios, no son significativas.
Ejemplos: Sexo, nacionalidad, marcas de auto, grado de
satisfacción, etc.
Cuantitativa o Numérica: Cuantifica un elemento de la
población. Los valores que puede asumir constituyen un
espacio métrico, por lo tanto las operaciones aritméticas,
como sumar y obtener promedios, son significativas.
Ejemplos: Cantidad de habitaciones, número de hijos,
kilómetros recorridos, tiempo de vuelo, ingreso, etc.
02/12/2011 15 ING. ROBERTO AGUILERA LOPEZ
16. RJAL
RECOPILACION DE DATOS
Variables Discretas: solo pueden asumir ciertos valores y
normalmente hay huecos entre ellos. Es decir cuando los
posibles valores son un conjunto finito entre dos valores
dados.
Ejemplo 1: Cantidad de materias aprobadas.(1, 2,3 ......)
Ejemplo 2: Cantidad de hijos (1, 2, 3, 4...)
Variables Continuas: son aquellas que pueden tomar
cualquier valor dentro de un rango especifico de medición.
Normalmente se miden magnitudes como ser longitud,
superficie, volumen, peso, tiempo, dinero.
Ejemplo 1: Peso al nacer.
Ejemplo 2: Salario de un empleado.
Ejemplo 3: Tiempo de viaje en bus entre Chinandega y León.
02/12/2011 16 ING. ROBERTO AGUILERA LOPEZ
17. RJAL
PRESENTACION DE DATOS
Una vez que los datos se recopilan se presentan
básicamente mediante tablas y por gráficos.
TITULO CALIFICACIONES DE ESTADISTICAS
(ENCABEZAMIENTO) GRUPO 2M1IS
68 52 44 32 10 73
73 31 32 83 45 61
CONTENIDO
(CUERPO) 61 45 21 95 58 35
66 83 15 67 62 42
96 65 81 72 60 55
DEPARTAMENTO DE MATEMATICA
FUENTE RUPAP - UNI
02/12/2011 17 ING. ROBERTO AGUILERA LOPEZ
18. RJAL
PRESENTACION DE DATOS
Cuando disponemos de gran número de datos es útil el distribuirlo
en clases o categorías y determinar el número de individuos
pertenecientes a cada clase, que es la frecuencia de clase.
Alturas de 100 estudiantes de la UNI
ALTURA NUMERO DE
(mts) ESTUDIANTES
1.41 - 1.50 23
1.51 - 1.60 28
1.61 - 1.70 37
1.71 - 1.80 10
1.81 - 1.90 2
TOTAL 100
02/12/2011 18 ING. ROBERTO AGUILERA LOPEZ
19. RJAL
PRESENTACION DE DATOS
Una distribución de frecuencia es una ordenación tabular
de datos estadísticos que muestran cuantos elementos o que
partes entran en diferentes intervalos o categorías en los
cuales se agrupan los datos.
Las distribuciones de frecuencia pueden ser distribuciones
numéricas o cualitativas.
DÍAS ARTÍCULOS Número de
DEFECTUOSOS estudiantes
1 35
Planean ir a la Universidad 240
2 45
Quizás vayan a la Universidad 140
3 52
Quizás vayan a un vocacional 60
4 31
5 48 No seguirán estudiando 60
02/12/2011 19 ING. ROBERTO AGUILERA LOPEZ
20. RJAL
PRESENTACION DE DATOS
Para construir distribuciones de frecuencias se debe de
tomar en cuenta que:
Siempre nos aseguramos de que cada elemento quede
en una sola clase.
Siempre que sea posible, hacemos que las clases
cubran escalas o intervalos iguales.
El número de clases depende del número de
observaciones pero tiene muy poca utilidad usar menos
de 5 o más de 20 clases.
Se deben evitar las clases abiertas (menos de, más de,
menor que, mayor que) ya que hacen imposible el
cálculo de ciertas descripciones adicionales que sean
de interés.
02/12/2011 20 ING. ROBERTO AGUILERA LOPEZ
21. RJAL
PRESENTACION DE DATOS
Pasos para organizar los datos en una distribución de
frecuencia
1. Seleccionar el número apropiado de agrupamientos de
clases. En general la tabla deberá tener entre 5 y 20
clases. Se puede utilizar una regla simple para aproximar
el número de clases a utilizar, c, la cual es 2c > n, donde
n es el número de datos.
2. Determinar el intervalo o amplitud de clase de cada
agrupamiento.
Valor unitario siguiente Valor más
Ancho de después del valor más - pequeño de
los intervalos = grande de los datos los datos .
de clase Número total de intervalos
02/12/2011 21 ING. ROBERTO AGUILERA LOPEZ
22. RJAL
PRESENTACION DE DATOS
Pasos para organizar los datos en una distribución de
frecuencia
3. Establecer los límites de cada agrupamiento de clase
para evitar los traslapes.
4. Clasifique los puntos de datos en clase y cuente el
número de observaciones que hay en cada clase. Al
número de observaciones en cada clase se le llama
frecuencia de clase.
La marca de clase es el punto medio del intervalo de clase y
se obtiene sumando el límite inferior al límite superior de la
clase y dividiendo entre dos.
02/12/2011 22 ING. ROBERTO AGUILERA LOPEZ
23. RJAL
PRESENTACION DE DATOS
Ejemplo: Los siguientes datos indican el número de
trabajadores que faltan a una fábrica en 50 días de
trabajo. Construya una tabla de distribución de
frecuencia. Represéntelos gráficamente a través de un
histograma de frecuencia, un polígono de frecuencias,
una ojiva y una ojiva porcentual.
13 5 13 37 10 16 2 11 6 12
8 21 12 11 7 7 9 16 39 18
3 11 19 6 15 10 14 10 7 24
11 3 6 10 4 6 32 9 12 7
29 12 9 9 8 20 15 5 17 10
02/12/2011 23 ING. ROBERTO AGUILERA LOPEZ
24. RJAL
REPRESENTACIÓN GRÁFICA DE LOS DATOS
HISTOGRAMA DE FRECUENCIA.
Consiste en una serie de rectángulos que tienen sus bases
sobre el eje horizontal con centro en las marcas de clase
(Xi), ancho igual al tamaño de los intervalos de clase y
alturas proporcionales a las frecuencias de clase.
POLÍGONO DE FRECUENCIA.
Gráfico que consiste en unir los puntos formados por la
intersección de cada marca de clase (Xi) y la frecuencia de
clase (fi). Es decir la frecuencia dentro de un intervalo de
clase se representa como un punto, cuya abcisa es la marca
de clase. Posteriormente, se unen los puntos para obtener el
polígono de frecuencia, teniendo cuidado de agregar al
inicio y al final marcas de clases adicionales.
02/12/2011 24 ING. ROBERTO AGUILERA LOPEZ
25. RJAL
REPRESENTACIÓN GRÁFICA DE LOS DATOS
OJIVA
Gráfico que resulta de unir los puntos colocados encima de los
límites reales de la clase a una altura según la frecuencia
absoluta acumulada o es decir se marcan los intervalos de
clase en el eje horizontal y la frecuencia absoluta acumulada en
el eje vertical como ordenada en el extremo derecho de dicho
intervalo.
OJIVA PORCENTUAL
Gráfico que resulta al unir los puntos colocados encima de los
límites reales de clase a una altura según la frecuencia relativa
acumulada.
DIAGRAMA DE PASTEL.
Es un círculo dividido en sectores circulares proporcionales al tamaño
de las frecuencias.
02/12/2011 25 ING. ROBERTO AGUILERA LOPEZ
26. RJAL
MEDIDAS DE TENDENCIA CENTRAL
Un promedio es un valor que es típico o representativo de
un conjunto de datos. Como tales, estos valores tienden a
situarse en el centro del conjunto de datos ordenados según
su magnitud, los promedios se conocen también como
medidas de centralización
DATOS
DATOS NO AGRUPADOS
AGRUPADOS
LA MEDIA
LA MEDIA
MEDIANA
MEDIANA
LA MODA
LA MODA
CUARTILES
MEDIA PONDERADA
DECILES
MEDIA GEOMETRICA
PERCENTILES
02/12/2011 26 ING. ROBERTO AGUILERA LOPEZ
27. RJAL
MEDIDAS DE TENDENCIA CENTRAL.
DATOS NO AGRUPADOS
Media aritmética
Media poblacional = Suma de todos los valores de la población
Número de valores en la población
Media muestral = Suma de todos los valores en la muestra
Número de valores en la muestra
02/12/2011 27 ING. ROBERTO AGUILERA LOPEZ
28. RJAL
MEDIDAS DE TENDENCIA CENTRAL.
Mediana
La mediana de un conjunto de observaciones xi se define
como el valor M que cae en el centro de los dos valores
centrales cuando las observaciones están colocadas en
orden de magnitud.
Si el conjunto de datos tiene un número impar de
observaciones, la posición de la mediana es
Posición de la mediana = (n + 1) / 2
Con un conjunto de datos que contiene un número par de
observaciones es necesario promediar los dos valores
medios.
02/12/2011 28 ING. ROBERTO AGUILERA LOPEZ
29. RJAL
MEDIDAS DE TENDENCIA CENTRAL.
Moda
La moda es el valor de las observaciones que se presentan
con más frecuencia, es decir el valor más común.
La moda puede no existir, incluso si existe puede no ser
única. La denotaremos por Mo.
Media ponderada
Se presenta cuando se tienen varias observaciones con un
mismo valor.
X = f1x1 + f2x2 + f3x3 +... + fkxk = Σfixi = Σfixi
f1 + f2 + f3 + ..... fk Σfi n
02/12/2011 29 ING. ROBERTO AGUILERA LOPEZ
30. RJAL
MEDIDAS DE TENDENCIA CENTRAL.
Media geométrica
La media geométrica es útil para encontrar el promedio de
porcentajes, proporciones, índices o tasas de crecimiento.
Como tal, tiene una gran aplicación en los negocios y la
economía, debido a que con frecuencia se está interesado
en establecer el cambio porcentual en las ventas, en el
salario, en el producto interno bruto, o en cualquier serie
económica.
La media geométrica proporciona una medida precisa de un
cambio porcentual promedio en una serie de números.
02/12/2011 30 ING. ROBERTO AGUILERA LOPEZ
31. RJAL
MEDIDAS DE TENDENCIA CENTRAL.
DATOS AGRUPADOS
Media aritmética
Mediana
M = Linf + [n/2 - F] * c
fmd
Linf = Límite inferior de la clase mediana
n = Tamaño de la muestra.
c = Tamaño de la clase mediana.
F = Frecuencia acum. de la clase que antecede a la clase mediana.
fmd = Frecuencia de la clase mediana.
02/12/2011 31 ING. ROBERTO AGUILERA LOPEZ
32. RJAL
MEDIDAS DE TENDENCIA CENTRAL.
Moda
La moda es el intervalo de clase (a menudo indicada por el
punto medio de la clase) que posee la mayor frecuencia.
M = Linf + [ Da ]*c
Db + Da
Linf: Límite inferior real de la clase modal.
c : Tamaño de la clase modal.
Da : Diferencia entre la frecuencia de la clase modal y la
clase que la antecede.
Db : Diferencia entre la frecuencia de la clase modal y la
clase que le sigue.
02/12/2011 32 ING. ROBERTO AGUILERA LOPEZ
33. RJAL
MEDIDAS DE TENDENCIA CENTRAL.
POSICIONES RELATIVAS DE
LA MEDIA, LA MEDIANA Y LA
MODA Curva A
Si el polígono de frecuencia, es
simétrico, es decir que la
distribución tiene la misma
forma a ambos lados del
centro; la moda, la mediana y
la media aritmética se localizan Moda = Mediana
= Media
en el centro y son siempre
iguales.
02/12/2011 33 ING. ROBERTO AGUILERA LOPEZ
34. RJAL
MEDIDAS DE TENDENCIA CENTRAL.
DISTRIBUCIÓN SESGADA DISTRIBUCIÓN SESGADA
A LA DERECHA A LA IZQUIERDA
Frecuencia Frecuencia
Curva A
Curva B
Sesgada a la izquierda
(negativamente sesgada)
Sesgada a la derecha
(positivamente sesgada)
Mo M Media Media M Mo
02/12/2011 34 ING. ROBERTO AGUILERA LOPEZ
35. RJAL
MEDIDAS DE TENDENCIA CENTRAL.
OTROS TIPOS DE MEDIDAS: CUARTILES, DECILES Y
PERCENTILES.
Alcance intercuartil
¼ de las observaciones
¼ de las observaciones
Observación 1er cuartil 2do cuartil 3er cuartil Observación
más baja Q1 Q2 Q3 más alta
MEDIANA
Q1 Q2 Q3
└─────┴─────┴──┼──┴─────┴─────┼─────┴─────┴──┼──┴─────┴─────┴
0 1 2 │ 3 4 5 6 7 │ 8 9 10
P25 P50 P75
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10
02/12/2011 35 ING. ROBERTO AGUILERA LOPEZ
36. RJAL
MEDIDAS DE TENDENCIA CENTRAL.
Las fórmulas para los cuartiles Q1 y Q3 son:
������ 3������
( − ������ ������������������ ) ( − ������ ������������������ )
������1 = ������������������������ + 4
∗ ������ ������3 = ������������������������ + 4
∗ ������
������ ������������������������������������������ ������ ������������������������������������������
Las fórmulas para los deciles D1 y D9 son:
������ 9������
( − ������ ������������������ ) ( − ������ ������������������ )
������1 = ������������������������ + 10
∗ ������ ������9 = ������������������������ + 10
∗ ������
������ ������������������������������ ������ ������������������������������
Las fórmulas para los percentiles P30 y P68 son:
30������ 68������
( − ������ ������������������ ) ( − ������ ������������������ )
������30 = ������������������������ + 100
∗ ������ ������68 = ������������������������ + 100
∗ ������
������ ������������������������������������������������������ ������ ������������������������������������������������������
02/12/2011 36 ING. ROBERTO AGUILERA LOPEZ