SlideShare una empresa de Scribd logo
Saltar a la primera
página
ESTADÍSTICA
La palabra estadística tiene 2
significados;
Estadística 1; hechos numéricos
sistemáticamente recolectados 2;
Ciencia de recolectar, clasificar y
utilizar estadísticas
– (Oxford
Concise Dictionary)
Por ejemplo……………….
Introducción a la
Estadística
Algunas definiciones de
Estadistica.
Rama de las matemáticas que proporciona
herramientas que permiten manejar grandes
cantidades de datos, convirtiendolos en
información útil.
Forma de decir mentiras con fundamentos
matemáticos.
DEFINICION:
Es una ciencia, pues aplica el
Método Científico al ocuparse de
la recolección, organización,
análisis, interpretación y
presentación de datos, tanto para
la deducción de conclusiones
como para la toma de decisiones
razonables de acuerdo a tales
análisis.
Introducción (cont.)
La ciencia de la Estadística utiliza;
· matemáticas (teoría de probabilidades)
· ciencia de las computadoras (graficos
and simulaciones)
· filosofía
Qué distingue a la Estadística de las
matemáticas?
· La estadística hace uso de las
matemáticas
La Estadística enfatiza la VARIABILIDAD
NATURAL
De individuos (personas, plantas, ratas,
ovejas, bombillas de luz, precios de
acciones, etc).
La Estadística es utilizada por:
· científicos
· biólogos
· químicos
· físicos
· psicólogos
· economistas
Introducción (cont.)
Introducción (cont.)
La Estadística se usa para:
Informar al publico
Proveer comparaciones
Explicar resultados
Influenciar decisiones
Justificar un reclamo o afirmación
Predecir futuros resultados
Establecer una relación o asociación
Estimar cantidades desconocidas
Los Estadísticos (personas que estudian la
estadística):
Entienden la idea de la variabilidad de los individuos
Se toman el tiempo siendo lógicos, profundos e
imparciales cuando preparan resultados y reportes
Se cuidan de no sacar conclusiones que están fuera
de los límites de la pregunta que debe responderse
mediante la estadística
Introducción (cont.)
UNIDAD DE ESTUDIO: Es el elemento mas
pequeno al que podemos hacer referencia en un
estudio estadistico.
COLECTIVO: Es todo conjunto compuesto por
mas de una unidad de estudio; un colectivo
puede ser una MUESTRA o una POBLACION.
Datos
Datos son piezas de información
Varias piezas de datos forman un conjunto de
datos
Los Datos se componen de los objetos que
han sido medidos (eg personas, arboles, ratas)
y los atributos que fueron registrados (edad,
tamaño, ph, costo, peso, etc)
objetos son aka sujetos, casos, entidades, etc
Atributos son aka caracteristicas, variables,
factores, etc
Variables
Cuando medimos los atributos de un
objeto, obtenemos un valor que varía
entre objetos. Por ejemplo considere las
personas en esta clase como objetos y
su estatura como el atributo
El atributo “altura” varía entre objetos, de
ahí que los atributos son mas
colectivamente conocidos como
variables
TIPOS DE VARIABLES:
DISCRETAS: Son aquellas que
toman valores puntuales en una
escala, ejemplo: No. de unidades
producidas, No. de quintales
transportados, etc.
CONTINUA: Son aquellas que
pueden tomar cualquier valor
real en una escala, por
ejemplo:Temperatura, peso,
longitud, etc.
Tipos de Datos
Las Variables pueden ser medidas
en cuatro escalas diferentes
Es escencial que sea capaz de
identificar las cuatro diferentes
escalas de medición y ejemplos de
cada una
1 Escala Nominal de Medición
Los datos son medidos al nivel
nominal donde cada caso es
clasificado en una de un numero
discreto de categorías
EG Color, Partido Politico,
Genero, etc
2 Escala Ordinal de Medición
Los datos son medidos en una escala ordinal
si las categorías implican orden
EG Rango Militar, Talla de ropa, etc
La diferencia entre rangos es consistente en
dirección, pero no en magnitud.
3 Escala de medición de Intervalo
Si las diferencias entre los valores tienen
significado, los datos son medidos en la
escala de Intervalo.
La temperatura es el mejor ejemplo
4 Escala de medición de Ratio
(rata)
Los datos medidos en una escala de ratio
tienen diferencias que son significativas, y
relativas a algun punto real de origen o cero.
eg Peso, Altura, edad, etc
Esta es la escala más común de medición.
Tipos de Datos (Cont.)
Datos de tipo Ordinal, Intervalo y Ratio también
se conocen como datos Cuantitativos
Datos de tipo Nominal también son
denominados datos Cualitativos
Dos tipos de Estadística
Estadística Descriptiva
métodos de resumir grandes cantidades
de datos en una forma conveniente
Estadística Inferencial
Métodos para extraer conclusiones
(hacer inferencias) respecto a las
características de una población
por ejemplo…….
POBLACION: Se le llama población o
universo, al conjunto total de unidades
de estudio que se desean investigar.
MUESTRA: Es un subconjunto de una
población. Se utiliza cuando la
población es muy numerosa, infinita o
muy difícil de examinar.
MUESTRA ALEATORIA:
Es cuando cada elemento tiene la misma
oportunidad de ser escogido.
• Muestreo aleatorio estratificado:
• Muestreo aleatorio sistematico:
Poblaciones
Un componente esencial de entender la
ciencia de la estadística es entender
estos términos
La población consiste en el conjunto de
todas las mediciones en que el
investigador está interesado
Un número que describe una población
se denomina un parametro
por ejemplo…………...
Muestras
Una muestra es un subconjunto de
datos de la población
Un numero que describe una
muestra es un estadístico
por ejemplo…………...
Inferencia
Si tomamos una muestra y calculamos un
estadístico, utilizamos ese estadístico para inferir
algo respecto a la población de la cual la muestra
fue extraída.
EG: Comunmente, las muestras son
utilizadas para inferir respecto a:
Resultados de Elecciones
Preferencias del consumidor
Actitudes hacia aspectos sociales
Se le ocurre algún otro ?????
CONTENIDO
Estadistica Descriptiva
Regresion y Correlacion
Distribuciones
Control Estadistico de Procesos
ESTADISTICA DESCRIPTIVA:
Es la parte de la Estadística que trata
solamente de describir y analizar un
colectivo, sin sacar conclusiones o
inferencias de un colectivo mayor, a
partir de ella.
La Estadística descriptiva incluye las
técnicas que se relacionan con el
resumen y la descripción de datos.
Estos datos pueden ser representados
en forma gráfica y pueden incluir análisis
por computadora.
ESTADISTICA
DESCRIPTIVA
MEDIDAS DE TENDENCIA
CENTRAL
MEDIDAS DE DISPERSION
MEDIDAS DE ORDEN
MEDIDAS DE FORMA
REPRESENTACION GRAFICA
MEDIDAS DE TENDENCIA
CENTRAL
MEDIA (ARITMETICA O
PONDERADA)
MODA
MEDIANA
MEDIDAS DE
DISPERSIÓN
Rango
Desviacion Media
Varianza
Desviación Típica o
standard
MEDIDAS DE ORDEN
Cuartiles
Deciles
Percentiles
MEDIDAS DE FORMA
Sesgo
Curtosis
Momentos
REPRESENTACION
GRAFICA
Histograma de frecuencias
Diagrama de Pareto
Ojiva de Frecuencias
Acumuladas
Diagrama de Pastel
Diagrama de Cajas
Diagrama de Tallos y Hojas
MEDIA
ARITMETICA
.....
....
.
:
1
datosdeTotaln
datoslosdeunoCadax
AritmeticaMediax
Donde
n
x
x
i
n
i
i
=
=
=
=
∑=
1 19
2 22
3 24
4 20
5 21 338/15 = 22.53
6 19
7 25
8 21
9 23
10 22
11 22
12 21
13 24
14 35
15 20
338
Edad de 15 estudiantes de universitarios
Media Aritmetica =
=∑
EJEMPLO
.....
....
..
.
:
*
1
1
datosdeTotaln
datoslosdeunoCadax
PesodeFactorw
PonderadaMediax
Donde
w
xw
x
i
n
i
i
n
i
ii
i
=
=
=
=
=
∑
∑
=
=
MEDIA
PONDERADA
EJEMPLO
Dia Cantidad Peso Cant*Peso
1 1500 98 147000
2 2500 103 257500
3 1200 105 126000
4 5500 90 495000
5 2000 99 198000
6 1800 100 180000
7 450 109 49050
14950 704 1452550
Media Ponderada = 97.16
Media Aritmetica = 100.57
Produccion de Sacos de Fertilizante
durante una semana
∑
Mediana
Valor que divide la serie de datos en dos
partes iguales.
Si el numero de datos es impar, es el valor
que está situado justo en medio.
Si el número de datos es par, es el promedio
aritmético de los dos datos de en medio.
19
19
20
20
21
21
21
Mediana --> 22
22
22
23
24
24
25
35
EJEMPLO
Moda
Es el valor que mas se repite en un conjunto
de datos.
Puede no existir o puede existir mas de uno.
19
19
20
20
21
Moda -----> 21
21
22
Moda -----> 22
22
23
24
24
25
35
EJEMPLO
RANGO (R)
El rango de un conjunto de números es la diferencia entre el dato mayor y el dato
menor de todos ellos. El rango considera solo el valor más alto y el más bajo de la
distribución y deja de tomar en cuenta cualquier otra observación del conjunto de datos.
Debido a que mide dos valores, el rango cambia drásticamente entre muestras de una
misma población, aunque los valores que se encuentren entre el mayor y menor puedan
ser muy similares. Téngase en mente también, que las distribuciones abiertas en los
extremos no tienen rango, ya que no tiene valores "mayor" o "menor".
R = dato mayor - dato menor
EJEMPLO
Hallar el rango de los siguientes de números:
5,3,8,4,7,6,12,4,3
R = 12 - 3 = 9
Dato Menor -------> 19
19
20
20
21
21 Rango = 35 - 19 = 16
21
22
22
22
23
24
24
25
Dato Mayor -------> 35
EJEMPLO
DESVIACION MEDIA (D.M.)
La desviación media, es una medida de dispersión que involucra las diferencias (o
desviaciones) entre cada uno de los valores de la distribución y su media aritmética. Para
calcularla se debe restar la media aritmética a cada valor del conjunto de datos y se
ignora el signo (positivo o negativo), es decir, que se toma el valor absoluto de las
desviaciones; de lo contrario la suma algebraica será nula. Finalmente, se suman todas
estas diferencias y se divide por el número total de la muestra.
_
Desviación = di = xi - x
_
D.M. = Σ¦ xi - x ¦ / N
Dato Menor -------> 19 - 22.53 = 3.53
19 - 22.53 = 3.53
20 - 22.53 = 2.53
20 - 22.53 = 2.53
21 - 22.53 = 1.53
21 - 22.53 = 1.53
21 - 22.53 = 1.53
22 - 22.53 = 0.53
22 - 22.53 = 0.53
22 - 22.53 = 0.53
23 - 22.53 = 0.47
24 - 22.53 = 1.47
24 - 22.53 = 1.47
25 - 22.53 = 2.47
Dato Mayor -------> 35 - 22.53 = 12.47
Media = 22.53 Sumatoria 36.67
Desviacion Media = 36.67/15 = 2.44
EJEMPLO
DESVIACION TIPICA (s)
La desviación típica es la medida de dispersión más importante, ya que los
valores extremos de la distribución son influyentes en el cálculo de la misma,
no así los valores que se encuentran cerca de la media aritmética, y
simplemente es la raíz cuadrada de la varianza.
s = √(xi - x)2
) /N
A veces, la desviación típica viene definida por (N - 1) en el denominador
en lugar de N, a esta se le llama desviación estandar, ya que el valor
resultante es un estimador mejor de la desviación típica de la población.
Para valores grandes (N > 30) prácticamente no hay diferencia entre la
desviación típica y la estandar.
Dato Menor -------> 19 - 22.53 = 3.53 ^2 = 12.48
19 - 22.53 = 3.53 ^2 = 12.48
20 - 22.53 = 2.53 ^2 = 6.42
20 - 22.53 = 2.53 ^2 = 6.42
21 - 22.53 = 1.53 ^2 = 2.35
21 - 22.53 = 1.53 ^2 = 2.35
21 - 22.53 = 1.53 ^2 = 2.35
22 - 22.53 = 0.53 ^2 = 0.28
22 - 22.53 = 0.53 ^2 = 0.28
22 - 22.53 = 0.53 ^2 = 0.28
23 - 22.53 = 0.47 ^2 = 0.22
24 - 22.53 = 1.47 ^2 = 2.15
24 - 22.53 = 1.47 ^2 = 2.15
25 - 22.53 = 2.47 ^2 = 6.08
Dato Mayor -------> 35 - 22.53 = 12.47 ^2 = 155.42
Media = 22.53 Sumatoria 211.73
Varianza= 211.73/15 = 14.12
Desviacion Estandar = Raiz(14.12)= 3.76
EJEMPLO
USOS DE LA DESVIACION TIPICA
La desviación tipica permite determinar, con cierto grado de certeza, donde
están localizados los valores de una distribución de frecuencia con relación a la
media.
Se puede medir con bastante precisión el porcentaje de elementos que
caen dentro de rangos específicos, si la distribución de frecuencias toma la forma
de una curva simétrica en forma de campana (campana de Gauss) llamada
DISTRIBUCION NORMAL, en estos casos se dice que:
1. Cerca del 68% de los valores de la población caerán dentro de más o
menos una desviación tipica, a partir de la media aritmética.
2. Cerca del 95% de los valores se encontrarán dentro de más o menos dos
desviaciones tipica, a partir de la media aritmética.
3. Cerca del 99% de los valores estarán en un intervalo que va desde tres
desviaciones tipicas después de la media.
350 347 352 336
336 385 340 340
359 368 336 342
374 391 336 344
373 345 336 335
381 380 340 346
322 331 341 349
351 363 332 340
371 369 338 347
339 384 340 337
345 354 337 342
330 347 340 342
327 365 342 337
340 349 351 340
343 366 330 340
323 333 340 336
346 342 350 344
349 332 342 336
357 350 341 344
350 355 335 340
350 355 337 339
349 350 341 340
375 388 347 343
354 329 343 349
352 344 349 342
MAQUINA 1 MAQUINA 2
RESULTADO DEL PROCESO DE LLENADO
INDUSTRIAL DE REFRESCOS (en ml)
322 350 330 340
323 350 332 340
327 351 335 341
329 352 335 341
330 354 336 341
331 354 336 342
332 355 336 342
333 355 336 342
336 357 336 342
339 359 336 342
340 363 337 342
342 365 337 343
343 366 337 343
344 368 337 344
345 369 338 344
345 371 339 344
346 373 340 346
347 374 340 347
347 375 340 347
349 380 340 349
349 381 340 349
349 384 340 349
350 385 340 350
350 388 340 351
350 391 340 352
MAQUINA 1 MAQUINA 2
DATOS ORDENADOS
322 350 330 340
323 350 332 340
327 351 335 341
329 352 335 341
330 354 336 341
331 354 336 342
332 355 336 342
333 355 336 342
336 357 336 342
339 359 336 342
340 363 337 342
342 365 337 343
343 366 337 343
344 368 337 344
345 369 338 344
345 371 339 344
346 373 340 346
347 374 340 347
347 375 340 347
349 380 340 349
349 381 340 349
349 384 340 349
350 385 340 350
350 388 340 351
350 391 340 352
8500 9170 17670 8433 8614 17046
Media Aritmetica = 17670/50 = 353.4 17046/50= 340.9
Mediana = Dato 25 + Dato 26
Moda = 350 340
MAQUINA 1 MAQUINA 2
2.00
350 340
MEDIDAS DE TENDENCIA CENTRAL
Rango = 391 - 322 = 69 352 - 330 = 22
Desv.Media= 689/50 = 14 183/50= 4
Desv.Est. = raiz(14923/50) = 17 raiz(1144/50) = 5
MAQUINA1 MAQUINA2
MEDIDAS DE DISPERSION
322 350 330 340
323 350 332 340
327 351 335 341 # DE DATOS = 50
329 352 335 341
330 354 336 341 # DE CLASES O INTERVALOS = 1+3.3 * LOG (N) o Raiz(N)
331 354 336 342
332 355 336 342 6.61 7.07
333 355 336 342
336 357 336 342
339 359 336 342 Amplitud de los intervalos = Rango/# de intervalos
340 363 337 342
342 365 337 343 Maquina 1 10
343 366 337 343 Maquina 2 3
344 368 337 344
345 369 338 344
345 371 339 344
346 373 340 346
347 374 340 347
347 375 340 347
349 380 340 349
349 381 340 349
349 384 340 349
350 385 340 350
350 388 340 351
350 391 340 352
MAQUINA 1 MAQUINA 2
CONSTRUCCION DE UNA TABLA DE FRECUENCIAS
L. I. L. S. f L. I. L. S. f
322 - 331 6 330 - 332 2
332 - 341 5 333 - 335 2
342 - 351 17 336 - 338 11
352 - 361 7 339 - 341 15
362 - 371 6 342 - 344 11
372 - 381 5 345 - 347 3
382 - 391 4 348 - 350 4
50 351 - 353 2
50
MAQUINA 2MAQUINA 1
TABLA DE FRECUENCIAS
L. I. L. S. Xi f F F%
322 - 331 326.5 6 6 12
332 - 341 336.5 5 11 22
342 - 351 346.5 17 28 56
352 - 361 356.5 7 35 70
362 - 371 366.5 6 41 82
372 - 381 376.5 5 46 92
382 - 391 386.5 4 50 100
50
MAQUINA 1
0
2
4
6
8
10
12
14
16
18
1 2 3 4 5 6 7
HISTOGRAMA DE FRECUENCIAS
OJIVADE FRECUENCIAS
0
10
20
30
40
50
60
70
80
90
100
1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
Intervalo
FrecuenciaAcumulada
MEDIDAS DE ORDEN
Son aquellas que nos permiten
ubicar un dato de acuerdo a la
posicion que ocupa dentro de la
serie de datos.
Nos permiten ordenar, clasificar y
categorizar los datos.
Tambien se conocen como
fractilos porque dividen los datos
en partes iguales.
FRACTILOS
De acuerdo al numero de partes
en que se dividan los datos los
fractilos pueden ser:
Cuartiles: si dividen a los datos en
cuatro partes iguales.
Deciles: si dividen a los datos en
diez partes iguales.
Percentiles o Centiles: si dividen a
los datos en cien partes iguales.
FRACTILOS cont...
Por ejemplo, los cuartiles dividen
la distribucion de datos en cuatro
partes iguales, cada una
conteniendo el 25% de los datos.
De lo anterior se deduce que,
como se dijo anteriormente, si la
mediana divide los datos en dos
partes iguales, debe ser igual al
cuartil 2, al decil 5 y al percentil 50.
FRACTILOS cont...
Forma de calculo:
D = # de partes en que vamos a
dividir los datos (para cuartiles 4,
para deciles 10, para percentiles
100).
F = # del fractilo a calcular, es
decir, si queremos calcular el
tercer cuartil, F es igual a 3, si
queremos calcular el sexto decil, F
es igual a 6, etc.
N = # de datos en la distribucion.
FRACTILES cont...
Entonces, la posicion del fractilo
esta dada por:
F*N + (D-F)
D
Ejemplo: Para calcular el cuartil 3
de 50 datos:
3*50 + (4-3)
4
37.75, es decir que el tercer cuartil
esta ubicado entre el dato 37 y el
38, a un 75% de la distancia entre
ambos datos.
EJEMPLO
Para continuar con el ejemplo de las dos maquinas
llenadoras, vamos a calcular los cuartiles 1 y 3 para
cada maquina, entonces:
D = 4
N = 50
F = 1 y 3
1*50 + (4-1) 4
13.25 para el cuartil 1
3*50 + (4-3) 4
37.75 para el cuartil 3
Esto quiere decir que el cuartil 1 se encuentra entre el
dato 13 y el 14 mientras que el cuartil 3 esta entre el dato
37 y 38.
322 350 330 340
323 350 332 340
327 351 335 341 Para la Maquina 1 el dato 13 es 343 y el 14 344
329 352 335 341
330 354 336 341 La diferencia entre estos dos datos es 1
331 354 336 342
332 355 336 342 Posicion del cuartil 1 = 13.25
333 355 336 342
336 357 336 342 Cuartil 1 = 343.25
339 359 336 342
340 363 337 342 Para la maquina 1 el dato 37 es 365 y el 38 es 366
342 365 337 343
343 366 337 343 La diferencia entre estos dos datos es 1
344 368 337 344
345 369 338 344 Posicion del cuartil 3 = 37.75
345 371 339 344
346 373 340 346 Cuartil 3 = 365.75
347 374 340 347
347 375 340 347 Maquina 2
349 380 340 349
349 381 340 349 Cuartil 1 = 337 (En este caso el dato 13 y 14 son iguales)
349 384 340 349
350 385 340 350 Cuartil 3 = 343 (De igual forma, el dato 37 y 38 son iguales)
350 388 340 351
350 391 340 352
MAQUINA 1 MAQUINA 2
OTRA MEDIDA DE
DISPERSION
El Rango Intercuartil es otra
medida de dispersion utilizada
para poder determinar el rango de
valores en el que se encuentra el
50% de los datos, excluyendo el
50% que se encuentre en los
extremos, es decir, 25% en el
extremo superior y 25% en el
extremo inferior.
RANGO INTERCUARTIL
El rango intercuartil es la diferencia
entre el cuartil 3 y el cuartil 1:
RI = Q3 - Q1
EJEMPLO
Para las maquinas llenadoras:
Maquina 1:
365.75 - 343.25
22.5
Maquina 2:
343 - 337
6
DIAGRAMA DE CAJAS
Esta es una herramienta
sumamente util para comparar
distintos grupos de datos, ya que
permite ver en una sola grafica, la
tendencia central y la dispersion,
asi como detectar datos atipicos o
sospechosos.
Non-OutlierMax=25
Non-OutlierMin=19
75%=24
25%=20
Median=22
Outliers
BoxPlot(notas.STA1v*15c)
16
20
24
28
32
36
40
VAR1
EJEMPLO
PASOS PARA CONSTRUIR UN
DIAGRAMA DE CAJAS
Calcular los cuartiles 1,2 y 3.
Graficar una linea para cada uno
de los cuartiles. La caja queda
definida por el rango intercuartil y
la linea dentro de la caja identifica
la mediana.
Calcular el rango intercuartil (Q3 -
Q1) al que se denomina RI.
Calcular dos valores: Valor
Adyacente Superior y Valor
Adyacente Inferior (VAS y VAI).
Estos valores se calculan de la
siguiente manera:
VAS = Q3 + 1.5*RI
VAI = Q1 - 1.5*RI
Luego, encontrar en los datos dos
valores: m y M tal que:
m = max(Xi | Xi <= VAS)
M = min(Xi | Xi >= VAI)
Estos valores se grafican como los
limites de los alambres que nos
sirven para identificar datos
atipicos del conjunto de datos.
EJEMPLO
19 Posicion del cuartil 1 = (15*1 + 4 -1)/4
19 Posicion del cuartil 1 = 4.5
20 Cuartil 1 = 20.5
20 Posicion del cuartil 2 = (15*2 + 4-2)/4
21 Posicion del cuartil 2 = 8
21 Cuartil 2 = 22 (Mediana)
21 Posicion del cuartil 3 = (15*3 + 4-3)/4
22 Posicion del cuartil 3 = 11.5
22 Cuartil 3= 23.5
22 Rango Intercuartil = 23.5 - 20.5 = 3
23 VAS = Q3 + 1.5*RI = 23.5 + 1.5*3
24 VAS = 28
24 VAI = Q1 - 1.5*RI = 20.5 - 1.5*3
25 VAI = 16
35 m = 25
M = 19
Non-OutlierMax
Non-OutlierMin
Median;75%
25%
BoxPlot(notas.STA2v*50c)
310
320
330
340
350
360
370
380
390
400
MAQUINA1 MAQUINA2
PARETO:
Forma de separar los pocos vitales
de los muchos triviales, que
significa en esencia analizar la
causas y efectos que constituyen
en el 80% de un problema y obviar
el 20% que suelen ser causas
triviales.
Este enfatiza en la mayoría de los
casos que pocas causas pueden
ser provocadoras del 80% de
efectos de un problema.
Ejemplo:
Se presenta a continuación una tabla con las causas a las que se atribuye el
bajo rendimiento de los alumnos en los programas de maestria que imparte
FISICC.
Construya un diagrama de pareto para identificar cuales son los principales
problemas que afrontan los estudiantes.
Frecuencia Aporte por Acumulado
TIPO DE FACTOR Frecuencia Acumulada Factor %
Preparación de la clase N/H 63 63 19.69% 19.69%
No estudiar adecuadamente 41 104 12.81% 32.50%
Metodología de la enseñanza 31 135 9.69% 42.19%
Programa de la maestria 28 163 8.75% 50.94%
Preparación del Catedrático 27 190 8.44% 59.38%
Interes 27 217 8.44% 67.81%
Asistencia 19 236 5.94% 73.75%
Método de evaluar el curso 13 249 4.06% 77.81%
Caracteristicas del trabajo(est.) 11 260 3.44% 81.25%
Problemas familiares 9 269 2.81% 84.06%
Material didactico 9 278 2.81% 86.88%
Horario 9 287 2.81% 89.69%
Economia del estudiante 8 295 2.50% 92.19%
Transporte 7 302 2.19% 94.38%
Bibliografia 7 309 2.19% 96.56%
Otros 11 320 3.44% 100.00%
Total 320 100.00%
Diagrama de Pare de Factores que afectan el
redimiento de los alumnos de FISICC
0
10
20
30
40
50
60
70
PreparacióndelaclaseN/H
Noestudiaradecuadamente
Metodologíadelaenseñanza
Programadelamaestria
PreparacióndelCatedrático
Interes
Asistencia
Métododeevaluarelcurso
Caracteristicasdeltrabajo(est.)
Problemasfamiliares
Materialdidactico
Horario
Economiadelestudiante
Transporte
Bibliografia
Otros
Frecuencia
COEFICIENTE DE VARIACION (cv)
La desviación tipica y la varianza son medidas de variación absoluta, es decir, miden la
cantidad real de la variación presente en un conjunto de datos y dependen de la escala de
medición.
Para comparar la variación entre diferentes muestras de datos es conveniente usar el
coeficiente de variación, el cual da la variación tipica como un porcentaje de la media aritmética.
_
cv = s / x * 100
El coeficiente de variación mide la variación relativa de una muestra.
APLICACIONES DE LAS
MEDIDAS DE TENDENCIA
CENTRAL Y DISPERSION
A B C D E
MEDIA 85 85 60 70 65
DESV
.
18 16 22 14 12
¿Cuál es la clase más homogénea?
¿En cuál espera que existan menos alumnos que pierdan
la clase?
¿En cuál parece que hay más problemas?
¿Comparando las clases A,B y D, En cuál seguramente
hay notas más altas?
MediaAritmetica 85 85 60 70 65
DesviacionEstandar 18 16 22 14 12
Coeficientedevariacion 21.18 18.82 36.67 20.00 18.46
Problema: Exámenes de curso
1º. 2º. 3º 4º 5º 6º
Media 90 65 90 85 65 90
Desv. 12.5 7 7.5 8 17.4 9.5
¿Cuál cree Ud. Que fue el examen más difícil?
¿Cuál cree Ud. Que fue el más fácil?
MEDIDAS DE FORMA
Las medidas de forma sirven para
darnos una idea respecto a la
simetria y la agudez de la
distribucion de los datos. Las
medidas de forma mas
importantes son:
Sesgo
Curtosis
SESGO
Desviación
ModaMedia
Sesgo
−
=
Si el resultado es positivo esta sesgada a la derecha
Si el resultado es negativo esta sesgada a la izquierda
OTRAS FORMULAS:
3*(MEDIA - MEDIANA)
SESGO=
DESVIACION
Curtosis:
También se le denomina grado de agudez, y es el grado de
apuntamiento de una distribución.
Existen 3 tipos:
Normal o mesocurtica:Distribución no muy apuntalada ni
achatada, o sea normal.
Leptocurtica: Tiene apuntamiento.
Platicúrtica: Más achatada que la Normal.
VARIANZA (s2
)
La varianza de la población es similar a la desviación media, pero en este caso,
para calcular la varianza sumamos el producto de las desviaciones al cuadrado por su
respectiva frecuencia (Σ fi * di
2
) y luego dividimos esta suma entre el número total de
datos. Al elevar al cuadrado cada desviación, automáticamente se hacen positivos todos
los números y por tanto no es necesario tomar el valor absoluto de cada desviación,
entonces tenemos:
_
s2
= Σfi*(xi - x)2
N
Utilizando propiedades de las sumatorias, se puede calcular la varianza así:
_
s2
= (Σfi*xi
2
)/N - (x)2
Para valores no agrupados tómese fi = 1.
AGRUPACION DE DATOS:
Rango= Dato mayor -Dato menor
Número de clases (K)
K= 1 + 3.3. Log N (usar entre 3 y 12
intervalos como máximo)
Intervalos de clase (i)
i= Rango/K
Número de observaciones y número
de celdas recomendado:
De: 20 - 50 6 celdas
De: 51 - 100 7 celdas
De: 101 - 200 8 Celdas
De: 201 - 500 9 Celdas
De: 501 - 1000 10 celdas
De: 1000 en adelante 11 a 15 celdas
:
*)2(
Donde
i
f
F
n
LMediana
Me
a
ri
−
+=
Lri = Limite inferior de la celda donde esta la mediana
n = Número total de observaciones
Fa = Frecuencia acumulativa anterior a la celda donde
esta la mediana
FMe = Frecuencia de la celda de la mediana
i = Ancho del intervalo de la celda.
MEDIANA
:
*)(
21
1
Donde
iLModa ri
∆+∆
∆
+=
Lri = Limite inferior de la clase modal
= Diferencia con la clase anterior
= Diferencia con la clase posterior
i = Ancho del intervalo de la celda.
1∆
2∆
MODA
Intervalo Limites Aparentes Limites Reales Xi f F fr Fr Xi *f Xi -X (Xi- X) 2 f * (Xi - X) 2
1 10 19 9.5 19.5 14.5 3 3 0.03 0.03 43.500 -29.8 888.04 2664.12
2 20 29 19.5 29.5 24.5 14 17 0.14 0.17 343.000 -19.8 392.04 5488.56
3 30 39 29.5 39.5 34.5 29 46 0.29 0.46 1000.500 -9.8 96.04 2785.16
4 40 49 39.5 49.5 44.5 22 68 0.22 0.68 979.000 0.2 0.04 0.88
5 50 59 49.5 59.5 54.5 14 82 0.14 0.82 763.000 10.2 104.04 1456.56
6 60 69 59.5 69.5 64.5 10 92 0.1 0.92 645.000 20.2 408.04 4080.4
7 70 79 69.5 79.5 74.5 4 96 0.04 0.96 298.000 30.2 912.04 3648.16
8 80 89 79.5 89.5 84.5 2 98 0.02 0.98 169.000 40.2 1616.04 3232.08
9 90 99 89.5 99.5 94.5 2 100 0.02 1 189.000 50.2 2520.04 5040.08
Total 100 1 4430.000 Total 28396
MEDIA = 4430 44.30 Varianza = 28396 283.96
100 100
Desviación= SQR(283.96) 16.85111
Calculo de Medidas de
Tendencia Central
HISTOGRAMA DE FRECUENCIAS
0
5
10
15
20
25
30
35
14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5 94.5
MARCA DE CLASE
FRECUENCIA
Cálculo de la MODA
32.36
10*)22/15(5.29
*)(
21
1
1
=
+=
∆+∆
∆
+= iLModa
Cálculo de la Mediana
32.41
10*)22/)4650((5.39
*)2(
=
−+=
−
+= i
f
F
n
LMediana
Me
a
ri
.
CUARTILES (Qj)
Análogamente a la mediana, que divide en 2 partes los datos, los cuartiles son
parámetros que dividen la muestra de datos en 4 partes iguales, de manera que
se tiene:
CUARTIL PRIMERO (Q1)
Q1 = 25% de los datos y se obtienen para 1N/4.
CUARTIL SEGUNDO (Q2)
Q2 = 50% de los datos y se obtiene para 2N/4 = N/2. El cuartil 2 es igual a
la mediana.
CUARTIL TERCERO (Q3)
Q3 = 75% de los datos y se obtiene para 3N/4.
LA FORMULA GENERAL ES:
Qj = Lri + ( (jN/4 - FaQj)/fQj) * i
donde j representa el número del cuartil y jN/4 se calcula inicialmente y en base al
resultado obtenido, se sustituyen en la fórmula los datos correspondientes al
intervalo donde la frecuencia acumulada sea mayor o igual a dicho resultado, el
cálculo de un cuartil es similar al cálculo de la mediana.
DECILES (Dj)
Son los valores que dividen los datos en 10 partes iguales, como los cuartiles, y se
representan por:
D1 = 10% de los datos y se obtiene para 1N/10,
D2 = 20% de los datos y se obtiene para 2N/10,
y así sucesivamente hasta:
D9 = 90% de los datos y se obtiene para 9N/10.
LA FORMULA GENERAL ES:
Dj = Lri + ( (jN/10 - FaDj)/fDj) * i
donde j representa el número del decil y se aplica análogamente al cálculo de los
cuartiles.
PERCENTILES (Pj)
Los percentiles son parámetros que dividen a los datos en cien partes iguales y se
representan por:
P1 = 1% de los datos y se obtiene para 1N/100,
P2 = 2% de los datos y se obtiene para 2N/100,
P3 = 3% de los datos y se obtiene para 3N/100,
y así sucesivamente hasta:
P99 = 99% de los datos y se obtiene para 99N/100.
LA FORMULA GENERAL ES:
Pj = Lri + ( ( jN/100 - FaPj)/fPj) * i
donde j representa el número de percentil, y se calculan análogamente a los
cuartiles y deciles.
Nótese que Me = Q2 = D5 = P50.
EJEMPLO
La siguiente tabla muestra una distribución de frecuencias de los salarios
semanales de 65 empleados de una compañía:
Salarios
(Q)
No. de
empleados (fi)
Fa Limites reales
50.00 - 59.99
60.00 - 69.99
70.00 - 79.99
80.00 - 89.99
90.00 - 99.99
100.00 - 109.99
110.00 - 119.99
8
10
16
14
10
5
2
8
18
34
48
58
63
65
49.995 - 59.995
59.995 - 69.995
69.995 - 79.995
79.995 - 89.995
89.995 - 99.995
99.995 - 109.995
109.995 - 119.995
N = 65
Hallar:
a) Cuartil 3 (Q3).
b) Decil 2 (D2).
c) Percentil 5 (P5).
Solución:
a) Q3 = Lri + ( (3N/4 - FaQ3)/fQ3) * i
3N/4 = 3x65/4 = 195/4 = 48.75
Se busca en las frecuencias acumuladas un número que sea
mayor o igual a 48.75, en este caso nos da el intervalo 89.995 -
99.995, y se sustituyen en la fórmula todos los datos
correspondientes a ese intervalo:
Q3 = 89.995 +( (48.75 - 48)/10) * 10 = 90.75
Esto significa que el 75% de los empleados ganan un salario de
Q90.75 o menos.
b) D2 = Lri + ((2N/10 - FaD2)/fD2) * i
2N/10 = 2x65/10 = 130/10 = 13
D2 = 59.995 + ((13 - 8)/10) * 10 = 65.00
El 20% de los empleados ganan Q 65.00 o menos.
c) P5 = Lri + ((5N/100 - FaP5)/fP5) * i
5x65/100 = 3.25
P5 = 49.995 + ((3.25 - 0)/8) * 10 = 54.06
El 5% de los empleados ganan Q 54.06 o menos.
EJEMPLO
Calcule la desviación media del ejemplo anterior
(media aritmética = 11.0917 ton):
Marcas de clase
(xi)
_
xi - x
_
fi*xi - x
9.5
10.0
10.5
11.0
11.5
12.0
12.5
13.0
1.5917
1.0917
0.5917
0.0917
0.4083
0.9083
1.4083
1.9083
3.1834
5.4585
7.1004
1.5589
5.7162
5.4498
4.2249
1.9083
Σ 36.6004
D.M. = 36.6004/60 = 0.61 Ton.
EJEMPLO
Con los datos del problema anterior, encuentre:
a) varianza (s2
),
b) desviación típica (s),
c) desviación estándar (s’),
d) coeficiente de variación (V).
Solución
Xi fi fi * Xi (Xi - X)^2 fi * (Xi - X)^2
9.5 2.0 19.0 2.533403 5.066806
10.0 5.0 50.0 1.191736 5.958681
10.5 12.0 126.0 0.350069 4.200833
11.0 17.0 187.0 0.008403 0.142847
11.5 14.0 161.0 0.166736 2.334306
12.0 6.0 72.0 0.825069 4.950417
12.5 3.0 37.5 1.983403 5.950208
13.0 1.0 13.0 3.641736 3.641736
60.0 665.5 32.24583
Media = Suma(fx) / n Media = 665.5 11.091667
n = 60 60.0
Suma( fx) = 665.5
a) varianza (s2
): Suma(fi * (xi – X)^2)
s2
= 32.2458/60 = 0.537
b) desviación típica (s):
s = √32.2458/60 = 0.733
c) desviación estandar (s´):
s’ = √32.2458/(60 - 1) = 0.739
como puede observarse, hay una variación no significativa
entre la desviación típica y la estandar.
d) coeficiente de variación (V): (S/X) * 100
V = 0.733/11.0917 * 100 = 6.61%
Ejemplos de uso de
la Desviación típica,
y Varianza
2
2
.).(
))(*(
..
StDesvVarianza
n
XXf
StDesv
i
=
−
=
∑
MOMENTOS
Se utilizan para producir valores
que sirven el cálculo de las
medidas de asimetría y agudez.
Existen de 3 clases:
Con respecto del origen
Con respecto a la media.
Con respecto a cualquier punto.
Datos no agrupados:
Respecto al origen
Respecto a la media
,..3,2,1=−=
∑ rdonde
N
x
x
r
jr
,..2,1
)(
=−
−
=
∑ rdonde
N
xx
m
r
j
r
Con respecto a cualquier punto.
,..3,2,1
)(
=−
−
=′ ∑ rdonde
N
Ax
m
r
j
r
Datos agrupados:
momentosegundor
mediaesrpara
N
xf
x
r
jj
r
−−=
−−=−=
∑
2
1
.var,2
)(*
ianzaesr
condonde
N
xxf
m
r
jj
r
−−=
−−
−
=
∑
N
Axf
m
r
jj
r
∑ −
=′
)(*
Coeficiente de asimetría
Dado en función del momento 3
2
3
3
s
m
a =
+ Asimetria positiva
0 Simétrica
-Asimetria negativa.
METODO DE OCHO PASOS
PARA RESOLVER PROBLEMAS
“UNA PERSONA VALIENTE NO ES EL QUE NO TIENE
MIEDO, SINO AQUEL QUE A PESAR DEL TEMOR LO
SUPERA Y SE ENFRENTA A SUS PROBLEMAS”
Los problemas nunca se
acaban
Pero todo en la vida tiene solución y los problemas
empresariales no son la excepción. Sin embargo,
hay que saberlos tratar para que se resuelvan de
manera efectiva y, de ser posible, para siempre.
“Mil cortes en las hojas del árbol del mal equivalen
a uno sólo en las raíces” Thoreau
¿Qué es un problema?
SITUACIÓN EN DONDE EL RENDIMIENTO O
COMPORTAMIENTO DE UN SISTEMA NO SA-
TISFACE LAS EXPECTATIVAS.
En general, podríamos decir que existe un problema
cuando algo no ofrece el resultado que esperamos.
Los ocho pasos
• Definición del problema
• Acción momentánea
• Definición del origen
• Acción correctiva definitiva
• Comprobación
• Estandarización
• Documentación
• Conclusiones
1. Definición del problema
A) El tiempo en que ocurre
B) El tipo de problema
C) El síntoma presentado
D) Aspectos circunstanciales
E) Incluir información que no
pueda ser presentada en
forma de datos (gráficas y
diagramas)
F) Considerar cuándo, cuánto,
qué, quién, dónde, etcétera)
2. Acción momentánea
Es la acción para solucionar el
problema temporalmente y
así garantizar que, a pesar de
que el problema existe, éste no
va a afectar al cliente.
Busque una acción
momentánea a realizar para
cada problema
mientras lo resuelve de forma
definitiva.
3. Definición del origen
del problema
Definir dónde exactamente se originó un problema
es la
clave para encontrar la solución más acertada.
A) Generar lluvia de ideas:
Un mismo problema puede ser visualizado de muy
distintas maneras por diferentes personas.
Importante: Debe realizarse en un clima de amistad.
Todas las ideas son importantes.
B) Elaborar diagrama de causa-efecto (Ishikawa):
Relación entre un problema o resultado y las causas
que lo ocasionaron.
Construcción de un
diagrama de causa-efecto
1) Definir el problema
2) Identificar las causas mayores
ayudados por una lluvia
de ideas.
3) Identificar las subcausas.
4) Ponderar las causas antes de
evaluarlas
5) Evaluar las causas más probables
6) Tomar una solución.
Diagrama de causa-efecto
COMUNICACIÓN
INADECUADA
R.R. H.H.
EQUIPO
MEDIO
AMBIENTE METODOS
LIDERAZGO
DESUNION
RESPONSABI
LIDAD
OPORTUNIDAD
IDENTIFICACION
CON LA
INSTITUCION
REL.
INTERNAS
ACTITUD
CONFIANZA
EQUIPO DE
COMPUTO
DESIGUALDADTELEFONOS
ESPACIO
REDUCIDO
EXCESO DE
PERSONAS
VENTILA
CION
TRABAJO
CARGAS
TIEMPOS
PROCESOS
DEFINICIÓN
OBJETIVOS
CLAROS
INFORMACION
FORMA DE
TRANSMITIR
DISPONIBILI
DAD
CLARIDADRIGIDEZ
DECISIONE
S
AUTORIDAD
RIGIDA
4. Acción correctiva definitiva
A) Actividades a realizar
B) Responsables
C) Involucrados
D) Tiempos
E) Recursos
5. Comprobación
A) Tiempo de revisión
B) Frecuencia
C) Responsable
6.
EstandarizaciónLos cambios deberán establecerse de manera
formal para asegurar su correcta aplicación en
adelante.
7. Documentación
Recopilar toda la información, hechos, decisiones,
etcétera, que se llevaron a cabo desde que apareció
el problema hasta su solución definitiva.
8. Conclusiones
Aunque el problema resuelto sea el mismo, la experiencias
de cada una de las personas es diferente; cada quien
ve el problema desde su propia perspectiva.
Compartir experiencias es una forma de aprendizaje
muy enriquecedora.
Probabilidad:
Posibilidad de que algo llegue a
suceder
Frecuencia de un evento dentro
de un todo (población).
P= (NA/N)
Donde:
NA= # de veces que ocurre el
evento A
N= # total de posibles resultados.
FORMULAS:
P(AUB)= P(A) + P(B) , para sucesos mutuamente
excluyentes (Si uno sucede es imposible que el
otro se produzca).
P(AUB)= P(A) + P(B) - P(A B)
Para eventos no mutuamente excluyentes.

Si A y B son eventos independientes:
P(A B)= P(A)*P(B)
Si los sucesos son dependientes:
P(A B)= P(A)*P(B/A)


PERMUTACION:
Es una disposición ordenada de un
conjunto de objetos.
COMBINACION:
Si la forma como se ordenan es irrelevante
entonces se le llama combinación, (no importa
el orden)
DISTRIBUCIONES DE
PROBABILIDAD Y
FRECUENCIA
Experimento: En estadistica, se
denomina experimento a cualquier
actividad que se realice con el fin
de comprobar una hipotesis.
Evento: Es el resultado de un
experimento.
Variables Aleatorias:
Es aquella que toma valores diferentes como resultado
de un experimento aleatorio
TIPOS:
DISCRETA: toma valores puntuales en una escala de
medicion.
CONTINUA: Puede tomar cualquier valor dentro de
una escala de medicion o de valores.
VALOR ESPERADO DE UNA VARIABLE ALEATORIA:
Es un promedio pesado del valor de cada resultado
posible multiplicado por la probabilidad de dicho
resultado
DISTRIBUCIONES DE PROBABILIDADES:
Están relacionadas con las distribuciones de frecuencias,
generalmente se piensa como una distribución de frecuencia
teórica cuando se habla de distribución de probabilidades.
TIPOS:
DISCRETAS: Cuando los datos y la variable toma números
limitados de valores.
CONTINUAS: Cuando los datos y la variable (toma valores
en un rango a utilizar) y la población se puede decir que es
muy grande (infinita)
DISTRIBUCIONES DISCRETAS:
Entre las funciones de distribución de probabilidades que
más utilizamos están:
HIPERGEOMETICA
BINOMIAL
POISSON
LA DISTRIBUCION BINOMIAL:
Se utiliza en probabilidad discreta, cuyo número de elementos es
infinito, es usada cuando tenemos atributos, ejemplo: aceptable, no
aceptable, éxito o fracaso, falla o no falla, etc.
Esta describe resultados de un proceso de Bernoulli (este proceso
dice que las probabilidades solo pueden ser p= éxito, cara, etc
q=1-p, lo contrario de p. La probabilidad de este evento
permanece fijo respecto al tiempo.
Los eventos son estadísticamente independientes.
Se utiliza cuando la muestra de la población es finita y se toma la
muestra sin reemplazo
Para fines de la carrera es muy poco utilizado.
HIPERGEOMETICA:
Formula de la Binomial:
P(Probabilidad de r éxitos en n ensayos)=
p= probabilidad de tener éxito
q= probabilidad de no tener éxito
r= # de éxitos deseados
n= # de intentos hechos.
rnr
qp
rnr
n −
−
)
)!(!
!
(
DISTRIBUCION DE POISSON:
Se utiliza en probabilidad discreta, se aplica a diversas situaciones
que aplican la realización de observaciones por unidad de tiempo.
Ejemplo contar el número de vehículos que llegan a una caseta de
control, contar el número de máquinas descompuestas durante 1 día,
distribución de llamadas telefónicas que llegan a un conmutador, la
demanda de pacientes que necesitan servicios, etc.
CARACTERISTICAS:
Con el ejemplo del número de vehículos que pasan por una sola caja
de una caseta de cobro, daremos las características:
La media del número de vehículos que llegan por hora pico puede
estimarse a partir de datos sobre tráfico que se tengan
disponibles.
Si dividimos la hora pico en períodos (intervalos) de un segundo
cada uno, encontraremos las siguientes afirmaciones:
A) La probabilidad de que exactamente un vehículo llegue a
una caja por segundo es muy pequeño.
B) La probabilidad de que dos o más vehículos lleguen en
un intervalo de un segundo es muy pequeña.
C) El número de vehículos que llegan a un intervalo dado de
un segundo es independiente de que dicho intervalo se
presente en la hora pico.
El número de llegadas en cualquier intervalo de un segundo
no depende del número de llegadas en cualquier otro
intervalo de un segundo.
FORMULA:
!
)(
X
e
XP
X λ
λ −
=
Donde:
= Número medio de presentaciones por intervalos de
tiempo.
X= Valor de variable.
FUNCIONES CONTINUAS:
La más utilizada es la Normal y es sobre la
cual esta soportada muchas aplicaciones.
Definimos:
Donde:
xi= Dato
= Media
σ
xx
Z i −
=
x
Desviación=σ
ANALISIS DE REGRESION Y
CORRELACION
ANALISIS DE REGRESION
El término regresión, se uso por primera vez como un concepto
estadístico por Sir Francis Galton. Galton hizo un estudio que mostró que,
la altura de los niños de los padres altos tiende a bajarse, o "regresar",
hacia la altura media de la población. El designó la palabra "regresión"
como el nombre del proceso general de predecir una variable (la altura de
los niños), a partir de otra (la altura de los padres).
Posteriormente, los estadísticos usaron el término regresión múltiple
para describir el proceso mediante el cual se usan varias variables para
predecir otra.
En el análisis de regresión, se desarrollará una ecuación de
estimación, es decir, una fórmula matemática que relaciona las variables
conocidas con la variable desconocida
TIPOS DE RELACIONES DE CURVAS DE REGRESION
Los análisis de regresión y correlación, están basados en
la relación o asociación entre dos o más variables. La
variable conocida es llamada variable independiente.
La variable que se está tratando de predecir es la
variable dependiente.
REGRESION LINEAL
La ecuación de la relación lineal es:
Y = ao + a1X
Donde ao & a1 son parámetros estadísticos que se
deben calcular.
METODO DE MINIMOS CUADRADOS
Consideremos los puntos representados por (X1,Y1), (X2,Y2), ..., (Xn,Yn). Para un
valor de Xi, existirá una diferencia Di entre Yi y el valor que da la ecuación de
ajuste. Cada diferencia Di, se conoce como desviación, error o residuo; la
cual, puede ser positiva, negativa o cero.
De todas las curvas de aproximación a una serie de datos puntuales, la curva
que tiene la propiedad de que:
D1
2
+ D2
2
+ ... + DN
2
es mínimo
se conoce como la mejor curva de ajuste. Así una recta con esta propiedad se
llama recta de mínimos cuadrados y tiene la ecuación:
Y = ao + a1X
donde las constantes ao y a1 se determinan mediante el sistema de ecuaciones
simultáneas:
Σ Y = ao (N) + a1 (Σ X)
Σ XY = ao (Σ X) + a1 (Σ X2
)
que son llamadas ecuaciones normales para la recta de mínimos cuadrados.
Si se resuelve el sistema en forma general, entonces se obtienen las siguientes
fórmulas:
∑ ∑
∑ ∑ ∑
∑ ∑
∑ ∑ ∑ ∑
−
−
=
−
−
=
221
22
2
)()(
))(()(
)()(
))(())((
xxN
yxxyN
a
xxN
xyxxy
ao
Formulas para calcular los valores
CORRELACION
La correlación, es el grado de relación que existe entre las variables, y un
análisis de correlación determina en que medida una ecuación lineal o de
otro tipo describe o explica de una forma adecuada la relación entre las
dos variables.
Si todos los valores de las variables satisfacen exactamente una
ecuación, se dice que las variables están correlacionadas perfectamente
o que hay correlación perfecta entre ellas. Así las áreas "A" y los radios
"r" de todos los círculos están correlacionados perfectamente, puesto que
A = π * r2
. Las variables altura y peso de los individuos muestran cierta
correlación.
CORRELACION LINEAL
Consideremos el diagrama de dispersión de la figura 4.3, si "Y" tiende a
incrementarse cuando "X" aumenta, como en (a), la correlación se dice
positiva o correlación directa. Si "Y" tiende a disminuir cuando se
incrementa "X", como en (b), la correlación se dice negativa o correlación
inversa. Si no hay ninguna relación entre las variables, como en (c), se dice
que no hay correlación entre ellas, es decir, no están correlacionadas.
COEFICIENTE DE CORRELACION
LINEAL
Si se supone una relación lineal entre las
dos variables, el coeficiente de
correlación se calcula como:
Donde r esta en el rango entre -1 y 1, si
r=1 se dice que es una buena correlación
y si r=0, no hay correlación
∑∑ ∑ ∑
∑ ∑ ∑
−−
−
=
])(][)()[(
))(()(
2222
yyNxxN
yxxyN
r
COEFICIENTE DE DETERMINACION
Al cuadrado del coeficiente de correlacion se le denomina “coeficiente de
determinacion”. Aunque el mas utilizado es el coeficiente de correlacion, es el
coeficiente de determinacion el que tiene un significado mas concreto. El
coeficiente de determinacion representa la fraccion (o el porcentaje) de la
variacion de “y” que es explicada por la variacion de “x”. Por ejemplo, si
obtenemos un coeficiente de correlacion de 0.95 y lo elevamos al cuadrado
obtenemos 0.9025, es decir que la variacion de la variable independiente (x)
explica el 90.25% de la variacion de la variable dependiente (y). El otro 10% de
la variacion de “y” es atribuible a otras causas que pueden incidir en dicha
variable.
EJEMPLO
Los siguientes datos son las mediciones de velocidad del
aire y del coeficiente de evaporación de las gotitas de
combustible en una turbina de propulsión.
Velocidad del aire Coeficiente de evaporación
X (cm/seg) Y (mm2
/seg)
20 0.18
60 0.37
100 0.35
140 0.78
180 0.56
220 0.75
260 1.18
300 1.36
340 1.17
380 1.65
Encuentre:
a) la ecuación de la recta
de mínimos cuadrados,
b) utilice la ecuación
anterior, para estimar
el coeficiente de
evaporación de una gotita
cuando la
velocidad del aire es de
190 cm/seg,
c) coeficiente de
correlación.
SOLUCION:
a) Recta de regresión "Y" sobre "X":
X Y X2
Y2
XY
20 0.18 400 0.0324 3.6
60 0.37 3,600 0.1369 22.2
100 0.35 10,000 0.1225 35.0
140 0.78 19,600 0.6084 109.2
180 0.56 32,400 0.3136 100.8
220 0.75 48,400 0.5625 165.0
260 1.18 67,600 1.3924 306.8
300 1.36 90,000 1.8496 408.0
340 1.17 115,600 1.3689 397.8
380 1.65 144,400 2.7225 627.0
2,000 8.35 532,000 9.1097 2,175.4
N = 10 datos
Σ X = 2,000 Σ X2
= 532,000
Σ Y = 8.35 Σ XY = 2,175.40
Sustituyendo en las ecuaciones normales:
Σ Y = ao N + a1 Σ X
Σ XY = ao Σ X + a1 Σ X2
8.35 = ao 10 + a1 2,000 (1)
2,175.40 = ao 2,000 + a1 532,000 (2)
Resolviendo las ecuaciones (1) y (2) en forma simultánea
tenemos:
ao = 0.069 ; a1 = 0.0038,
sustituyendo en Y = ao + a1 X, obtenemos la ecuación de la
recta de regresión de "Y" sobre "X":
Y = 0.069 + 0.0038 X (3)
b) para X = 190 el coeficiente de evaporación será:
Y = 0.069 + 0.0038(190) = 0.79
Y = 0.79 mm2
/seg
c) el coeficiente de correlación es :
r = 10(2,175.40) - (2,000)(8.35) = 0.95
√ [10(532,000)-(2,000)2
][10(9.1097) - (8.35)2
]
El valor del coeficiente de correlación nos indica:
• que la correlación es positiva, debido al signo del coeficiente,
• que la relación entre X & Y es bastante buena, ya que el
coeficiente es bastante cercano a 1, en valor absoluto,
• cuando el coeficiente es bastante cercano a cero, se dice
que no hay correlación entre las variables X & Y.
d) el coeficiente de determinacion es :
r^2 = 0.95 ^ 2 = 0.9025 equivalente a 90.25%
El valor del coeficiente de determinacion nos indica:
• Que podemos atribuir en un 90.25% la variacion de Y a la
variacion de X y un 9.75% de la variacion es atribuible a otros
factores que no fueron considerados en el modelo matematico.
• Cuando el porcentaje es bajo, digamos abajo del 80%, debemos
escoger otra variable independiente o agregar una variable mas al
modelo y realizar un analisis de regresion multiple.
CURVE EXPERT
Es uno de tantos programas
disponibles para realizar analisis
de regresion y correlacion. Tiene
la ventaja de tener predetermina-
dos una gran cantidad de modelos,
aparte de los que el usuario quiera
definir. Es un Shareware que se
encuentra disponible en internet.

Más contenido relacionado

La actualidad más candente

Medidas de tendencias central y dispersión
Medidas de tendencias central y dispersiónMedidas de tendencias central y dispersión
Medidas de tendencias central y dispersión
Angie Pm
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
Patricia Castillo
 
Estadistica Conceptos Basicos
Estadistica  Conceptos BasicosEstadistica  Conceptos Basicos
Estadistica Conceptos Basicoscarl_moron
 
15 test estadísticos
15 test estadísticos15 test estadísticos
15 test estadísticosYerko Bravo
 
conceptos básicos de estadística
conceptos básicos de estadísticaconceptos básicos de estadística
conceptos básicos de estadística
greciadaena
 
1.6. distribucion de fracuencia
1.6.  distribucion de fracuencia1.6.  distribucion de fracuencia
1.6. distribucion de fracuencia
ITCM
 
FUERZA CORTANTE MOMENTO FLECTOR
FUERZA CORTANTE MOMENTO FLECTORFUERZA CORTANTE MOMENTO FLECTOR
FUERZA CORTANTE MOMENTO FLECTOR
wallky8520
 
MEDIDAS DE DISPERSION ABSOLUTAS Y RELATIVAS
MEDIDAS DE DISPERSION ABSOLUTAS Y RELATIVASMEDIDAS DE DISPERSION ABSOLUTAS Y RELATIVAS
MEDIDAS DE DISPERSION ABSOLUTAS Y RELATIVAS
MEREDY PANCCA APAZA
 
Medidas de dispersión
Medidas de dispersiónMedidas de dispersión
Medidas de dispersión
pintowillians
 
Las tablas de frecuencia
Las tablas de frecuenciaLas tablas de frecuencia
Las tablas de frecuencia
Cesar Glez
 
Probabilidad clásica, de frecuencia relativa y subjetiva
Probabilidad clásica, de frecuencia relativa y subjetivaProbabilidad clásica, de frecuencia relativa y subjetiva
Probabilidad clásica, de frecuencia relativa y subjetivaRuben Veraa
 
Estadística: Conceptos básicos
Estadística: Conceptos básicosEstadística: Conceptos básicos
Estadística: Conceptos básicos
Yris Bettiana
 
Estadística aplicada a Ingeniería Civil
Estadística aplicada a Ingeniería CivilEstadística aplicada a Ingeniería Civil
Estadística aplicada a Ingeniería Civil
jorka curi
 
18. Regresión Lineal
18. Regresión Lineal18. Regresión Lineal
18. Regresión Lineal
Juan de Dios Díaz Rosales
 
Power Point de Estadística
Power Point de EstadísticaPower Point de Estadística
Power Point de Estadística
Elisa Villar
 
Capítulo 1 : Introducción a la Estadística Aplicada
Capítulo 1 : Introducción a la Estadística AplicadaCapítulo 1 : Introducción a la Estadística Aplicada
Capítulo 1 : Introducción a la Estadística Aplicada
ug-dipa
 
Regresion lineal
Regresion linealRegresion lineal
Regresion lineal
micaela2505xena
 

La actualidad más candente (20)

Medidas de tendencias central y dispersión
Medidas de tendencias central y dispersiónMedidas de tendencias central y dispersión
Medidas de tendencias central y dispersión
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
 
Estadistica Conceptos Basicos
Estadistica  Conceptos BasicosEstadistica  Conceptos Basicos
Estadistica Conceptos Basicos
 
15 test estadísticos
15 test estadísticos15 test estadísticos
15 test estadísticos
 
conceptos básicos de estadística
conceptos básicos de estadísticaconceptos básicos de estadística
conceptos básicos de estadística
 
1.6. distribucion de fracuencia
1.6.  distribucion de fracuencia1.6.  distribucion de fracuencia
1.6. distribucion de fracuencia
 
FUERZA CORTANTE MOMENTO FLECTOR
FUERZA CORTANTE MOMENTO FLECTORFUERZA CORTANTE MOMENTO FLECTOR
FUERZA CORTANTE MOMENTO FLECTOR
 
MEDIDAS DE DISPERSION ABSOLUTAS Y RELATIVAS
MEDIDAS DE DISPERSION ABSOLUTAS Y RELATIVASMEDIDAS DE DISPERSION ABSOLUTAS Y RELATIVAS
MEDIDAS DE DISPERSION ABSOLUTAS Y RELATIVAS
 
Capitulo 6
Capitulo 6Capitulo 6
Capitulo 6
 
Medidas de dispersión
Medidas de dispersiónMedidas de dispersión
Medidas de dispersión
 
Asimetria y-curtosis
Asimetria y-curtosisAsimetria y-curtosis
Asimetria y-curtosis
 
Las tablas de frecuencia
Las tablas de frecuenciaLas tablas de frecuencia
Las tablas de frecuencia
 
Probabilidad clásica, de frecuencia relativa y subjetiva
Probabilidad clásica, de frecuencia relativa y subjetivaProbabilidad clásica, de frecuencia relativa y subjetiva
Probabilidad clásica, de frecuencia relativa y subjetiva
 
Estadística: Conceptos básicos
Estadística: Conceptos básicosEstadística: Conceptos básicos
Estadística: Conceptos básicos
 
Estadística aplicada a Ingeniería Civil
Estadística aplicada a Ingeniería CivilEstadística aplicada a Ingeniería Civil
Estadística aplicada a Ingeniería Civil
 
18. Regresión Lineal
18. Regresión Lineal18. Regresión Lineal
18. Regresión Lineal
 
Power Point de Estadística
Power Point de EstadísticaPower Point de Estadística
Power Point de Estadística
 
Capítulo 1 : Introducción a la Estadística Aplicada
Capítulo 1 : Introducción a la Estadística AplicadaCapítulo 1 : Introducción a la Estadística Aplicada
Capítulo 1 : Introducción a la Estadística Aplicada
 
Regresion lineal
Regresion linealRegresion lineal
Regresion lineal
 
Análisis de la varianza
Análisis de la varianzaAnálisis de la varianza
Análisis de la varianza
 

Similar a Estadistica 1

Estadística julio 14
Estadística julio 14Estadística julio 14
Estadística julio 14Amigo VJ
 
Estadadistica descriptiva exposicion
Estadadistica descriptiva exposicionEstadadistica descriptiva exposicion
Estadadistica descriptiva exposicionCarlo Herrera
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
Carlo Herrera
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidadAndre Santillan
 
1 calses de 1 mer metrologia
1 calses de 1 mer metrologia 1 calses de 1 mer metrologia
1 calses de 1 mer metrologia
Jose ballter
 
Determinantes y Estadística.
Determinantes y Estadística.Determinantes y Estadística.
Determinantes y Estadística.
Alexander Alvarado
 
Grupo 1 proyeccto final 1er parcial 4tosemestre
Grupo 1 proyeccto final 1er parcial 4tosemestreGrupo 1 proyeccto final 1er parcial 4tosemestre
Grupo 1 proyeccto final 1er parcial 4tosemestre
Mariuxi Badaraco Moreira
 
B Ioestadistica Conceptos Basicos
B Ioestadistica Conceptos BasicosB Ioestadistica Conceptos Basicos
B Ioestadistica Conceptos Basicoscentroperalvillo
 
Estadística descriptiva (1)
Estadística descriptiva (1)Estadística descriptiva (1)
Estadística descriptiva (1)
ADRIANA OBACO
 
Organizacion de datos
Organizacion de datosOrganizacion de datos
Organizacion de datos
Kenny Fereira
 
ESTADISTICA DESCRIPTIVA, invesigacion.pptx
ESTADISTICA DESCRIPTIVA, invesigacion.pptxESTADISTICA DESCRIPTIVA, invesigacion.pptx
ESTADISTICA DESCRIPTIVA, invesigacion.pptx
HctorivanUrbano
 
Estadística Descriptiva
Estadística DescriptivaEstadística Descriptiva
Estadística DescriptivaEduardo Lysak
 
Proyec mate
Proyec mateProyec mate
Proyec mate
Mishell Caza
 
Diapositivas edison
Diapositivas edisonDiapositivas edison
Diapositivas edisonlissethperez
 
Diapositivas estadistica
Diapositivas estadisticaDiapositivas estadistica
Diapositivas estadisticalissethperez
 
Diapositivas edison
Diapositivas edisonDiapositivas edison
Diapositivas edisonvladimir
 

Similar a Estadistica 1 (20)

Estadística julio 14
Estadística julio 14Estadística julio 14
Estadística julio 14
 
Estadadistica descriptiva exposicion
Estadadistica descriptiva exposicionEstadadistica descriptiva exposicion
Estadadistica descriptiva exposicion
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
Principios de estadística
Principios de estadísticaPrincipios de estadística
Principios de estadística
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
1 calses de 1 mer metrologia
1 calses de 1 mer metrologia 1 calses de 1 mer metrologia
1 calses de 1 mer metrologia
 
Bioestadistica 2.2
Bioestadistica 2.2Bioestadistica 2.2
Bioestadistica 2.2
 
Determinantes y Estadística.
Determinantes y Estadística.Determinantes y Estadística.
Determinantes y Estadística.
 
Grupo 1 proyeccto final 1er parcial 4tosemestre
Grupo 1 proyeccto final 1er parcial 4tosemestreGrupo 1 proyeccto final 1er parcial 4tosemestre
Grupo 1 proyeccto final 1er parcial 4tosemestre
 
B Ioestadistica Conceptos Basicos
B Ioestadistica Conceptos BasicosB Ioestadistica Conceptos Basicos
B Ioestadistica Conceptos Basicos
 
La estadistica
La estadisticaLa estadistica
La estadistica
 
Estadística descriptiva (1)
Estadística descriptiva (1)Estadística descriptiva (1)
Estadística descriptiva (1)
 
Organizacion de datos
Organizacion de datosOrganizacion de datos
Organizacion de datos
 
ESTADISTICA DESCRIPTIVA, invesigacion.pptx
ESTADISTICA DESCRIPTIVA, invesigacion.pptxESTADISTICA DESCRIPTIVA, invesigacion.pptx
ESTADISTICA DESCRIPTIVA, invesigacion.pptx
 
Grupo n 1 de estadistica
Grupo n 1 de estadisticaGrupo n 1 de estadistica
Grupo n 1 de estadistica
 
Estadística Descriptiva
Estadística DescriptivaEstadística Descriptiva
Estadística Descriptiva
 
Proyec mate
Proyec mateProyec mate
Proyec mate
 
Diapositivas edison
Diapositivas edisonDiapositivas edison
Diapositivas edison
 
Diapositivas estadistica
Diapositivas estadisticaDiapositivas estadistica
Diapositivas estadistica
 
Diapositivas edison
Diapositivas edisonDiapositivas edison
Diapositivas edison
 

Último

Enfoque Estructuralista de la Administración.docx
Enfoque Estructuralista de la Administración.docxEnfoque Estructuralista de la Administración.docx
Enfoque Estructuralista de la Administración.docx
mariferbonilla2
 
SESION 11 GESTION DE PROYECTOS EMPRESARIALES
SESION 11 GESTION DE PROYECTOS EMPRESARIALESSESION 11 GESTION DE PROYECTOS EMPRESARIALES
SESION 11 GESTION DE PROYECTOS EMPRESARIALES
Psicoterapia Holística
 
planeacion estrategica de psicologia organizacional
planeacion estrategica de psicologia organizacionalplaneacion estrategica de psicologia organizacional
planeacion estrategica de psicologia organizacional
smr12ramos
 
Descripción breve de las distintas áreas de la empresa
Descripción breve de las distintas áreas de la empresaDescripción breve de las distintas áreas de la empresa
Descripción breve de las distintas áreas de la empresa
robertolagos14
 
SMEs as Backbone of the Economies, INCAE Business Review 2010
SMEs as Backbone of the Economies, INCAE Business Review 2010SMEs as Backbone of the Economies, INCAE Business Review 2010
SMEs as Backbone of the Economies, INCAE Business Review 2010
Anna Lucia Alfaro Dardón - Ana Lucía Alfaro
 
Técnica lúdica de organización para mejorar la productividad
Técnica lúdica de organización para mejorar la productividadTécnica lúdica de organización para mejorar la productividad
Técnica lúdica de organización para mejorar la productividad
ameliaarratiale12287
 
Presentación Rendición Cuentas 2023 SRI.pdf
Presentación Rendición Cuentas 2023 SRI.pdfPresentación Rendición Cuentas 2023 SRI.pdf
Presentación Rendición Cuentas 2023 SRI.pdf
Galo397536
 
SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024
SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024
SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024
auyawilly
 
Valor que revierte al vendedor de la mercadería exportada
Valor que revierte al vendedor de la mercadería exportadaValor que revierte al vendedor de la mercadería exportada
Valor que revierte al vendedor de la mercadería exportada
Instituto de Capacitacion Aduanera
 
EJEMPLO SOLICITUD CERTIFICADO DE INFORMES PREVIOS
EJEMPLO SOLICITUD CERTIFICADO DE INFORMES PREVIOSEJEMPLO SOLICITUD CERTIFICADO DE INFORMES PREVIOS
EJEMPLO SOLICITUD CERTIFICADO DE INFORMES PREVIOS
ArquitecturaClculoCe
 
El Pitch Deck de Facebook que Facebook utilizó para levantar su ronda de semi...
El Pitch Deck de Facebook que Facebook utilizó para levantar su ronda de semi...El Pitch Deck de Facebook que Facebook utilizó para levantar su ronda de semi...
El Pitch Deck de Facebook que Facebook utilizó para levantar su ronda de semi...
dntstartups
 
PRESUPUESTO-POR-AREAS-DE-RESPONSABILIDAD.pptx
PRESUPUESTO-POR-AREAS-DE-RESPONSABILIDAD.pptxPRESUPUESTO-POR-AREAS-DE-RESPONSABILIDAD.pptx
PRESUPUESTO-POR-AREAS-DE-RESPONSABILIDAD.pptx
BrendaRiverameneses
 
PLAN DE MARQUETING -GESTION DE PROYECTOS
PLAN DE MARQUETING -GESTION DE PROYECTOSPLAN DE MARQUETING -GESTION DE PROYECTOS
PLAN DE MARQUETING -GESTION DE PROYECTOS
BlancaMoralesVeliz
 
SESION N° 01.pptx GESTION PROYECTOS UCV 2024
SESION N° 01.pptx GESTION PROYECTOS UCV 2024SESION N° 01.pptx GESTION PROYECTOS UCV 2024
SESION N° 01.pptx GESTION PROYECTOS UCV 2024
auyawilly
 
Guía para hacer un Plan de Negocio para tu emprendimiento.pdf
Guía para hacer un Plan de Negocio para tu emprendimiento.pdfGuía para hacer un Plan de Negocio para tu emprendimiento.pdf
Guía para hacer un Plan de Negocio para tu emprendimiento.pdf
pppilarparedespampin
 
Plan Marketing Personal - Yolanda Fernández (1).pdf
Plan Marketing Personal - Yolanda Fernández  (1).pdfPlan Marketing Personal - Yolanda Fernández  (1).pdf
Plan Marketing Personal - Yolanda Fernández (1).pdf
ildivo69
 
contexto macroeconomico en nicaragua en la actulidad
contexto macroeconomico en nicaragua en la actulidadcontexto macroeconomico en nicaragua en la actulidad
contexto macroeconomico en nicaragua en la actulidad
RamiroSaavedraRuiz
 
TAREA DE EPT.pptx ff4f4effffffffffffffffffffffffffffffff
TAREA DE EPT.pptx ff4f4effffffffffffffffffffffffffffffffTAREA DE EPT.pptx ff4f4effffffffffffffffffffffffffffffff
TAREA DE EPT.pptx ff4f4effffffffffffffffffffffffffffffff
GeoffreySarmiento
 
CATALOGO 2024 ABRATOOLS - ABRASIVOS Y MAQUINTARIA
CATALOGO 2024 ABRATOOLS - ABRASIVOS Y MAQUINTARIACATALOGO 2024 ABRATOOLS - ABRASIVOS Y MAQUINTARIA
CATALOGO 2024 ABRATOOLS - ABRASIVOS Y MAQUINTARIA
Fernando Tellado
 
FINANZAS_CAJA CUSCO PROYECO DE TESIS .pptx
FINANZAS_CAJA CUSCO PROYECO DE TESIS .pptxFINANZAS_CAJA CUSCO PROYECO DE TESIS .pptx
FINANZAS_CAJA CUSCO PROYECO DE TESIS .pptx
YOLISALLOPUMAINCA
 

Último (20)

Enfoque Estructuralista de la Administración.docx
Enfoque Estructuralista de la Administración.docxEnfoque Estructuralista de la Administración.docx
Enfoque Estructuralista de la Administración.docx
 
SESION 11 GESTION DE PROYECTOS EMPRESARIALES
SESION 11 GESTION DE PROYECTOS EMPRESARIALESSESION 11 GESTION DE PROYECTOS EMPRESARIALES
SESION 11 GESTION DE PROYECTOS EMPRESARIALES
 
planeacion estrategica de psicologia organizacional
planeacion estrategica de psicologia organizacionalplaneacion estrategica de psicologia organizacional
planeacion estrategica de psicologia organizacional
 
Descripción breve de las distintas áreas de la empresa
Descripción breve de las distintas áreas de la empresaDescripción breve de las distintas áreas de la empresa
Descripción breve de las distintas áreas de la empresa
 
SMEs as Backbone of the Economies, INCAE Business Review 2010
SMEs as Backbone of the Economies, INCAE Business Review 2010SMEs as Backbone of the Economies, INCAE Business Review 2010
SMEs as Backbone of the Economies, INCAE Business Review 2010
 
Técnica lúdica de organización para mejorar la productividad
Técnica lúdica de organización para mejorar la productividadTécnica lúdica de organización para mejorar la productividad
Técnica lúdica de organización para mejorar la productividad
 
Presentación Rendición Cuentas 2023 SRI.pdf
Presentación Rendición Cuentas 2023 SRI.pdfPresentación Rendición Cuentas 2023 SRI.pdf
Presentación Rendición Cuentas 2023 SRI.pdf
 
SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024
SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024
SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024
 
Valor que revierte al vendedor de la mercadería exportada
Valor que revierte al vendedor de la mercadería exportadaValor que revierte al vendedor de la mercadería exportada
Valor que revierte al vendedor de la mercadería exportada
 
EJEMPLO SOLICITUD CERTIFICADO DE INFORMES PREVIOS
EJEMPLO SOLICITUD CERTIFICADO DE INFORMES PREVIOSEJEMPLO SOLICITUD CERTIFICADO DE INFORMES PREVIOS
EJEMPLO SOLICITUD CERTIFICADO DE INFORMES PREVIOS
 
El Pitch Deck de Facebook que Facebook utilizó para levantar su ronda de semi...
El Pitch Deck de Facebook que Facebook utilizó para levantar su ronda de semi...El Pitch Deck de Facebook que Facebook utilizó para levantar su ronda de semi...
El Pitch Deck de Facebook que Facebook utilizó para levantar su ronda de semi...
 
PRESUPUESTO-POR-AREAS-DE-RESPONSABILIDAD.pptx
PRESUPUESTO-POR-AREAS-DE-RESPONSABILIDAD.pptxPRESUPUESTO-POR-AREAS-DE-RESPONSABILIDAD.pptx
PRESUPUESTO-POR-AREAS-DE-RESPONSABILIDAD.pptx
 
PLAN DE MARQUETING -GESTION DE PROYECTOS
PLAN DE MARQUETING -GESTION DE PROYECTOSPLAN DE MARQUETING -GESTION DE PROYECTOS
PLAN DE MARQUETING -GESTION DE PROYECTOS
 
SESION N° 01.pptx GESTION PROYECTOS UCV 2024
SESION N° 01.pptx GESTION PROYECTOS UCV 2024SESION N° 01.pptx GESTION PROYECTOS UCV 2024
SESION N° 01.pptx GESTION PROYECTOS UCV 2024
 
Guía para hacer un Plan de Negocio para tu emprendimiento.pdf
Guía para hacer un Plan de Negocio para tu emprendimiento.pdfGuía para hacer un Plan de Negocio para tu emprendimiento.pdf
Guía para hacer un Plan de Negocio para tu emprendimiento.pdf
 
Plan Marketing Personal - Yolanda Fernández (1).pdf
Plan Marketing Personal - Yolanda Fernández  (1).pdfPlan Marketing Personal - Yolanda Fernández  (1).pdf
Plan Marketing Personal - Yolanda Fernández (1).pdf
 
contexto macroeconomico en nicaragua en la actulidad
contexto macroeconomico en nicaragua en la actulidadcontexto macroeconomico en nicaragua en la actulidad
contexto macroeconomico en nicaragua en la actulidad
 
TAREA DE EPT.pptx ff4f4effffffffffffffffffffffffffffffff
TAREA DE EPT.pptx ff4f4effffffffffffffffffffffffffffffffTAREA DE EPT.pptx ff4f4effffffffffffffffffffffffffffffff
TAREA DE EPT.pptx ff4f4effffffffffffffffffffffffffffffff
 
CATALOGO 2024 ABRATOOLS - ABRASIVOS Y MAQUINTARIA
CATALOGO 2024 ABRATOOLS - ABRASIVOS Y MAQUINTARIACATALOGO 2024 ABRATOOLS - ABRASIVOS Y MAQUINTARIA
CATALOGO 2024 ABRATOOLS - ABRASIVOS Y MAQUINTARIA
 
FINANZAS_CAJA CUSCO PROYECO DE TESIS .pptx
FINANZAS_CAJA CUSCO PROYECO DE TESIS .pptxFINANZAS_CAJA CUSCO PROYECO DE TESIS .pptx
FINANZAS_CAJA CUSCO PROYECO DE TESIS .pptx
 

Estadistica 1

  • 1. Saltar a la primera página ESTADÍSTICA
  • 2. La palabra estadística tiene 2 significados; Estadística 1; hechos numéricos sistemáticamente recolectados 2; Ciencia de recolectar, clasificar y utilizar estadísticas – (Oxford Concise Dictionary) Por ejemplo………………. Introducción a la Estadística
  • 3. Algunas definiciones de Estadistica. Rama de las matemáticas que proporciona herramientas que permiten manejar grandes cantidades de datos, convirtiendolos en información útil. Forma de decir mentiras con fundamentos matemáticos.
  • 4. DEFINICION: Es una ciencia, pues aplica el Método Científico al ocuparse de la recolección, organización, análisis, interpretación y presentación de datos, tanto para la deducción de conclusiones como para la toma de decisiones razonables de acuerdo a tales análisis.
  • 5. Introducción (cont.) La ciencia de la Estadística utiliza; · matemáticas (teoría de probabilidades) · ciencia de las computadoras (graficos and simulaciones) · filosofía Qué distingue a la Estadística de las matemáticas? · La estadística hace uso de las matemáticas
  • 6. La Estadística enfatiza la VARIABILIDAD NATURAL De individuos (personas, plantas, ratas, ovejas, bombillas de luz, precios de acciones, etc). La Estadística es utilizada por: · científicos · biólogos · químicos · físicos · psicólogos · economistas Introducción (cont.)
  • 7. Introducción (cont.) La Estadística se usa para: Informar al publico Proveer comparaciones Explicar resultados Influenciar decisiones Justificar un reclamo o afirmación Predecir futuros resultados Establecer una relación o asociación Estimar cantidades desconocidas
  • 8. Los Estadísticos (personas que estudian la estadística): Entienden la idea de la variabilidad de los individuos Se toman el tiempo siendo lógicos, profundos e imparciales cuando preparan resultados y reportes Se cuidan de no sacar conclusiones que están fuera de los límites de la pregunta que debe responderse mediante la estadística Introducción (cont.)
  • 9. UNIDAD DE ESTUDIO: Es el elemento mas pequeno al que podemos hacer referencia en un estudio estadistico. COLECTIVO: Es todo conjunto compuesto por mas de una unidad de estudio; un colectivo puede ser una MUESTRA o una POBLACION.
  • 10. Datos Datos son piezas de información Varias piezas de datos forman un conjunto de datos Los Datos se componen de los objetos que han sido medidos (eg personas, arboles, ratas) y los atributos que fueron registrados (edad, tamaño, ph, costo, peso, etc) objetos son aka sujetos, casos, entidades, etc Atributos son aka caracteristicas, variables, factores, etc
  • 11. Variables Cuando medimos los atributos de un objeto, obtenemos un valor que varía entre objetos. Por ejemplo considere las personas en esta clase como objetos y su estatura como el atributo El atributo “altura” varía entre objetos, de ahí que los atributos son mas colectivamente conocidos como variables
  • 12. TIPOS DE VARIABLES: DISCRETAS: Son aquellas que toman valores puntuales en una escala, ejemplo: No. de unidades producidas, No. de quintales transportados, etc. CONTINUA: Son aquellas que pueden tomar cualquier valor real en una escala, por ejemplo:Temperatura, peso, longitud, etc.
  • 13. Tipos de Datos Las Variables pueden ser medidas en cuatro escalas diferentes Es escencial que sea capaz de identificar las cuatro diferentes escalas de medición y ejemplos de cada una
  • 14. 1 Escala Nominal de Medición Los datos son medidos al nivel nominal donde cada caso es clasificado en una de un numero discreto de categorías EG Color, Partido Politico, Genero, etc
  • 15. 2 Escala Ordinal de Medición Los datos son medidos en una escala ordinal si las categorías implican orden EG Rango Militar, Talla de ropa, etc La diferencia entre rangos es consistente en dirección, pero no en magnitud.
  • 16. 3 Escala de medición de Intervalo Si las diferencias entre los valores tienen significado, los datos son medidos en la escala de Intervalo. La temperatura es el mejor ejemplo
  • 17. 4 Escala de medición de Ratio (rata) Los datos medidos en una escala de ratio tienen diferencias que son significativas, y relativas a algun punto real de origen o cero. eg Peso, Altura, edad, etc Esta es la escala más común de medición.
  • 18. Tipos de Datos (Cont.) Datos de tipo Ordinal, Intervalo y Ratio también se conocen como datos Cuantitativos Datos de tipo Nominal también son denominados datos Cualitativos
  • 19. Dos tipos de Estadística Estadística Descriptiva métodos de resumir grandes cantidades de datos en una forma conveniente Estadística Inferencial Métodos para extraer conclusiones (hacer inferencias) respecto a las características de una población por ejemplo…….
  • 20. POBLACION: Se le llama población o universo, al conjunto total de unidades de estudio que se desean investigar. MUESTRA: Es un subconjunto de una población. Se utiliza cuando la población es muy numerosa, infinita o muy difícil de examinar. MUESTRA ALEATORIA: Es cuando cada elemento tiene la misma oportunidad de ser escogido. • Muestreo aleatorio estratificado: • Muestreo aleatorio sistematico:
  • 21. Poblaciones Un componente esencial de entender la ciencia de la estadística es entender estos términos La población consiste en el conjunto de todas las mediciones en que el investigador está interesado Un número que describe una población se denomina un parametro por ejemplo…………...
  • 22. Muestras Una muestra es un subconjunto de datos de la población Un numero que describe una muestra es un estadístico por ejemplo…………...
  • 23. Inferencia Si tomamos una muestra y calculamos un estadístico, utilizamos ese estadístico para inferir algo respecto a la población de la cual la muestra fue extraída. EG: Comunmente, las muestras son utilizadas para inferir respecto a: Resultados de Elecciones Preferencias del consumidor Actitudes hacia aspectos sociales Se le ocurre algún otro ?????
  • 24. CONTENIDO Estadistica Descriptiva Regresion y Correlacion Distribuciones Control Estadistico de Procesos
  • 25. ESTADISTICA DESCRIPTIVA: Es la parte de la Estadística que trata solamente de describir y analizar un colectivo, sin sacar conclusiones o inferencias de un colectivo mayor, a partir de ella. La Estadística descriptiva incluye las técnicas que se relacionan con el resumen y la descripción de datos. Estos datos pueden ser representados en forma gráfica y pueden incluir análisis por computadora.
  • 26. ESTADISTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL MEDIDAS DE DISPERSION MEDIDAS DE ORDEN MEDIDAS DE FORMA REPRESENTACION GRAFICA
  • 27. MEDIDAS DE TENDENCIA CENTRAL MEDIA (ARITMETICA O PONDERADA) MODA MEDIANA
  • 31. REPRESENTACION GRAFICA Histograma de frecuencias Diagrama de Pareto Ojiva de Frecuencias Acumuladas Diagrama de Pastel Diagrama de Cajas Diagrama de Tallos y Hojas
  • 33. 1 19 2 22 3 24 4 20 5 21 338/15 = 22.53 6 19 7 25 8 21 9 23 10 22 11 22 12 21 13 24 14 35 15 20 338 Edad de 15 estudiantes de universitarios Media Aritmetica = =∑ EJEMPLO
  • 35. EJEMPLO Dia Cantidad Peso Cant*Peso 1 1500 98 147000 2 2500 103 257500 3 1200 105 126000 4 5500 90 495000 5 2000 99 198000 6 1800 100 180000 7 450 109 49050 14950 704 1452550 Media Ponderada = 97.16 Media Aritmetica = 100.57 Produccion de Sacos de Fertilizante durante una semana ∑
  • 36. Mediana Valor que divide la serie de datos en dos partes iguales. Si el numero de datos es impar, es el valor que está situado justo en medio. Si el número de datos es par, es el promedio aritmético de los dos datos de en medio.
  • 38. Moda Es el valor que mas se repite en un conjunto de datos. Puede no existir o puede existir mas de uno.
  • 39. 19 19 20 20 21 Moda -----> 21 21 22 Moda -----> 22 22 23 24 24 25 35 EJEMPLO
  • 40. RANGO (R) El rango de un conjunto de números es la diferencia entre el dato mayor y el dato menor de todos ellos. El rango considera solo el valor más alto y el más bajo de la distribución y deja de tomar en cuenta cualquier otra observación del conjunto de datos. Debido a que mide dos valores, el rango cambia drásticamente entre muestras de una misma población, aunque los valores que se encuentren entre el mayor y menor puedan ser muy similares. Téngase en mente también, que las distribuciones abiertas en los extremos no tienen rango, ya que no tiene valores "mayor" o "menor". R = dato mayor - dato menor EJEMPLO Hallar el rango de los siguientes de números: 5,3,8,4,7,6,12,4,3 R = 12 - 3 = 9
  • 41. Dato Menor -------> 19 19 20 20 21 21 Rango = 35 - 19 = 16 21 22 22 22 23 24 24 25 Dato Mayor -------> 35 EJEMPLO
  • 42. DESVIACION MEDIA (D.M.) La desviación media, es una medida de dispersión que involucra las diferencias (o desviaciones) entre cada uno de los valores de la distribución y su media aritmética. Para calcularla se debe restar la media aritmética a cada valor del conjunto de datos y se ignora el signo (positivo o negativo), es decir, que se toma el valor absoluto de las desviaciones; de lo contrario la suma algebraica será nula. Finalmente, se suman todas estas diferencias y se divide por el número total de la muestra. _ Desviación = di = xi - x _ D.M. = Σ¦ xi - x ¦ / N
  • 43. Dato Menor -------> 19 - 22.53 = 3.53 19 - 22.53 = 3.53 20 - 22.53 = 2.53 20 - 22.53 = 2.53 21 - 22.53 = 1.53 21 - 22.53 = 1.53 21 - 22.53 = 1.53 22 - 22.53 = 0.53 22 - 22.53 = 0.53 22 - 22.53 = 0.53 23 - 22.53 = 0.47 24 - 22.53 = 1.47 24 - 22.53 = 1.47 25 - 22.53 = 2.47 Dato Mayor -------> 35 - 22.53 = 12.47 Media = 22.53 Sumatoria 36.67 Desviacion Media = 36.67/15 = 2.44 EJEMPLO
  • 44. DESVIACION TIPICA (s) La desviación típica es la medida de dispersión más importante, ya que los valores extremos de la distribución son influyentes en el cálculo de la misma, no así los valores que se encuentran cerca de la media aritmética, y simplemente es la raíz cuadrada de la varianza. s = √(xi - x)2 ) /N A veces, la desviación típica viene definida por (N - 1) en el denominador en lugar de N, a esta se le llama desviación estandar, ya que el valor resultante es un estimador mejor de la desviación típica de la población. Para valores grandes (N > 30) prácticamente no hay diferencia entre la desviación típica y la estandar.
  • 45. Dato Menor -------> 19 - 22.53 = 3.53 ^2 = 12.48 19 - 22.53 = 3.53 ^2 = 12.48 20 - 22.53 = 2.53 ^2 = 6.42 20 - 22.53 = 2.53 ^2 = 6.42 21 - 22.53 = 1.53 ^2 = 2.35 21 - 22.53 = 1.53 ^2 = 2.35 21 - 22.53 = 1.53 ^2 = 2.35 22 - 22.53 = 0.53 ^2 = 0.28 22 - 22.53 = 0.53 ^2 = 0.28 22 - 22.53 = 0.53 ^2 = 0.28 23 - 22.53 = 0.47 ^2 = 0.22 24 - 22.53 = 1.47 ^2 = 2.15 24 - 22.53 = 1.47 ^2 = 2.15 25 - 22.53 = 2.47 ^2 = 6.08 Dato Mayor -------> 35 - 22.53 = 12.47 ^2 = 155.42 Media = 22.53 Sumatoria 211.73 Varianza= 211.73/15 = 14.12 Desviacion Estandar = Raiz(14.12)= 3.76 EJEMPLO
  • 46. USOS DE LA DESVIACION TIPICA La desviación tipica permite determinar, con cierto grado de certeza, donde están localizados los valores de una distribución de frecuencia con relación a la media. Se puede medir con bastante precisión el porcentaje de elementos que caen dentro de rangos específicos, si la distribución de frecuencias toma la forma de una curva simétrica en forma de campana (campana de Gauss) llamada DISTRIBUCION NORMAL, en estos casos se dice que: 1. Cerca del 68% de los valores de la población caerán dentro de más o menos una desviación tipica, a partir de la media aritmética. 2. Cerca del 95% de los valores se encontrarán dentro de más o menos dos desviaciones tipica, a partir de la media aritmética. 3. Cerca del 99% de los valores estarán en un intervalo que va desde tres desviaciones tipicas después de la media.
  • 47. 350 347 352 336 336 385 340 340 359 368 336 342 374 391 336 344 373 345 336 335 381 380 340 346 322 331 341 349 351 363 332 340 371 369 338 347 339 384 340 337 345 354 337 342 330 347 340 342 327 365 342 337 340 349 351 340 343 366 330 340 323 333 340 336 346 342 350 344 349 332 342 336 357 350 341 344 350 355 335 340 350 355 337 339 349 350 341 340 375 388 347 343 354 329 343 349 352 344 349 342 MAQUINA 1 MAQUINA 2 RESULTADO DEL PROCESO DE LLENADO INDUSTRIAL DE REFRESCOS (en ml)
  • 48. 322 350 330 340 323 350 332 340 327 351 335 341 329 352 335 341 330 354 336 341 331 354 336 342 332 355 336 342 333 355 336 342 336 357 336 342 339 359 336 342 340 363 337 342 342 365 337 343 343 366 337 343 344 368 337 344 345 369 338 344 345 371 339 344 346 373 340 346 347 374 340 347 347 375 340 347 349 380 340 349 349 381 340 349 349 384 340 349 350 385 340 350 350 388 340 351 350 391 340 352 MAQUINA 1 MAQUINA 2 DATOS ORDENADOS
  • 49. 322 350 330 340 323 350 332 340 327 351 335 341 329 352 335 341 330 354 336 341 331 354 336 342 332 355 336 342 333 355 336 342 336 357 336 342 339 359 336 342 340 363 337 342 342 365 337 343 343 366 337 343 344 368 337 344 345 369 338 344 345 371 339 344 346 373 340 346 347 374 340 347 347 375 340 347 349 380 340 349 349 381 340 349 349 384 340 349 350 385 340 350 350 388 340 351 350 391 340 352 8500 9170 17670 8433 8614 17046 Media Aritmetica = 17670/50 = 353.4 17046/50= 340.9 Mediana = Dato 25 + Dato 26 Moda = 350 340 MAQUINA 1 MAQUINA 2 2.00 350 340 MEDIDAS DE TENDENCIA CENTRAL
  • 50. Rango = 391 - 322 = 69 352 - 330 = 22 Desv.Media= 689/50 = 14 183/50= 4 Desv.Est. = raiz(14923/50) = 17 raiz(1144/50) = 5 MAQUINA1 MAQUINA2 MEDIDAS DE DISPERSION
  • 51. 322 350 330 340 323 350 332 340 327 351 335 341 # DE DATOS = 50 329 352 335 341 330 354 336 341 # DE CLASES O INTERVALOS = 1+3.3 * LOG (N) o Raiz(N) 331 354 336 342 332 355 336 342 6.61 7.07 333 355 336 342 336 357 336 342 339 359 336 342 Amplitud de los intervalos = Rango/# de intervalos 340 363 337 342 342 365 337 343 Maquina 1 10 343 366 337 343 Maquina 2 3 344 368 337 344 345 369 338 344 345 371 339 344 346 373 340 346 347 374 340 347 347 375 340 347 349 380 340 349 349 381 340 349 349 384 340 349 350 385 340 350 350 388 340 351 350 391 340 352 MAQUINA 1 MAQUINA 2 CONSTRUCCION DE UNA TABLA DE FRECUENCIAS
  • 52. L. I. L. S. f L. I. L. S. f 322 - 331 6 330 - 332 2 332 - 341 5 333 - 335 2 342 - 351 17 336 - 338 11 352 - 361 7 339 - 341 15 362 - 371 6 342 - 344 11 372 - 381 5 345 - 347 3 382 - 391 4 348 - 350 4 50 351 - 353 2 50 MAQUINA 2MAQUINA 1 TABLA DE FRECUENCIAS
  • 53. L. I. L. S. Xi f F F% 322 - 331 326.5 6 6 12 332 - 341 336.5 5 11 22 342 - 351 346.5 17 28 56 352 - 361 356.5 7 35 70 362 - 371 366.5 6 41 82 372 - 381 376.5 5 46 92 382 - 391 386.5 4 50 100 50 MAQUINA 1
  • 54. 0 2 4 6 8 10 12 14 16 18 1 2 3 4 5 6 7 HISTOGRAMA DE FRECUENCIAS
  • 55. OJIVADE FRECUENCIAS 0 10 20 30 40 50 60 70 80 90 100 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 Intervalo FrecuenciaAcumulada
  • 56. MEDIDAS DE ORDEN Son aquellas que nos permiten ubicar un dato de acuerdo a la posicion que ocupa dentro de la serie de datos. Nos permiten ordenar, clasificar y categorizar los datos. Tambien se conocen como fractilos porque dividen los datos en partes iguales.
  • 57. FRACTILOS De acuerdo al numero de partes en que se dividan los datos los fractilos pueden ser: Cuartiles: si dividen a los datos en cuatro partes iguales. Deciles: si dividen a los datos en diez partes iguales. Percentiles o Centiles: si dividen a los datos en cien partes iguales.
  • 58. FRACTILOS cont... Por ejemplo, los cuartiles dividen la distribucion de datos en cuatro partes iguales, cada una conteniendo el 25% de los datos. De lo anterior se deduce que, como se dijo anteriormente, si la mediana divide los datos en dos partes iguales, debe ser igual al cuartil 2, al decil 5 y al percentil 50.
  • 59. FRACTILOS cont... Forma de calculo: D = # de partes en que vamos a dividir los datos (para cuartiles 4, para deciles 10, para percentiles 100). F = # del fractilo a calcular, es decir, si queremos calcular el tercer cuartil, F es igual a 3, si queremos calcular el sexto decil, F es igual a 6, etc. N = # de datos en la distribucion.
  • 60. FRACTILES cont... Entonces, la posicion del fractilo esta dada por: F*N + (D-F) D Ejemplo: Para calcular el cuartil 3 de 50 datos: 3*50 + (4-3) 4 37.75, es decir que el tercer cuartil esta ubicado entre el dato 37 y el 38, a un 75% de la distancia entre ambos datos.
  • 61. EJEMPLO Para continuar con el ejemplo de las dos maquinas llenadoras, vamos a calcular los cuartiles 1 y 3 para cada maquina, entonces: D = 4 N = 50 F = 1 y 3 1*50 + (4-1) 4 13.25 para el cuartil 1 3*50 + (4-3) 4 37.75 para el cuartil 3 Esto quiere decir que el cuartil 1 se encuentra entre el dato 13 y el 14 mientras que el cuartil 3 esta entre el dato 37 y 38.
  • 62. 322 350 330 340 323 350 332 340 327 351 335 341 Para la Maquina 1 el dato 13 es 343 y el 14 344 329 352 335 341 330 354 336 341 La diferencia entre estos dos datos es 1 331 354 336 342 332 355 336 342 Posicion del cuartil 1 = 13.25 333 355 336 342 336 357 336 342 Cuartil 1 = 343.25 339 359 336 342 340 363 337 342 Para la maquina 1 el dato 37 es 365 y el 38 es 366 342 365 337 343 343 366 337 343 La diferencia entre estos dos datos es 1 344 368 337 344 345 369 338 344 Posicion del cuartil 3 = 37.75 345 371 339 344 346 373 340 346 Cuartil 3 = 365.75 347 374 340 347 347 375 340 347 Maquina 2 349 380 340 349 349 381 340 349 Cuartil 1 = 337 (En este caso el dato 13 y 14 son iguales) 349 384 340 349 350 385 340 350 Cuartil 3 = 343 (De igual forma, el dato 37 y 38 son iguales) 350 388 340 351 350 391 340 352 MAQUINA 1 MAQUINA 2
  • 63. OTRA MEDIDA DE DISPERSION El Rango Intercuartil es otra medida de dispersion utilizada para poder determinar el rango de valores en el que se encuentra el 50% de los datos, excluyendo el 50% que se encuentre en los extremos, es decir, 25% en el extremo superior y 25% en el extremo inferior.
  • 64. RANGO INTERCUARTIL El rango intercuartil es la diferencia entre el cuartil 3 y el cuartil 1: RI = Q3 - Q1
  • 65. EJEMPLO Para las maquinas llenadoras: Maquina 1: 365.75 - 343.25 22.5 Maquina 2: 343 - 337 6
  • 66. DIAGRAMA DE CAJAS Esta es una herramienta sumamente util para comparar distintos grupos de datos, ya que permite ver en una sola grafica, la tendencia central y la dispersion, asi como detectar datos atipicos o sospechosos.
  • 68. PASOS PARA CONSTRUIR UN DIAGRAMA DE CAJAS Calcular los cuartiles 1,2 y 3. Graficar una linea para cada uno de los cuartiles. La caja queda definida por el rango intercuartil y la linea dentro de la caja identifica la mediana. Calcular el rango intercuartil (Q3 - Q1) al que se denomina RI. Calcular dos valores: Valor Adyacente Superior y Valor Adyacente Inferior (VAS y VAI).
  • 69. Estos valores se calculan de la siguiente manera: VAS = Q3 + 1.5*RI VAI = Q1 - 1.5*RI Luego, encontrar en los datos dos valores: m y M tal que: m = max(Xi | Xi <= VAS) M = min(Xi | Xi >= VAI) Estos valores se grafican como los limites de los alambres que nos sirven para identificar datos atipicos del conjunto de datos.
  • 70. EJEMPLO 19 Posicion del cuartil 1 = (15*1 + 4 -1)/4 19 Posicion del cuartil 1 = 4.5 20 Cuartil 1 = 20.5 20 Posicion del cuartil 2 = (15*2 + 4-2)/4 21 Posicion del cuartil 2 = 8 21 Cuartil 2 = 22 (Mediana) 21 Posicion del cuartil 3 = (15*3 + 4-3)/4 22 Posicion del cuartil 3 = 11.5 22 Cuartil 3= 23.5 22 Rango Intercuartil = 23.5 - 20.5 = 3 23 VAS = Q3 + 1.5*RI = 23.5 + 1.5*3 24 VAS = 28 24 VAI = Q1 - 1.5*RI = 20.5 - 1.5*3 25 VAI = 16 35 m = 25 M = 19
  • 72. PARETO: Forma de separar los pocos vitales de los muchos triviales, que significa en esencia analizar la causas y efectos que constituyen en el 80% de un problema y obviar el 20% que suelen ser causas triviales. Este enfatiza en la mayoría de los casos que pocas causas pueden ser provocadoras del 80% de efectos de un problema.
  • 73. Ejemplo: Se presenta a continuación una tabla con las causas a las que se atribuye el bajo rendimiento de los alumnos en los programas de maestria que imparte FISICC. Construya un diagrama de pareto para identificar cuales son los principales problemas que afrontan los estudiantes. Frecuencia Aporte por Acumulado TIPO DE FACTOR Frecuencia Acumulada Factor % Preparación de la clase N/H 63 63 19.69% 19.69% No estudiar adecuadamente 41 104 12.81% 32.50% Metodología de la enseñanza 31 135 9.69% 42.19% Programa de la maestria 28 163 8.75% 50.94% Preparación del Catedrático 27 190 8.44% 59.38% Interes 27 217 8.44% 67.81% Asistencia 19 236 5.94% 73.75% Método de evaluar el curso 13 249 4.06% 77.81% Caracteristicas del trabajo(est.) 11 260 3.44% 81.25% Problemas familiares 9 269 2.81% 84.06% Material didactico 9 278 2.81% 86.88% Horario 9 287 2.81% 89.69% Economia del estudiante 8 295 2.50% 92.19% Transporte 7 302 2.19% 94.38% Bibliografia 7 309 2.19% 96.56% Otros 11 320 3.44% 100.00% Total 320 100.00%
  • 74. Diagrama de Pare de Factores que afectan el redimiento de los alumnos de FISICC 0 10 20 30 40 50 60 70 PreparacióndelaclaseN/H Noestudiaradecuadamente Metodologíadelaenseñanza Programadelamaestria PreparacióndelCatedrático Interes Asistencia Métododeevaluarelcurso Caracteristicasdeltrabajo(est.) Problemasfamiliares Materialdidactico Horario Economiadelestudiante Transporte Bibliografia Otros Frecuencia
  • 75. COEFICIENTE DE VARIACION (cv) La desviación tipica y la varianza son medidas de variación absoluta, es decir, miden la cantidad real de la variación presente en un conjunto de datos y dependen de la escala de medición. Para comparar la variación entre diferentes muestras de datos es conveniente usar el coeficiente de variación, el cual da la variación tipica como un porcentaje de la media aritmética. _ cv = s / x * 100 El coeficiente de variación mide la variación relativa de una muestra.
  • 76. APLICACIONES DE LAS MEDIDAS DE TENDENCIA CENTRAL Y DISPERSION A B C D E MEDIA 85 85 60 70 65 DESV . 18 16 22 14 12 ¿Cuál es la clase más homogénea? ¿En cuál espera que existan menos alumnos que pierdan la clase? ¿En cuál parece que hay más problemas? ¿Comparando las clases A,B y D, En cuál seguramente hay notas más altas?
  • 77. MediaAritmetica 85 85 60 70 65 DesviacionEstandar 18 16 22 14 12 Coeficientedevariacion 21.18 18.82 36.67 20.00 18.46
  • 78. Problema: Exámenes de curso 1º. 2º. 3º 4º 5º 6º Media 90 65 90 85 65 90 Desv. 12.5 7 7.5 8 17.4 9.5 ¿Cuál cree Ud. Que fue el examen más difícil? ¿Cuál cree Ud. Que fue el más fácil?
  • 79. MEDIDAS DE FORMA Las medidas de forma sirven para darnos una idea respecto a la simetria y la agudez de la distribucion de los datos. Las medidas de forma mas importantes son: Sesgo Curtosis
  • 80. SESGO Desviación ModaMedia Sesgo − = Si el resultado es positivo esta sesgada a la derecha Si el resultado es negativo esta sesgada a la izquierda OTRAS FORMULAS: 3*(MEDIA - MEDIANA) SESGO= DESVIACION
  • 81. Curtosis: También se le denomina grado de agudez, y es el grado de apuntamiento de una distribución. Existen 3 tipos: Normal o mesocurtica:Distribución no muy apuntalada ni achatada, o sea normal. Leptocurtica: Tiene apuntamiento. Platicúrtica: Más achatada que la Normal.
  • 82. VARIANZA (s2 ) La varianza de la población es similar a la desviación media, pero en este caso, para calcular la varianza sumamos el producto de las desviaciones al cuadrado por su respectiva frecuencia (Σ fi * di 2 ) y luego dividimos esta suma entre el número total de datos. Al elevar al cuadrado cada desviación, automáticamente se hacen positivos todos los números y por tanto no es necesario tomar el valor absoluto de cada desviación, entonces tenemos: _ s2 = Σfi*(xi - x)2 N Utilizando propiedades de las sumatorias, se puede calcular la varianza así: _ s2 = (Σfi*xi 2 )/N - (x)2 Para valores no agrupados tómese fi = 1.
  • 83. AGRUPACION DE DATOS: Rango= Dato mayor -Dato menor Número de clases (K) K= 1 + 3.3. Log N (usar entre 3 y 12 intervalos como máximo) Intervalos de clase (i) i= Rango/K Número de observaciones y número de celdas recomendado: De: 20 - 50 6 celdas De: 51 - 100 7 celdas De: 101 - 200 8 Celdas De: 201 - 500 9 Celdas De: 501 - 1000 10 celdas De: 1000 en adelante 11 a 15 celdas
  • 84. : *)2( Donde i f F n LMediana Me a ri − += Lri = Limite inferior de la celda donde esta la mediana n = Número total de observaciones Fa = Frecuencia acumulativa anterior a la celda donde esta la mediana FMe = Frecuencia de la celda de la mediana i = Ancho del intervalo de la celda. MEDIANA
  • 85. : *)( 21 1 Donde iLModa ri ∆+∆ ∆ += Lri = Limite inferior de la clase modal = Diferencia con la clase anterior = Diferencia con la clase posterior i = Ancho del intervalo de la celda. 1∆ 2∆ MODA
  • 86. Intervalo Limites Aparentes Limites Reales Xi f F fr Fr Xi *f Xi -X (Xi- X) 2 f * (Xi - X) 2 1 10 19 9.5 19.5 14.5 3 3 0.03 0.03 43.500 -29.8 888.04 2664.12 2 20 29 19.5 29.5 24.5 14 17 0.14 0.17 343.000 -19.8 392.04 5488.56 3 30 39 29.5 39.5 34.5 29 46 0.29 0.46 1000.500 -9.8 96.04 2785.16 4 40 49 39.5 49.5 44.5 22 68 0.22 0.68 979.000 0.2 0.04 0.88 5 50 59 49.5 59.5 54.5 14 82 0.14 0.82 763.000 10.2 104.04 1456.56 6 60 69 59.5 69.5 64.5 10 92 0.1 0.92 645.000 20.2 408.04 4080.4 7 70 79 69.5 79.5 74.5 4 96 0.04 0.96 298.000 30.2 912.04 3648.16 8 80 89 79.5 89.5 84.5 2 98 0.02 0.98 169.000 40.2 1616.04 3232.08 9 90 99 89.5 99.5 94.5 2 100 0.02 1 189.000 50.2 2520.04 5040.08 Total 100 1 4430.000 Total 28396 MEDIA = 4430 44.30 Varianza = 28396 283.96 100 100 Desviación= SQR(283.96) 16.85111 Calculo de Medidas de Tendencia Central
  • 87. HISTOGRAMA DE FRECUENCIAS 0 5 10 15 20 25 30 35 14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5 94.5 MARCA DE CLASE FRECUENCIA
  • 88. Cálculo de la MODA 32.36 10*)22/15(5.29 *)( 21 1 1 = += ∆+∆ ∆ += iLModa Cálculo de la Mediana 32.41 10*)22/)4650((5.39 *)2( = −+= − += i f F n LMediana Me a ri .
  • 89. CUARTILES (Qj) Análogamente a la mediana, que divide en 2 partes los datos, los cuartiles son parámetros que dividen la muestra de datos en 4 partes iguales, de manera que se tiene: CUARTIL PRIMERO (Q1) Q1 = 25% de los datos y se obtienen para 1N/4. CUARTIL SEGUNDO (Q2) Q2 = 50% de los datos y se obtiene para 2N/4 = N/2. El cuartil 2 es igual a la mediana. CUARTIL TERCERO (Q3) Q3 = 75% de los datos y se obtiene para 3N/4.
  • 90. LA FORMULA GENERAL ES: Qj = Lri + ( (jN/4 - FaQj)/fQj) * i donde j representa el número del cuartil y jN/4 se calcula inicialmente y en base al resultado obtenido, se sustituyen en la fórmula los datos correspondientes al intervalo donde la frecuencia acumulada sea mayor o igual a dicho resultado, el cálculo de un cuartil es similar al cálculo de la mediana. DECILES (Dj) Son los valores que dividen los datos en 10 partes iguales, como los cuartiles, y se representan por: D1 = 10% de los datos y se obtiene para 1N/10, D2 = 20% de los datos y se obtiene para 2N/10, y así sucesivamente hasta: D9 = 90% de los datos y se obtiene para 9N/10.
  • 91. LA FORMULA GENERAL ES: Dj = Lri + ( (jN/10 - FaDj)/fDj) * i donde j representa el número del decil y se aplica análogamente al cálculo de los cuartiles. PERCENTILES (Pj) Los percentiles son parámetros que dividen a los datos en cien partes iguales y se representan por: P1 = 1% de los datos y se obtiene para 1N/100, P2 = 2% de los datos y se obtiene para 2N/100, P3 = 3% de los datos y se obtiene para 3N/100, y así sucesivamente hasta: P99 = 99% de los datos y se obtiene para 99N/100. LA FORMULA GENERAL ES: Pj = Lri + ( ( jN/100 - FaPj)/fPj) * i donde j representa el número de percentil, y se calculan análogamente a los cuartiles y deciles. Nótese que Me = Q2 = D5 = P50.
  • 92. EJEMPLO La siguiente tabla muestra una distribución de frecuencias de los salarios semanales de 65 empleados de una compañía: Salarios (Q) No. de empleados (fi) Fa Limites reales 50.00 - 59.99 60.00 - 69.99 70.00 - 79.99 80.00 - 89.99 90.00 - 99.99 100.00 - 109.99 110.00 - 119.99 8 10 16 14 10 5 2 8 18 34 48 58 63 65 49.995 - 59.995 59.995 - 69.995 69.995 - 79.995 79.995 - 89.995 89.995 - 99.995 99.995 - 109.995 109.995 - 119.995 N = 65 Hallar: a) Cuartil 3 (Q3). b) Decil 2 (D2). c) Percentil 5 (P5).
  • 93. Solución: a) Q3 = Lri + ( (3N/4 - FaQ3)/fQ3) * i 3N/4 = 3x65/4 = 195/4 = 48.75 Se busca en las frecuencias acumuladas un número que sea mayor o igual a 48.75, en este caso nos da el intervalo 89.995 - 99.995, y se sustituyen en la fórmula todos los datos correspondientes a ese intervalo: Q3 = 89.995 +( (48.75 - 48)/10) * 10 = 90.75 Esto significa que el 75% de los empleados ganan un salario de Q90.75 o menos. b) D2 = Lri + ((2N/10 - FaD2)/fD2) * i 2N/10 = 2x65/10 = 130/10 = 13 D2 = 59.995 + ((13 - 8)/10) * 10 = 65.00 El 20% de los empleados ganan Q 65.00 o menos. c) P5 = Lri + ((5N/100 - FaP5)/fP5) * i 5x65/100 = 3.25 P5 = 49.995 + ((3.25 - 0)/8) * 10 = 54.06 El 5% de los empleados ganan Q 54.06 o menos.
  • 94. EJEMPLO Calcule la desviación media del ejemplo anterior (media aritmética = 11.0917 ton): Marcas de clase (xi) _ xi - x _ fi*xi - x 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 1.5917 1.0917 0.5917 0.0917 0.4083 0.9083 1.4083 1.9083 3.1834 5.4585 7.1004 1.5589 5.7162 5.4498 4.2249 1.9083 Σ 36.6004 D.M. = 36.6004/60 = 0.61 Ton.
  • 95. EJEMPLO Con los datos del problema anterior, encuentre: a) varianza (s2 ), b) desviación típica (s), c) desviación estándar (s’), d) coeficiente de variación (V). Solución Xi fi fi * Xi (Xi - X)^2 fi * (Xi - X)^2 9.5 2.0 19.0 2.533403 5.066806 10.0 5.0 50.0 1.191736 5.958681 10.5 12.0 126.0 0.350069 4.200833 11.0 17.0 187.0 0.008403 0.142847 11.5 14.0 161.0 0.166736 2.334306 12.0 6.0 72.0 0.825069 4.950417 12.5 3.0 37.5 1.983403 5.950208 13.0 1.0 13.0 3.641736 3.641736 60.0 665.5 32.24583 Media = Suma(fx) / n Media = 665.5 11.091667 n = 60 60.0 Suma( fx) = 665.5
  • 96. a) varianza (s2 ): Suma(fi * (xi – X)^2) s2 = 32.2458/60 = 0.537 b) desviación típica (s): s = √32.2458/60 = 0.733 c) desviación estandar (s´): s’ = √32.2458/(60 - 1) = 0.739 como puede observarse, hay una variación no significativa entre la desviación típica y la estandar. d) coeficiente de variación (V): (S/X) * 100 V = 0.733/11.0917 * 100 = 6.61%
  • 97. Ejemplos de uso de la Desviación típica, y Varianza 2 2 .).( ))(*( .. StDesvVarianza n XXf StDesv i = − = ∑
  • 98. MOMENTOS Se utilizan para producir valores que sirven el cálculo de las medidas de asimetría y agudez. Existen de 3 clases: Con respecto del origen Con respecto a la media. Con respecto a cualquier punto.
  • 99. Datos no agrupados: Respecto al origen Respecto a la media ,..3,2,1=−= ∑ rdonde N x x r jr ,..2,1 )( =− − = ∑ rdonde N xx m r j r Con respecto a cualquier punto. ,..3,2,1 )( =− − =′ ∑ rdonde N Ax m r j r
  • 101. Coeficiente de asimetría Dado en función del momento 3 2 3 3 s m a = + Asimetria positiva 0 Simétrica -Asimetria negativa.
  • 102. METODO DE OCHO PASOS PARA RESOLVER PROBLEMAS “UNA PERSONA VALIENTE NO ES EL QUE NO TIENE MIEDO, SINO AQUEL QUE A PESAR DEL TEMOR LO SUPERA Y SE ENFRENTA A SUS PROBLEMAS”
  • 103. Los problemas nunca se acaban Pero todo en la vida tiene solución y los problemas empresariales no son la excepción. Sin embargo, hay que saberlos tratar para que se resuelvan de manera efectiva y, de ser posible, para siempre. “Mil cortes en las hojas del árbol del mal equivalen a uno sólo en las raíces” Thoreau
  • 104. ¿Qué es un problema? SITUACIÓN EN DONDE EL RENDIMIENTO O COMPORTAMIENTO DE UN SISTEMA NO SA- TISFACE LAS EXPECTATIVAS. En general, podríamos decir que existe un problema cuando algo no ofrece el resultado que esperamos.
  • 105. Los ocho pasos • Definición del problema • Acción momentánea • Definición del origen • Acción correctiva definitiva • Comprobación • Estandarización • Documentación • Conclusiones
  • 106. 1. Definición del problema A) El tiempo en que ocurre B) El tipo de problema C) El síntoma presentado D) Aspectos circunstanciales E) Incluir información que no pueda ser presentada en forma de datos (gráficas y diagramas) F) Considerar cuándo, cuánto, qué, quién, dónde, etcétera)
  • 107. 2. Acción momentánea Es la acción para solucionar el problema temporalmente y así garantizar que, a pesar de que el problema existe, éste no va a afectar al cliente. Busque una acción momentánea a realizar para cada problema mientras lo resuelve de forma definitiva.
  • 108. 3. Definición del origen del problema Definir dónde exactamente se originó un problema es la clave para encontrar la solución más acertada. A) Generar lluvia de ideas: Un mismo problema puede ser visualizado de muy distintas maneras por diferentes personas. Importante: Debe realizarse en un clima de amistad. Todas las ideas son importantes. B) Elaborar diagrama de causa-efecto (Ishikawa): Relación entre un problema o resultado y las causas que lo ocasionaron.
  • 109. Construcción de un diagrama de causa-efecto 1) Definir el problema 2) Identificar las causas mayores ayudados por una lluvia de ideas. 3) Identificar las subcausas. 4) Ponderar las causas antes de evaluarlas 5) Evaluar las causas más probables 6) Tomar una solución.
  • 110. Diagrama de causa-efecto COMUNICACIÓN INADECUADA R.R. H.H. EQUIPO MEDIO AMBIENTE METODOS LIDERAZGO DESUNION RESPONSABI LIDAD OPORTUNIDAD IDENTIFICACION CON LA INSTITUCION REL. INTERNAS ACTITUD CONFIANZA EQUIPO DE COMPUTO DESIGUALDADTELEFONOS ESPACIO REDUCIDO EXCESO DE PERSONAS VENTILA CION TRABAJO CARGAS TIEMPOS PROCESOS DEFINICIÓN OBJETIVOS CLAROS INFORMACION FORMA DE TRANSMITIR DISPONIBILI DAD CLARIDADRIGIDEZ DECISIONE S AUTORIDAD RIGIDA
  • 111. 4. Acción correctiva definitiva A) Actividades a realizar B) Responsables C) Involucrados D) Tiempos E) Recursos 5. Comprobación A) Tiempo de revisión B) Frecuencia C) Responsable 6. EstandarizaciónLos cambios deberán establecerse de manera formal para asegurar su correcta aplicación en adelante.
  • 112. 7. Documentación Recopilar toda la información, hechos, decisiones, etcétera, que se llevaron a cabo desde que apareció el problema hasta su solución definitiva. 8. Conclusiones Aunque el problema resuelto sea el mismo, la experiencias de cada una de las personas es diferente; cada quien ve el problema desde su propia perspectiva. Compartir experiencias es una forma de aprendizaje muy enriquecedora.
  • 113. Probabilidad: Posibilidad de que algo llegue a suceder Frecuencia de un evento dentro de un todo (población). P= (NA/N) Donde: NA= # de veces que ocurre el evento A N= # total de posibles resultados.
  • 114. FORMULAS: P(AUB)= P(A) + P(B) , para sucesos mutuamente excluyentes (Si uno sucede es imposible que el otro se produzca). P(AUB)= P(A) + P(B) - P(A B) Para eventos no mutuamente excluyentes.  Si A y B son eventos independientes: P(A B)= P(A)*P(B) Si los sucesos son dependientes: P(A B)= P(A)*P(B/A)  
  • 115. PERMUTACION: Es una disposición ordenada de un conjunto de objetos. COMBINACION: Si la forma como se ordenan es irrelevante entonces se le llama combinación, (no importa el orden)
  • 116. DISTRIBUCIONES DE PROBABILIDAD Y FRECUENCIA Experimento: En estadistica, se denomina experimento a cualquier actividad que se realice con el fin de comprobar una hipotesis. Evento: Es el resultado de un experimento.
  • 117. Variables Aleatorias: Es aquella que toma valores diferentes como resultado de un experimento aleatorio TIPOS: DISCRETA: toma valores puntuales en una escala de medicion. CONTINUA: Puede tomar cualquier valor dentro de una escala de medicion o de valores. VALOR ESPERADO DE UNA VARIABLE ALEATORIA: Es un promedio pesado del valor de cada resultado posible multiplicado por la probabilidad de dicho resultado
  • 118. DISTRIBUCIONES DE PROBABILIDADES: Están relacionadas con las distribuciones de frecuencias, generalmente se piensa como una distribución de frecuencia teórica cuando se habla de distribución de probabilidades. TIPOS: DISCRETAS: Cuando los datos y la variable toma números limitados de valores. CONTINUAS: Cuando los datos y la variable (toma valores en un rango a utilizar) y la población se puede decir que es muy grande (infinita) DISTRIBUCIONES DISCRETAS: Entre las funciones de distribución de probabilidades que más utilizamos están: HIPERGEOMETICA BINOMIAL POISSON
  • 119. LA DISTRIBUCION BINOMIAL: Se utiliza en probabilidad discreta, cuyo número de elementos es infinito, es usada cuando tenemos atributos, ejemplo: aceptable, no aceptable, éxito o fracaso, falla o no falla, etc. Esta describe resultados de un proceso de Bernoulli (este proceso dice que las probabilidades solo pueden ser p= éxito, cara, etc q=1-p, lo contrario de p. La probabilidad de este evento permanece fijo respecto al tiempo. Los eventos son estadísticamente independientes. Se utiliza cuando la muestra de la población es finita y se toma la muestra sin reemplazo Para fines de la carrera es muy poco utilizado. HIPERGEOMETICA:
  • 120. Formula de la Binomial: P(Probabilidad de r éxitos en n ensayos)= p= probabilidad de tener éxito q= probabilidad de no tener éxito r= # de éxitos deseados n= # de intentos hechos. rnr qp rnr n − − ) )!(! ! (
  • 121. DISTRIBUCION DE POISSON: Se utiliza en probabilidad discreta, se aplica a diversas situaciones que aplican la realización de observaciones por unidad de tiempo. Ejemplo contar el número de vehículos que llegan a una caseta de control, contar el número de máquinas descompuestas durante 1 día, distribución de llamadas telefónicas que llegan a un conmutador, la demanda de pacientes que necesitan servicios, etc. CARACTERISTICAS: Con el ejemplo del número de vehículos que pasan por una sola caja de una caseta de cobro, daremos las características: La media del número de vehículos que llegan por hora pico puede estimarse a partir de datos sobre tráfico que se tengan disponibles. Si dividimos la hora pico en períodos (intervalos) de un segundo cada uno, encontraremos las siguientes afirmaciones: A) La probabilidad de que exactamente un vehículo llegue a una caja por segundo es muy pequeño.
  • 122. B) La probabilidad de que dos o más vehículos lleguen en un intervalo de un segundo es muy pequeña. C) El número de vehículos que llegan a un intervalo dado de un segundo es independiente de que dicho intervalo se presente en la hora pico. El número de llegadas en cualquier intervalo de un segundo no depende del número de llegadas en cualquier otro intervalo de un segundo. FORMULA: ! )( X e XP X λ λ − = Donde: = Número medio de presentaciones por intervalos de tiempo. X= Valor de variable.
  • 123. FUNCIONES CONTINUAS: La más utilizada es la Normal y es sobre la cual esta soportada muchas aplicaciones. Definimos: Donde: xi= Dato = Media σ xx Z i − = x Desviación=σ
  • 124. ANALISIS DE REGRESION Y CORRELACION ANALISIS DE REGRESION El término regresión, se uso por primera vez como un concepto estadístico por Sir Francis Galton. Galton hizo un estudio que mostró que, la altura de los niños de los padres altos tiende a bajarse, o "regresar", hacia la altura media de la población. El designó la palabra "regresión" como el nombre del proceso general de predecir una variable (la altura de los niños), a partir de otra (la altura de los padres). Posteriormente, los estadísticos usaron el término regresión múltiple para describir el proceso mediante el cual se usan varias variables para predecir otra. En el análisis de regresión, se desarrollará una ecuación de estimación, es decir, una fórmula matemática que relaciona las variables conocidas con la variable desconocida
  • 125. TIPOS DE RELACIONES DE CURVAS DE REGRESION Los análisis de regresión y correlación, están basados en la relación o asociación entre dos o más variables. La variable conocida es llamada variable independiente. La variable que se está tratando de predecir es la variable dependiente. REGRESION LINEAL La ecuación de la relación lineal es: Y = ao + a1X Donde ao & a1 son parámetros estadísticos que se deben calcular.
  • 126. METODO DE MINIMOS CUADRADOS Consideremos los puntos representados por (X1,Y1), (X2,Y2), ..., (Xn,Yn). Para un valor de Xi, existirá una diferencia Di entre Yi y el valor que da la ecuación de ajuste. Cada diferencia Di, se conoce como desviación, error o residuo; la cual, puede ser positiva, negativa o cero. De todas las curvas de aproximación a una serie de datos puntuales, la curva que tiene la propiedad de que: D1 2 + D2 2 + ... + DN 2 es mínimo se conoce como la mejor curva de ajuste. Así una recta con esta propiedad se llama recta de mínimos cuadrados y tiene la ecuación: Y = ao + a1X donde las constantes ao y a1 se determinan mediante el sistema de ecuaciones simultáneas: Σ Y = ao (N) + a1 (Σ X) Σ XY = ao (Σ X) + a1 (Σ X2 ) que son llamadas ecuaciones normales para la recta de mínimos cuadrados. Si se resuelve el sistema en forma general, entonces se obtienen las siguientes fórmulas:
  • 127. ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − − = − − = 221 22 2 )()( ))(()( )()( ))(())(( xxN yxxyN a xxN xyxxy ao Formulas para calcular los valores
  • 128. CORRELACION La correlación, es el grado de relación que existe entre las variables, y un análisis de correlación determina en que medida una ecuación lineal o de otro tipo describe o explica de una forma adecuada la relación entre las dos variables. Si todos los valores de las variables satisfacen exactamente una ecuación, se dice que las variables están correlacionadas perfectamente o que hay correlación perfecta entre ellas. Así las áreas "A" y los radios "r" de todos los círculos están correlacionados perfectamente, puesto que A = π * r2 . Las variables altura y peso de los individuos muestran cierta correlación. CORRELACION LINEAL Consideremos el diagrama de dispersión de la figura 4.3, si "Y" tiende a incrementarse cuando "X" aumenta, como en (a), la correlación se dice positiva o correlación directa. Si "Y" tiende a disminuir cuando se incrementa "X", como en (b), la correlación se dice negativa o correlación inversa. Si no hay ninguna relación entre las variables, como en (c), se dice que no hay correlación entre ellas, es decir, no están correlacionadas.
  • 129. COEFICIENTE DE CORRELACION LINEAL Si se supone una relación lineal entre las dos variables, el coeficiente de correlación se calcula como: Donde r esta en el rango entre -1 y 1, si r=1 se dice que es una buena correlación y si r=0, no hay correlación ∑∑ ∑ ∑ ∑ ∑ ∑ −− − = ])(][)()[( ))(()( 2222 yyNxxN yxxyN r
  • 130. COEFICIENTE DE DETERMINACION Al cuadrado del coeficiente de correlacion se le denomina “coeficiente de determinacion”. Aunque el mas utilizado es el coeficiente de correlacion, es el coeficiente de determinacion el que tiene un significado mas concreto. El coeficiente de determinacion representa la fraccion (o el porcentaje) de la variacion de “y” que es explicada por la variacion de “x”. Por ejemplo, si obtenemos un coeficiente de correlacion de 0.95 y lo elevamos al cuadrado obtenemos 0.9025, es decir que la variacion de la variable independiente (x) explica el 90.25% de la variacion de la variable dependiente (y). El otro 10% de la variacion de “y” es atribuible a otras causas que pueden incidir en dicha variable.
  • 131. EJEMPLO Los siguientes datos son las mediciones de velocidad del aire y del coeficiente de evaporación de las gotitas de combustible en una turbina de propulsión. Velocidad del aire Coeficiente de evaporación X (cm/seg) Y (mm2 /seg) 20 0.18 60 0.37 100 0.35 140 0.78 180 0.56 220 0.75 260 1.18 300 1.36 340 1.17 380 1.65 Encuentre: a) la ecuación de la recta de mínimos cuadrados, b) utilice la ecuación anterior, para estimar el coeficiente de evaporación de una gotita cuando la velocidad del aire es de 190 cm/seg, c) coeficiente de correlación.
  • 132. SOLUCION: a) Recta de regresión "Y" sobre "X": X Y X2 Y2 XY 20 0.18 400 0.0324 3.6 60 0.37 3,600 0.1369 22.2 100 0.35 10,000 0.1225 35.0 140 0.78 19,600 0.6084 109.2 180 0.56 32,400 0.3136 100.8 220 0.75 48,400 0.5625 165.0 260 1.18 67,600 1.3924 306.8 300 1.36 90,000 1.8496 408.0 340 1.17 115,600 1.3689 397.8 380 1.65 144,400 2.7225 627.0 2,000 8.35 532,000 9.1097 2,175.4
  • 133. N = 10 datos Σ X = 2,000 Σ X2 = 532,000 Σ Y = 8.35 Σ XY = 2,175.40 Sustituyendo en las ecuaciones normales: Σ Y = ao N + a1 Σ X Σ XY = ao Σ X + a1 Σ X2 8.35 = ao 10 + a1 2,000 (1) 2,175.40 = ao 2,000 + a1 532,000 (2) Resolviendo las ecuaciones (1) y (2) en forma simultánea tenemos: ao = 0.069 ; a1 = 0.0038, sustituyendo en Y = ao + a1 X, obtenemos la ecuación de la recta de regresión de "Y" sobre "X": Y = 0.069 + 0.0038 X (3) b) para X = 190 el coeficiente de evaporación será: Y = 0.069 + 0.0038(190) = 0.79 Y = 0.79 mm2 /seg
  • 134. c) el coeficiente de correlación es : r = 10(2,175.40) - (2,000)(8.35) = 0.95 √ [10(532,000)-(2,000)2 ][10(9.1097) - (8.35)2 ] El valor del coeficiente de correlación nos indica: • que la correlación es positiva, debido al signo del coeficiente, • que la relación entre X & Y es bastante buena, ya que el coeficiente es bastante cercano a 1, en valor absoluto, • cuando el coeficiente es bastante cercano a cero, se dice que no hay correlación entre las variables X & Y.
  • 135. d) el coeficiente de determinacion es : r^2 = 0.95 ^ 2 = 0.9025 equivalente a 90.25% El valor del coeficiente de determinacion nos indica: • Que podemos atribuir en un 90.25% la variacion de Y a la variacion de X y un 9.75% de la variacion es atribuible a otros factores que no fueron considerados en el modelo matematico. • Cuando el porcentaje es bajo, digamos abajo del 80%, debemos escoger otra variable independiente o agregar una variable mas al modelo y realizar un analisis de regresion multiple.
  • 136. CURVE EXPERT Es uno de tantos programas disponibles para realizar analisis de regresion y correlacion. Tiene la ventaja de tener predetermina- dos una gran cantidad de modelos, aparte de los que el usuario quiera definir. Es un Shareware que se encuentra disponible en internet.