Estadistica 1

Saltar a la primera
página
ESTADÍSTICA

La palabra estadística tiene 2
significados;
Estadística 1; hechos numéricos
sistemáticamente recolectados 2;
Ciencia de recolectar, clasificar y
utilizar estadísticas
– (Oxford
Concise Dictionary)
Por ejemplo……………….
Introducción a la
Estadística

Algunas definiciones de
Estadistica.
Rama de las matemáticas que proporciona
herramientas que permiten manejar grandes
cantidades de datos, convirtiendolos en
información útil.
Forma de decir mentiras con fundamentos
matemáticos.

DEFINICION:
Es una ciencia, pues aplica el
Método Científico al ocuparse de
la recolección, organización,
análisis, interpretación y
presentación de datos, tanto para
la deducción de conclusiones
como para la toma de decisiones
razonables de acuerdo a tales
análisis.

Introducción (cont.)
La ciencia de la Estadística utiliza;
· matemáticas (teoría de probabilidades)
· ciencia de las computadoras (graficos
and simulaciones)
· filosofía
Qué distingue a la Estadística de las
matemáticas?
· La estadística hace uso de las
matemáticas

La Estadística enfatiza la VARIABILIDAD
NATURAL
De individuos (personas, plantas, ratas,
ovejas, bombillas de luz, precios de
acciones, etc).
La Estadística es utilizada por:
· científicos
· biólogos
· químicos
· físicos
· psicólogos
· economistas

La Estadística se usa para:
Informar al publico
Proveer comparaciones
Explicar resultados
Influenciar decisiones
Justificar un reclamo o afirmación
Predecir futuros resultados
Establecer una relación o asociación
Estimar cantidades desconocidas

Los Estadísticos (personas que estudian la
estadística):
Entienden la idea de la variabilidad de los individuos
Se toman el tiempo siendo lógicos, profundos e
imparciales cuando preparan resultados y reportes
Se cuidan de no sacar conclusiones que están fuera
de los límites de la pregunta que debe responderse
mediante la estadística

UNIDAD DE ESTUDIO: Es el elemento mas
pequeno al que podemos hacer referencia en un
estudio estadistico.
COLECTIVO: Es todo conjunto compuesto por
mas de una unidad de estudio; un colectivo
puede ser una MUESTRA o una POBLACION.

Datos
Datos son piezas de información
Varias piezas de datos forman un conjunto de
datos
Los Datos se componen de los objetos que
han sido medidos (eg personas, arboles, ratas)
y los atributos que fueron registrados (edad,
tamaño, ph, costo, peso, etc)
objetos son aka sujetos, casos, entidades, etc
Atributos son aka caracteristicas, variables,
factores, etc

Variables
Cuando medimos los atributos de un
objeto, obtenemos un valor que varía
entre objetos. Por ejemplo considere las
personas en esta clase como objetos y
su estatura como el atributo
El atributo “altura” varía entre objetos, de
ahí que los atributos son mas
colectivamente conocidos como
variables

TIPOS DE VARIABLES:
DISCRETAS: Son aquellas que
toman valores puntuales en una
escala, ejemplo: No. de unidades
producidas, No. de quintales
transportados, etc.
CONTINUA: Son aquellas que
pueden tomar cualquier valor
real en una escala, por
ejemplo:Temperatura, peso,
longitud, etc.

Tipos de Datos
Las Variables pueden ser medidas
en cuatro escalas diferentes
Es escencial que sea capaz de
identificar las cuatro diferentes
escalas de medición y ejemplos de
cada una

1 Escala Nominal de Medición
Los datos son medidos al nivel
nominal donde cada caso es
clasificado en una de un numero
discreto de categorías
EG Color, Partido Politico,
Genero, etc

2 Escala Ordinal de Medición
Los datos son medidos en una escala ordinal
si las categorías implican orden
EG Rango Militar, Talla de ropa, etc
La diferencia entre rangos es consistente en
dirección, pero no en magnitud.

3 Escala de medición de Intervalo
Si las diferencias entre los valores tienen
significado, los datos son medidos en la
escala de Intervalo.
La temperatura es el mejor ejemplo

4 Escala de medición de Ratio
(rata)
Los datos medidos en una escala de ratio
tienen diferencias que son significativas, y
relativas a algun punto real de origen o cero.
eg Peso, Altura, edad, etc
Esta es la escala más común de medición.

Tipos de Datos (Cont.)
Datos de tipo Ordinal, Intervalo y Ratio también
se conocen como datos Cuantitativos
Datos de tipo Nominal también son
denominados datos Cualitativos

Dos tipos de Estadística
Estadística Descriptiva
métodos de resumir grandes cantidades
de datos en una forma conveniente
Estadística Inferencial
Métodos para extraer conclusiones
(hacer inferencias) respecto a las
características de una población
por ejemplo…….

POBLACION: Se le llama población o
universo, al conjunto total de unidades
de estudio que se desean investigar.
MUESTRA: Es un subconjunto de una
población. Se utiliza cuando la
población es muy numerosa, infinita o
muy difícil de examinar.
MUESTRA ALEATORIA:
Es cuando cada elemento tiene la misma
oportunidad de ser escogido.
• Muestreo aleatorio estratificado:
• Muestreo aleatorio sistematico:

Poblaciones
Un componente esencial de entender la
ciencia de la estadística es entender
estos términos
La población consiste en el conjunto de
todas las mediciones en que el
investigador está interesado
Un número que describe una población
se denomina un parametro
por ejemplo…………...

Muestras
Una muestra es un subconjunto de
datos de la población
Un numero que describe una
muestra es un estadístico
por ejemplo…………...

Inferencia
Si tomamos una muestra y calculamos un
estadístico, utilizamos ese estadístico para inferir
algo respecto a la población de la cual la muestra
fue extraída.
EG: Comunmente, las muestras son
utilizadas para inferir respecto a:
Resultados de Elecciones
Preferencias del consumidor
Actitudes hacia aspectos sociales
Se le ocurre algún otro ?????

CONTENIDO
Estadistica Descriptiva
Regresion y Correlacion
Distribuciones
Control Estadistico de Procesos

ESTADISTICA DESCRIPTIVA:
Es la parte de la Estadística que trata
solamente de describir y analizar un
colectivo, sin sacar conclusiones o
inferencias de un colectivo mayor, a
partir de ella.
La Estadística descriptiva incluye las
técnicas que se relacionan con el
resumen y la descripción de datos.
Estos datos pueden ser representados
en forma gráfica y pueden incluir análisis
por computadora.

ESTADISTICA
DESCRIPTIVA
MEDIDAS DE TENDENCIA
CENTRAL
MEDIDAS DE DISPERSION
MEDIDAS DE ORDEN
MEDIDAS DE FORMA
REPRESENTACION GRAFICA

CENTRAL
MEDIA (ARITMETICA O
PONDERADA)
MODA
MEDIANA

MEDIDAS DE
DISPERSIÓN
Rango
Desviacion Media
Varianza
Desviación Típica o
standard

MEDIDAS DE ORDEN
Cuartiles
Deciles
Percentiles

MEDIDAS DE FORMA
Sesgo
Curtosis
Momentos

REPRESENTACION
GRAFICA
Histograma de frecuencias
Diagrama de Pareto
Ojiva de Frecuencias
Acumuladas
Diagrama de Pastel
Diagrama de Cajas
Diagrama de Tallos y Hojas

MEDIA
ARITMETICA
.....
....
.
:
1
datosdeTotaln
datoslosdeunoCadax
AritmeticaMediax
Donde
n
x
x
i
n
i
i
=
=
=
=
∑=

1 19
2 22
3 24
4 20
5 21 338/15 = 22.53
6 19
7 25
8 21
9 23
10 22
11 22
12 21
13 24
14 35
15 20
338
Edad de 15 estudiantes de universitarios
Media Aritmetica =
=∑
EJEMPLO

.....
....
..
.
:
*
1
1
datosdeTotaln
datoslosdeunoCadax
PesodeFactorw
PonderadaMediax
Donde
w
xw
x
i
n
i
i
n
i
ii
i
=
=
=
=
=
∑
∑
=
=
MEDIA
PONDERADA

EJEMPLO
Dia Cantidad Peso Cant*Peso
1 1500 98 147000
2 2500 103 257500
3 1200 105 126000
4 5500 90 495000
5 2000 99 198000
6 1800 100 180000
7 450 109 49050
14950 704 1452550
Media Ponderada = 97.16
Media Aritmetica = 100.57
Produccion de Sacos de Fertilizante
durante una semana
∑

Mediana
Valor que divide la serie de datos en dos
partes iguales.
Si el numero de datos es impar, es el valor
que está situado justo en medio.
Si el número de datos es par, es el promedio
aritmético de los dos datos de en medio.

19
19
20
20
21
21
21
Mediana --> 22
22
22
23
24
24
25
35
EJEMPLO

Moda
Es el valor que mas se repite en un conjunto
de datos.
Puede no existir o puede existir mas de uno.

19
19
20
20
21
Moda -----> 21
21
22
Moda -----> 22
22
23
24
24
25
35
EJEMPLO

RANGO (R)
El rango de un conjunto de números es la diferencia entre el dato mayor y el dato
menor de todos ellos. El rango considera solo el valor más alto y el más bajo de la
distribución y deja de tomar en cuenta cualquier otra observación del conjunto de datos.
Debido a que mide dos valores, el rango cambia drásticamente entre muestras de una
misma población, aunque los valores que se encuentren entre el mayor y menor puedan
ser muy similares. Téngase en mente también, que las distribuciones abiertas en los
extremos no tienen rango, ya que no tiene valores "mayor" o "menor".
R = dato mayor - dato menor
EJEMPLO
Hallar el rango de los siguientes de números:
5,3,8,4,7,6,12,4,3
R = 12 - 3 = 9

Dato Menor -------> 19
19
20
20
21
21 Rango = 35 - 19 = 16
21
22
22
22
23
24
24
25
Dato Mayor -------> 35
EJEMPLO

DESVIACION MEDIA (D.M.)
La desviación media, es una medida de dispersión que involucra las diferencias (o
desviaciones) entre cada uno de los valores de la distribución y su media aritmética. Para
calcularla se debe restar la media aritmética a cada valor del conjunto de datos y se
ignora el signo (positivo o negativo), es decir, que se toma el valor absoluto de las
desviaciones; de lo contrario la suma algebraica será nula. Finalmente, se suman todas
estas diferencias y se divide por el número total de la muestra.
_
Desviación = di = xi - x
_
D.M. = Σ¦ xi - x ¦ / N

Dato Menor -------> 19 - 22.53 = 3.53
19 - 22.53 = 3.53
20 - 22.53 = 2.53
20 - 22.53 = 2.53
21 - 22.53 = 1.53
21 - 22.53 = 1.53
21 - 22.53 = 1.53
22 - 22.53 = 0.53
22 - 22.53 = 0.53
22 - 22.53 = 0.53
23 - 22.53 = 0.47
24 - 22.53 = 1.47
24 - 22.53 = 1.47
25 - 22.53 = 2.47
Dato Mayor -------> 35 - 22.53 = 12.47
Media = 22.53 Sumatoria 36.67
Desviacion Media = 36.67/15 = 2.44
EJEMPLO

DESVIACION TIPICA (s)
La desviación típica es la medida de dispersión más importante, ya que los
valores extremos de la distribución son influyentes en el cálculo de la misma,
no así los valores que se encuentran cerca de la media aritmética, y
simplemente es la raíz cuadrada de la varianza.
s = √(xi - x)2
) /N
A veces, la desviación típica viene definida por (N - 1) en el denominador
en lugar de N, a esta se le llama desviación estandar, ya que el valor
resultante es un estimador mejor de la desviación típica de la población.
Para valores grandes (N > 30) prácticamente no hay diferencia entre la
desviación típica y la estandar.

Dato Menor -------> 19 - 22.53 = 3.53 ^2 = 12.48
19 - 22.53 = 3.53 ^2 = 12.48
20 - 22.53 = 2.53 ^2 = 6.42
20 - 22.53 = 2.53 ^2 = 6.42
21 - 22.53 = 1.53 ^2 = 2.35
21 - 22.53 = 1.53 ^2 = 2.35
21 - 22.53 = 1.53 ^2 = 2.35
22 - 22.53 = 0.53 ^2 = 0.28
22 - 22.53 = 0.53 ^2 = 0.28
22 - 22.53 = 0.53 ^2 = 0.28
23 - 22.53 = 0.47 ^2 = 0.22
24 - 22.53 = 1.47 ^2 = 2.15
24 - 22.53 = 1.47 ^2 = 2.15
25 - 22.53 = 2.47 ^2 = 6.08
Dato Mayor -------> 35 - 22.53 = 12.47 ^2 = 155.42
Media = 22.53 Sumatoria 211.73
Varianza= 211.73/15 = 14.12
Desviacion Estandar = Raiz(14.12)= 3.76
EJEMPLO

USOS DE LA DESVIACION TIPICA
La desviación tipica permite determinar, con cierto grado de certeza, donde
están localizados los valores de una distribución de frecuencia con relación a la
media.
Se puede medir con bastante precisión el porcentaje de elementos que
caen dentro de rangos específicos, si la distribución de frecuencias toma la forma
de una curva simétrica en forma de campana (campana de Gauss) llamada
DISTRIBUCION NORMAL, en estos casos se dice que:
1. Cerca del 68% de los valores de la población caerán dentro de más o
menos una desviación tipica, a partir de la media aritmética.
2. Cerca del 95% de los valores se encontrarán dentro de más o menos dos
desviaciones tipica, a partir de la media aritmética.
3. Cerca del 99% de los valores estarán en un intervalo que va desde tres
desviaciones tipicas después de la media.

350 347 352 336
336 385 340 340
359 368 336 342
374 391 336 344
373 345 336 335
381 380 340 346
322 331 341 349
351 363 332 340
371 369 338 347
339 384 340 337
345 354 337 342
330 347 340 342
327 365 342 337
340 349 351 340
343 366 330 340
323 333 340 336
346 342 350 344
349 332 342 336
357 350 341 344
350 355 335 340
350 355 337 339
349 350 341 340
375 388 347 343
354 329 343 349
352 344 349 342
MAQUINA 1 MAQUINA 2
RESULTADO DEL PROCESO DE LLENADO
INDUSTRIAL DE REFRESCOS (en ml)

322 350 330 340
323 350 332 340
327 351 335 341
329 352 335 341
330 354 336 341
331 354 336 342
332 355 336 342
333 355 336 342
336 357 336 342
339 359 336 342
340 363 337 342
342 365 337 343
343 366 337 343
344 368 337 344
345 369 338 344
345 371 339 344
346 373 340 346
347 374 340 347
347 375 340 347
349 380 340 349
349 381 340 349
349 384 340 349
350 385 340 350
350 388 340 351
350 391 340 352
MAQUINA 1 MAQUINA 2
DATOS ORDENADOS

322 350 330 340
323 350 332 340
327 351 335 341
329 352 335 341
330 354 336 341
331 354 336 342
332 355 336 342
333 355 336 342
336 357 336 342
339 359 336 342
340 363 337 342
342 365 337 343
343 366 337 343
344 368 337 344
345 369 338 344
345 371 339 344
346 373 340 346
347 374 340 347
347 375 340 347
349 380 340 349
349 381 340 349
349 384 340 349
350 385 340 350
350 388 340 351
350 391 340 352
8500 9170 17670 8433 8614 17046
Media Aritmetica = 17670/50 = 353.4 17046/50= 340.9
Mediana = Dato 25 + Dato 26
Moda = 350 340
MAQUINA 1 MAQUINA 2
2.00
350 340
MEDIDAS DE TENDENCIA CENTRAL

Rango = 391 - 322 = 69 352 - 330 = 22
Desv.Media= 689/50 = 14 183/50= 4
Desv.Est. = raiz(14923/50) = 17 raiz(1144/50) = 5
MAQUINA1 MAQUINA2
MEDIDAS DE DISPERSION

322 350 330 340
323 350 332 340
327 351 335 341 # DE DATOS = 50
329 352 335 341
330 354 336 341 # DE CLASES O INTERVALOS = 1+3.3 * LOG (N) o Raiz(N)
331 354 336 342
332 355 336 342 6.61 7.07
333 355 336 342
336 357 336 342
339 359 336 342 Amplitud de los intervalos = Rango/# de intervalos
340 363 337 342
342 365 337 343 Maquina 1 10
343 366 337 343 Maquina 2 3
344 368 337 344
345 369 338 344
345 371 339 344
346 373 340 346
347 374 340 347
347 375 340 347
349 380 340 349
349 381 340 349
349 384 340 349
350 385 340 350
350 388 340 351
350 391 340 352
MAQUINA 1 MAQUINA 2
CONSTRUCCION DE UNA TABLA DE FRECUENCIAS

L. I. L. S. f L. I. L. S. f
322 - 331 6 330 - 332 2
332 - 341 5 333 - 335 2
342 - 351 17 336 - 338 11
352 - 361 7 339 - 341 15
362 - 371 6 342 - 344 11
372 - 381 5 345 - 347 3
382 - 391 4 348 - 350 4
50 351 - 353 2
50
MAQUINA 2MAQUINA 1
TABLA DE FRECUENCIAS

L. I. L. S. Xi f F F%
322 - 331 326.5 6 6 12
332 - 341 336.5 5 11 22
342 - 351 346.5 17 28 56
352 - 361 356.5 7 35 70
362 - 371 366.5 6 41 82
372 - 381 376.5 5 46 92
382 - 391 386.5 4 50 100
50
MAQUINA 1

0
2
4
6
8
10
12
14
16
18
1 2 3 4 5 6 7
HISTOGRAMA DE FRECUENCIAS

OJIVADE FRECUENCIAS
0
10
20
30
40
50
60
70
80
90
100
1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
Intervalo
FrecuenciaAcumulada

MEDIDAS DE ORDEN
Son aquellas que nos permiten
ubicar un dato de acuerdo a la
posicion que ocupa dentro de la
serie de datos.
Nos permiten ordenar, clasificar y
categorizar los datos.
Tambien se conocen como
fractilos porque dividen los datos
en partes iguales.

FRACTILOS
De acuerdo al numero de partes
en que se dividan los datos los
fractilos pueden ser:
Cuartiles: si dividen a los datos en
cuatro partes iguales.
Deciles: si dividen a los datos en
diez partes iguales.
Percentiles o Centiles: si dividen a
los datos en cien partes iguales.

FRACTILOS cont...
Por ejemplo, los cuartiles dividen
la distribucion de datos en cuatro
partes iguales, cada una
conteniendo el 25% de los datos.
De lo anterior se deduce que,
como se dijo anteriormente, si la
mediana divide los datos en dos
partes iguales, debe ser igual al
cuartil 2, al decil 5 y al percentil 50.

FRACTILOS cont...
Forma de calculo:
D = # de partes en que vamos a
dividir los datos (para cuartiles 4,
para deciles 10, para percentiles
100).
F = # del fractilo a calcular, es
decir, si queremos calcular el
tercer cuartil, F es igual a 3, si
queremos calcular el sexto decil, F
es igual a 6, etc.
N = # de datos en la distribucion.

FRACTILES cont...
Entonces, la posicion del fractilo
esta dada por:
F*N + (D-F)
D
Ejemplo: Para calcular el cuartil 3
de 50 datos:
3*50 + (4-3)
4
37.75, es decir que el tercer cuartil
esta ubicado entre el dato 37 y el
38, a un 75% de la distancia entre
ambos datos.

EJEMPLO
Para continuar con el ejemplo de las dos maquinas
llenadoras, vamos a calcular los cuartiles 1 y 3 para
cada maquina, entonces:
D = 4
N = 50
F = 1 y 3
1*50 + (4-1) 4
13.25 para el cuartil 1
3*50 + (4-3) 4
37.75 para el cuartil 3
Esto quiere decir que el cuartil 1 se encuentra entre el
dato 13 y el 14 mientras que el cuartil 3 esta entre el dato
37 y 38.

322 350 330 340
323 350 332 340
327 351 335 341 Para la Maquina 1 el dato 13 es 343 y el 14 344
329 352 335 341
330 354 336 341 La diferencia entre estos dos datos es 1
331 354 336 342
332 355 336 342 Posicion del cuartil 1 = 13.25
333 355 336 342
336 357 336 342 Cuartil 1 = 343.25
339 359 336 342
340 363 337 342 Para la maquina 1 el dato 37 es 365 y el 38 es 366
342 365 337 343
343 366 337 343 La diferencia entre estos dos datos es 1
344 368 337 344
345 369 338 344 Posicion del cuartil 3 = 37.75
345 371 339 344
346 373 340 346 Cuartil 3 = 365.75
347 374 340 347
347 375 340 347 Maquina 2
349 380 340 349
349 381 340 349 Cuartil 1 = 337 (En este caso el dato 13 y 14 son iguales)
349 384 340 349
350 385 340 350 Cuartil 3 = 343 (De igual forma, el dato 37 y 38 son iguales)
350 388 340 351
350 391 340 352
MAQUINA 1 MAQUINA 2

OTRA MEDIDA DE
DISPERSION
El Rango Intercuartil es otra
medida de dispersion utilizada
para poder determinar el rango de
valores en el que se encuentra el
50% de los datos, excluyendo el
50% que se encuentre en los
extremos, es decir, 25% en el
extremo superior y 25% en el
extremo inferior.

RANGO INTERCUARTIL
El rango intercuartil es la diferencia
entre el cuartil 3 y el cuartil 1:
RI = Q3 - Q1

EJEMPLO
Para las maquinas llenadoras:
Maquina 1:
365.75 - 343.25
22.5
Maquina 2:
343 - 337
6

DIAGRAMA DE CAJAS
Esta es una herramienta
sumamente util para comparar
distintos grupos de datos, ya que
permite ver en una sola grafica, la
tendencia central y la dispersion,
asi como detectar datos atipicos o
sospechosos.

Non-OutlierMax=25
Non-OutlierMin=19
75%=24
25%=20
Median=22
Outliers
BoxPlot(notas.STA1v*15c)
16
20
24
28
32
36
40
VAR1
EJEMPLO

PASOS PARA CONSTRUIR UN
DIAGRAMA DE CAJAS
Calcular los cuartiles 1,2 y 3.
Graficar una linea para cada uno
de los cuartiles. La caja queda
definida por el rango intercuartil y
la linea dentro de la caja identifica
la mediana.
Calcular el rango intercuartil (Q3 -
Q1) al que se denomina RI.
Calcular dos valores: Valor
Adyacente Superior y Valor
Adyacente Inferior (VAS y VAI).

Estos valores se calculan de la
siguiente manera:
VAS = Q3 + 1.5*RI
VAI = Q1 - 1.5*RI
Luego, encontrar en los datos dos
valores: m y M tal que:
m = max(Xi | Xi <= VAS)
M = min(Xi | Xi >= VAI)
Estos valores se grafican como los
limites de los alambres que nos
sirven para identificar datos
atipicos del conjunto de datos.

EJEMPLO
19 Posicion del cuartil 1 = (15*1 + 4 -1)/4
19 Posicion del cuartil 1 = 4.5
20 Cuartil 1 = 20.5
20 Posicion del cuartil 2 = (15*2 + 4-2)/4
21 Posicion del cuartil 2 = 8
21 Cuartil 2 = 22 (Mediana)
21 Posicion del cuartil 3 = (15*3 + 4-3)/4
22 Posicion del cuartil 3 = 11.5
22 Cuartil 3= 23.5
22 Rango Intercuartil = 23.5 - 20.5 = 3
23 VAS = Q3 + 1.5*RI = 23.5 + 1.5*3
24 VAS = 28
24 VAI = Q1 - 1.5*RI = 20.5 - 1.5*3
25 VAI = 16
35 m = 25
M = 19

Non-OutlierMax
Non-OutlierMin
Median;75%
25%
BoxPlot(notas.STA2v*50c)
310
320
330
340
350
360
370
380
390
400
MAQUINA1 MAQUINA2

PARETO:
Forma de separar los pocos vitales
de los muchos triviales, que
significa en esencia analizar la
causas y efectos que constituyen
en el 80% de un problema y obviar
el 20% que suelen ser causas
triviales.
Este enfatiza en la mayoría de los
casos que pocas causas pueden
ser provocadoras del 80% de
efectos de un problema.

Ejemplo:
Se presenta a continuación una tabla con las causas a las que se atribuye el
bajo rendimiento de los alumnos en los programas de maestria que imparte
FISICC.
Construya un diagrama de pareto para identificar cuales son los principales
problemas que afrontan los estudiantes.
Frecuencia Aporte por Acumulado
TIPO DE FACTOR Frecuencia Acumulada Factor %
Preparación de la clase N/H 63 63 19.69% 19.69%
No estudiar adecuadamente 41 104 12.81% 32.50%
Metodología de la enseñanza 31 135 9.69% 42.19%
Programa de la maestria 28 163 8.75% 50.94%
Preparación del Catedrático 27 190 8.44% 59.38%
Interes 27 217 8.44% 67.81%
Asistencia 19 236 5.94% 73.75%
Método de evaluar el curso 13 249 4.06% 77.81%
Caracteristicas del trabajo(est.) 11 260 3.44% 81.25%
Problemas familiares 9 269 2.81% 84.06%
Material didactico 9 278 2.81% 86.88%
Horario 9 287 2.81% 89.69%
Economia del estudiante 8 295 2.50% 92.19%
Transporte 7 302 2.19% 94.38%
Bibliografia 7 309 2.19% 96.56%
Otros 11 320 3.44% 100.00%
Total 320 100.00%

Diagrama de Pare de Factores que afectan el
redimiento de los alumnos de FISICC
0
10
20
30
40
50
60
70
PreparacióndelaclaseN/H
Noestudiaradecuadamente
Metodologíadelaenseñanza
Programadelamaestria
PreparacióndelCatedrático
Interes
Asistencia
Métododeevaluarelcurso
Caracteristicasdeltrabajo(est.)
Problemasfamiliares
Materialdidactico
Horario
Economiadelestudiante
Transporte
Bibliografia
Otros
Frecuencia

COEFICIENTE DE VARIACION (cv)
La desviación tipica y la varianza son medidas de variación absoluta, es decir, miden la
cantidad real de la variación presente en un conjunto de datos y dependen de la escala de
medición.
Para comparar la variación entre diferentes muestras de datos es conveniente usar el
coeficiente de variación, el cual da la variación tipica como un porcentaje de la media aritmética.
_
cv = s / x * 100
El coeficiente de variación mide la variación relativa de una muestra.

APLICACIONES DE LAS
CENTRAL Y DISPERSION
A B C D E
MEDIA 85 85 60 70 65
DESV
.
18 16 22 14 12
¿Cuál es la clase más homogénea?
¿En cuál espera que existan menos alumnos que pierdan
la clase?
¿En cuál parece que hay más problemas?
¿Comparando las clases A,B y D, En cuál seguramente
hay notas más altas?

MediaAritmetica 85 85 60 70 65
DesviacionEstandar 18 16 22 14 12
Coeficientedevariacion 21.18 18.82 36.67 20.00 18.46

Problema: Exámenes de curso
1º. 2º. 3º 4º 5º 6º
Media 90 65 90 85 65 90
Desv. 12.5 7 7.5 8 17.4 9.5
¿Cuál cree Ud. Que fue el examen más difícil?
¿Cuál cree Ud. Que fue el más fácil?

MEDIDAS DE FORMA
Las medidas de forma sirven para
darnos una idea respecto a la
simetria y la agudez de la
distribucion de los datos. Las
medidas de forma mas
importantes son:
Sesgo
Curtosis

SESGO
Desviación
ModaMedia
Sesgo
−
=
Si el resultado es positivo esta sesgada a la derecha
Si el resultado es negativo esta sesgada a la izquierda
OTRAS FORMULAS:
3*(MEDIA - MEDIANA)
SESGO=
DESVIACION

Curtosis:
También se le denomina grado de agudez, y es el grado de
apuntamiento de una distribución.
Existen 3 tipos:
Normal o mesocurtica:Distribución no muy apuntalada ni
achatada, o sea normal.
Leptocurtica: Tiene apuntamiento.
Platicúrtica: Más achatada que la Normal.

VARIANZA (s2
)
La varianza de la población es similar a la desviación media, pero en este caso,
para calcular la varianza sumamos el producto de las desviaciones al cuadrado por su
respectiva frecuencia (Σ fi * di
2
) y luego dividimos esta suma entre el número total de
datos. Al elevar al cuadrado cada desviación, automáticamente se hacen positivos todos
los números y por tanto no es necesario tomar el valor absoluto de cada desviación,
entonces tenemos:
_
s2
= Σfi*(xi - x)2
N
Utilizando propiedades de las sumatorias, se puede calcular la varianza así:
_
s2
= (Σfi*xi
2
)/N - (x)2
Para valores no agrupados tómese fi = 1.

AGRUPACION DE DATOS:
Rango= Dato mayor -Dato menor
Número de clases (K)
K= 1 + 3.3. Log N (usar entre 3 y 12
intervalos como máximo)
Intervalos de clase (i)
i= Rango/K
Número de observaciones y número
de celdas recomendado:
De: 20 - 50 6 celdas
De: 51 - 100 7 celdas
De: 101 - 200 8 Celdas
De: 201 - 500 9 Celdas
De: 501 - 1000 10 celdas
De: 1000 en adelante 11 a 15 celdas

:
*)2(
Donde
i
f
F
n
LMediana
Me
a
ri
−
+=
Lri = Limite inferior de la celda donde esta la mediana
n = Número total de observaciones
Fa = Frecuencia acumulativa anterior a la celda donde
esta la mediana
FMe = Frecuencia de la celda de la mediana
i = Ancho del intervalo de la celda.
MEDIANA

:
*)(
21
1
Donde
iLModa ri
∆+∆
∆
+=
Lri = Limite inferior de la clase modal
= Diferencia con la clase anterior
= Diferencia con la clase posterior
i = Ancho del intervalo de la celda.
1∆
2∆
MODA

Intervalo Limites Aparentes Limites Reales Xi f F fr Fr Xi *f Xi -X (Xi- X) 2 f * (Xi - X) 2
1 10 19 9.5 19.5 14.5 3 3 0.03 0.03 43.500 -29.8 888.04 2664.12
2 20 29 19.5 29.5 24.5 14 17 0.14 0.17 343.000 -19.8 392.04 5488.56
3 30 39 29.5 39.5 34.5 29 46 0.29 0.46 1000.500 -9.8 96.04 2785.16
4 40 49 39.5 49.5 44.5 22 68 0.22 0.68 979.000 0.2 0.04 0.88
5 50 59 49.5 59.5 54.5 14 82 0.14 0.82 763.000 10.2 104.04 1456.56
6 60 69 59.5 69.5 64.5 10 92 0.1 0.92 645.000 20.2 408.04 4080.4
7 70 79 69.5 79.5 74.5 4 96 0.04 0.96 298.000 30.2 912.04 3648.16
8 80 89 79.5 89.5 84.5 2 98 0.02 0.98 169.000 40.2 1616.04 3232.08
9 90 99 89.5 99.5 94.5 2 100 0.02 1 189.000 50.2 2520.04 5040.08
Total 100 1 4430.000 Total 28396
MEDIA = 4430 44.30 Varianza = 28396 283.96
100 100
Desviación= SQR(283.96) 16.85111
Calculo de Medidas de
Tendencia Central

HISTOGRAMA DE FRECUENCIAS
0
5
10
15
20
25
30
35
14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5 94.5
MARCA DE CLASE
FRECUENCIA

Cálculo de la MODA
32.36
10*)22/15(5.29
*)(
21
1
1
=
+=
∆+∆
∆
+= iLModa
Cálculo de la Mediana
32.41
10*)22/)4650((5.39
*)2(
=
−+=
−
+= i
f
F
n
LMediana
Me
a
ri
.

CUARTILES (Qj)
Análogamente a la mediana, que divide en 2 partes los datos, los cuartiles son
parámetros que dividen la muestra de datos en 4 partes iguales, de manera que
se tiene:
CUARTIL PRIMERO (Q1)
Q1 = 25% de los datos y se obtienen para 1N/4.
CUARTIL SEGUNDO (Q2)
Q2 = 50% de los datos y se obtiene para 2N/4 = N/2. El cuartil 2 es igual a
la mediana.
CUARTIL TERCERO (Q3)
Q3 = 75% de los datos y se obtiene para 3N/4.

LA FORMULA GENERAL ES:
Qj = Lri + ( (jN/4 - FaQj)/fQj) * i
donde j representa el número del cuartil y jN/4 se calcula inicialmente y en base al
resultado obtenido, se sustituyen en la fórmula los datos correspondientes al
intervalo donde la frecuencia acumulada sea mayor o igual a dicho resultado, el
cálculo de un cuartil es similar al cálculo de la mediana.
DECILES (Dj)
Son los valores que dividen los datos en 10 partes iguales, como los cuartiles, y se
representan por:
D1 = 10% de los datos y se obtiene para 1N/10,
D2 = 20% de los datos y se obtiene para 2N/10,
y así sucesivamente hasta:
D9 = 90% de los datos y se obtiene para 9N/10.

Dj = Lri + ( (jN/10 - FaDj)/fDj) * i
donde j representa el número del decil y se aplica análogamente al cálculo de los
cuartiles.
PERCENTILES (Pj)
Los percentiles son parámetros que dividen a los datos en cien partes iguales y se
representan por:
P1 = 1% de los datos y se obtiene para 1N/100,
y así sucesivamente hasta:
P99 = 99% de los datos y se obtiene para 99N/100.
Pj = Lri + ( ( jN/100 - FaPj)/fPj) * i
donde j representa el número de percentil, y se calculan análogamente a los
cuartiles y deciles.
Nótese que Me = Q2 = D5 = P50.

EJEMPLO
La siguiente tabla muestra una distribución de frecuencias de los salarios
semanales de 65 empleados de una compañía:
Salarios
(Q)
No. de
empleados (fi)
Fa Limites reales
50.00 - 59.99
60.00 - 69.99
70.00 - 79.99
80.00 - 89.99
90.00 - 99.99
100.00 - 109.99
110.00 - 119.99
8
10
16
14
10
5
2
8
18
34
48
58
63
65
49.995 - 59.995
59.995 - 69.995
69.995 - 79.995
79.995 - 89.995
89.995 - 99.995
99.995 - 109.995
109.995 - 119.995
N = 65
Hallar:
a) Cuartil 3 (Q3).
b) Decil 2 (D2).
c) Percentil 5 (P5).

Solución:
a) Q3 = Lri + ( (3N/4 - FaQ3)/fQ3) * i
3N/4 = 3x65/4 = 195/4 = 48.75
Se busca en las frecuencias acumuladas un número que sea
mayor o igual a 48.75, en este caso nos da el intervalo 89.995 -
99.995, y se sustituyen en la fórmula todos los datos
correspondientes a ese intervalo:
Q3 = 89.995 +( (48.75 - 48)/10) * 10 = 90.75
Esto significa que el 75% de los empleados ganan un salario de
Q90.75 o menos.
b) D2 = Lri + ((2N/10 - FaD2)/fD2) * i
2N/10 = 2x65/10 = 130/10 = 13
D2 = 59.995 + ((13 - 8)/10) * 10 = 65.00
El 20% de los empleados ganan Q 65.00 o menos.
c) P5 = Lri + ((5N/100 - FaP5)/fP5) * i
5x65/100 = 3.25
P5 = 49.995 + ((3.25 - 0)/8) * 10 = 54.06
El 5% de los empleados ganan Q 54.06 o menos.

EJEMPLO
Calcule la desviación media del ejemplo anterior
(media aritmética = 11.0917 ton):
Marcas de clase
(xi)
_
xi - x
_
fi*xi - x
9.5
10.0
10.5
11.0
11.5
12.0
12.5
13.0
1.5917
1.0917
0.5917
0.0917
0.4083
0.9083
1.4083
1.9083
3.1834
5.4585
7.1004
1.5589
5.7162
5.4498
4.2249
1.9083
Σ 36.6004
D.M. = 36.6004/60 = 0.61 Ton.

EJEMPLO
Con los datos del problema anterior, encuentre:
a) varianza (s2
),
b) desviación típica (s),
c) desviación estándar (s’),
d) coeficiente de variación (V).
Solución
Xi fi fi * Xi (Xi - X)^2 fi * (Xi - X)^2
9.5 2.0 19.0 2.533403 5.066806
10.0 5.0 50.0 1.191736 5.958681
10.5 12.0 126.0 0.350069 4.200833
11.0 17.0 187.0 0.008403 0.142847
11.5 14.0 161.0 0.166736 2.334306
12.0 6.0 72.0 0.825069 4.950417
12.5 3.0 37.5 1.983403 5.950208
13.0 1.0 13.0 3.641736 3.641736
60.0 665.5 32.24583
Media = Suma(fx) / n Media = 665.5 11.091667
n = 60 60.0
Suma( fx) = 665.5

a) varianza (s2
): Suma(fi * (xi – X)^2)
s2
= 32.2458/60 = 0.537
b) desviación típica (s):
s = √32.2458/60 = 0.733
c) desviación estandar (s´):
s’ = √32.2458/(60 - 1) = 0.739
como puede observarse, hay una variación no significativa
entre la desviación típica y la estandar.
d) coeficiente de variación (V): (S/X) * 100
V = 0.733/11.0917 * 100 = 6.61%

Ejemplos de uso de
la Desviación típica,
y Varianza
2
2
.).(
))(*(
..
StDesvVarianza
n
XXf
StDesv
i
=
−
=
∑

MOMENTOS
Se utilizan para producir valores
que sirven el cálculo de las
medidas de asimetría y agudez.
Existen de 3 clases:
Con respecto del origen
Con respecto a la media.
Con respecto a cualquier punto.

Datos no agrupados:
Respecto al origen
Respecto a la media
,..3,2,1=−=
∑ rdonde
N
x
x
r
jr
,..2,1
)(
=−
−
=
∑ rdonde
N
xx
m
r
j
r
Con respecto a cualquier punto.
,..3,2,1
)(
=−
−
=′ ∑ rdonde
N
Ax
m
r
j
r

Datos agrupados:
momentosegundor
mediaesrpara
N
xf
x
r
jj
r
−−=
−−=−=
∑
2
1
.var,2
)(*
ianzaesr
condonde
N
xxf
m
r
jj
r
−−=
−−
−
=
∑
N
Axf
m
r
jj
r
∑ −
=′
)(*

Coeficiente de asimetría
Dado en función del momento 3
2
3
3
s
m
a =
+ Asimetria positiva
0 Simétrica
-Asimetria negativa.

METODO DE OCHO PASOS
PARA RESOLVER PROBLEMAS
“UNA PERSONA VALIENTE NO ES EL QUE NO TIENE
MIEDO, SINO AQUEL QUE A PESAR DEL TEMOR LO
SUPERA Y SE ENFRENTA A SUS PROBLEMAS”

Los problemas nunca se
acaban
Pero todo en la vida tiene solución y los problemas
empresariales no son la excepción. Sin embargo,
hay que saberlos tratar para que se resuelvan de
manera efectiva y, de ser posible, para siempre.
“Mil cortes en las hojas del árbol del mal equivalen
a uno sólo en las raíces” Thoreau

¿Qué es un problema?
SITUACIÓN EN DONDE EL RENDIMIENTO O
COMPORTAMIENTO DE UN SISTEMA NO SA-
TISFACE LAS EXPECTATIVAS.
En general, podríamos decir que existe un problema
cuando algo no ofrece el resultado que esperamos.

Los ocho pasos
• Definición del problema
• Acción momentánea
• Definición del origen
• Acción correctiva definitiva
• Comprobación
• Estandarización
• Documentación
• Conclusiones

1. Definición del problema
A) El tiempo en que ocurre
B) El tipo de problema
C) El síntoma presentado
D) Aspectos circunstanciales
E) Incluir información que no
pueda ser presentada en
forma de datos (gráficas y
diagramas)
F) Considerar cuándo, cuánto,
qué, quién, dónde, etcétera)

2. Acción momentánea
Es la acción para solucionar el
problema temporalmente y
así garantizar que, a pesar de
que el problema existe, éste no
va a afectar al cliente.
Busque una acción
momentánea a realizar para
cada problema
mientras lo resuelve de forma
definitiva.

3. Definición del origen
del problema
Definir dónde exactamente se originó un problema
es la
clave para encontrar la solución más acertada.
A) Generar lluvia de ideas:
Un mismo problema puede ser visualizado de muy
distintas maneras por diferentes personas.
Importante: Debe realizarse en un clima de amistad.
Todas las ideas son importantes.
B) Elaborar diagrama de causa-efecto (Ishikawa):
Relación entre un problema o resultado y las causas
que lo ocasionaron.

Construcción de un
diagrama de causa-efecto
1) Definir el problema
2) Identificar las causas mayores
ayudados por una lluvia
de ideas.
3) Identificar las subcausas.
4) Ponderar las causas antes de
evaluarlas
5) Evaluar las causas más probables
6) Tomar una solución.

Diagrama de causa-efecto
COMUNICACIÓN
INADECUADA
R.R. H.H.
EQUIPO
MEDIO
AMBIENTE METODOS
LIDERAZGO
DESUNION
RESPONSABI
LIDAD
OPORTUNIDAD
IDENTIFICACION
CON LA
INSTITUCION
REL.
INTERNAS
ACTITUD
CONFIANZA
EQUIPO DE
COMPUTO
DESIGUALDADTELEFONOS
ESPACIO
REDUCIDO
EXCESO DE
PERSONAS
VENTILA
CION
TRABAJO
CARGAS
TIEMPOS
PROCESOS
DEFINICIÓN
OBJETIVOS
CLAROS
INFORMACION
FORMA DE
TRANSMITIR
DISPONIBILI
DAD
CLARIDADRIGIDEZ
DECISIONE
S
AUTORIDAD
RIGIDA

4. Acción correctiva definitiva
A) Actividades a realizar
B) Responsables
C) Involucrados
D) Tiempos
E) Recursos
5. Comprobación
A) Tiempo de revisión
B) Frecuencia
C) Responsable
6.
EstandarizaciónLos cambios deberán establecerse de manera
formal para asegurar su correcta aplicación en
adelante.

7. Documentación
Recopilar toda la información, hechos, decisiones,
etcétera, que se llevaron a cabo desde que apareció
el problema hasta su solución definitiva.
8. Conclusiones
Aunque el problema resuelto sea el mismo, la experiencias
de cada una de las personas es diferente; cada quien
ve el problema desde su propia perspectiva.
Compartir experiencias es una forma de aprendizaje
muy enriquecedora.

Probabilidad:
Posibilidad de que algo llegue a
suceder
Frecuencia de un evento dentro
de un todo (población).
P= (NA/N)
Donde:
NA= # de veces que ocurre el
evento A
N= # total de posibles resultados.

FORMULAS:
P(AUB)= P(A) + P(B) , para sucesos mutuamente
excluyentes (Si uno sucede es imposible que el
otro se produzca).
P(AUB)= P(A) + P(B) - P(A B)
Para eventos no mutuamente excluyentes.

Si A y B son eventos independientes:
P(A B)= P(A)*P(B)
Si los sucesos son dependientes:
P(A B)= P(A)*P(B/A)



PERMUTACION:
Es una disposición ordenada de un
conjunto de objetos.
COMBINACION:
Si la forma como se ordenan es irrelevante
entonces se le llama combinación, (no importa
el orden)

DISTRIBUCIONES DE
PROBABILIDAD Y
FRECUENCIA
Experimento: En estadistica, se
denomina experimento a cualquier
actividad que se realice con el fin
de comprobar una hipotesis.
Evento: Es el resultado de un
experimento.

Variables Aleatorias:
Es aquella que toma valores diferentes como resultado
de un experimento aleatorio
TIPOS:
DISCRETA: toma valores puntuales en una escala de
medicion.
CONTINUA: Puede tomar cualquier valor dentro de
una escala de medicion o de valores.
VALOR ESPERADO DE UNA VARIABLE ALEATORIA:
Es un promedio pesado del valor de cada resultado
posible multiplicado por la probabilidad de dicho
resultado

DISTRIBUCIONES DE PROBABILIDADES:
Están relacionadas con las distribuciones de frecuencias,
generalmente se piensa como una distribución de frecuencia
teórica cuando se habla de distribución de probabilidades.
TIPOS:
DISCRETAS: Cuando los datos y la variable toma números
limitados de valores.
CONTINUAS: Cuando los datos y la variable (toma valores
en un rango a utilizar) y la población se puede decir que es
muy grande (infinita)
DISTRIBUCIONES DISCRETAS:
Entre las funciones de distribución de probabilidades que
más utilizamos están:
HIPERGEOMETICA
BINOMIAL
POISSON

LA DISTRIBUCION BINOMIAL:
Se utiliza en probabilidad discreta, cuyo número de elementos es
infinito, es usada cuando tenemos atributos, ejemplo: aceptable, no
aceptable, éxito o fracaso, falla o no falla, etc.
Esta describe resultados de un proceso de Bernoulli (este proceso
dice que las probabilidades solo pueden ser p= éxito, cara, etc
q=1-p, lo contrario de p. La probabilidad de este evento
permanece fijo respecto al tiempo.
Los eventos son estadísticamente independientes.
Se utiliza cuando la muestra de la población es finita y se toma la
muestra sin reemplazo
Para fines de la carrera es muy poco utilizado.
HIPERGEOMETICA:

Formula de la Binomial:
P(Probabilidad de r éxitos en n ensayos)=
p= probabilidad de tener éxito
q= probabilidad de no tener éxito
r= # de éxitos deseados
n= # de intentos hechos.
rnr
qp
rnr
n −
−
)
)!(!
!
(

DISTRIBUCION DE POISSON:
Se utiliza en probabilidad discreta, se aplica a diversas situaciones
que aplican la realización de observaciones por unidad de tiempo.
Ejemplo contar el número de vehículos que llegan a una caseta de
control, contar el número de máquinas descompuestas durante 1 día,
distribución de llamadas telefónicas que llegan a un conmutador, la
demanda de pacientes que necesitan servicios, etc.
CARACTERISTICAS:
Con el ejemplo del número de vehículos que pasan por una sola caja
de una caseta de cobro, daremos las características:
La media del número de vehículos que llegan por hora pico puede
estimarse a partir de datos sobre tráfico que se tengan
disponibles.
Si dividimos la hora pico en períodos (intervalos) de un segundo
cada uno, encontraremos las siguientes afirmaciones:
A) La probabilidad de que exactamente un vehículo llegue a
una caja por segundo es muy pequeño.

B) La probabilidad de que dos o más vehículos lleguen en
un intervalo de un segundo es muy pequeña.
C) El número de vehículos que llegan a un intervalo dado de
un segundo es independiente de que dicho intervalo se
presente en la hora pico.
El número de llegadas en cualquier intervalo de un segundo
no depende del número de llegadas en cualquier otro
intervalo de un segundo.
FORMULA:
!
)(
X
e
XP
X λ
λ −
=
Donde:
= Número medio de presentaciones por intervalos de
tiempo.
X= Valor de variable.

FUNCIONES CONTINUAS:
La más utilizada es la Normal y es sobre la
cual esta soportada muchas aplicaciones.
Definimos:
Donde:
xi= Dato
= Media
σ
xx
Z i −
=
x
Desviación=σ

ANALISIS DE REGRESION Y
CORRELACION
ANALISIS DE REGRESION
El término regresión, se uso por primera vez como un concepto
estadístico por Sir Francis Galton. Galton hizo un estudio que mostró que,
la altura de los niños de los padres altos tiende a bajarse, o "regresar",
hacia la altura media de la población. El designó la palabra "regresión"
como el nombre del proceso general de predecir una variable (la altura de
los niños), a partir de otra (la altura de los padres).
Posteriormente, los estadísticos usaron el término regresión múltiple
para describir el proceso mediante el cual se usan varias variables para
predecir otra.
En el análisis de regresión, se desarrollará una ecuación de
estimación, es decir, una fórmula matemática que relaciona las variables
conocidas con la variable desconocida

TIPOS DE RELACIONES DE CURVAS DE REGRESION
Los análisis de regresión y correlación, están basados en
la relación o asociación entre dos o más variables. La
variable conocida es llamada variable independiente.
La variable que se está tratando de predecir es la
variable dependiente.
REGRESION LINEAL
La ecuación de la relación lineal es:
Y = ao + a1X
Donde ao & a1 son parámetros estadísticos que se
deben calcular.

METODO DE MINIMOS CUADRADOS
Consideremos los puntos representados por (X1,Y1), (X2,Y2), ..., (Xn,Yn). Para un
valor de Xi, existirá una diferencia Di entre Yi y el valor que da la ecuación de
ajuste. Cada diferencia Di, se conoce como desviación, error o residuo; la
cual, puede ser positiva, negativa o cero.
De todas las curvas de aproximación a una serie de datos puntuales, la curva
que tiene la propiedad de que:
D1
2
+ D2
2
+ ... + DN
2
es mínimo
se conoce como la mejor curva de ajuste. Así una recta con esta propiedad se
llama recta de mínimos cuadrados y tiene la ecuación:
Y = ao + a1X
donde las constantes ao y a1 se determinan mediante el sistema de ecuaciones
simultáneas:
Σ Y = ao (N) + a1 (Σ X)
Σ XY = ao (Σ X) + a1 (Σ X2
)
que son llamadas ecuaciones normales para la recta de mínimos cuadrados.
Si se resuelve el sistema en forma general, entonces se obtienen las siguientes
fórmulas:

∑ ∑
∑ ∑ ∑
∑ ∑
∑ ∑ ∑ ∑
−
−
=
−
−
=
221
22
2
)()(
))(()(
)()(
))(())((
xxN
yxxyN
a
xxN
xyxxy
ao
Formulas para calcular los valores

CORRELACION
La correlación, es el grado de relación que existe entre las variables, y un
análisis de correlación determina en que medida una ecuación lineal o de
otro tipo describe o explica de una forma adecuada la relación entre las
dos variables.
Si todos los valores de las variables satisfacen exactamente una
ecuación, se dice que las variables están correlacionadas perfectamente
o que hay correlación perfecta entre ellas. Así las áreas "A" y los radios
"r" de todos los círculos están correlacionados perfectamente, puesto que
A = π * r2
. Las variables altura y peso de los individuos muestran cierta
correlación.
CORRELACION LINEAL
Consideremos el diagrama de dispersión de la figura 4.3, si "Y" tiende a
incrementarse cuando "X" aumenta, como en (a), la correlación se dice
positiva o correlación directa. Si "Y" tiende a disminuir cuando se
incrementa "X", como en (b), la correlación se dice negativa o correlación
inversa. Si no hay ninguna relación entre las variables, como en (c), se dice
que no hay correlación entre ellas, es decir, no están correlacionadas.

COEFICIENTE DE CORRELACION
LINEAL
Si se supone una relación lineal entre las
dos variables, el coeficiente de
correlación se calcula como:
Donde r esta en el rango entre -1 y 1, si
r=1 se dice que es una buena correlación
y si r=0, no hay correlación
∑∑ ∑ ∑
∑ ∑ ∑
−−
−
=
])(][)()[(
))(()(
2222
yyNxxN
yxxyN
r

COEFICIENTE DE DETERMINACION
Al cuadrado del coeficiente de correlacion se le denomina “coeficiente de
determinacion”. Aunque el mas utilizado es el coeficiente de correlacion, es el
coeficiente de determinacion el que tiene un significado mas concreto. El
coeficiente de determinacion representa la fraccion (o el porcentaje) de la
variacion de “y” que es explicada por la variacion de “x”. Por ejemplo, si
obtenemos un coeficiente de correlacion de 0.95 y lo elevamos al cuadrado
obtenemos 0.9025, es decir que la variacion de la variable independiente (x)
explica el 90.25% de la variacion de la variable dependiente (y). El otro 10% de
la variacion de “y” es atribuible a otras causas que pueden incidir en dicha
variable.

EJEMPLO
Los siguientes datos son las mediciones de velocidad del
aire y del coeficiente de evaporación de las gotitas de
combustible en una turbina de propulsión.
Velocidad del aire Coeficiente de evaporación
X (cm/seg) Y (mm2
/seg)
20 0.18
60 0.37
100 0.35
140 0.78
180 0.56
220 0.75
260 1.18
300 1.36
340 1.17
380 1.65
Encuentre:
a) la ecuación de la recta
de mínimos cuadrados,
b) utilice la ecuación
anterior, para estimar
el coeficiente de
evaporación de una gotita
cuando la
velocidad del aire es de
190 cm/seg,
c) coeficiente de
correlación.

SOLUCION:
a) Recta de regresión "Y" sobre "X":
X Y X2
Y2
XY
20 0.18 400 0.0324 3.6
60 0.37 3,600 0.1369 22.2
100 0.35 10,000 0.1225 35.0
140 0.78 19,600 0.6084 109.2
180 0.56 32,400 0.3136 100.8
220 0.75 48,400 0.5625 165.0
260 1.18 67,600 1.3924 306.8
300 1.36 90,000 1.8496 408.0
340 1.17 115,600 1.3689 397.8
380 1.65 144,400 2.7225 627.0
2,000 8.35 532,000 9.1097 2,175.4

N = 10 datos
Σ X = 2,000 Σ X2
= 532,000
Σ Y = 8.35 Σ XY = 2,175.40
Sustituyendo en las ecuaciones normales:
Σ Y = ao N + a1 Σ X
Σ XY = ao Σ X + a1 Σ X2
8.35 = ao 10 + a1 2,000 (1)
2,175.40 = ao 2,000 + a1 532,000 (2)
Resolviendo las ecuaciones (1) y (2) en forma simultánea
tenemos:
ao = 0.069 ; a1 = 0.0038,
sustituyendo en Y = ao + a1 X, obtenemos la ecuación de la
recta de regresión de "Y" sobre "X":
Y = 0.069 + 0.0038 X (3)
b) para X = 190 el coeficiente de evaporación será:
Y = 0.069 + 0.0038(190) = 0.79
Y = 0.79 mm2
/seg

c) el coeficiente de correlación es :
r = 10(2,175.40) - (2,000)(8.35) = 0.95
√ [10(532,000)-(2,000)2
][10(9.1097) - (8.35)2
]
El valor del coeficiente de correlación nos indica:
• que la correlación es positiva, debido al signo del coeficiente,
• que la relación entre X & Y es bastante buena, ya que el
coeficiente es bastante cercano a 1, en valor absoluto,
• cuando el coeficiente es bastante cercano a cero, se dice
que no hay correlación entre las variables X & Y.

d) el coeficiente de determinacion es :
r^2 = 0.95 ^ 2 = 0.9025 equivalente a 90.25%
El valor del coeficiente de determinacion nos indica:
• Que podemos atribuir en un 90.25% la variacion de Y a la
variacion de X y un 9.75% de la variacion es atribuible a otros
factores que no fueron considerados en el modelo matematico.
• Cuando el porcentaje es bajo, digamos abajo del 80%, debemos
escoger otra variable independiente o agregar una variable mas al
modelo y realizar un analisis de regresion multiple.

CURVE EXPERT
Es uno de tantos programas
disponibles para realizar analisis
de regresion y correlacion. Tiene
la ventaja de tener predetermina-
dos una gran cantidad de modelos,
aparte de los que el usuario quiera
definir. Es un Shareware que se
encuentra disponible en internet.

Estadistica 1

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Estadistica 1

Similar a Estadistica 1 (20)

Último

Último (20)

Estadistica 1