SlideShare una empresa de Scribd logo
1 de 38
Descargar para leer sin conexión
Conceptos estadísticos
Proyecto Integrado                         Tema 1




Población
           Se denomina población al conjunto de todos los elementos que
           cumplen una determinada característica, que deseamos medir o

Ejemplo: Los alumnos de un curso.




Muestra
            Se denomina muestra a cualquier subconjunto de la población.

Ejemplo: 10 alumnos escogidos al azar.




Individuo (objeto)
               En estadística, se considera individuo a cada uno de los
               elementos de la población.

Ejemplo: Un alumno


Carácter estadístico
           Conjunto de propiedades (aspectos) que pueden estudiarse en los
                             individuos de una población.




   ·   Un carácter permite clasificar a los individuos de la población.
    • Un carácter puede ser cuantitativo si se puede medir.
      Ejemplo: Discreto: Número de hermanos. Continuo: Velocidad de un vehículo
    • Un carácter es cualitativo si no se puede medir (se compara).
      Ejemplo: Color de los ojos
Se define modalidad como las diferentes posibilidades de un carácter.




                                              1
Proyecto Integrado                          Tema 1


Variable estadística.

       El conjunto de valores que toma un carácter estadístico.
       Dependiendo del carácter, una variable estadística puede ser cuantitativa o cualitativa.



   • Variable discreta: Una variable estadística se llama discreta cuando sólo puede
     tomar determinados valores (con más precisión, cuando puede tomar un
     número finito o infinito numerable de valores).
   • Variable continua: La variable se llama continua cuando puede tomar todos los
     valores de un intervalo (valores tan próximos como se quiera).
     Ejemplos: (Véanse caracteres estadísticos)




                                               2
Organización de los datos: tablas de
Proyecto Integrado                           Tema 1




frecuencias

Una distribución de frecuencias es una tabla en la que se organizan los datos en clases,
es decir, en grupos de valores que describen una característica de los datos y muestra
el número de observaciones del conjunto de datos que caen en cada una de las clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio,
en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto
de datos junto con el número de veces que aparece, es decir, su frecuencia absoluta. Se
puede complementar la frecuencia absoluta con la denominada frecuencia relativa,
que indica la frecuencia en porcentaje sobre el total de datos


Tipos de frecuencia:
Frecuencia absoluta

    La frecuencia absoluta (f i ) es el número de veces que aparece un determinado valor en
                                    un estudio estadístico


La suma de las frecuencias absolutas es igual al número total de datos, que
se representa por N.



Frecuencia absoluta acumulada


.     La frecuencia acumulada F i es la suma de las frecuencias absolutas en
                             sentido descendente




                                                3
Proyecto Integrado                       Tema 1


Frecuencia relativa

    La frecuencia relativa n i es el cociente entre la frecuencia absoluta de un
                     determinado valor y el número total de datos.




La suma de las frecuencias relativas es igual a 1.

Facilitan el análisis de los datos, en especial para comparar distribuciones
de frecuencias basadas en diferentes números de observaciones

Frecuencia relativa acumulada

.      La frecuencia relativa acumulada es el cociente entre la frecuencia absoluta
    acumulada de un determinado valor y el número total de datos. Se puede expresar
                                 Diagrama depor ciento
                                   en tantos Barras

Las representaciones gráficas deben conseguir que un simple análisis visual ofrezca la
mayor información posible. Según el tipo del carácter que estemos estudiando,
usaremos una representación gráfica u otra.




Diagrama de barras
El diagrama de barras es un gráfico sobre ejes cartesianos en el que distribuimos en el
eje X o eje de abscisa:
             ·Las modalidades si el carácter es cualitativo
             ·Los valores si la variable es no agrupada
Sobre ellos se levantan barras o rectángulos de igual base (que no se solapen) cuya
altura sea proporcional a sus frecuencias. También se suelen utilizar para series
cronológicas y pueden, asimismo, representarse horizontalmente, intercambiando los
ejes.




                                            4
Histogramas
Proyecto Integrado                        Tema 1




La representación gráfica contribuye a un mejor análisis de los datos. Facilita la
comprensión del fenómeno considerado. Pierde detalle pero se obtiene otro tipo de
información.
Gráficos utilizados: histograma, polígono de frecuencia y ojiva son útiles, ya que
resaltan los patrones de los datos y atraen la atención.

 Un histograma es una representación gráfica de una variable en forma de barras,
 donde la superficie de cada barra es proporcional a la frecuencia de los valores


En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las
variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo
en el que están agrupados los datos.
Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de
la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores
continuos.


Regla de Nordclife:
Cuando la variable estadística toma muchos valores o es continua conviene agruparla
en intervalos, utilizando grandes dosis de sentido común o bien, en algunos casos es
útil utilizar el criterio de NORDCLIFE, que establece que el número de datos debe
coincidir con la raíz cuadrada del número de datos.
Ejemplo:
Las edades de las personas que acuden al logopeda, a lo largo de un año son:
3,2,11,13,4,3,2,4,5,6,7,3,4,5,3,2,5,6,27,15,4,21,12,4,3,6,29,13,6,17,6,13,6,5,12,26.
Hay 36 datos, entonces la raíz de 36, es 6 y ese será el número de intervalos que vamos
a tomar.
El Rango estadístico es 27, ya que se obtiene de restarle al mayor dato (29, en este
caso) el menor (2).
Sin embargo, por conveniencia, para que sea más fácil operar, lo agrandamos a 30 para
que sea múltiplo de 6.




                                             5
Proyecto Integrado                        Tema 1


Ejemplo de histograma:
Los datos son el número de espectadores en 32 partidos del equipo nacional (en miles).
42,1 51,0 30,0 35,2 29,3 10,9 16,1 51,6
47,0 51,4 35,2 31,7 17,8 67,0 43,2 23,7
25,2 36,1 32,3 51,7 46,0 12,2 21,1 29,0
14,3 47,2 31,3 35,4 29,1 23,0 10,3 34,2
En primer lugar, dividimos los datos en intervalos de igual anchura.
El valor mínimo de la muestra es 10,3 y el valor máximo es 67,0. Ponemos intervalos de
anchura 10 y construimos una tabla de frecuencias.
Clases (intervalos de variable estadística)




Construimos el histograma:
                                                  Con diferencia a los datos discretas, las
                                                  barras están conectadas.
                                                  Además, observamos que igual que para los
                                                  datos discretas, es posible construir el
                                                  histograma con frecuencias absolutas o
                                                  relativas o con frecuencias (absolutas o
                                                  relativas) acumuladas.




                                              6
Proyecto Integrado                         Tema 1


Tipos de histogramas


•       Diagramas de barras simples
Representa la frecuencia simple (absoluta o relativa)
mediante la altura de la barra la cual es proporcional a
la frecuencia simple de la categoría que representa.




•       Diagramas de barras compuesta
Se usa para representar la información de una tabla
de doble entrada sea a partir de dos variables, las
cuales se representan así; la altura de la barra
representa la frecuencia simple de las modalidades o
categorías de la variable y esta altura es
proporcional a la frecuencia simple de cada
modalidad.




•       Diagramas de barras agrupadas
Se usa para representar la información de una tabla de
doble entrada o sea a partir de dos variables, el cual es
representado mediante un conjunto de barras como se
clasifican respecto a las diferentes modalidades.




                                              7
Proyecto Integrado                        Tema 1




•      Polígono de frecuencias
Es un gráfico de líneas que se las frecuencias absolutas de los
valores de una distribución en el cual la altura del punto
asociado a un valor de las variables es proporcional a la
frecuencia de dicho valor.




•       Ojiva porcentual
Es un gráfico acumulativo, el cual es muy útil cuando se
quiere representar el rango porcentual de cada valor en una
distribución de frecuencias.




                                             8
Función de distribución
Proyecto Integrado                       Tema 1




La función de distribución describe el comportamiento probabilístico de una variable
aleatoria X asociada a un experimento aleatorio y se representa como:
F(x) ó Fx
Para estudiar la función de distribución distinguiremos entre el caso discreto y el caso
continuo.

Variable discreta
Se denomina distribución de variable discreta a aquella cuya función de probabilidad
sólo toma valores positivos en un conjunto de valores de X finito o infinito numerable.
A dicha función se le llama función de masa de probabilidad. En este caso la
distribución de probabilidad es la suma de la función de masa, por lo que tenemos
entonces que:




Y, tal como corresponde a la definición de distribución de probabilidad, esta expresión
representa la suma de todas las probabilidades desde        hasta el valor x.


Ejemplo 1:
Si una persona compra una papeleta en una rifa, en la que puede ganar de 5.000 € ó un
segundo premio de 2000 € con probabilidades de: 0.001 y 0.003. ¿Cuál sería el precio
justo a pagar por la papeleta?


μ = 5000 · 0.001 + 2000 · 0.003 = 11 €


Ejemplo 2:
Sea X una variable aleatoria discreta cuya función de probabilidad es:          pi
                                                                            x
                                                                            0   0,1
                                                                            1   0,2
                                                                            2   0,1
                                                                            3   0,4
                                                                            4   0,1
                                                                            5   0,1




                                            9
Proyecto Integrado                           Tema 1




1. Calcular, representar gráficamente la función de distribución.




2. Calcular las siguientes probabilidades:
p (X < 4.5)
p (X < 4.5) = F (4.5) = 0.9
p (X ≥ 3)
p (X ≥ 3) = 1 - p(X < 3) = 1 - 0.4 = 0.6
p (3 ≤ X < 4.5)
p (3 ≤ X < 4.5) = p (X < 4.5) - p(X < 3) = 0.9 - 0.4 = 0.5


Ejemplo 3:
Un jugador lanza dos monedas. Gana 1 ó 2 € si aparecen una o dos caras. Por otra
parte pierde 5 € si no aparece cara. Determinar la esperanza matemática del juego y si
éste es favorable.
E = {(c,c);(c,x);(x,c);(x,x)}
p(+1) = 2/4
p(+2) = 1/4
p(−5) = 1/4
μ = 1 · 2/4 + 2 · 1/4 - 5 · 1/4 = −1/4. Es desfavorable




                                                10
Proyecto Integrado                         Tema 1


Variable continua
Si tenemos una variable continua X, podemos definir la función acumulada de
distribución de la misma manera que para una variable discreta.
F(x) = P(X ≤ x).
Ahora esta función sería una función suave y no una función escalón, pero tendrá las
mismas propiedades que la función de distribución para una variable discreta.
F(−∞) = 0, F(∞) = 1, F(x + #) ≥ F(x) para cualquier # > 0.


Ejemplo:
¿Cuáles de las siguientes funciones pueden ser funciones de distribución para una
variable continua X?


                                                    Las funciones 1 y 3 pueden ser
                                                    funciones de distribución. La función 2
                                                    es negativa en el rango −1 < x < 0.




Los siguientes dibujos muestran las funciones de
distribución en casos 1 y 3:




                                             11
Reducción numérica de los datos
Proyecto Integrado                      Tema 1




Se busca reducir los datos de nuestra investigación con el fin de expresarlos y
describirlos de alguna manera (conceptual, numérica o gráficamente), de tal manera
que respondan a una estructura sistemática, inteligible para otras personas, y por lo
tanto significativa. La reducción de datos es una clase de operación que se realiza a lo
largo de todo el proceso de investigación y pude hacerse de distintas formas
(conceptual, numérica o gráficamente, como se indicó), pero que en la investigación
cualitativa se refiere más que nada a la categorización y dosificación de los datos.


Cuando estudiamos una determinada población según el carácter C y tenemos
recogidos los datos correspondientes a las distintas modalidades del carácter, la
primeraforma de reducir dichos datos es mediante las tablas estadísticas y las
representaciones gráficas.
Aunque‚ a estas nos permiten obtener, de una manera rápida, una idea aproximada del
comportamiento de la distribución, conviene estudiar las distribuciones de una forma
más rigurosa.
Es por esto por lo que vamos a estudiar la manera de resumir y sintetizar el gran
número de datos de una distribución en unos pocos números que nos proporcionen
una idea, lo más aproximadamente posible, de toda la distribución. El estudio de estos
números se referirá a su significado, su cálculo e interpretación.
Estos números de los que hablamos reciben el nombre de parámetros estadísticos.

Hay muchos parámetros estadísticos. Suelen clasificarse según el papel que juegan, en
varios tipos:
- Medidas de posición, señalan la situación de algunos valores importantes en la
distribución: cuartiles, deciles, centiles. Podemos destacar las Medidas de
centralización o de tendencia central: ya que "tienden" a situarse hacia el centro del
conjunto de datos. También se les llama promedios: moda, media, mediana.

- Medidas de dispersión, que nos indican si los datos numéricos están agrupados o no
alrededor de los valores centrales (grado de alejamiento de los datos.): desviación
media, varianza, desviación típica...

- Medidas de asimetría, para señalar si la distribución está sesgada hacia uno u otro
lado.

- Medidas de apuntamiento o curtosis, que indican si la distribución es mas o menos
puntiaguda.

Evidentemente, todo proceso de síntesis conlleva una pérdida de información. Pero
esta pérdida se compensa con el hecho de trabajar con pocos parámetros con un
significado muy preciso.




                                           12
Medidas descriptivas
Proyecto Integrado                       Tema 1




Son valores numéricos calculados a partir de la muestra y que nos resumen la información
contenida en ella.




Las medidas descriptivas surgen con la necesidad de disponer medidas que resuman o
condensen los datos y por tanto el objetivo que se persigue es la sintetización de la
información que nos aportan los datos con la menor pérdida posible.

Los parámetros se recogen en tres grupos principales dependiendo de su función:
medidas de posición, medidas de centralización y medidas de dispersión. Aunque
existen algunas menos usuales como medidas de forma o medidas robustas.
Muchas de ellas no tienen sentido para las variables cualitativas.




                                           13
Proyecto Integrado                      Tema 1




Medidas de centralización

Media aritmética (         ):

 Es el valor obtenido al sumar todos los datos y dividir el resultado entre el número
total de datos. Informa sobre la tendencia general sobre la variable X en una muestra
                          de n sujetos. Es la más importante.

La letra µ se usa para la media aritmética de una población, es decir, el valor esperado
de una variable

Cálculo para datos ordenados de forma creciente:




Cálculo para datos agrupados:


Ejemplo:




La media aritmética de un conjunto de números positivos siempre es igual o superior a
la media geométrica




                                           14
Proyecto Integrado                       Tema 1


Propiedades :
   • La suma de las desviaciones de todas las puntuaciones de una distribución
      respecto a la media de la misma igual a cero.

                                 Por ejemplo: X ~ 8, 3, 5, 12, 10
                       8 − 7.6 + 3 − 7.6 + 5 − 7.6 + 12 − 7.6 + 10 − 7.6 = 0
   • La suma de los cuadrados de las desviaciones de los valores de la variable con
     respecto a un número cualquiera se hace mínima cuando dicho número
     coincide con la media aritmética.
   • Si a todos los valores de la variable se les suma un mismo número, la media
     aritmética queda aumentada en dicho número.
   • Si todos los valores de la variable se multiplican por un mismo número la media
     aritmética queda multiplicada por dicho número.

Observaciones:

   • La media se puede hallar sólo para variables cuantitativas.
   • La media es independiente de las amplitudes de los intervalos.
   • La media es muy sensible a los valores extremos. Si tenemos una distribución
     con los siguientes pesos:

                     65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg.
       La media es igual a 74 kg, que es una medida de centralización poco
       representativa de la distribución.
       La aparición de una observación extrema hará que la media se desplace en esa
       dirección.

   • La media no se puede calcular si hay un intervalo con una amplitud
     indeterminada.
   • Es muy sensible a los valores extremos de la variable: todas las observaciones
     intervienen en el cálculo de la media, así, la aparición de una observación
     extrema hará que la media se desplace en esa dirección.
   • No es recomendable usar la media como medida central en las distribuciones
     muy asimétricas.




                                            15
Proyecto Integrado                       Tema 1


Mediana(Me):

                      el lugar central de todos los datos cuando éstos están ordenados
Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados
de menor a mayor.                  de menor a mayor.

Cálculo para datos ordenados de forma creciente:

Si n es impar, la mediana es el valor que ocupa la posición (n + 1) / 2.
Si n es par, la mediana es la media aritmética de las dos observaciones centrales, que
ocuparan las posiciones n/2 y n/2+1.
Es decir:       Me = (xn / 2 + (xn / 2 + 1)) / 2

Por ejemplo: X ~ 2, 3, 4, 4, 4, 5, 5, 6, 6,7
n es par y se hace la media de las posiciones: n/2 ≡ 4 y n/ 2+1 ≡ 5->      Me= 4,5

Cálculo para datos agrupados
Li es el límite inferior de la clase donde se encuentra la
mediana.
   es la semisuma de las frecuencias absolutas.
Fi-1es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
La mediana es independiente de las amplitudes de los intervalos.

Por ejemplo:




Propiedades:
   • Como medida descriptiva, tiene la ventaja de no estar afectada por las
      observaciones extremas, ya que no depende de los valores que toma la

      distribuciones asimétricas (X ∼ 2, 5, 7, 9, 12 y X ∼ 2, 5, 7, 9, 125 en este caso la
      variable, sino del orden de las mismas. Por ello es adecuado su uso en

      media cambia, pero no la mediana).
   • Es de cálculo rápido y de interpretación sencilla, pero no tiene sentido su
      cálculo en variables de tipo cualitativo o nominal, al igual que la media.
   • A diferencia de la media, la mediana de una variable es siempre un valor de la
      variable que se estudia (ej. La mediana de una variable número de hijos toma
      siempre                               valores                              enteros).


                                            16
Proyecto Integrado                           Tema 1



Moda (Mo):
             La moda es el valor que tiene mayor frecuencia absoluta.

           Se puede hallar la moda para variables cualitativas y cuantitativas.

Cálculo para datos ordenados de forma creciente:

Mo es el valor xi que se repita más veces.

Ejemplo:       1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9        Mo= 1, 5, 9

Puede ser más de un xi, pero si todas las puntuaciones tienen la misma frecuencia no
hay moda.

Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda se puede hacer
como el promedio de las dos puntuaciones adyacentes.
                     Ejemplo:       0, 1, 3, 3, 5, 5, 7, 8 Mo = 4

Cálculo para datos agrupados

Todos los intervalos tienen la misma amplitud

Li es el límite inferior de la clase modal.
fi es la frecuencia absoluta de la clase modal.
fi--1 es la frecuencia absoluta inmediatamente inferior a la clase modal.
fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.
ai es la amplitud de la clase.

También se utiliza otra fórmula de la moda que da un valor
aproximado de ésta.
Ejemplo:




                                                17
Proyecto Integrado                        Tema 1


Los intervalos tienen amplitudes distintas
Primero hallamos la altura (hi)
La clase modal es la que tiene mayor altura
Ejemplo:




Media geométrica:
Dada una población o muestra con n elementos distintos, se llama media geométrica
de esos elementos a la raíz n-ésima de su producto:




Por ejemplo:




Media armónica (H):

La media armónica, de una cantidad finita de números es igual al recíproco, o
inverso, de la media aritmética de los recíprocos de dichos valores.

Así, dados n números x1, x2, ... , xn la media armónica será igual a:




La media armónica resulta poco influida por la existencia de determinados valores
mucho más grandes que el conjunto de los otros, siendo en cambio sensible a valores
mucho más pequeños que el conjunto.

La media armónica no está definida en el caso de que exista algún valor nulo.


                                              18
Proyecto Integrado                       Tema 1




Medidas de posición:
Las medidas de posición (no central) dividen un conjunto de datos en grupos con el
mismo número de individuos. Entre ellas destacan los cuartiles, deciles y percentiles.

Cuartiles

     Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en
                          cuatro partes porcentualmente iguales.


Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es
precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual
queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil,
es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los
datos

Cálculo para datos ordenados de menor a mayor:

Buscamos el lugar que ocupa cada cuartil mediante la expresión:

Si N es par, se coge, además, el valor adyacente siguiente y se calcula la media
aritmética de ambos.
Ejemplo:




                                           19
Proyecto Integrado                      Tema 1


Cálculo para datos agrupados
En primer lugar buscamos la clase donde se encuentra, en la tabla de las frecuencias
acumuladas.




Por ejemplo:




Deciles
Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez
partes porcentualmente iguales. Son también un caso particular de los percentiles.

    Son los nueve valores que dividen al conjunto de datos ordenados en diez partes
                                        iguales


Los deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc. D5
coincide con la mediana.

Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el
aprovechamiento académico.




                                          20
Proyecto Integrado                         Tema 1


Cálculo:

En primer lugar buscamos dónde se encuentra la clase                                      ,
en la tabla de las frecuencias acumuladas.

Si no disponemos de los datos ordenados, se hallan de la siguiente forma:




                        Li es el límite inferior de la clase donde se encuentra la mediana.
                                                  N es la suma de las frecuencias absolutas.
                               Fi-1 es la frecuencia acumulada anterior a la clase mediana.
                                                                ai es la amplitud de la clase.
Por ejemplo:

Cáculo de D4 de la distribución de la tabla:




                                               21
Proyecto Integrado                         Tema 1



Percentiles
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o
clasificación de las personas cuando atienden características tales como peso,
estatura, etc.

    Los percentiles son valores que dividen la sucesión de datos ordenados en cien
                           partes porcentualmente iguales.


Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos
ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99.

En primer lugar buscamos dónde se encuentra la clase                                       ,
en la tabla de las frecuencias acumuladas.

Si no disponemos de los datos ordenados, se hallan de la siguiente forma:




                        Li es el límite inferior de la clase donde se encuentra la mediana.
                                                  N es la suma de las frecuencias absolutas.
                               Fi-1 es la frecuencia acumulada anterior a la clase mediana.
                                                                ai es la amplitud de la clase.
Por ejemplo:

Calcular P60 de la distribución de la tabla:




                                               22
Medidas de dispersión
Proyecto Integrado                        Tema 1




Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un
valor representativo, las medidas de dispersión nos dicen hasta que punto estas
medidas de tendencia central son representativas como síntesis de la información.

Representan la separación, la dispersión, la variabilidad de los valores de la
distribución respecto al valor central. Distinguimos entre medidas de dispersión
absolutas, que no son comparables entre diferentes muestras y las relativas que nos
permitirán comparar varias muestras.


Dispersión absoluta
Rango

  Diferencia entre el valor mínimo y el valor máximo en un grupo de números aleatorios.
                                 Se suele simbolizar con R.

   • Ordenamos los números según su tamaño.
   • Restamos el valor mínimo del valor máximo
Ejemplo: Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valor
unitario inmediatamente posterior al dato mayor menos el dato menor). Sus valores se
encuentran en un rango de:
       Rango = 5




                                            23
Proyecto Integrado                       Tema 1



Desviación media absoluta


Las medidas de dispersión como el rango o el rango intercuartílico son poco
significativas y sólo se apoyan en dos datos, sería conveniente tener una medida de la
dispersión de los datos respecto a la media (valor en el que se resumen todos los
datos) y en la que tomásemos información de todas la observaciones.

Una medida para conocer la dispersión de los datos sería ver que errores se comenten
al dar la media en lugar del auténtico valor, en el valor i-ésimo cometeríamos un error .

 Si sumamos todas las desviaciones. Se compensan las desviaciones positivas y
negativas, por lo no podemos conocer la desviación. Para corregir ese problema
podemos considerar todos los errores que calculemos como positivos, para ello basta
con tomar el valor absoluto, si además consideramos la media de esos errores
obtenemos la desviación media.

La desviación respecto a la media es la diferencia en valor absoluto entre cada valor de
                     la variable estadística y la media aritmética.

                                      Di = |x - x|

      La desviación media (Dx) es la media aritmética de los valores absolutos de las
                            desviaciones respecto a la media.




Por ejemplo:

Calcular la desviación media de la distribución:     9, 3, 8, 8, 9, 8, 9, 18




                                           24
Proyecto Integrado                           Tema 1


Si los datos están agrupados:

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media
es:




Por ejemplo:

Calcular la desviación media de la distribución:




Propiedades

    •   Nos da la media de la dispersión de los datos.
    •   Intervienen para su cálculo todos los datos.
    •   Cada vez que insertemos un dato nuevo se modificará.
    •   Al intervenir un valor absoluto los cálculos son complicados.
    •   A mayor concentración de los datos entorno a la media menor será su valor.
    •   DM es no negativa
    •   DM=0 si y sólo si todos los valores son coincidentes.




                                                   25
Proyecto Integrado                        Tema 1



Varianza (σ2)
La desviación media es una medida de dispersión de datos correcta pero presenta un
inconveniente y es la complejidad de manipulación al intervenir valores absolutos. Sería
conveniente encontrar otra medida que no presente el problema inicial (que no se compensen
las dispersiones negativas con las positivas) y cuyo manejo sea más sencillo. Otra forma de
evitar la compensación de dispersiones es elevar al cuadrado la diferencia y es más sencillo
trabajar con cuadrados que con valores absolutos, teniendo en cuenta esta consideración
introduciremos el concepto de varianza.

  La varianza (σ2)es la media aritmética del cuadrado de las desviaciones respecto a
                        la media de una distribución estadística.

Observaciones:

    • La varianza, al igual que la media, es un índice muy sensible a las puntuaciones
      extremas.
    • En los casos que no se pueda hallar la media tampoco será posible hallar la
      varianza.
    • La varianza no viene expresada en las mismas unidades que los datos, ya que
      las desviaciones están elevadas al cuadrado.

Cálculo:




Podemos simplificar los cálculos así:



Cálculo para datos agrupados:




Podemos simplificarlo así:




                                             26
Proyecto Integrado                             Tema 1



Ejemplos:

Calcular la varianza de la distribución: 9, 3, 8, 8, 9, 8, 9, 18

Primero se calcula la media aritmética.




Se utiliza:



Sustituimos:




Calcular la varianza de la distribución de la tabla:




Propiedades:

    • Siempre es positiva
    • Si a todos los valores de la variable se les suma un número la varianza no varía.
    • Si todos los valores de la variable se multiplican por un número la varianza
      queda multiplicada por el cuadrado de dicho número.
    • Si tenemos varias distribuciones con la misma media y conocemos sus
      respectivas varianzas se puede calcular la varianza total.
      Si todas las muestras tienen el mismo tamaño:


         Si las muestras tienen distinto tamaño:




                                                  27
Proyecto Integrado                            Tema 1



Desviación típica (σ)

Con la varianza se elevan al cuadrado las unidades de medida, sería interesante tener
una medida de dispersión con las mismas unidades de la media y los datos, esto lo
podemos conseguir haciendo la raíz cuadrada positiva de la varianza, a la que
llamaremos desviación típica.


                 La desviación típica (σ) es la raíz cuadrada de la varianza.


Observaciones:

    •   La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las
        puntuaciones extremas.
    •   En los casos que no se pueda hallar la media tampoco será posible hallar la desviación
        típica.
    •   Cuanta más pequeña sea la desviación típica mayor será la concentración de datos
        alrededor de la media.

Cálculo:




Cálculo para datos agrupados:




Ejemplos:

Calcular la desviación típica de la distribución:        9, 3, 8, 8, 9, 8, 9, 18




                                                28
Proyecto Integrado                            Tema 1


Calcular la desviación típica de la distribución de la tabla:




Propiedades:

    • Es siempre positiva
    • Si a todos los valores de la variable se les suma un número la desviación típica
      no varía.
    • Si todos los valores de la variable se multiplican por un número la desviación
      típica queda multiplicada por dicho número.
    • Si tenemos varias distribuciones con la misma media y conocemos sus
      respectivas desviaciones típicas se puede calcular la desviación típica total.
          o Si todas las muestras tienen el mismo tamaño:




            o Si las muestras tienen distinto tamaño:




                                                29
Proyecto Integrado                          Tema 1




Dispersión relativa

Cuando las medias de dos distribuciones son iguales, es fácil comparar cuál de ellas es
más dispersa, pero cuando las medias son distintas, no siempre podemos comparar su
dispersión; en particular si las distribuciones corresponden a variables con distintos
sistemas de medida.

En estos casos, hemos de utilizar otras medidas que prescindan de las unidades de
medida, lo que nos permitirá comparar variables de diferente tipo. Estas son las
medidas de dispersión relativas.

Coeficiente de variación Pearson

     Es una medida de dispersión relativa. Se utiliza cuando se pretenden comparar la
                              dispersión de dos variables:




Propiedades:
1. Cuanto menor sea el coeficiente de variación, menor será la dispersión de la muestra y, por
tanto, más representativa será su media y más homogéneos los valores de la distribución.
2. No se puede calcular si la media es cero.
3. Si la media es muy próxima a cero, el coeficiente de variación puede resultar erróneo, por lo
que no es recomendable su uso.
4. No tiene dimensiones, por lo que permite comparar distribuciones con distintas unidades.
5. Utiliza toda la información de la distribución.
6. Se anula cuando la desviación típica es cero. En este caso no hay dispersión, y todos los
valores son iguales.




                                               30
Diagrama Box-Whisker
Proyecto Integrado                           Tema 1




Estos diagramas, también llamados de “Caja con bigotes”, son una presentación visual
que describe varias características importantes, al mismo tiempo, tales como la
dispersión y simetría.

Para su realización se representan los tres cuartiles y los valores mínimo y máximo de
los datos, sobre un rectángulo, alineado horizontal o verticalmente.


Construcción

Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos
muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento
vertical que indica donde se posiciona la mediana y por lo tanto su relación con los
cuartiles primero y tercero(recordemos que el segundo cuartil coincide con la
mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores
mínimo y máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes.
Estos bigotes tienen tienen un límite de prolongación, de modo que cualquier dato o
caso que no se encuentre dentro de este rango es marcado e identificado
individualmente

Ejemplo de distribuciones de edades

Utilizamos la edad de un colectivo de 20 personas.

                        36 25 37 24 39 20 36 45 31 31


                        39 24 29 23 41 40 33 24 34 40


Ordenar los datos

Para calcular los parámetros estadístico, lo primero es ordenar la distribución

        20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45




                                               31
Proyecto Integrado                            Tema 1




Cálculo de cuartiles

Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N =
20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:

Q1=(24 + 25) / 2 = 24,5

Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la
variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la
mediana es la media aritmética de dicho valor y el siguiente:

me= Q2 = (33 + 34)/ 2 =33,5

Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En
nuestro caso, como 3N / 4 = 15, resulta

Q2=(39 + 39) / 2 = 39

Dibujar la caja y los bigotes




El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1)
La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).




                                                32
Cómo realizar una encuesta
Proyecto Integrado                           Tema 1




Cuando se decide utilizar la encuesta como medio de recogida de información se llevaran a
cabo ordenadamente las siguientes fases:

1) Determinación de los objetivos

Lo primero es definir los objetivos de la encuesta, la información concreta requerida y la
población que la puede facilitar. En esta etapa es fundamental la utilización de información
secundaria existente acerca del tema a estudiar y de la población a analizar.

2) Determinación del tipo de encuesta

Se deberá identificar cual es el tipo de encuesta más idóneo para llevar a cabo la investigación.

La encuesta podrá ser personal, telefónica o postal aunque las nuevas tecnologías ofrecen
nuevos métodos para le realización de encuestas como el correo electrónico o a través de una
página Web. La elección de un tipo de encuesta u otro vendrá determinada por el tema de la
investigación, la población a estudiar y el presupuesto disponible.

3) Diseño del cuestionario

El diseño del cuestionario es fundamental y requiere un especial cuidado y atención. El
cuestionario es el instrumento para la obtención de la información y por tanto su diseño es
esencial para alcanzar los objetivos deseados.

4) Codificación del cuestionario

Una vez diseñado y testado el cuestionario debemos codificarlo antes de realizar el trabajo de
campo, con el fin de evitar posibles errores de diseño. La codificación del cuestionario facilita
la tabulación de los datos resultantes y su análisis posterior a través de un programa
informático.

5) Muestreo

Se aplica un muestreo estadístico para seleccionar una muestra representativa de la población.

6) Trabajo de campo

Llegado este punto estamos en condiciones de comenzar a entrevistar a los integrantes de la
muestra seleccionada. El trabajo de campo deberá ser supervisado por el investigador para
evitar distorsiones.

7) Tabulación de datos.

Una vez finalizado el trabajo de campo y con los cuestionarios cumplimentados, se tabulan
estadísticamente los datos obtenidos.

8 )Análisis de resultados y elaboración del informe.




                                                33
Proyecto Integrado                          Tema 1
Por último, se analizan los datos tabulados y en base a los resultados y conclusiones se redacta
el             informe              final            de              la            investigación




                                               34
Proyecto Integrado                       Tema 1




Ejercicios finales
1. Dos compañías aseguradoras tienen formas diferentes de pagar a sus empleados.
   La compañía A lo hace mediante un sueldo fijo mensual y la compañía B a través de
   un porcentaje sobre los seguros realizados. La distribución de los salarios por
   categorías es:




a) Por término medio, ¿gana más un empleado de la compañía A o de la B?
b) Calcular y comentar la representatividad de los sueldos medios.
c) ¿Cuál es el sueldo más frecuente en la compañía A?
d) Aunque en la compañía B el sueldo se gana por méritos, ¿crees que el reparto de
salarios por categorías es equitativo?
e) Si en la compañía B el salario fuese el anterior más un fijo de 10000 pesetas, ¿cuál
sería el salario medio y la desviación típica?


Solución:

a) Sean:
X = «sueldo (en miles de pesetas) de los empleados de la compañía A».
Y = «sueldo (en miles de pesetas) de los empleados de la compañía B»

Y=107.842105
X=84.5

b) VX = 0.27273876, VY = 0.31479111, los sueldos están menos dispersos en la empresa
A.

c) Mo = 80000 pesetas.

d) IG(Y) = ‘.200456171

e) Z = Y + 10
Z = Y + 10 = 107.842105 + 10 = 117.842105

                                            35
Proyecto Integrado   Tema 1

SZ =SY




                       36
Proyecto Integrado                     Tema 1



2. Se comparan dos tipos de rosca de tornillo para ver su resistencia ala tensión. Se
prueban 50 piezas de cada tipo de cuerda bajo condiciones similares, la marca A tuvo
una resistencia promedio a la tensión de 78.3 Kg, mientras que la marca B tuvo una
resistencia promedio de 87.2 Kg. Se sabe de antemano que las desviaciones
poblacionales son de 6.5 Kg para la marca A y 6.3 Kg para la B.
Determine el intervalo de confianza del 95% para la diferencia de las dos medias
poblacionales.




Solución:




                                         37

Más contenido relacionado

La actualidad más candente

CONCEPTOS BÁSICOS DE GEOMETRIA DESCRIPTIVA
CONCEPTOS BÁSICOS DE GEOMETRIA DESCRIPTIVACONCEPTOS BÁSICOS DE GEOMETRIA DESCRIPTIVA
CONCEPTOS BÁSICOS DE GEOMETRIA DESCRIPTIVA
diegoalvarezatonaidan
 
Analisis y procesamiento de datos
Analisis y procesamiento de datosAnalisis y procesamiento de datos
Analisis y procesamiento de datos
Niko Humpire
 
Presentacion Matrices
Presentacion MatricesPresentacion Matrices
Presentacion Matrices
jmorenotito
 
Capitulo 1 metodologia de la investigacion-el objeto de estudio
Capitulo 1  metodologia de la investigacion-el objeto de estudioCapitulo 1  metodologia de la investigacion-el objeto de estudio
Capitulo 1 metodologia de la investigacion-el objeto de estudio
Angel Bautista
 
Distribución de frecuencias y representaciones graficas
Distribución de frecuencias y representaciones graficasDistribución de frecuencias y representaciones graficas
Distribución de frecuencias y representaciones graficas
innovalabcun
 
Matrices y conclusiones
Matrices y conclusionesMatrices y conclusiones
Matrices y conclusiones
Selvin Loayes
 

La actualidad más candente (20)

Descriptiva planos
Descriptiva planosDescriptiva planos
Descriptiva planos
 
CONCEPTOS BÁSICOS DE GEOMETRIA DESCRIPTIVA
CONCEPTOS BÁSICOS DE GEOMETRIA DESCRIPTIVACONCEPTOS BÁSICOS DE GEOMETRIA DESCRIPTIVA
CONCEPTOS BÁSICOS DE GEOMETRIA DESCRIPTIVA
 
Métodos estadísticos y tabulación
Métodos estadísticos y tabulaciónMétodos estadísticos y tabulación
Métodos estadísticos y tabulación
 
Analisis y procesamiento de datos
Analisis y procesamiento de datosAnalisis y procesamiento de datos
Analisis y procesamiento de datos
 
Cuadro con conceptos
Cuadro con conceptosCuadro con conceptos
Cuadro con conceptos
 
Tipos y Enfoques de Investigacion
Tipos y Enfoques de InvestigacionTipos y Enfoques de Investigacion
Tipos y Enfoques de Investigacion
 
Power Point de Estadística
Power Point de EstadísticaPower Point de Estadística
Power Point de Estadística
 
Estadística descriptiva e inferencial
Estadística descriptiva e inferencialEstadística descriptiva e inferencial
Estadística descriptiva e inferencial
 
Perspectiva conica
Perspectiva conicaPerspectiva conica
Perspectiva conica
 
Presentacion Matrices
Presentacion MatricesPresentacion Matrices
Presentacion Matrices
 
Capitulo 1 metodologia de la investigacion-el objeto de estudio
Capitulo 1  metodologia de la investigacion-el objeto de estudioCapitulo 1  metodologia de la investigacion-el objeto de estudio
Capitulo 1 metodologia de la investigacion-el objeto de estudio
 
Ventajas y desventajas de medidas de tendencia central
Ventajas y desventajas de medidas de tendencia centralVentajas y desventajas de medidas de tendencia central
Ventajas y desventajas de medidas de tendencia central
 
Tabulacion De Datos
Tabulacion De DatosTabulacion De Datos
Tabulacion De Datos
 
Distribución de frecuencias y representaciones graficas
Distribución de frecuencias y representaciones graficasDistribución de frecuencias y representaciones graficas
Distribución de frecuencias y representaciones graficas
 
Representación grafica en estadística
Representación grafica en estadísticaRepresentación grafica en estadística
Representación grafica en estadística
 
Exposicion de autocad
Exposicion de autocadExposicion de autocad
Exposicion de autocad
 
Matrices y conclusiones
Matrices y conclusionesMatrices y conclusiones
Matrices y conclusiones
 
Ideograma
IdeogramaIdeograma
Ideograma
 
Proyecciones ortogonales, vistas auxiliares y secciones.
Proyecciones ortogonales, vistas auxiliares y secciones.Proyecciones ortogonales, vistas auxiliares y secciones.
Proyecciones ortogonales, vistas auxiliares y secciones.
 
Bases conceptuales de la investigación
Bases conceptuales de la investigaciónBases conceptuales de la investigación
Bases conceptuales de la investigación
 

Similar a Variables Estadísticas Unidimensionales (20)

Apunte 2 tablas_de_frecuencia_y_graficos_108537_20191017_20190829_094711
Apunte 2 tablas_de_frecuencia_y_graficos_108537_20191017_20190829_094711Apunte 2 tablas_de_frecuencia_y_graficos_108537_20191017_20190829_094711
Apunte 2 tablas_de_frecuencia_y_graficos_108537_20191017_20190829_094711
 
Deber de matematica
Deber de matematicaDeber de matematica
Deber de matematica
 
Deber de matematica
Deber de matematicaDeber de matematica
Deber de matematica
 
Deber de matematica
Deber de matematicaDeber de matematica
Deber de matematica
 
Calidad
CalidadCalidad
Calidad
 
Lenguaje estadístico
Lenguaje estadísticoLenguaje estadístico
Lenguaje estadístico
 
Lenguaje estadístico
Lenguaje estadísticoLenguaje estadístico
Lenguaje estadístico
 
Graficas estadísticas
Graficas estadísticasGraficas estadísticas
Graficas estadísticas
 
Trabajo de matematicas
Trabajo de matematicasTrabajo de matematicas
Trabajo de matematicas
 
Matematica (1) tanga
Matematica (1) tangaMatematica (1) tanga
Matematica (1) tanga
 
Matematica (1) tanga
Matematica (1) tangaMatematica (1) tanga
Matematica (1) tanga
 
Matematica
MatematicaMatematica
Matematica
 
Matematica
Matematica Matematica
Matematica
 
Matematica (1) tanga
Matematica (1) tangaMatematica (1) tanga
Matematica (1) tanga
 
Matematica (1) tanga
Matematica (1) tangaMatematica (1) tanga
Matematica (1) tanga
 
Matematica
MatematicaMatematica
Matematica
 
Matematica
MatematicaMatematica
Matematica
 
Matematica
MatematicaMatematica
Matematica
 
Matematica
MatematicaMatematica
Matematica
 
Matematica (1) tanga
Matematica (1) tangaMatematica (1) tanga
Matematica (1) tanga
 

Último

Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Francisco158360
 
Criterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosCriterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficios
JonathanCovena1
 
Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdf
NancyLoaa
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
El Fortí
 

Último (20)

plande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfplande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdf
 
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcción
 
MAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grande
 
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
 
Criterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosCriterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficios
 
Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdf
 
actividades comprensión lectora para 3° grado
actividades comprensión lectora para 3° gradoactividades comprensión lectora para 3° grado
actividades comprensión lectora para 3° grado
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circular
 
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
 
origen y desarrollo del ensayo literario
origen y desarrollo del ensayo literarioorigen y desarrollo del ensayo literario
origen y desarrollo del ensayo literario
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.
 
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIAFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
 
Sesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronósticoSesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronóstico
 
ORGANIZACIÓN SOCIAL INCA EN EL TAHUANTINSUYO.pptx
ORGANIZACIÓN SOCIAL INCA EN EL TAHUANTINSUYO.pptxORGANIZACIÓN SOCIAL INCA EN EL TAHUANTINSUYO.pptx
ORGANIZACIÓN SOCIAL INCA EN EL TAHUANTINSUYO.pptx
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativa
 
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdfTema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
 

Variables Estadísticas Unidimensionales

  • 1.
  • 2. Conceptos estadísticos Proyecto Integrado Tema 1 Población Se denomina población al conjunto de todos los elementos que cumplen una determinada característica, que deseamos medir o Ejemplo: Los alumnos de un curso. Muestra Se denomina muestra a cualquier subconjunto de la población. Ejemplo: 10 alumnos escogidos al azar. Individuo (objeto) En estadística, se considera individuo a cada uno de los elementos de la población. Ejemplo: Un alumno Carácter estadístico Conjunto de propiedades (aspectos) que pueden estudiarse en los individuos de una población. · Un carácter permite clasificar a los individuos de la población. • Un carácter puede ser cuantitativo si se puede medir. Ejemplo: Discreto: Número de hermanos. Continuo: Velocidad de un vehículo • Un carácter es cualitativo si no se puede medir (se compara). Ejemplo: Color de los ojos Se define modalidad como las diferentes posibilidades de un carácter. 1
  • 3. Proyecto Integrado Tema 1 Variable estadística. El conjunto de valores que toma un carácter estadístico. Dependiendo del carácter, una variable estadística puede ser cuantitativa o cualitativa. • Variable discreta: Una variable estadística se llama discreta cuando sólo puede tomar determinados valores (con más precisión, cuando puede tomar un número finito o infinito numerable de valores). • Variable continua: La variable se llama continua cuando puede tomar todos los valores de un intervalo (valores tan próximos como se quiera). Ejemplos: (Véanse caracteres estadísticos) 2
  • 4. Organización de los datos: tablas de Proyecto Integrado Tema 1 frecuencias Una distribución de frecuencias es una tabla en la que se organizan los datos en clases, es decir, en grupos de valores que describen una característica de los datos y muestra el número de observaciones del conjunto de datos que caen en cada una de las clases. La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de veces que aparece, es decir, su frecuencia absoluta. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos Tipos de frecuencia: Frecuencia absoluta La frecuencia absoluta (f i ) es el número de veces que aparece un determinado valor en un estudio estadístico La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N. Frecuencia absoluta acumulada . La frecuencia acumulada F i es la suma de las frecuencias absolutas en sentido descendente 3
  • 5. Proyecto Integrado Tema 1 Frecuencia relativa La frecuencia relativa n i es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. La suma de las frecuencias relativas es igual a 1. Facilitan el análisis de los datos, en especial para comparar distribuciones de frecuencias basadas en diferentes números de observaciones Frecuencia relativa acumulada . La frecuencia relativa acumulada es el cociente entre la frecuencia absoluta acumulada de un determinado valor y el número total de datos. Se puede expresar Diagrama depor ciento en tantos Barras Las representaciones gráficas deben conseguir que un simple análisis visual ofrezca la mayor información posible. Según el tipo del carácter que estemos estudiando, usaremos una representación gráfica u otra. Diagrama de barras El diagrama de barras es un gráfico sobre ejes cartesianos en el que distribuimos en el eje X o eje de abscisa: ·Las modalidades si el carácter es cualitativo ·Los valores si la variable es no agrupada Sobre ellos se levantan barras o rectángulos de igual base (que no se solapen) cuya altura sea proporcional a sus frecuencias. También se suelen utilizar para series cronológicas y pueden, asimismo, representarse horizontalmente, intercambiando los ejes. 4
  • 6. Histogramas Proyecto Integrado Tema 1 La representación gráfica contribuye a un mejor análisis de los datos. Facilita la comprensión del fenómeno considerado. Pierde detalle pero se obtiene otro tipo de información. Gráficos utilizados: histograma, polígono de frecuencia y ojiva son útiles, ya que resaltan los patrones de los datos y atraen la atención. Un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos. Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. Regla de Nordclife: Cuando la variable estadística toma muchos valores o es continua conviene agruparla en intervalos, utilizando grandes dosis de sentido común o bien, en algunos casos es útil utilizar el criterio de NORDCLIFE, que establece que el número de datos debe coincidir con la raíz cuadrada del número de datos. Ejemplo: Las edades de las personas que acuden al logopeda, a lo largo de un año son: 3,2,11,13,4,3,2,4,5,6,7,3,4,5,3,2,5,6,27,15,4,21,12,4,3,6,29,13,6,17,6,13,6,5,12,26. Hay 36 datos, entonces la raíz de 36, es 6 y ese será el número de intervalos que vamos a tomar. El Rango estadístico es 27, ya que se obtiene de restarle al mayor dato (29, en este caso) el menor (2). Sin embargo, por conveniencia, para que sea más fácil operar, lo agrandamos a 30 para que sea múltiplo de 6. 5
  • 7. Proyecto Integrado Tema 1 Ejemplo de histograma: Los datos son el número de espectadores en 32 partidos del equipo nacional (en miles). 42,1 51,0 30,0 35,2 29,3 10,9 16,1 51,6 47,0 51,4 35,2 31,7 17,8 67,0 43,2 23,7 25,2 36,1 32,3 51,7 46,0 12,2 21,1 29,0 14,3 47,2 31,3 35,4 29,1 23,0 10,3 34,2 En primer lugar, dividimos los datos en intervalos de igual anchura. El valor mínimo de la muestra es 10,3 y el valor máximo es 67,0. Ponemos intervalos de anchura 10 y construimos una tabla de frecuencias. Clases (intervalos de variable estadística) Construimos el histograma: Con diferencia a los datos discretas, las barras están conectadas. Además, observamos que igual que para los datos discretas, es posible construir el histograma con frecuencias absolutas o relativas o con frecuencias (absolutas o relativas) acumuladas. 6
  • 8. Proyecto Integrado Tema 1 Tipos de histogramas • Diagramas de barras simples Representa la frecuencia simple (absoluta o relativa) mediante la altura de la barra la cual es proporcional a la frecuencia simple de la categoría que representa. • Diagramas de barras compuesta Se usa para representar la información de una tabla de doble entrada sea a partir de dos variables, las cuales se representan así; la altura de la barra representa la frecuencia simple de las modalidades o categorías de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad. • Diagramas de barras agrupadas Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a las diferentes modalidades. 7
  • 9. Proyecto Integrado Tema 1 • Polígono de frecuencias Es un gráfico de líneas que se las frecuencias absolutas de los valores de una distribución en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de dicho valor. • Ojiva porcentual Es un gráfico acumulativo, el cual es muy útil cuando se quiere representar el rango porcentual de cada valor en una distribución de frecuencias. 8
  • 10. Función de distribución Proyecto Integrado Tema 1 La función de distribución describe el comportamiento probabilístico de una variable aleatoria X asociada a un experimento aleatorio y se representa como: F(x) ó Fx Para estudiar la función de distribución distinguiremos entre el caso discreto y el caso continuo. Variable discreta Se denomina distribución de variable discreta a aquella cuya función de probabilidad sólo toma valores positivos en un conjunto de valores de X finito o infinito numerable. A dicha función se le llama función de masa de probabilidad. En este caso la distribución de probabilidad es la suma de la función de masa, por lo que tenemos entonces que: Y, tal como corresponde a la definición de distribución de probabilidad, esta expresión representa la suma de todas las probabilidades desde hasta el valor x. Ejemplo 1: Si una persona compra una papeleta en una rifa, en la que puede ganar de 5.000 € ó un segundo premio de 2000 € con probabilidades de: 0.001 y 0.003. ¿Cuál sería el precio justo a pagar por la papeleta? μ = 5000 · 0.001 + 2000 · 0.003 = 11 € Ejemplo 2: Sea X una variable aleatoria discreta cuya función de probabilidad es: pi x 0 0,1 1 0,2 2 0,1 3 0,4 4 0,1 5 0,1 9
  • 11. Proyecto Integrado Tema 1 1. Calcular, representar gráficamente la función de distribución. 2. Calcular las siguientes probabilidades: p (X < 4.5) p (X < 4.5) = F (4.5) = 0.9 p (X ≥ 3) p (X ≥ 3) = 1 - p(X < 3) = 1 - 0.4 = 0.6 p (3 ≤ X < 4.5) p (3 ≤ X < 4.5) = p (X < 4.5) - p(X < 3) = 0.9 - 0.4 = 0.5 Ejemplo 3: Un jugador lanza dos monedas. Gana 1 ó 2 € si aparecen una o dos caras. Por otra parte pierde 5 € si no aparece cara. Determinar la esperanza matemática del juego y si éste es favorable. E = {(c,c);(c,x);(x,c);(x,x)} p(+1) = 2/4 p(+2) = 1/4 p(−5) = 1/4 μ = 1 · 2/4 + 2 · 1/4 - 5 · 1/4 = −1/4. Es desfavorable 10
  • 12. Proyecto Integrado Tema 1 Variable continua Si tenemos una variable continua X, podemos definir la función acumulada de distribución de la misma manera que para una variable discreta. F(x) = P(X ≤ x). Ahora esta función sería una función suave y no una función escalón, pero tendrá las mismas propiedades que la función de distribución para una variable discreta. F(−∞) = 0, F(∞) = 1, F(x + #) ≥ F(x) para cualquier # > 0. Ejemplo: ¿Cuáles de las siguientes funciones pueden ser funciones de distribución para una variable continua X? Las funciones 1 y 3 pueden ser funciones de distribución. La función 2 es negativa en el rango −1 < x < 0. Los siguientes dibujos muestran las funciones de distribución en casos 1 y 3: 11
  • 13. Reducción numérica de los datos Proyecto Integrado Tema 1 Se busca reducir los datos de nuestra investigación con el fin de expresarlos y describirlos de alguna manera (conceptual, numérica o gráficamente), de tal manera que respondan a una estructura sistemática, inteligible para otras personas, y por lo tanto significativa. La reducción de datos es una clase de operación que se realiza a lo largo de todo el proceso de investigación y pude hacerse de distintas formas (conceptual, numérica o gráficamente, como se indicó), pero que en la investigación cualitativa se refiere más que nada a la categorización y dosificación de los datos. Cuando estudiamos una determinada población según el carácter C y tenemos recogidos los datos correspondientes a las distintas modalidades del carácter, la primeraforma de reducir dichos datos es mediante las tablas estadísticas y las representaciones gráficas. Aunque‚ a estas nos permiten obtener, de una manera rápida, una idea aproximada del comportamiento de la distribución, conviene estudiar las distribuciones de una forma más rigurosa. Es por esto por lo que vamos a estudiar la manera de resumir y sintetizar el gran número de datos de una distribución en unos pocos números que nos proporcionen una idea, lo más aproximadamente posible, de toda la distribución. El estudio de estos números se referirá a su significado, su cálculo e interpretación. Estos números de los que hablamos reciben el nombre de parámetros estadísticos. Hay muchos parámetros estadísticos. Suelen clasificarse según el papel que juegan, en varios tipos: - Medidas de posición, señalan la situación de algunos valores importantes en la distribución: cuartiles, deciles, centiles. Podemos destacar las Medidas de centralización o de tendencia central: ya que "tienden" a situarse hacia el centro del conjunto de datos. También se les llama promedios: moda, media, mediana. - Medidas de dispersión, que nos indican si los datos numéricos están agrupados o no alrededor de los valores centrales (grado de alejamiento de los datos.): desviación media, varianza, desviación típica... - Medidas de asimetría, para señalar si la distribución está sesgada hacia uno u otro lado. - Medidas de apuntamiento o curtosis, que indican si la distribución es mas o menos puntiaguda. Evidentemente, todo proceso de síntesis conlleva una pérdida de información. Pero esta pérdida se compensa con el hecho de trabajar con pocos parámetros con un significado muy preciso. 12
  • 14. Medidas descriptivas Proyecto Integrado Tema 1 Son valores numéricos calculados a partir de la muestra y que nos resumen la información contenida en ella. Las medidas descriptivas surgen con la necesidad de disponer medidas que resuman o condensen los datos y por tanto el objetivo que se persigue es la sintetización de la información que nos aportan los datos con la menor pérdida posible. Los parámetros se recogen en tres grupos principales dependiendo de su función: medidas de posición, medidas de centralización y medidas de dispersión. Aunque existen algunas menos usuales como medidas de forma o medidas robustas. Muchas de ellas no tienen sentido para las variables cualitativas. 13
  • 15. Proyecto Integrado Tema 1 Medidas de centralización Media aritmética ( ): Es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de datos. Informa sobre la tendencia general sobre la variable X en una muestra de n sujetos. Es la más importante. La letra µ se usa para la media aritmética de una población, es decir, el valor esperado de una variable Cálculo para datos ordenados de forma creciente: Cálculo para datos agrupados: Ejemplo: La media aritmética de un conjunto de números positivos siempre es igual o superior a la media geométrica 14
  • 16. Proyecto Integrado Tema 1 Propiedades : • La suma de las desviaciones de todas las puntuaciones de una distribución respecto a la media de la misma igual a cero. Por ejemplo: X ~ 8, 3, 5, 12, 10 8 − 7.6 + 3 − 7.6 + 5 − 7.6 + 12 − 7.6 + 10 − 7.6 = 0 • La suma de los cuadrados de las desviaciones de los valores de la variable con respecto a un número cualquiera se hace mínima cuando dicho número coincide con la media aritmética. • Si a todos los valores de la variable se les suma un mismo número, la media aritmética queda aumentada en dicho número. • Si todos los valores de la variable se multiplican por un mismo número la media aritmética queda multiplicada por dicho número. Observaciones: • La media se puede hallar sólo para variables cuantitativas. • La media es independiente de las amplitudes de los intervalos. • La media es muy sensible a los valores extremos. Si tenemos una distribución con los siguientes pesos: 65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg. La media es igual a 74 kg, que es una medida de centralización poco representativa de la distribución. La aparición de una observación extrema hará que la media se desplace en esa dirección. • La media no se puede calcular si hay un intervalo con una amplitud indeterminada. • Es muy sensible a los valores extremos de la variable: todas las observaciones intervienen en el cálculo de la media, así, la aparición de una observación extrema hará que la media se desplace en esa dirección. • No es recomendable usar la media como medida central en las distribuciones muy asimétricas. 15
  • 17. Proyecto Integrado Tema 1 Mediana(Me): el lugar central de todos los datos cuando éstos están ordenados Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor. de menor a mayor. Cálculo para datos ordenados de forma creciente: Si n es impar, la mediana es el valor que ocupa la posición (n + 1) / 2. Si n es par, la mediana es la media aritmética de las dos observaciones centrales, que ocuparan las posiciones n/2 y n/2+1. Es decir: Me = (xn / 2 + (xn / 2 + 1)) / 2 Por ejemplo: X ~ 2, 3, 4, 4, 4, 5, 5, 6, 6,7 n es par y se hace la media de las posiciones: n/2 ≡ 4 y n/ 2+1 ≡ 5-> Me= 4,5 Cálculo para datos agrupados Li es el límite inferior de la clase donde se encuentra la mediana. es la semisuma de las frecuencias absolutas. Fi-1es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase. La mediana es independiente de las amplitudes de los intervalos. Por ejemplo: Propiedades: • Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la distribuciones asimétricas (X ∼ 2, 5, 7, 9, 12 y X ∼ 2, 5, 7, 9, 125 en este caso la variable, sino del orden de las mismas. Por ello es adecuado su uso en media cambia, pero no la mediana). • Es de cálculo rápido y de interpretación sencilla, pero no tiene sentido su cálculo en variables de tipo cualitativo o nominal, al igual que la media. • A diferencia de la media, la mediana de una variable es siempre un valor de la variable que se estudia (ej. La mediana de una variable número de hijos toma siempre valores enteros). 16
  • 18. Proyecto Integrado Tema 1 Moda (Mo): La moda es el valor que tiene mayor frecuencia absoluta. Se puede hallar la moda para variables cualitativas y cuantitativas. Cálculo para datos ordenados de forma creciente: Mo es el valor xi que se repita más veces. Ejemplo: 1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9 Puede ser más de un xi, pero si todas las puntuaciones tienen la misma frecuencia no hay moda. Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda se puede hacer como el promedio de las dos puntuaciones adyacentes. Ejemplo: 0, 1, 3, 3, 5, 5, 7, 8 Mo = 4 Cálculo para datos agrupados Todos los intervalos tienen la misma amplitud Li es el límite inferior de la clase modal. fi es la frecuencia absoluta de la clase modal. fi--1 es la frecuencia absoluta inmediatamente inferior a la clase modal. fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal. ai es la amplitud de la clase. También se utiliza otra fórmula de la moda que da un valor aproximado de ésta. Ejemplo: 17
  • 19. Proyecto Integrado Tema 1 Los intervalos tienen amplitudes distintas Primero hallamos la altura (hi) La clase modal es la que tiene mayor altura Ejemplo: Media geométrica: Dada una población o muestra con n elementos distintos, se llama media geométrica de esos elementos a la raíz n-ésima de su producto: Por ejemplo: Media armónica (H): La media armónica, de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos valores. Así, dados n números x1, x2, ... , xn la media armónica será igual a: La media armónica resulta poco influida por la existencia de determinados valores mucho más grandes que el conjunto de los otros, siendo en cambio sensible a valores mucho más pequeños que el conjunto. La media armónica no está definida en el caso de que exista algún valor nulo. 18
  • 20. Proyecto Integrado Tema 1 Medidas de posición: Las medidas de posición (no central) dividen un conjunto de datos en grupos con el mismo número de individuos. Entre ellas destacan los cuartiles, deciles y percentiles. Cuartiles Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales. Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos Cálculo para datos ordenados de menor a mayor: Buscamos el lugar que ocupa cada cuartil mediante la expresión: Si N es par, se coge, además, el valor adyacente siguiente y se calcula la media aritmética de ambos. Ejemplo: 19
  • 21. Proyecto Integrado Tema 1 Cálculo para datos agrupados En primer lugar buscamos la clase donde se encuentra, en la tabla de las frecuencias acumuladas. Por ejemplo: Deciles Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes porcentualmente iguales. Son también un caso particular de los percentiles. Son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales Los deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc. D5 coincide con la mediana. Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento académico. 20
  • 22. Proyecto Integrado Tema 1 Cálculo: En primer lugar buscamos dónde se encuentra la clase , en la tabla de las frecuencias acumuladas. Si no disponemos de los datos ordenados, se hallan de la siguiente forma: Li es el límite inferior de la clase donde se encuentra la mediana. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase. Por ejemplo: Cáculo de D4 de la distribución de la tabla: 21
  • 23. Proyecto Integrado Tema 1 Percentiles Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las personas cuando atienden características tales como peso, estatura, etc. Los percentiles son valores que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99. En primer lugar buscamos dónde se encuentra la clase , en la tabla de las frecuencias acumuladas. Si no disponemos de los datos ordenados, se hallan de la siguiente forma: Li es el límite inferior de la clase donde se encuentra la mediana. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase. Por ejemplo: Calcular P60 de la distribución de la tabla: 22
  • 24. Medidas de dispersión Proyecto Integrado Tema 1 Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión nos dicen hasta que punto estas medidas de tendencia central son representativas como síntesis de la información. Representan la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central. Distinguimos entre medidas de dispersión absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirán comparar varias muestras. Dispersión absoluta Rango Diferencia entre el valor mínimo y el valor máximo en un grupo de números aleatorios. Se suele simbolizar con R. • Ordenamos los números según su tamaño. • Restamos el valor mínimo del valor máximo Ejemplo: Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valor unitario inmediatamente posterior al dato mayor menos el dato menor). Sus valores se encuentran en un rango de: Rango = 5 23
  • 25. Proyecto Integrado Tema 1 Desviación media absoluta Las medidas de dispersión como el rango o el rango intercuartílico son poco significativas y sólo se apoyan en dos datos, sería conveniente tener una medida de la dispersión de los datos respecto a la media (valor en el que se resumen todos los datos) y en la que tomásemos información de todas la observaciones. Una medida para conocer la dispersión de los datos sería ver que errores se comenten al dar la media en lugar del auténtico valor, en el valor i-ésimo cometeríamos un error . Si sumamos todas las desviaciones. Se compensan las desviaciones positivas y negativas, por lo no podemos conocer la desviación. Para corregir ese problema podemos considerar todos los errores que calculemos como positivos, para ello basta con tomar el valor absoluto, si además consideramos la media de esos errores obtenemos la desviación media. La desviación respecto a la media es la diferencia en valor absoluto entre cada valor de la variable estadística y la media aritmética. Di = |x - x| La desviación media (Dx) es la media aritmética de los valores absolutos de las desviaciones respecto a la media. Por ejemplo: Calcular la desviación media de la distribución: 9, 3, 8, 8, 9, 8, 9, 18 24
  • 26. Proyecto Integrado Tema 1 Si los datos están agrupados: Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es: Por ejemplo: Calcular la desviación media de la distribución: Propiedades • Nos da la media de la dispersión de los datos. • Intervienen para su cálculo todos los datos. • Cada vez que insertemos un dato nuevo se modificará. • Al intervenir un valor absoluto los cálculos son complicados. • A mayor concentración de los datos entorno a la media menor será su valor. • DM es no negativa • DM=0 si y sólo si todos los valores son coincidentes. 25
  • 27. Proyecto Integrado Tema 1 Varianza (σ2) La desviación media es una medida de dispersión de datos correcta pero presenta un inconveniente y es la complejidad de manipulación al intervenir valores absolutos. Sería conveniente encontrar otra medida que no presente el problema inicial (que no se compensen las dispersiones negativas con las positivas) y cuyo manejo sea más sencillo. Otra forma de evitar la compensación de dispersiones es elevar al cuadrado la diferencia y es más sencillo trabajar con cuadrados que con valores absolutos, teniendo en cuenta esta consideración introduciremos el concepto de varianza. La varianza (σ2)es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística. Observaciones: • La varianza, al igual que la media, es un índice muy sensible a las puntuaciones extremas. • En los casos que no se pueda hallar la media tampoco será posible hallar la varianza. • La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado. Cálculo: Podemos simplificar los cálculos así: Cálculo para datos agrupados: Podemos simplificarlo así: 26
  • 28. Proyecto Integrado Tema 1 Ejemplos: Calcular la varianza de la distribución: 9, 3, 8, 8, 9, 8, 9, 18 Primero se calcula la media aritmética. Se utiliza: Sustituimos: Calcular la varianza de la distribución de la tabla: Propiedades: • Siempre es positiva • Si a todos los valores de la variable se les suma un número la varianza no varía. • Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número. • Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total. Si todas las muestras tienen el mismo tamaño: Si las muestras tienen distinto tamaño: 27
  • 29. Proyecto Integrado Tema 1 Desviación típica (σ) Con la varianza se elevan al cuadrado las unidades de medida, sería interesante tener una medida de dispersión con las mismas unidades de la media y los datos, esto lo podemos conseguir haciendo la raíz cuadrada positiva de la varianza, a la que llamaremos desviación típica. La desviación típica (σ) es la raíz cuadrada de la varianza. Observaciones: • La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas. • En los casos que no se pueda hallar la media tampoco será posible hallar la desviación típica. • Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media. Cálculo: Cálculo para datos agrupados: Ejemplos: Calcular la desviación típica de la distribución: 9, 3, 8, 8, 9, 8, 9, 18 28
  • 30. Proyecto Integrado Tema 1 Calcular la desviación típica de la distribución de la tabla: Propiedades: • Es siempre positiva • Si a todos los valores de la variable se les suma un número la desviación típica no varía. • Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número. • Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones típicas se puede calcular la desviación típica total. o Si todas las muestras tienen el mismo tamaño: o Si las muestras tienen distinto tamaño: 29
  • 31. Proyecto Integrado Tema 1 Dispersión relativa Cuando las medias de dos distribuciones son iguales, es fácil comparar cuál de ellas es más dispersa, pero cuando las medias son distintas, no siempre podemos comparar su dispersión; en particular si las distribuciones corresponden a variables con distintos sistemas de medida. En estos casos, hemos de utilizar otras medidas que prescindan de las unidades de medida, lo que nos permitirá comparar variables de diferente tipo. Estas son las medidas de dispersión relativas. Coeficiente de variación Pearson Es una medida de dispersión relativa. Se utiliza cuando se pretenden comparar la dispersión de dos variables: Propiedades: 1. Cuanto menor sea el coeficiente de variación, menor será la dispersión de la muestra y, por tanto, más representativa será su media y más homogéneos los valores de la distribución. 2. No se puede calcular si la media es cero. 3. Si la media es muy próxima a cero, el coeficiente de variación puede resultar erróneo, por lo que no es recomendable su uso. 4. No tiene dimensiones, por lo que permite comparar distribuciones con distintas unidades. 5. Utiliza toda la información de la distribución. 6. Se anula cuando la desviación típica es cero. En este caso no hay dispersión, y todos los valores son iguales. 30
  • 32. Diagrama Box-Whisker Proyecto Integrado Tema 1 Estos diagramas, también llamados de “Caja con bigotes”, son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría. Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente. Construcción Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero(recordemos que el segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente Ejemplo de distribuciones de edades Utilizamos la edad de un colectivo de 20 personas. 36 25 37 24 39 20 36 45 31 31 39 24 29 23 41 40 33 24 34 40 Ordenar los datos Para calcular los parámetros estadístico, lo primero es ordenar la distribución 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45 31
  • 33. Proyecto Integrado Tema 1 Cálculo de cuartiles Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente: Q1=(24 + 25) / 2 = 24,5 Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmética de dicho valor y el siguiente: me= Q2 = (33 + 34)/ 2 =33,5 Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En nuestro caso, como 3N / 4 = 15, resulta Q2=(39 + 39) / 2 = 39 Dibujar la caja y los bigotes El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1) La primera parte de la caja a (Q1, Q2), La segunda parte de la caja a (Q2, Q3) El bigote de la derecha viene dado por (Q3, Xmáx). 32
  • 34. Cómo realizar una encuesta Proyecto Integrado Tema 1 Cuando se decide utilizar la encuesta como medio de recogida de información se llevaran a cabo ordenadamente las siguientes fases: 1) Determinación de los objetivos Lo primero es definir los objetivos de la encuesta, la información concreta requerida y la población que la puede facilitar. En esta etapa es fundamental la utilización de información secundaria existente acerca del tema a estudiar y de la población a analizar. 2) Determinación del tipo de encuesta Se deberá identificar cual es el tipo de encuesta más idóneo para llevar a cabo la investigación. La encuesta podrá ser personal, telefónica o postal aunque las nuevas tecnologías ofrecen nuevos métodos para le realización de encuestas como el correo electrónico o a través de una página Web. La elección de un tipo de encuesta u otro vendrá determinada por el tema de la investigación, la población a estudiar y el presupuesto disponible. 3) Diseño del cuestionario El diseño del cuestionario es fundamental y requiere un especial cuidado y atención. El cuestionario es el instrumento para la obtención de la información y por tanto su diseño es esencial para alcanzar los objetivos deseados. 4) Codificación del cuestionario Una vez diseñado y testado el cuestionario debemos codificarlo antes de realizar el trabajo de campo, con el fin de evitar posibles errores de diseño. La codificación del cuestionario facilita la tabulación de los datos resultantes y su análisis posterior a través de un programa informático. 5) Muestreo Se aplica un muestreo estadístico para seleccionar una muestra representativa de la población. 6) Trabajo de campo Llegado este punto estamos en condiciones de comenzar a entrevistar a los integrantes de la muestra seleccionada. El trabajo de campo deberá ser supervisado por el investigador para evitar distorsiones. 7) Tabulación de datos. Una vez finalizado el trabajo de campo y con los cuestionarios cumplimentados, se tabulan estadísticamente los datos obtenidos. 8 )Análisis de resultados y elaboración del informe. 33
  • 35. Proyecto Integrado Tema 1 Por último, se analizan los datos tabulados y en base a los resultados y conclusiones se redacta el informe final de la investigación 34
  • 36. Proyecto Integrado Tema 1 Ejercicios finales 1. Dos compañías aseguradoras tienen formas diferentes de pagar a sus empleados. La compañía A lo hace mediante un sueldo fijo mensual y la compañía B a través de un porcentaje sobre los seguros realizados. La distribución de los salarios por categorías es: a) Por término medio, ¿gana más un empleado de la compañía A o de la B? b) Calcular y comentar la representatividad de los sueldos medios. c) ¿Cuál es el sueldo más frecuente en la compañía A? d) Aunque en la compañía B el sueldo se gana por méritos, ¿crees que el reparto de salarios por categorías es equitativo? e) Si en la compañía B el salario fuese el anterior más un fijo de 10000 pesetas, ¿cuál sería el salario medio y la desviación típica? Solución: a) Sean: X = «sueldo (en miles de pesetas) de los empleados de la compañía A». Y = «sueldo (en miles de pesetas) de los empleados de la compañía B» Y=107.842105 X=84.5 b) VX = 0.27273876, VY = 0.31479111, los sueldos están menos dispersos en la empresa A. c) Mo = 80000 pesetas. d) IG(Y) = ‘.200456171 e) Z = Y + 10 Z = Y + 10 = 107.842105 + 10 = 117.842105 35
  • 37. Proyecto Integrado Tema 1 SZ =SY 36
  • 38. Proyecto Integrado Tema 1 2. Se comparan dos tipos de rosca de tornillo para ver su resistencia ala tensión. Se prueban 50 piezas de cada tipo de cuerda bajo condiciones similares, la marca A tuvo una resistencia promedio a la tensión de 78.3 Kg, mientras que la marca B tuvo una resistencia promedio de 87.2 Kg. Se sabe de antemano que las desviaciones poblacionales son de 6.5 Kg para la marca A y 6.3 Kg para la B. Determine el intervalo de confianza del 95% para la diferencia de las dos medias poblacionales. Solución: 37