SlideShare una empresa de Scribd logo
APUNTES ANÁLISIS DE DATOS BY SIERRAS

                                       TEMA 1: INTRODUCCIÓN

Definición de Análisis de Datos:

- Práctica de torturar a los números para que confiesen.
- Partimos de la convicción de que cierto significa “poco más que altamente probable”.
- Constituye la mejor herramienta matemática para tomar decisiones correctas cuando nos
   enfrentamos a la incertidumbre (casi siempre).
- La estadística es un conjunto de procedimientos para reunir, clasificar, codificar, procesar,
   analizar y resumir información numérica adquirida sistemáticamente.
- Aunque normalmente se asocia mucho a cálculos y operaciones aritméticas, y aunque las
   matemáticas están involucradas, en su mayor parte sus fundamentos y uso apropiado pueden
   dominarse sin hacer referencia a habilidades matemáticas avanzadas. De hecho, se trata de una
   forma de ver la realidad en el análisis cuidadoso de los hechos.
- Analizar + Interpretar.

Herramientas para el análisis de datos:

- SPSS.
- Microsoft Excel.

Necesidad de la Estadística en CAFD:

- Razonamiento inductivo (de lo particular a lo general; Muestra -> Población).
- Variabilidad biológica (dos muestras no son iguales; resultados impredecibles; afirmaciones en
   términos de posibilidad).
- Grado creciente de cuantificación (necesidad de tratamiento adecuado para grandes cantidades
   de información).
- Investigación (da rigor científico).

 La expresión “análisis de datos” cubre muchos tipos de actividades/habilidades; si alguien dice “yo
hago análisis de datos” no solemos tener claro qué sabe/hace.

Proceso básico de AD:

- Definir: Tener claro lo que se sabe y lo que no; prever para evitar sorpresas posteriores
   posiblemente sin solución por:
       o Incertidumbre.
       o Aleatoriedad.
       o Imposibilidad técnica, ética o económica de medir a toda la población.
       o Existencia de parámetros inobservables directamente.
       o ¿Solución? Diseño del experimento: Definir.
- Dividir: preparar fuentes de datos, comprender la naturaleza de los datos (variables continuas y
   discretas, escalas de medida, distribuciones de frecuencia…), preparar esos datos (limpieza,
   eliminación de variables, transformación, segmentación,…), etc.
- Evaluar: Estadística, tablas y gráficos

 ¿Qué es un dato?

Es una representación simbólica (número, letra o figura), característica de una entidad, que sirve
para representar una característica de un hecho observable (Ej: ¿Cuál es el color de pelo de moda?).

 Recordar que la Observación no es análisis de datos; sino que es un paso previo a la toma de datos.


                                                                                                 1
TEMA 2: EL PROCEDIMIENTO DE ANÁLISIS DE DATOS (PERSPECTIVA GENERAL)

- El método científico de investigación (4 pasos):
1. Desarrollo del problema: Qué se va a estudiar y con qué profundidad.
        a. Determinar las variables del estudio:
                   i. Variable independiente (variable experimental o explicativa)
                  ii. Variable dependiente (resultado o variable explicada; la que queremos ver como
                       se comporta).
2. Formulación de la hipótesis: Resultado anticipado o esperado de une studio; debe ser
    contrastable (aceptada/rechazada mediante métodos científicos).
3. Recogida de datos: Proceso rutinario basado en la optimización de la metodología de la
    investigación (objetividad del proceso; es decir, que no afecte quien coja los resultados; que no
    se contaminen).
4. Análisis e interpretación de los Resultados: Implica algún tipo de análisis estadístico; requiere
    conocimiento y experiencia (carentes en investigadores noveles). Se deben aportar pruebas para
    aceptar/rechazar la hipótesis del trabajo.

- Tipos de investigación:
1. Investigación Analítica: Revisión, estudio sobre lo que ya hay publicado sobre un tema; basada en
    estudios que ya existe (investigación histórica, filosófica, revisiones e investigación de síntesis o
    meta-análisis).
2. Investigaciones Descriptivas: Describen una realidad (ej: altura media de una población).
    Ejemplos de investigaciones cualitativas: Cuestionario, entrevista, encuesta normativa, estudio
    de caso, estudios correlaciónales, otros tipos e
- Investigaciones Observacionales: Se observa el comportamiento de los participantes en su
    entorno natural; Metodología:
        o Observación en Directo:
                    Ventajas: Datos Inmediatos (información in situ) y ahorro de tiempo (único
                     visionado).
                    Inconvenientes: Limitación de variables a observar y mayor posibilidad de error.
        o Observación a Posteriori (grabación):
                    Ventajas: Registro de mayor número de variables y observación de varios focos de
                     atención.
                    Inconvenientes: Coste material filmación/reproducción y autorización de la
                     grabación.
3. Investigación Experimental: Lo contrario a la descriptiva; el investigador influye en el estudio
    (manipulación de tratamientos – variable independiente -; causa y efecto).
4. Investigación Cualitativa: Son muy complejas; usadas en las ciencias sociales; requiere un
    profundo entendimiento del comportamiento humano. Investiga el por qué y el cómo se tomó
    una decisión; usa herramientas en recogida como la observación de una población en su medio o
    entrevistas usando escalas de actitudes (Likert, diferencial semántico, de Guttman, etc.)
    Revisión Bibliográfica:
- Recomendaciones en la elección de un tema de investigación:
        o Leer lo más importante escrito sobre el tema (análisis de interés).
        o Hacer una tabla resumen (relacionar los estudios encontrados de manera eficaz).
        o Mucho escrito sobre el tema: Investigación poco novedosa; bajo interés.
        o Poco escrito sobre el tema: Tema poco interesante o tema interesante inexplorado.
- Pasos a seguir en la búsqueda de bibliografía:
    1. Redactar definición del problema (completa y concisa).
    2. Consulta de manuales, libros, enciclopedias, revisiones (fuentes secundarias).
    3. Consulta de Bases de Datos de Investigación (catálogos de bibliotecas/bases de datos).



                                                                                                    2
TEMA 3: INTRODUCCIÓN A LA ESTADÍSTICA
   ¿Qué es la estadística?
    La estadística es la ciencia que estudia las características de un conjunto de datos.
   Se utiliza para:
        o Describir un conjunto.
        o Hallar regularidades.
        o Efectuar predicciones.
   Conceptos Básicos:
        o Población: Conjunto de cosas que son propósito de nuestro estudio.
                    Población = N (el todo; conjunto completo).
        o Muestra: Grupo reducido de la población que utilizaremos para el estudio.
                    Muestra = n (lo que yo estudio; subconjunto de la población).



   ¿Por qué no se estudia siempre la población?
        o Recursos económicos limitados.
        o Tiempo limitado
        o Imposibilidad de acceder a la muestra.
        o Destrucción de la población.
   ¿Qué es una variable?
     Es la cualidad de algo que se puede medir. Puede ser medida u observada; toma valores
   diferentes para cada individuo de la muestra; es relevante para nuestro estudio.

  Tipos de Variables:
- Variables cuantitativas o numéricas:
       o Discretas: Valores enteros (ej: Nº de hermanos de amigos: 2, 1, 0, 3…).
       o Continuas: Cualquier valor (ej: Altura de amigos: 1,73 m., 1,82 m., 1,69m…)
                  Da igual que cambiemos el valor de metros a centímetros, sigue siendo una
                   variable cuantitativa continua.
                  Una variable no se puede modificar; no se mide en función de la unidad de
                   medida, sino de la naturaleza de esta.
- Variables cualitativas o categóricas:
       o Ordinales: Existe relación entre las categorías (una categoría es mejor/peor que otra); por
           ejemplo: Medalla de Oro, plata, bronce; Una nota de examen Suspenso, Aprobado,
           Notable, Sobresaliente…
       o Nominales: No existe relación entre categorías (no hay una que sea mejor/peor que otra);
           por ejemplo: La Religión Católica, Musulmana, Budista… ó el estado civil de soltero,
           casado, separado, divorciado, viudo…).

  Modificación del tipo de variable:
- Codificación:
      o Proceso de conversión de un concepto a un número.
                 Ej: Lanzamientos de Atletismo: Disco (1), Peso (2), Martillo (3), Jabalina (4)…
                 Siguen siendo variables cualitativas nominales, pero se organizan de forma
                   numérica para que resulten datos más sencillos de tratar.
- Categorización:
      o Estudiar las respuestas abiertas y clasificarlas en categorías.
      o Respuestas semejantes entre sí quedan en la misma categoría.




                                                                                               3
Instrumentos de medición:
   - Observación: Técnica de estudio por excelencia utilizada en todas las ramas.
   - Encuesta: La más utilizada en la investigación de ciencias sociales. Permiten estandarizar
       los datos para su análisis posterior. Obtiene gran cantidad de datos de forma económica y
       en poco tiempo.
   - Entrevista: Características similares a la encuesta, pero en directo. Permite adaptarse a las
       respuestas.

   Métodos de selección de muestras:
     Una muestra debe ser representativa puesto que sirve para estimar las características de
   la población.
     Los métodos de selección de muestra representativa dependen principalmente de:
   - Tiempo y Dinero.
   - Posibilidades para tomar la muestra.
   - Naturaleza de los individuos de la población.
   - Margen de error asumible en cuanto a representatividad de la muestra (asumes que
       puede existir un error porque no mides a toda la población).

   Criterios de selección de elementos:
   - Basados en Juicio:
            o Subjetivo; no se puede medir la representatividad. Más óptimo (si quiero medir
                equipos de fútbol de la Región de Murcia y al lado de mi casa hay 5 clubes, pues
                mido a esos y no a los que estén en otra ciudad).
   - Aleatorios:
            o Selección Objetiva; Error muestral medible. Muchos modelos:
                        Simple: Aleatorio Simple; elijo al azar a 10 alumnos de los 50 de mi clase.
                        Sistemático: Más complejo: 10% de 50 = 5; selecciono mediante un
                        aleatorio simple a un sujeto del 1-5 de la lista, por ejemplo el 3, y le sumo
                        el 10% a dicho número para sacar el resto de muestras, osease: 3+5 = el
                        alumno nº 8, luego elijo al 13, al 18, etc…
                        Estratificado: Si estudio 20 alumnos universitarios; haré un aleatorio
                        simple para seleccionar un par de carreras al azar, luego otro al azar para
                        seleccionar los cursos y luego otro aleatorio simple para ya escoger a los
                        alumnos (Aleatorio Simple por Subgrupos)
                        De conglomerados y estadios múltiples, por cuotas y por bola de nieve:
                        Son aleatorios y se pueden utilizar (no importante).

       Cálculo del tamaño de la muestra:
 Espacio Muestral: Todas las posibles muestras que se pueden extraer de una población
mediante una técnica de muestreo (todas las combinaciones posibles).
 Nivel de confianza: Medida de la bondad de la estimación (con cuanta cantidad de la población
puedo asegurar que lo que obtengo al medir a la muestra pueda estar seguro de que va a ser así
con todos los individuos).
    • Estudios con tamaños muestrales insuficientes no detectan diferencias entre grupos,
        concluyendo erróneamente que no existen diferencias.
    • Estudios con tamaños muestrales excesivos se encarecen.
    • Altos niveles de confianza y bajo margen de error no significan que la encuesta sea de
        mayor confianza o tenga menos error.
    • La principal fuente de error tiene lugar en la recogida de datos.




                                                                                                4
La fórmula para calcular el tamaño de la muestra adecuada para el estudio es la
siguiente:




                                 TEMA 4: ESTADÍSTICA DESCRIPTIVA
  Estadística descriptiva: Describe las características de un conjunto de datos. Son valores
calculados a partir de la muestra que describe una población. Incluye métodos de recolección,
descripción, visualización y resumen de datos numérica o gráficamente, originados a partir de las
fenómenos de estudio.
  Estadística Inferencial: Extrae conclusiones sobre una serie de datos (muestra) aplicables a
situaciones globales (población). Modela patrones en los datos, extrae inferencias y predice
comportamientos acerca de la población estudiada. Estima el valor aproximado de un parámetro
en la población a partir de los parámetros calculados sobre la muestra.
Estadística Descriptiva:
Estadística descriptiva o análisis descriptivo de datos: Conjunto de métodos, medidas y
representaciones gráficas que tienen como finalidad principal describir, ordenar, resumir y
sintetizar la información contenida en un conjunto de daos y poner de manifiesto sus
características básicas (da una idea de como es el grupo).
  Características de una distribución de frecuencias:
Características que nos sirven para sintetizar toda la información que nos proporcionan las tablas
estadísticas; medidas de posición, dispersión, forma, concentración…        (diferentes medidas)
Medidas de posición:
Medidas de posición centrales:
    - Medida:
             o Aritmética.
             o Ponderada.
             o Geométrica.
             o Armónica.
    - Mediana.
    - Moda.
Medidas de posición no centrales:
    - Cuartiles.
    - Percentiles.
    - Deciles.



                                                                                             5
Media Aritmética (media/promedio) y Ponderada:
La más usada. Una muestra tiene solo una media. Se suele utilizar como representante de la
muestra. Centro geométrico de los datos observados. Los valores no necesitan ser ordenados
para su cálculo. No es aplicable para datos cualitativos. Se ve afectada por valores anormalmente
grandes o pequeños (extremos, atípicos, outliers); si existen este tipo de valores, la media puede
ser poco representativa de la muestra.

  Media Geométrica:
Se usa para variables que representen
variaciones acumulativas (porcentajes,
índices, cifras relativas…); solo pueden
calcularse sobre valores positivos.
  Media Armónica:
Se utiliza para promedia velocidades, tiempos, rendimiento, etc. No se pueden calcular cuando
algún valor es próximo a cero.

 Mediana:
Los valores deben estar ordenados y agrupados para su cálculo. Es el valor del punto medio de la
selección, la mitad de los datos están por arriba y por debajo. Cada sección tiene solo una
mediana. No es aplicable para datos cualitativos. Puede ser calculado aun habiendo valores
extremos. No depende del Nº; sinod e la posición: 1,2,3,4,5; 1,2,(2,5)3,4 = suma del valor 2 + valor
de 3 y saco la media.
Fórmula Excel: =mediana(X1:X200) Mediana entre las posiciones x1 y x200.
Mediana = (n+1)/2 si es impar; n/2 si n es par.

    Moda:
-    Es el valor que más se repite, no el más alto o más centrado.
-    Es el valor más probable, por lo tanto el más común.
-    Una distribución puede tener más de 2 modas.
-    Puede ser calculado aun habiendo valores extremos.
-    Los valores deben estar ordenados y agrupados para su cálculo.

    Distribución de frecuencias y porcentajes:
-     Frecuencia absoluta (ni): Número de veces que aparece este valor.
-     Frecuencia relativa (fi): Cociente entre frecuencia absoluta y tamaño de muestra (N).
-     Porcentaje (pi): Frecuencia expresada en términos de %.
-     Ni, Fi, Pi: Acumulados.

  Distribución acumulada por intervalos :
Útil por la diversidad de valores (variables continuas). Cuidado con los extremos. Los intervalos no
tienen que tener la misma longitud.
- Amplitud de intervalo: diferencia entre los límites del intervalo.
- Marca del intervalo de modalidad: punto medio del intervalo que representa.

 Cuantiles de orden K:
-  Medida de posición no central que nos da el valor de la muestra, de menor a mayor que deja
   tras de sí el K % de los valores (cuantos valores están en el x % de…).
- Expresan el % de casos en el grupo específico de referencia, cuyo valor es igual o inferior al
   dado.




                                                                                               6
-     Los más importantes son:
          o Cuantil 1 25%, cuantil 2 50%, (coincide con la mediana), cuantil 3 75%, cuantil 4
             100%. Son los valores que dividen a una distribución en cuatro partes iguales, cada
             una con el mismo número de valores (n/4).
          o Percentiles: P1, P2, (porcentajes en el 2%)…P99 (porcentajes en el 99%). Es una
             medida que nos dice cómo está posicionado un valor respecto al total de una
             muestra.
          o Deciles: D1, D2 (20%),…, D9 (90%).

    Representaciones Gráficas:

1. Gráficos de Barras:
    - Suelen representar frecuencias de variables cualitativas.
    - Eje horizontal: Categorías de las variables.
    - Eje vertical: Frecuencias Absolutas/Relativas de cada variable.
    - Cada variable, una barra. Misma anchura y separadas.




2. Gráficos de Sectores:
     - Suelen representar frecuencias de variables Cualitativas.
     - El área de cada sector representa el % de la frecuencia relativa observada (un nombre).
     - El total área del círculo siempre representa el 100% de los datos.
     - Se suele etiquetar con el valor absoluto de la variable y/o su porcentaje.
Útil, por ejemplo, para medir poblaciones.
3. Histogramas:
     - Suelen representar frecuencias de variables cuantitativas continuas.
     - En el eje vertical se representan las frecuencias.
     - En el eje horizontal:
             o Se representan los valores de las variables.
             o Se representan los intervalos del mismo tamaño.
     - Mide Ni: Frecuencia Absoluta.




                                                                                               7
Medidas de Dispersión (lo que cambia un dato respecto al resto):
Sirven para medir la variabilidad que hay en los datos, para ver lo homogénea/heterogénea que
es la muestra respecto a la variable de interés y para saber hasta qué punto las medidas de
posición son representativas de la muestra. [ver como varían los datos respecto a un valor
representativo del total]
TIPOS DE MEDIDAS DE DISPERSIÓN:

  Rango o recorrido:
Diferencia entre los valores máximos y mínimos de la muestra:
Re= max(x1,…,xn) – min(x1,…,xn). [recuerda cerrar bien los paréntesis, que aquí no se cierran
solos).
Rango Intercuartílico: diferencia entre C3 y C1, recoge entre qué valores se encuentra el 50%
central de la muestra
RI= IQR= C3-C1

  Desviación típica:
Sirve para situar los datos obtenidos a raíz de la obtención de unos valores medios.
La desviación típica es la misma unidad que la variable.
Acompaña a la media aritmética, por proporcionar información sobre hasta qué punto dicha
medida es representativa del conjunto de datos.




  Varianza:
Medida de variabilidad que acompaña a la media aritmética. Mide la dispersión de los valores en
torno al valor central.
Si tiene un valor grande, significa que la media no es representativa. Se utiliza porque es menos
engorrosa de hacer por ordenador que la DT. =desvestp(…)




                                                                                              8
Coeficiente de Variación [Entra Fijo]:
Es la más empleada entre las medidas de dispersión relativas. Mide lo grande que es la desviación
típica en relación a la medida. No tiene unidades, es un cociente entre dos valores con la misma
                      unidad. Sirve para comparar varianza entre dos variables de distinta
                      naturaleza.
                      Dividiendo la DT entre el promedio de la misma variable, obtenemos un valor
                      sin unidades de medida, que se puede comparar con el de otra variable; a
                      través de esto, podemos valorar cual es realmente la variable con más
                      varianza.
                          Variable Homogénea: La que obtenga valores más cercanos a 0.
                          Variable Dispersa: La que obtenga valores más alejados de 0.


 Diagrama de Cajas y Bigotes:
    • Representación Gráfica basada en cuartiles.
    • Compuesto por un rectángulo (caja) y dos rectas (bigotes).
    • Muestra Información sobre:
          o Valores Mínimo y Máximo.
          o Cuartiles Q1, Q2 (mediana) y Q3.
          o Existencia de valores atípicos.
          o Simetría de la distribución.




                                                                                             9
FÓRMULAS EXCELL EXÁMEN ANÁLISIS DE DATOS
CATEGORIZAR VARIABLES NUMÉRICAS                              =si (X1<5;1;si X1<8;2;3             1-5 categorizado como 1, 5-8 categorizado como 2, 9-10 cat. como 3

CATEGORIZAR VARIABLES NOMINALES                              =si(G2=“ADD”;2;G1=“AD”;1;3          ADD categorizado como 2; AD categorizado como 1; ADDD cat. como 3

CONTAR                                                       =contar.si(X1:XY;1)       Sustituyendo el “1”, por el dato que queramos contar dentro del conjunto X1:XY

TAMAÑO MUESTRA ADECUADA                                      =((K^2)*N*p*q)/(E^2*(N-1)+((K^2)*p*q))          N=población; K(85%)=1,44; p (0,5), q (0,5); e=n-N

MEDIA ARITMÉTICA (2 formas)                                  =promedio (X1:XY)                 =suma (X1;XY)/Z        (Z= Nº de casos)

MEDIANA                                                      =mediana (X1:XY)

MODA                                                         =moda(X1:XY)

ni                                                           Nº de veces que se repite un valor dentro de un conjunto de dato; =suma (…,…)

fi                                                           = ni/N                          (hay un fi para cada valor de ni)

pi                                                           =fi*100

Ni Fi y Pi        Supongamos que tenemos ni1 (1), ni2 (3), ni3 (5) y ni4 (7).

(Acumulados)      Ni1 = 1; Ni2: 3+1; Ni3: 5+1+3; Ni4: 7+1+3+5 (Nf = 16) /// Fi1 =N1/Nf; Fi2 =N2/Nf; Fi3 =N3/Nf; Fi4 =N4/Nf /// Pi = Fi(1,2,3 y 4)*100

CUANTILES                                                    =cuartil(X1:XY;1)           Sustituir el ;1 por ;2-3-4 dependiendo del Cuartil que queramos obtener

PERCENTILES                                                  =percentil(X1:XY;Z)         Z= valor del percentil que queremos obtener, expresado entre 0-1 (ej:0,25).

HISTOGRAMA                                                   Consta de:

                                                                   •      Nº de Casos (Ej: 220 casos en el Excel de clase)

                                                                   •      Rango =max(X1:XY)-min(X1:XY)

                                                                   •      Nº Intervalos (raíz rango) =RAIZ(Rango) [redondear valor al nº superior entero OBLIGATORIO]

                                                                   •      Anchura de la columna =rango/nºintervalos

DESVIACIÓN TÍPICA [S]                                        =desvest(X:XY)

COEFICIENTE DE VARIACIÓN                                     Variable Homogénea                                =S/Media Aritmética

                                                             Variable Dispersa                                 Calcular previamente =promedio y =desvest

DIAGRAMA DE CAJAS Y BIGOTES                            Hallar:

                                                             •    Q1, Q2 y Q3 [De Q1 a Q3, creamos una caja; Q2 representada por una línea vertical dentro del cubo]

                                                             •    RI (rango intercuartilico); =Q3-Q1

                                                             •    1,5*RI

                                                             •    Q3+1,5*RI [Línea discontinua vertical//límite superior]

                                                             •    Q1-1,5*RI [línea discontinua vertical//límite inferior]

                                                             •    3*RI

                                                             •    Q3+3*RI [Extremo final eje X]

                                                             •    Q1-3*RI [Extremo inicial eje X]




                                                                                                                                                   10
PRÁCTICA 1: ¿QUÉ APRENDEMOS HOY?

1. Aprender a tomar datos, utilizando Freescreenca o mediante el impr paint, recortando luego la
    figura.
2. Aprender aspectos básicos del Microsoft excel:
        a. Combinar celdas.
        b. Insertar filas/columnas.
        c. Ajustar columnas.

   PRÁCTICA 2: ¿QUÉ APRENDEMOS HOY?

       1. Hoy aprendemos como realizar un análisis observacional con el excell. Buscamos en
          internet un vídeo de la final de la copa del rey de voleibol y unos analizan el saque, y otros
          el ataque de los dos equipos finalistas.

       2. Aprendemos a añadir notas a celdas de excell.

       3. También hemos aprendido como crear una tabla resumen.

   PRÁCTICA 3: ¿QUÉ APRENDEMOS HOY?
      1. Abrimos Excell y vamos a tratar la variable “peso” de la población “clase 2ºE CAFD”.
      2. Tomamos los datos en una columna de la muestra “20 alumnos de clase 2ºE CAFD”.
      3. En otra columna, categorizamos los datos obtenidos a nuestro propio criterio, añadiendo
          en la leyenda como establecemos las categorías (Ej: Menos de 59 Kg, Liviano (1), entre 60
          y 79 Kg, Medio (2) y 80+ Kg, Pesado (3).
      4. Con pocos datos, resulta sencillo categorizar la muestra; pero si tuviésemos 100+ sujetos,
          podemos utilizar una fórmula aritmética de excel para obtener los resultados
          directamente:
              a. = si (B4 <59;1; si (B4<80;2;3) Así, podremos establecer el valor para el resultado
                   obtenido en la fila “4”; si ahora la celdilla (C4) donde hemos realizado esta
                   operación la arrastramos al resto de la columna; nos otorgará directamente los
                   datos del resto de la columna (B5, C6, D7, E8…) agilizándonos mucho tiempo de
                   trabajo.
      5. Ahora, si copiamos la columna 4, y le damos a “pegado especial” en la columna 5,
          señalando la opción “valores”, podremos copiar tanto los datos y la fórmula
          anteriormente utilizada en la nueva columna.
      6. Finalmente, seleccionamos la columna “5” entera, pulsamos “Ctrl+B” y en la nueva
          ventana que nos aparece; en “Buscar” Pondremos, por ejemplo, “2” y en “Remplazar”
          pondremos “medio”; haciendo que en esta nueva columna los resultados categorizados
          cuantitativamente/numéricamente          “1,     2,     3”      queden       categorizados
          cualitativamente/categóricamente “Liviano, Medio, Pesado”.


   PRÁCTICA 4: ¿QUÉ APRENDEMOS HOY?
   Hoy hemos aprendido como calcular en Excel el tamaño de muestra adecuada para un ejemplo
   puesto por estudio.


   PRÁCTICA 5: ¿QUÉ APRENDEMOS HOY?
   Hoy hemos entrado a la página del instituto nacional de estadística, y hemos sacado en excell los
   datos de habitantes de las 52 provincias españolas; luego hemos aprendido a sacar la media
   aritmética y ponderada de habitantes masculinos y femeninos del total y de las comunidades
   autónomas de Andalucía.


                                                                                                  11
Aprendimos que poniendo $ antes de un valor conseguimos que al arrastrar, el dato posterior al
dólar no varíe y se opere siempre con esa misma celda (C$4:C16)
Existen 2 formas de calcular la media aritmética con Excel:
    1. =PORMEDIO (X1:X5) (calcula la media aritmética de todos los valores comprendidos entre
        X1 y X5.
    2. = SUMA (X1:X5)/5 (sumas todos los valores comprendidos entre X1 y X5 y los divides entre
        la cantidad de casos que has sumado).

PRÁCTICA 6, ¿QUÉ APRENDEMOS HOY?
   1. Buscar por internet los sueldos de los jugadores del Real Madrid en la temporada 2011-
       2012.
       Una vez encontrados, los seleccionamos – ofimática – excell 2007
       Pegamos en una columna todos los datos y nos los pega en la CA; asi que vamos a “datos”
       luego seleccionamos “texto en columnas”, luego “otros” y seleccionamos el signo por el
       que queremos que nos corte, de forma que dejemos una fila para jugadores, otra para
       millones brutos, netos, año.
   2. Limpiar los datos:
       Para ello, vamos a ir separando en columnas;
   3. Calcular la mediana y la media del sueldo ¿Son Iguales, O Distintas? Distintas: En datos
       como sueldos, donde hay grandes diferencias entre unos y otros, es más ajustada a la
       realidad la MEDIANA que la media; sin embargo, en la altura de una clase, por ejemplo, la
       MEDIA se acercará más a la realidad.
   4. Calcula la proporción entre sueldo bruto y neto.

PRÁCTICA 7, ¿QUÉ HACEMOS HOY?

Calcular de la plantilla del RM, ni, fi, pi, Ni, Fi, y Pi.

PRÁCTICA 8, ¿QUÉ HACEMOS HOY?
Hoy rápidamente hayamos quantiles y percentiles con sus fórmulas correspondientes y
manualmente.

PRÁCTICA 9, ¿QUÉ HACEMOS HOY?
Hoy hemos realizado distintos tipos de diagramas.
También hemos realizado un histograma de las variables Altura y Peso.
Recordar: al hallar el nº de intervalo, redondear siempre hacia el número superior entero.

PRÁCTICA 10, ¿QUÉ HACEMOS HOY?
Calcular la desviación típica de una de las variables de la tabla de CAFD.

PRÁCTICA 11, ¿QUÉ APRENDEMOS HOY?
 Hoy hemos medido la “varianza” de una de las variables del estudio de clase.
 También hemos buscado, mediante la fórmula del Coeficiente de Variación, que variable es más
 homogénea y cual más dispersa comparando edad y peso del estudio de clase.

 PRÁCTICA 12, ¿QUÉ APRENDEMOS HOY?
 Primero, Poli realizó un Diagrama de Cajas y Bigotes con los dato de sueldos del R. Madrid.
 Luego, nosotros mismos, con ayuda de los apuntes debíamos realizar un diagrama de cajas y
 bigotes con dichos sueldos.




                                                                                             12
CLASE PRÁCTICA 1: ¿QUÉ APRENDEMOS HOY?
1. Cómo logearnos en Google Apps con la cuenta mail de la UCAM.
       a. Una vez dentro “crear formulario”.
2. Cómo rellenar un cuestionario en Google Apps; viendo para ello todos los tipos de preguntas
   que deja crear y como se rellenarían los campos de cada una.
       a. El cuestionario consta de TITULO, CUERPO, PREGUNTAS (marcar que cada pregunta
           sea obligatoria para que el test pueda ser renviado y así disponer de todos los datos
           para luego sistematizarlos, etc.).
       b. Tipos de preguntas cuestionario: De texto, texto con párrafo, tipo test, casilla de
           verificación (como test, pero con opción múltiple), escala (1-5) y cuadrícula (escala 1-
           5 y columna con muchos ítems).
3. Para añadir una segunda pregunta al cuestionario, le damos a “añadir elemento”.
4. Dar forma al cuestionario (un fondo): Seleccionamos [tema], elegimos y “aplicar”.
5. Enviar el cuestionario completado (nos hemos quedado por este paso).
6. Depurar los datos obtenidos en el excel del cuestionario (ordenar de mayor a menor y filtrar).


CLASE PRÁCTICA 2: ¿QUÉ APRENDEMOS HOY?
   1. Inmovilizar Paneles en Excel; ¿Cómo? En la barra de arriba vamos a “vista” y luego
       seleccionamos “inmovilizar paneles”.
   2. Crear una copia de la página de Excel: Doble Click abajo donde pone “Hoja 1” y le
       cambiamos el nombre por “Datos” luego le damos a Mover o Copiar y a “crear una copia –
       aceptar”. Nos aparecerá una nueva Hoja de Excell que se llamará “Datos (2). Ahora, la
       vamos a llamar “Datos Depurados”.
   3. Depurar Datos: Ordenar de mayor a menor todas las variables numéricas y asegurarme de
       que estén todas en la nomenclatura correcta (centímetros). En “sexo”, por ejemplo,
       ordenaremos y filtraremos de “A a la Z”.
   4. Codificar las opciones que sean frases completas por abreviaciones; ¿cómo agilizar esta
       codificación? Pues con la siguiente fórmula:
           a. Las     variables     ordinales   las cambiamos     con    la   fórmula del:
               =SI(G2=“ADD”;2;G1=“AD”;1;3, etc…).
   5. DEPURAR RESTO DE DATOS EN CASITA.

CLASE PRÁCTICA 3: ¿QUÉ APRENDEMOS HOY?
Con los datos ya depurados durante el fin de semana calcular:
ni, fi, pi de las variables “otra actividad” y “vives con”.
Para calcular los ni de cada uno de estos valores, ya que tenemos +200 muestras y 4 categrías,
usar la fórmula de:
=contar.si(X1:XY;1), para que nos cuente el número de casos “1”; realizar luego igual para calcular
el número de casos 2, 3 y 4 de Otra Actividad, por ejemplo.
También calculamos la media de hombres y mujeres en las variables numéricas: Edad, Altura,
Peso, Horas de Estudio, cigarros, comidas, horas semanales de estudio, días que practicas A.F., …
Todo ello con la fórmula =promedio(X1:XY) .

CLASE PRÁCTICA 4: ¿QUÉ APRENDEMOS HOY?
En esta clase hemos realizado las gráficas de edad media, altura media, peso medio, gráfica mixta
de edad, altura y peso medio, y porcentaje de hombres y mujeres en 2ºCAFD.




                                                                                             13

Más contenido relacionado

Similar a Apuntes análisis de datos

Tema 1 Aspectos Generales Investigación Cuantitativa
Tema 1 Aspectos Generales Investigación CuantitativaTema 1 Aspectos Generales Investigación Cuantitativa
Tema 1 Aspectos Generales Investigación Cuantitativa
Revista Crítica con Ciencia (e-ISSN: 2958-9495)
 
METODOLOGIA DE LA INVESTIGACIÓN
METODOLOGIA DE LA INVESTIGACIÓNMETODOLOGIA DE LA INVESTIGACIÓN
Metodos y tecnicas de la investigacion cientifica
Metodos y tecnicas de la investigacion cientificaMetodos y tecnicas de la investigacion cientifica
Metodos y tecnicas de la investigacion cientifica
Jorge Vásquez
 
El diseño de investigación
El diseño de investigaciónEl diseño de investigación
El diseño de investigación
Paul Antonio Córdoba Mendoza
 
Investigació quantitativa: Paradigmes, metodologia, anàlisi i presentació de ...
Investigació quantitativa: Paradigmes, metodologia, anàlisi i presentació de ...Investigació quantitativa: Paradigmes, metodologia, anàlisi i presentació de ...
Investigació quantitativa: Paradigmes, metodologia, anàlisi i presentació de ...
ARGET URV
 
El enfoque de la investigación cuantitativa y sus diferencias con la investig...
El enfoque de la investigación cuantitativa y sus diferencias con la investig...El enfoque de la investigación cuantitativa y sus diferencias con la investig...
El enfoque de la investigación cuantitativa y sus diferencias con la investig...
Abraham Sopla
 
La poblacion y muestra en una investigacion
La poblacion y muestra en una investigacionLa poblacion y muestra en una investigacion
La poblacion y muestra en una investigacion
Lima - Perú
 
2. enfoque cualitativo y cuantitativo de investigación
2. enfoque cualitativo y cuantitativo de investigación2. enfoque cualitativo y cuantitativo de investigación
2. enfoque cualitativo y cuantitativo de investigación
Andrea Acevedo Lipes
 
Investigacion 1
Investigacion 1Investigacion 1
Investigacion 1
Ennio Galucio
 
Separata estadistica general - aula virtual
Separata   estadistica general - aula virtualSeparata   estadistica general - aula virtual
Separata estadistica general - aula virtual
Michael Cabrera
 
Investigacion cuantitativa
Investigacion cuantitativaInvestigacion cuantitativa
Investigacion cuantitativa
XimenaAlmendras
 
Trabajo De Campo De Poma Garcia
Trabajo De Campo De Poma GarciaTrabajo De Campo De Poma Garcia
Trabajo De Campo De Poma Garcia
guest35a97b
 
T R A B A J O D E C A M P O D E P O M A G A R C I A
T R A B A J O  D E  C A M P O  D E  P O M A  G A R C I AT R A B A J O  D E  C A M P O  D E  P O M A  G A R C I A
T R A B A J O D E C A M P O D E P O M A G A R C I A
guest35a97b
 
TRABAJO DE CAMPO
TRABAJO  DE CAMPOTRABAJO  DE CAMPO
TRABAJO DE CAMPO
guest35a97b
 
Estadística 1
Estadística                                                         1Estadística                                                         1
Estadística 1
fulvioespinoza
 
Sesión 1.pdf
Sesión 1.pdfSesión 1.pdf
Sesión 1.pdf
gokunaruto5
 
Tema 3
Tema 3Tema 3
Diapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especificoDiapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especifico
juancarlos63884
 
Etapas de la met. cualitativa
Etapas de  la met. cualitativaEtapas de  la met. cualitativa
Etapas de la met. cualitativa
Tristeza K-stillo
 
Tipos de investigacion , Hurtado
Tipos de investigacion , HurtadoTipos de investigacion , Hurtado
Tipos de investigacion , Hurtado
YAS Arias
 

Similar a Apuntes análisis de datos (20)

Tema 1 Aspectos Generales Investigación Cuantitativa
Tema 1 Aspectos Generales Investigación CuantitativaTema 1 Aspectos Generales Investigación Cuantitativa
Tema 1 Aspectos Generales Investigación Cuantitativa
 
METODOLOGIA DE LA INVESTIGACIÓN
METODOLOGIA DE LA INVESTIGACIÓNMETODOLOGIA DE LA INVESTIGACIÓN
METODOLOGIA DE LA INVESTIGACIÓN
 
Metodos y tecnicas de la investigacion cientifica
Metodos y tecnicas de la investigacion cientificaMetodos y tecnicas de la investigacion cientifica
Metodos y tecnicas de la investigacion cientifica
 
El diseño de investigación
El diseño de investigaciónEl diseño de investigación
El diseño de investigación
 
Investigació quantitativa: Paradigmes, metodologia, anàlisi i presentació de ...
Investigació quantitativa: Paradigmes, metodologia, anàlisi i presentació de ...Investigació quantitativa: Paradigmes, metodologia, anàlisi i presentació de ...
Investigació quantitativa: Paradigmes, metodologia, anàlisi i presentació de ...
 
El enfoque de la investigación cuantitativa y sus diferencias con la investig...
El enfoque de la investigación cuantitativa y sus diferencias con la investig...El enfoque de la investigación cuantitativa y sus diferencias con la investig...
El enfoque de la investigación cuantitativa y sus diferencias con la investig...
 
La poblacion y muestra en una investigacion
La poblacion y muestra en una investigacionLa poblacion y muestra en una investigacion
La poblacion y muestra en una investigacion
 
2. enfoque cualitativo y cuantitativo de investigación
2. enfoque cualitativo y cuantitativo de investigación2. enfoque cualitativo y cuantitativo de investigación
2. enfoque cualitativo y cuantitativo de investigación
 
Investigacion 1
Investigacion 1Investigacion 1
Investigacion 1
 
Separata estadistica general - aula virtual
Separata   estadistica general - aula virtualSeparata   estadistica general - aula virtual
Separata estadistica general - aula virtual
 
Investigacion cuantitativa
Investigacion cuantitativaInvestigacion cuantitativa
Investigacion cuantitativa
 
Trabajo De Campo De Poma Garcia
Trabajo De Campo De Poma GarciaTrabajo De Campo De Poma Garcia
Trabajo De Campo De Poma Garcia
 
T R A B A J O D E C A M P O D E P O M A G A R C I A
T R A B A J O  D E  C A M P O  D E  P O M A  G A R C I AT R A B A J O  D E  C A M P O  D E  P O M A  G A R C I A
T R A B A J O D E C A M P O D E P O M A G A R C I A
 
TRABAJO DE CAMPO
TRABAJO  DE CAMPOTRABAJO  DE CAMPO
TRABAJO DE CAMPO
 
Estadística 1
Estadística                                                         1Estadística                                                         1
Estadística 1
 
Sesión 1.pdf
Sesión 1.pdfSesión 1.pdf
Sesión 1.pdf
 
Tema 3
Tema 3Tema 3
Tema 3
 
Diapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especificoDiapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especifico
 
Etapas de la met. cualitativa
Etapas de  la met. cualitativaEtapas de  la met. cualitativa
Etapas de la met. cualitativa
 
Tipos de investigacion , Hurtado
Tipos de investigacion , HurtadoTipos de investigacion , Hurtado
Tipos de investigacion , Hurtado
 

Más de Sierras89

NNTT
NNTTNNTT
NNTT
Sierras89
 
Nuevas tecnologías
Nuevas tecnologíasNuevas tecnologías
Nuevas tecnologías
Sierras89
 
Apuntes af en naturaleza!
Apuntes af en naturaleza!Apuntes af en naturaleza!
Apuntes af en naturaleza!
Sierras89
 
Socio 2
Socio 2Socio 2
Socio 2
Sierras89
 
Socio 1
Socio 1Socio 1
Socio 1
Sierras89
 
Hockey resúmen
Hockey resúmenHockey resúmen
Hockey resúmen
Sierras89
 
Fundamentos pedagógicos paradigmas
Fundamentos pedagógicos paradigmasFundamentos pedagógicos paradigmas
Fundamentos pedagógicos paradigmas
Sierras89
 
Fisiologia 2
Fisiologia 2Fisiologia 2
Fisiologia 2
Sierras89
 
Examen test historia
Examen test historiaExamen test historia
Examen test historia
Sierras89
 
Examen test conceptuales
Examen test conceptualesExamen test conceptuales
Examen test conceptuales
Sierras89
 
Conceptuales a 1 cara
Conceptuales a 1 caraConceptuales a 1 cara
Conceptuales a 1 cara
Sierras89
 
Bm 2º parcial
Bm 2º parcialBm 2º parcial
Bm 2º parcial
Sierras89
 
Apuntes historia 2do cuatrimestre
Apuntes historia 2do cuatrimestreApuntes historia 2do cuatrimestre
Apuntes historia 2do cuatrimestre
Sierras89
 
Apuntes deportes de combate
Apuntes deportes de combateApuntes deportes de combate
Apuntes deportes de combate
Sierras89
 
Apuntes conceptuales2 pdf
Apuntes conceptuales2 pdfApuntes conceptuales2 pdf
Apuntes conceptuales2 pdf
Sierras89
 
Apuntes cnceptuales pdf
Apuntes cnceptuales pdfApuntes cnceptuales pdf
Apuntes cnceptuales pdf
Sierras89
 
Apuntes bm 1
Apuntes bm 1Apuntes bm 1
Apuntes bm 1
Sierras89
 
Afn2
Afn2Afn2
Afn2
Sierras89
 
Acuaticos y deslizamiento
Acuaticos y deslizamientoAcuaticos y deslizamiento
Acuaticos y deslizamiento
Sierras89
 
Fisiologia 1
Fisiologia 1Fisiologia 1
Fisiologia 1
Sierras89
 

Más de Sierras89 (20)

NNTT
NNTTNNTT
NNTT
 
Nuevas tecnologías
Nuevas tecnologíasNuevas tecnologías
Nuevas tecnologías
 
Apuntes af en naturaleza!
Apuntes af en naturaleza!Apuntes af en naturaleza!
Apuntes af en naturaleza!
 
Socio 2
Socio 2Socio 2
Socio 2
 
Socio 1
Socio 1Socio 1
Socio 1
 
Hockey resúmen
Hockey resúmenHockey resúmen
Hockey resúmen
 
Fundamentos pedagógicos paradigmas
Fundamentos pedagógicos paradigmasFundamentos pedagógicos paradigmas
Fundamentos pedagógicos paradigmas
 
Fisiologia 2
Fisiologia 2Fisiologia 2
Fisiologia 2
 
Examen test historia
Examen test historiaExamen test historia
Examen test historia
 
Examen test conceptuales
Examen test conceptualesExamen test conceptuales
Examen test conceptuales
 
Conceptuales a 1 cara
Conceptuales a 1 caraConceptuales a 1 cara
Conceptuales a 1 cara
 
Bm 2º parcial
Bm 2º parcialBm 2º parcial
Bm 2º parcial
 
Apuntes historia 2do cuatrimestre
Apuntes historia 2do cuatrimestreApuntes historia 2do cuatrimestre
Apuntes historia 2do cuatrimestre
 
Apuntes deportes de combate
Apuntes deportes de combateApuntes deportes de combate
Apuntes deportes de combate
 
Apuntes conceptuales2 pdf
Apuntes conceptuales2 pdfApuntes conceptuales2 pdf
Apuntes conceptuales2 pdf
 
Apuntes cnceptuales pdf
Apuntes cnceptuales pdfApuntes cnceptuales pdf
Apuntes cnceptuales pdf
 
Apuntes bm 1
Apuntes bm 1Apuntes bm 1
Apuntes bm 1
 
Afn2
Afn2Afn2
Afn2
 
Acuaticos y deslizamiento
Acuaticos y deslizamientoAcuaticos y deslizamiento
Acuaticos y deslizamiento
 
Fisiologia 1
Fisiologia 1Fisiologia 1
Fisiologia 1
 

Apuntes análisis de datos

  • 1. APUNTES ANÁLISIS DE DATOS BY SIERRAS TEMA 1: INTRODUCCIÓN Definición de Análisis de Datos: - Práctica de torturar a los números para que confiesen. - Partimos de la convicción de que cierto significa “poco más que altamente probable”. - Constituye la mejor herramienta matemática para tomar decisiones correctas cuando nos enfrentamos a la incertidumbre (casi siempre). - La estadística es un conjunto de procedimientos para reunir, clasificar, codificar, procesar, analizar y resumir información numérica adquirida sistemáticamente. - Aunque normalmente se asocia mucho a cálculos y operaciones aritméticas, y aunque las matemáticas están involucradas, en su mayor parte sus fundamentos y uso apropiado pueden dominarse sin hacer referencia a habilidades matemáticas avanzadas. De hecho, se trata de una forma de ver la realidad en el análisis cuidadoso de los hechos. - Analizar + Interpretar. Herramientas para el análisis de datos: - SPSS. - Microsoft Excel. Necesidad de la Estadística en CAFD: - Razonamiento inductivo (de lo particular a lo general; Muestra -> Población). - Variabilidad biológica (dos muestras no son iguales; resultados impredecibles; afirmaciones en términos de posibilidad). - Grado creciente de cuantificación (necesidad de tratamiento adecuado para grandes cantidades de información). - Investigación (da rigor científico). La expresión “análisis de datos” cubre muchos tipos de actividades/habilidades; si alguien dice “yo hago análisis de datos” no solemos tener claro qué sabe/hace. Proceso básico de AD: - Definir: Tener claro lo que se sabe y lo que no; prever para evitar sorpresas posteriores posiblemente sin solución por: o Incertidumbre. o Aleatoriedad. o Imposibilidad técnica, ética o económica de medir a toda la población. o Existencia de parámetros inobservables directamente. o ¿Solución? Diseño del experimento: Definir. - Dividir: preparar fuentes de datos, comprender la naturaleza de los datos (variables continuas y discretas, escalas de medida, distribuciones de frecuencia…), preparar esos datos (limpieza, eliminación de variables, transformación, segmentación,…), etc. - Evaluar: Estadística, tablas y gráficos ¿Qué es un dato? Es una representación simbólica (número, letra o figura), característica de una entidad, que sirve para representar una característica de un hecho observable (Ej: ¿Cuál es el color de pelo de moda?). Recordar que la Observación no es análisis de datos; sino que es un paso previo a la toma de datos. 1
  • 2. TEMA 2: EL PROCEDIMIENTO DE ANÁLISIS DE DATOS (PERSPECTIVA GENERAL) - El método científico de investigación (4 pasos): 1. Desarrollo del problema: Qué se va a estudiar y con qué profundidad. a. Determinar las variables del estudio: i. Variable independiente (variable experimental o explicativa) ii. Variable dependiente (resultado o variable explicada; la que queremos ver como se comporta). 2. Formulación de la hipótesis: Resultado anticipado o esperado de une studio; debe ser contrastable (aceptada/rechazada mediante métodos científicos). 3. Recogida de datos: Proceso rutinario basado en la optimización de la metodología de la investigación (objetividad del proceso; es decir, que no afecte quien coja los resultados; que no se contaminen). 4. Análisis e interpretación de los Resultados: Implica algún tipo de análisis estadístico; requiere conocimiento y experiencia (carentes en investigadores noveles). Se deben aportar pruebas para aceptar/rechazar la hipótesis del trabajo. - Tipos de investigación: 1. Investigación Analítica: Revisión, estudio sobre lo que ya hay publicado sobre un tema; basada en estudios que ya existe (investigación histórica, filosófica, revisiones e investigación de síntesis o meta-análisis). 2. Investigaciones Descriptivas: Describen una realidad (ej: altura media de una población). Ejemplos de investigaciones cualitativas: Cuestionario, entrevista, encuesta normativa, estudio de caso, estudios correlaciónales, otros tipos e - Investigaciones Observacionales: Se observa el comportamiento de los participantes en su entorno natural; Metodología: o Observación en Directo: Ventajas: Datos Inmediatos (información in situ) y ahorro de tiempo (único visionado). Inconvenientes: Limitación de variables a observar y mayor posibilidad de error. o Observación a Posteriori (grabación): Ventajas: Registro de mayor número de variables y observación de varios focos de atención. Inconvenientes: Coste material filmación/reproducción y autorización de la grabación. 3. Investigación Experimental: Lo contrario a la descriptiva; el investigador influye en el estudio (manipulación de tratamientos – variable independiente -; causa y efecto). 4. Investigación Cualitativa: Son muy complejas; usadas en las ciencias sociales; requiere un profundo entendimiento del comportamiento humano. Investiga el por qué y el cómo se tomó una decisión; usa herramientas en recogida como la observación de una población en su medio o entrevistas usando escalas de actitudes (Likert, diferencial semántico, de Guttman, etc.) Revisión Bibliográfica: - Recomendaciones en la elección de un tema de investigación: o Leer lo más importante escrito sobre el tema (análisis de interés). o Hacer una tabla resumen (relacionar los estudios encontrados de manera eficaz). o Mucho escrito sobre el tema: Investigación poco novedosa; bajo interés. o Poco escrito sobre el tema: Tema poco interesante o tema interesante inexplorado. - Pasos a seguir en la búsqueda de bibliografía: 1. Redactar definición del problema (completa y concisa). 2. Consulta de manuales, libros, enciclopedias, revisiones (fuentes secundarias). 3. Consulta de Bases de Datos de Investigación (catálogos de bibliotecas/bases de datos). 2
  • 3. TEMA 3: INTRODUCCIÓN A LA ESTADÍSTICA ¿Qué es la estadística? La estadística es la ciencia que estudia las características de un conjunto de datos. Se utiliza para: o Describir un conjunto. o Hallar regularidades. o Efectuar predicciones. Conceptos Básicos: o Población: Conjunto de cosas que son propósito de nuestro estudio. Población = N (el todo; conjunto completo). o Muestra: Grupo reducido de la población que utilizaremos para el estudio. Muestra = n (lo que yo estudio; subconjunto de la población). ¿Por qué no se estudia siempre la población? o Recursos económicos limitados. o Tiempo limitado o Imposibilidad de acceder a la muestra. o Destrucción de la población. ¿Qué es una variable? Es la cualidad de algo que se puede medir. Puede ser medida u observada; toma valores diferentes para cada individuo de la muestra; es relevante para nuestro estudio. Tipos de Variables: - Variables cuantitativas o numéricas: o Discretas: Valores enteros (ej: Nº de hermanos de amigos: 2, 1, 0, 3…). o Continuas: Cualquier valor (ej: Altura de amigos: 1,73 m., 1,82 m., 1,69m…) Da igual que cambiemos el valor de metros a centímetros, sigue siendo una variable cuantitativa continua. Una variable no se puede modificar; no se mide en función de la unidad de medida, sino de la naturaleza de esta. - Variables cualitativas o categóricas: o Ordinales: Existe relación entre las categorías (una categoría es mejor/peor que otra); por ejemplo: Medalla de Oro, plata, bronce; Una nota de examen Suspenso, Aprobado, Notable, Sobresaliente… o Nominales: No existe relación entre categorías (no hay una que sea mejor/peor que otra); por ejemplo: La Religión Católica, Musulmana, Budista… ó el estado civil de soltero, casado, separado, divorciado, viudo…). Modificación del tipo de variable: - Codificación: o Proceso de conversión de un concepto a un número. Ej: Lanzamientos de Atletismo: Disco (1), Peso (2), Martillo (3), Jabalina (4)… Siguen siendo variables cualitativas nominales, pero se organizan de forma numérica para que resulten datos más sencillos de tratar. - Categorización: o Estudiar las respuestas abiertas y clasificarlas en categorías. o Respuestas semejantes entre sí quedan en la misma categoría. 3
  • 4. Instrumentos de medición: - Observación: Técnica de estudio por excelencia utilizada en todas las ramas. - Encuesta: La más utilizada en la investigación de ciencias sociales. Permiten estandarizar los datos para su análisis posterior. Obtiene gran cantidad de datos de forma económica y en poco tiempo. - Entrevista: Características similares a la encuesta, pero en directo. Permite adaptarse a las respuestas. Métodos de selección de muestras: Una muestra debe ser representativa puesto que sirve para estimar las características de la población. Los métodos de selección de muestra representativa dependen principalmente de: - Tiempo y Dinero. - Posibilidades para tomar la muestra. - Naturaleza de los individuos de la población. - Margen de error asumible en cuanto a representatividad de la muestra (asumes que puede existir un error porque no mides a toda la población). Criterios de selección de elementos: - Basados en Juicio: o Subjetivo; no se puede medir la representatividad. Más óptimo (si quiero medir equipos de fútbol de la Región de Murcia y al lado de mi casa hay 5 clubes, pues mido a esos y no a los que estén en otra ciudad). - Aleatorios: o Selección Objetiva; Error muestral medible. Muchos modelos: Simple: Aleatorio Simple; elijo al azar a 10 alumnos de los 50 de mi clase. Sistemático: Más complejo: 10% de 50 = 5; selecciono mediante un aleatorio simple a un sujeto del 1-5 de la lista, por ejemplo el 3, y le sumo el 10% a dicho número para sacar el resto de muestras, osease: 3+5 = el alumno nº 8, luego elijo al 13, al 18, etc… Estratificado: Si estudio 20 alumnos universitarios; haré un aleatorio simple para seleccionar un par de carreras al azar, luego otro al azar para seleccionar los cursos y luego otro aleatorio simple para ya escoger a los alumnos (Aleatorio Simple por Subgrupos) De conglomerados y estadios múltiples, por cuotas y por bola de nieve: Son aleatorios y se pueden utilizar (no importante). Cálculo del tamaño de la muestra: Espacio Muestral: Todas las posibles muestras que se pueden extraer de una población mediante una técnica de muestreo (todas las combinaciones posibles). Nivel de confianza: Medida de la bondad de la estimación (con cuanta cantidad de la población puedo asegurar que lo que obtengo al medir a la muestra pueda estar seguro de que va a ser así con todos los individuos). • Estudios con tamaños muestrales insuficientes no detectan diferencias entre grupos, concluyendo erróneamente que no existen diferencias. • Estudios con tamaños muestrales excesivos se encarecen. • Altos niveles de confianza y bajo margen de error no significan que la encuesta sea de mayor confianza o tenga menos error. • La principal fuente de error tiene lugar en la recogida de datos. 4
  • 5. La fórmula para calcular el tamaño de la muestra adecuada para el estudio es la siguiente: TEMA 4: ESTADÍSTICA DESCRIPTIVA Estadística descriptiva: Describe las características de un conjunto de datos. Son valores calculados a partir de la muestra que describe una población. Incluye métodos de recolección, descripción, visualización y resumen de datos numérica o gráficamente, originados a partir de las fenómenos de estudio. Estadística Inferencial: Extrae conclusiones sobre una serie de datos (muestra) aplicables a situaciones globales (población). Modela patrones en los datos, extrae inferencias y predice comportamientos acerca de la población estudiada. Estima el valor aproximado de un parámetro en la población a partir de los parámetros calculados sobre la muestra. Estadística Descriptiva: Estadística descriptiva o análisis descriptivo de datos: Conjunto de métodos, medidas y representaciones gráficas que tienen como finalidad principal describir, ordenar, resumir y sintetizar la información contenida en un conjunto de daos y poner de manifiesto sus características básicas (da una idea de como es el grupo). Características de una distribución de frecuencias: Características que nos sirven para sintetizar toda la información que nos proporcionan las tablas estadísticas; medidas de posición, dispersión, forma, concentración… (diferentes medidas) Medidas de posición: Medidas de posición centrales: - Medida: o Aritmética. o Ponderada. o Geométrica. o Armónica. - Mediana. - Moda. Medidas de posición no centrales: - Cuartiles. - Percentiles. - Deciles. 5
  • 6. Media Aritmética (media/promedio) y Ponderada: La más usada. Una muestra tiene solo una media. Se suele utilizar como representante de la muestra. Centro geométrico de los datos observados. Los valores no necesitan ser ordenados para su cálculo. No es aplicable para datos cualitativos. Se ve afectada por valores anormalmente grandes o pequeños (extremos, atípicos, outliers); si existen este tipo de valores, la media puede ser poco representativa de la muestra. Media Geométrica: Se usa para variables que representen variaciones acumulativas (porcentajes, índices, cifras relativas…); solo pueden calcularse sobre valores positivos. Media Armónica: Se utiliza para promedia velocidades, tiempos, rendimiento, etc. No se pueden calcular cuando algún valor es próximo a cero. Mediana: Los valores deben estar ordenados y agrupados para su cálculo. Es el valor del punto medio de la selección, la mitad de los datos están por arriba y por debajo. Cada sección tiene solo una mediana. No es aplicable para datos cualitativos. Puede ser calculado aun habiendo valores extremos. No depende del Nº; sinod e la posición: 1,2,3,4,5; 1,2,(2,5)3,4 = suma del valor 2 + valor de 3 y saco la media. Fórmula Excel: =mediana(X1:X200) Mediana entre las posiciones x1 y x200. Mediana = (n+1)/2 si es impar; n/2 si n es par. Moda: - Es el valor que más se repite, no el más alto o más centrado. - Es el valor más probable, por lo tanto el más común. - Una distribución puede tener más de 2 modas. - Puede ser calculado aun habiendo valores extremos. - Los valores deben estar ordenados y agrupados para su cálculo. Distribución de frecuencias y porcentajes: - Frecuencia absoluta (ni): Número de veces que aparece este valor. - Frecuencia relativa (fi): Cociente entre frecuencia absoluta y tamaño de muestra (N). - Porcentaje (pi): Frecuencia expresada en términos de %. - Ni, Fi, Pi: Acumulados. Distribución acumulada por intervalos : Útil por la diversidad de valores (variables continuas). Cuidado con los extremos. Los intervalos no tienen que tener la misma longitud. - Amplitud de intervalo: diferencia entre los límites del intervalo. - Marca del intervalo de modalidad: punto medio del intervalo que representa. Cuantiles de orden K: - Medida de posición no central que nos da el valor de la muestra, de menor a mayor que deja tras de sí el K % de los valores (cuantos valores están en el x % de…). - Expresan el % de casos en el grupo específico de referencia, cuyo valor es igual o inferior al dado. 6
  • 7. - Los más importantes son: o Cuantil 1 25%, cuantil 2 50%, (coincide con la mediana), cuantil 3 75%, cuantil 4 100%. Son los valores que dividen a una distribución en cuatro partes iguales, cada una con el mismo número de valores (n/4). o Percentiles: P1, P2, (porcentajes en el 2%)…P99 (porcentajes en el 99%). Es una medida que nos dice cómo está posicionado un valor respecto al total de una muestra. o Deciles: D1, D2 (20%),…, D9 (90%). Representaciones Gráficas: 1. Gráficos de Barras: - Suelen representar frecuencias de variables cualitativas. - Eje horizontal: Categorías de las variables. - Eje vertical: Frecuencias Absolutas/Relativas de cada variable. - Cada variable, una barra. Misma anchura y separadas. 2. Gráficos de Sectores: - Suelen representar frecuencias de variables Cualitativas. - El área de cada sector representa el % de la frecuencia relativa observada (un nombre). - El total área del círculo siempre representa el 100% de los datos. - Se suele etiquetar con el valor absoluto de la variable y/o su porcentaje. Útil, por ejemplo, para medir poblaciones. 3. Histogramas: - Suelen representar frecuencias de variables cuantitativas continuas. - En el eje vertical se representan las frecuencias. - En el eje horizontal: o Se representan los valores de las variables. o Se representan los intervalos del mismo tamaño. - Mide Ni: Frecuencia Absoluta. 7
  • 8. Medidas de Dispersión (lo que cambia un dato respecto al resto): Sirven para medir la variabilidad que hay en los datos, para ver lo homogénea/heterogénea que es la muestra respecto a la variable de interés y para saber hasta qué punto las medidas de posición son representativas de la muestra. [ver como varían los datos respecto a un valor representativo del total] TIPOS DE MEDIDAS DE DISPERSIÓN: Rango o recorrido: Diferencia entre los valores máximos y mínimos de la muestra: Re= max(x1,…,xn) – min(x1,…,xn). [recuerda cerrar bien los paréntesis, que aquí no se cierran solos). Rango Intercuartílico: diferencia entre C3 y C1, recoge entre qué valores se encuentra el 50% central de la muestra RI= IQR= C3-C1 Desviación típica: Sirve para situar los datos obtenidos a raíz de la obtención de unos valores medios. La desviación típica es la misma unidad que la variable. Acompaña a la media aritmética, por proporcionar información sobre hasta qué punto dicha medida es representativa del conjunto de datos. Varianza: Medida de variabilidad que acompaña a la media aritmética. Mide la dispersión de los valores en torno al valor central. Si tiene un valor grande, significa que la media no es representativa. Se utiliza porque es menos engorrosa de hacer por ordenador que la DT. =desvestp(…) 8
  • 9. Coeficiente de Variación [Entra Fijo]: Es la más empleada entre las medidas de dispersión relativas. Mide lo grande que es la desviación típica en relación a la medida. No tiene unidades, es un cociente entre dos valores con la misma unidad. Sirve para comparar varianza entre dos variables de distinta naturaleza. Dividiendo la DT entre el promedio de la misma variable, obtenemos un valor sin unidades de medida, que se puede comparar con el de otra variable; a través de esto, podemos valorar cual es realmente la variable con más varianza. Variable Homogénea: La que obtenga valores más cercanos a 0. Variable Dispersa: La que obtenga valores más alejados de 0. Diagrama de Cajas y Bigotes: • Representación Gráfica basada en cuartiles. • Compuesto por un rectángulo (caja) y dos rectas (bigotes). • Muestra Información sobre: o Valores Mínimo y Máximo. o Cuartiles Q1, Q2 (mediana) y Q3. o Existencia de valores atípicos. o Simetría de la distribución. 9
  • 10. FÓRMULAS EXCELL EXÁMEN ANÁLISIS DE DATOS CATEGORIZAR VARIABLES NUMÉRICAS =si (X1<5;1;si X1<8;2;3 1-5 categorizado como 1, 5-8 categorizado como 2, 9-10 cat. como 3 CATEGORIZAR VARIABLES NOMINALES =si(G2=“ADD”;2;G1=“AD”;1;3 ADD categorizado como 2; AD categorizado como 1; ADDD cat. como 3 CONTAR =contar.si(X1:XY;1) Sustituyendo el “1”, por el dato que queramos contar dentro del conjunto X1:XY TAMAÑO MUESTRA ADECUADA =((K^2)*N*p*q)/(E^2*(N-1)+((K^2)*p*q)) N=población; K(85%)=1,44; p (0,5), q (0,5); e=n-N MEDIA ARITMÉTICA (2 formas) =promedio (X1:XY) =suma (X1;XY)/Z (Z= Nº de casos) MEDIANA =mediana (X1:XY) MODA =moda(X1:XY) ni Nº de veces que se repite un valor dentro de un conjunto de dato; =suma (…,…) fi = ni/N (hay un fi para cada valor de ni) pi =fi*100 Ni Fi y Pi Supongamos que tenemos ni1 (1), ni2 (3), ni3 (5) y ni4 (7). (Acumulados) Ni1 = 1; Ni2: 3+1; Ni3: 5+1+3; Ni4: 7+1+3+5 (Nf = 16) /// Fi1 =N1/Nf; Fi2 =N2/Nf; Fi3 =N3/Nf; Fi4 =N4/Nf /// Pi = Fi(1,2,3 y 4)*100 CUANTILES =cuartil(X1:XY;1) Sustituir el ;1 por ;2-3-4 dependiendo del Cuartil que queramos obtener PERCENTILES =percentil(X1:XY;Z) Z= valor del percentil que queremos obtener, expresado entre 0-1 (ej:0,25). HISTOGRAMA Consta de: • Nº de Casos (Ej: 220 casos en el Excel de clase) • Rango =max(X1:XY)-min(X1:XY) • Nº Intervalos (raíz rango) =RAIZ(Rango) [redondear valor al nº superior entero OBLIGATORIO] • Anchura de la columna =rango/nºintervalos DESVIACIÓN TÍPICA [S] =desvest(X:XY) COEFICIENTE DE VARIACIÓN Variable Homogénea =S/Media Aritmética Variable Dispersa Calcular previamente =promedio y =desvest DIAGRAMA DE CAJAS Y BIGOTES Hallar: • Q1, Q2 y Q3 [De Q1 a Q3, creamos una caja; Q2 representada por una línea vertical dentro del cubo] • RI (rango intercuartilico); =Q3-Q1 • 1,5*RI • Q3+1,5*RI [Línea discontinua vertical//límite superior] • Q1-1,5*RI [línea discontinua vertical//límite inferior] • 3*RI • Q3+3*RI [Extremo final eje X] • Q1-3*RI [Extremo inicial eje X] 10
  • 11. PRÁCTICA 1: ¿QUÉ APRENDEMOS HOY? 1. Aprender a tomar datos, utilizando Freescreenca o mediante el impr paint, recortando luego la figura. 2. Aprender aspectos básicos del Microsoft excel: a. Combinar celdas. b. Insertar filas/columnas. c. Ajustar columnas. PRÁCTICA 2: ¿QUÉ APRENDEMOS HOY? 1. Hoy aprendemos como realizar un análisis observacional con el excell. Buscamos en internet un vídeo de la final de la copa del rey de voleibol y unos analizan el saque, y otros el ataque de los dos equipos finalistas. 2. Aprendemos a añadir notas a celdas de excell. 3. También hemos aprendido como crear una tabla resumen. PRÁCTICA 3: ¿QUÉ APRENDEMOS HOY? 1. Abrimos Excell y vamos a tratar la variable “peso” de la población “clase 2ºE CAFD”. 2. Tomamos los datos en una columna de la muestra “20 alumnos de clase 2ºE CAFD”. 3. En otra columna, categorizamos los datos obtenidos a nuestro propio criterio, añadiendo en la leyenda como establecemos las categorías (Ej: Menos de 59 Kg, Liviano (1), entre 60 y 79 Kg, Medio (2) y 80+ Kg, Pesado (3). 4. Con pocos datos, resulta sencillo categorizar la muestra; pero si tuviésemos 100+ sujetos, podemos utilizar una fórmula aritmética de excel para obtener los resultados directamente: a. = si (B4 <59;1; si (B4<80;2;3) Así, podremos establecer el valor para el resultado obtenido en la fila “4”; si ahora la celdilla (C4) donde hemos realizado esta operación la arrastramos al resto de la columna; nos otorgará directamente los datos del resto de la columna (B5, C6, D7, E8…) agilizándonos mucho tiempo de trabajo. 5. Ahora, si copiamos la columna 4, y le damos a “pegado especial” en la columna 5, señalando la opción “valores”, podremos copiar tanto los datos y la fórmula anteriormente utilizada en la nueva columna. 6. Finalmente, seleccionamos la columna “5” entera, pulsamos “Ctrl+B” y en la nueva ventana que nos aparece; en “Buscar” Pondremos, por ejemplo, “2” y en “Remplazar” pondremos “medio”; haciendo que en esta nueva columna los resultados categorizados cuantitativamente/numéricamente “1, 2, 3” queden categorizados cualitativamente/categóricamente “Liviano, Medio, Pesado”. PRÁCTICA 4: ¿QUÉ APRENDEMOS HOY? Hoy hemos aprendido como calcular en Excel el tamaño de muestra adecuada para un ejemplo puesto por estudio. PRÁCTICA 5: ¿QUÉ APRENDEMOS HOY? Hoy hemos entrado a la página del instituto nacional de estadística, y hemos sacado en excell los datos de habitantes de las 52 provincias españolas; luego hemos aprendido a sacar la media aritmética y ponderada de habitantes masculinos y femeninos del total y de las comunidades autónomas de Andalucía. 11
  • 12. Aprendimos que poniendo $ antes de un valor conseguimos que al arrastrar, el dato posterior al dólar no varíe y se opere siempre con esa misma celda (C$4:C16) Existen 2 formas de calcular la media aritmética con Excel: 1. =PORMEDIO (X1:X5) (calcula la media aritmética de todos los valores comprendidos entre X1 y X5. 2. = SUMA (X1:X5)/5 (sumas todos los valores comprendidos entre X1 y X5 y los divides entre la cantidad de casos que has sumado). PRÁCTICA 6, ¿QUÉ APRENDEMOS HOY? 1. Buscar por internet los sueldos de los jugadores del Real Madrid en la temporada 2011- 2012. Una vez encontrados, los seleccionamos – ofimática – excell 2007 Pegamos en una columna todos los datos y nos los pega en la CA; asi que vamos a “datos” luego seleccionamos “texto en columnas”, luego “otros” y seleccionamos el signo por el que queremos que nos corte, de forma que dejemos una fila para jugadores, otra para millones brutos, netos, año. 2. Limpiar los datos: Para ello, vamos a ir separando en columnas; 3. Calcular la mediana y la media del sueldo ¿Son Iguales, O Distintas? Distintas: En datos como sueldos, donde hay grandes diferencias entre unos y otros, es más ajustada a la realidad la MEDIANA que la media; sin embargo, en la altura de una clase, por ejemplo, la MEDIA se acercará más a la realidad. 4. Calcula la proporción entre sueldo bruto y neto. PRÁCTICA 7, ¿QUÉ HACEMOS HOY? Calcular de la plantilla del RM, ni, fi, pi, Ni, Fi, y Pi. PRÁCTICA 8, ¿QUÉ HACEMOS HOY? Hoy rápidamente hayamos quantiles y percentiles con sus fórmulas correspondientes y manualmente. PRÁCTICA 9, ¿QUÉ HACEMOS HOY? Hoy hemos realizado distintos tipos de diagramas. También hemos realizado un histograma de las variables Altura y Peso. Recordar: al hallar el nº de intervalo, redondear siempre hacia el número superior entero. PRÁCTICA 10, ¿QUÉ HACEMOS HOY? Calcular la desviación típica de una de las variables de la tabla de CAFD. PRÁCTICA 11, ¿QUÉ APRENDEMOS HOY? Hoy hemos medido la “varianza” de una de las variables del estudio de clase. También hemos buscado, mediante la fórmula del Coeficiente de Variación, que variable es más homogénea y cual más dispersa comparando edad y peso del estudio de clase. PRÁCTICA 12, ¿QUÉ APRENDEMOS HOY? Primero, Poli realizó un Diagrama de Cajas y Bigotes con los dato de sueldos del R. Madrid. Luego, nosotros mismos, con ayuda de los apuntes debíamos realizar un diagrama de cajas y bigotes con dichos sueldos. 12
  • 13. CLASE PRÁCTICA 1: ¿QUÉ APRENDEMOS HOY? 1. Cómo logearnos en Google Apps con la cuenta mail de la UCAM. a. Una vez dentro “crear formulario”. 2. Cómo rellenar un cuestionario en Google Apps; viendo para ello todos los tipos de preguntas que deja crear y como se rellenarían los campos de cada una. a. El cuestionario consta de TITULO, CUERPO, PREGUNTAS (marcar que cada pregunta sea obligatoria para que el test pueda ser renviado y así disponer de todos los datos para luego sistematizarlos, etc.). b. Tipos de preguntas cuestionario: De texto, texto con párrafo, tipo test, casilla de verificación (como test, pero con opción múltiple), escala (1-5) y cuadrícula (escala 1- 5 y columna con muchos ítems). 3. Para añadir una segunda pregunta al cuestionario, le damos a “añadir elemento”. 4. Dar forma al cuestionario (un fondo): Seleccionamos [tema], elegimos y “aplicar”. 5. Enviar el cuestionario completado (nos hemos quedado por este paso). 6. Depurar los datos obtenidos en el excel del cuestionario (ordenar de mayor a menor y filtrar). CLASE PRÁCTICA 2: ¿QUÉ APRENDEMOS HOY? 1. Inmovilizar Paneles en Excel; ¿Cómo? En la barra de arriba vamos a “vista” y luego seleccionamos “inmovilizar paneles”. 2. Crear una copia de la página de Excel: Doble Click abajo donde pone “Hoja 1” y le cambiamos el nombre por “Datos” luego le damos a Mover o Copiar y a “crear una copia – aceptar”. Nos aparecerá una nueva Hoja de Excell que se llamará “Datos (2). Ahora, la vamos a llamar “Datos Depurados”. 3. Depurar Datos: Ordenar de mayor a menor todas las variables numéricas y asegurarme de que estén todas en la nomenclatura correcta (centímetros). En “sexo”, por ejemplo, ordenaremos y filtraremos de “A a la Z”. 4. Codificar las opciones que sean frases completas por abreviaciones; ¿cómo agilizar esta codificación? Pues con la siguiente fórmula: a. Las variables ordinales las cambiamos con la fórmula del: =SI(G2=“ADD”;2;G1=“AD”;1;3, etc…). 5. DEPURAR RESTO DE DATOS EN CASITA. CLASE PRÁCTICA 3: ¿QUÉ APRENDEMOS HOY? Con los datos ya depurados durante el fin de semana calcular: ni, fi, pi de las variables “otra actividad” y “vives con”. Para calcular los ni de cada uno de estos valores, ya que tenemos +200 muestras y 4 categrías, usar la fórmula de: =contar.si(X1:XY;1), para que nos cuente el número de casos “1”; realizar luego igual para calcular el número de casos 2, 3 y 4 de Otra Actividad, por ejemplo. También calculamos la media de hombres y mujeres en las variables numéricas: Edad, Altura, Peso, Horas de Estudio, cigarros, comidas, horas semanales de estudio, días que practicas A.F., … Todo ello con la fórmula =promedio(X1:XY) . CLASE PRÁCTICA 4: ¿QUÉ APRENDEMOS HOY? En esta clase hemos realizado las gráficas de edad media, altura media, peso medio, gráfica mixta de edad, altura y peso medio, y porcentaje de hombres y mujeres en 2ºCAFD. 13