CORRELACIÓN
Concepto:
Una correlación es una medida o grado de relación entre dos variables. Un conjunto de datos puede ser positivamente correlacionado, negativamente correlacionado o no correlacionado del todo.
Correlación positiva o directamente proporcional r = (+).
Nos indica que al modificarse en promedio una variable en un sentido, la otra lo hace en la misma dirección.
Correlación negativa o inversamente proporcional r = (-).
Nos muestra que al cambiar una variable en una determinada dirección (en promedio), la otra lo hace en sentido contrario u opuesto.
Tarea del seminario 9, donde se realizan distintos contrastes de hipótesis para observar la correlación entre distintas variables, eligiendo un tipo de coeficiente de correlación dependiendo del tipo de estas. Ejercicio realizado paso a paso utilizando el programa estadístico SPSS.
3Redu: Responsabilidad, Resiliencia y Respetocdraco
¡Hola! Somos 3Redu, conformados por Juan Camilo y Cristian. Entendemos las dificultades que enfrentan muchos estudiantes al tratar de comprender conceptos matemáticos. Nuestro objetivo es brindar una solución inclusiva y accesible para todos.
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
Actualmente, y debido al desarrollo tecnológico de campos como la informática y la electrónica, la mayoría de las bases de datos están en formato digital, siendo este un componente electrónico, por tanto se ha desarrollado y se ofrece un amplio rango de soluciones al problema del almacenamiento de datos.
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Telefónica
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0xWord escrito por Ibón Reinoso ( https://mypublicinbox.com/IBhone ) con Prólogo de Chema Alonso ( https://mypublicinbox.com/ChemaAlonso ). Puedes comprarlo aquí: https://0xword.com/es/libros/233-big-data-tecnologias-para-arquitecturas-data-centric.html
2. Variables cuantitativas: talla y peso
-H1: existe relación entre peso y talla.
-H0: no existe relación.
Hay que considerar que
aceptamos H1 cuando, p<0.05=
error tipo 1.
1. Para comprobar ambas hipótesis
utilizamos la R de PearsonR de Pearson, pero poder
utilizarla, antes tenemos que probar
que se cumplen las dos asunciones.
2. Primera asunciónPrimera asunción: Relación lineal con
gráficos de dispersión. En este caso, los
datos de la gráfica se aproximan a una
línea, por tanto, la primera asunción la
aceptamos.
3. Variables cuantitativas: talla y peso
3. Para comprobar la segunda asunción, hay que evaluar la
normalidadnormalidad de nuestros datos.
Para explorar la normalidad, se utilizan gráficos, por ejemplo el
Histograma o el Diagrama de cajas, o mediante pruebas, las
cuales pueden ser: La de Kolmogorov-Smirnov o Shapiro-Wilk.
Cuando la muestra es mayor de 30 podemos utilizar la prueba
de Kolmogorov.
Hay que plantear una hipótesishipótesis:
-H1: existen diferencias. Nuestra distribución es distinta a la normal.
-H0: no existen diferencias. Nuestra distribución es igual a la normal
4. Variables cuantitativas: talla y peso
Si en la tabla miramos “SIG = p”, como esta en la prueba de Kolmogorov-Smirnov, es menor a 0.05, en
teoría, aceptamos la H1, algo que no es normal ya que nosotros buscamos lo contrario, refutarla. Por
tanto, vemos si mas o menos las gráficas son simétricas. Y fijándonos en los gráficos comprobamos que
si hay una distribución normal con un leve incumplimiento. Además, había que tener en cuenta la n, y a
n grande más se acercan nuestros datos a la población. En nuestro caso, la n= 500 individuos, por lo
tanto diríamos que nuestro datos concuerdan, en su gran mayoría, con la normalidad.
Ahora ya si que podemos hacer la R de Pearson porque la distribución es normal y la relación es lineal,
es decir, se cumplen las dos asunciones.
7. Variables cuantitativas: talla y peso
4. Para ver si existe relación entre las variables, nos fijamos en la correlación.
Mientras más se acerque al 1, mayor es la correlación, fuerza de la relación
entre las variables.
En nuestro caso, 0.646 también es un indicador de una alta relación, se
acerca al uno. A más peso, más talla. La correlación es alta >0.5. Por tanto,
sí podemos aceptar la H1, porque además la p<0.05.
Cuando el valor de la relación es:
>0.1 es baja.
>0.3 es media.
>0.5 es alta.
8. Variables cuantitativas: talla y peso
- En este ejercicio hemos utilizamos la
R de Pearson, pero también podríamos
usar la Tau de Kendall y la Rho de
Spearman que son pruebas nono
paramétricasparamétricas.
- Se dice que las pruebas no
paramétricas son más conservadoras,
es decir, es mas difícil rechazar la H0
en la Tau de Kendall, por ejemplo.
Spearman, también, es mas potente
encuentra las diferencias con más
facilidad.
9. Variables cualitativas o categóricas:
sexo y actividad física
Vemos la relación que existe entre el sexo (variable cualitativa, dicotómica,
binaria, por ello consideramos que es una correlación biserial puntual) y la
actividad física, que es ordinal, pero como se estudian 7 posibilidades, es
cuantitativa (menos de 5 puntos se considera ordinal). Hipótesis:
- H1: existe relación entre sexo y actividad física.
- H0: no existe relación.
Como es una muestra grande asumimos que los datos presentan una
distribución normal. Por lo tanto, se cumplen las dos asunciones.
10. Interpretamos el signo (-), fijándonos en nuestra base de datos. Podemos
observar que 1 es ser chico, y 2 es ser chica. Luego cuando pasamos de
chico, que en este caso es 1, y chica, que es 2, se reduce la frecuencia de
actividad física, ya que hemos dicho que a más, menos.
Variables cualitativas o categóricas:
sexo y actividad física
Aceptamos H1 porque
p<0.05. Por lo tanto existe
relación entre ambas
variables, a más, menos. .
Sin embargo, la correlación
es mediamedia ya que r =0.303.
11. Variables categóricas y variables
categóricas: sexo y consumo de
tabaco
A continuación vamos a ver las relaciones entre variables categóricas y
variables categóricas. Este tipo de correlaciones se analizan utilizando las
tablas de contingencia. Usamos el coeficiente de Phi/ Coeficiente de
Contingencia y la V de Cramer.
Coeficiente de Phi: Lo utilizamos para la relación de dos variables categóricas
dicotómicas. Ej.: sexo y consumo de tabaco. Establecemos las hipótesis:
- H1: existe relación entre el sexo y el consumo de tabaco.
- H0: no existe diferencias.
12. Variables categóricas y variables
categóricas: sexo y consumo de
tabaco
El valor de Phi es bajo, está cerca de 0,019, además P (Sig.) es 0.648,
como está por encima de 0.5, rechazamos la hipótesis alternativa. Por
tanto, no existe relación entre las variables.
13. Variables categóricas y variables
categóricas: sexo y consumo de
tabaco
El recuento esperado es el que se espera cuando no hay diferencias. Nosotros partimos de un
modelo en el que no existen diferencias, que es el recuento esperado. La relación entre el recuento
esperado y recuento observado, nos da una idea de si es cierta o no la relación entre las dos
variables.
En la tabla de frecuencias se parte de un modelo en el que no hay diferencia de consumo de tabaco
en función del sexo. Ello lo comparamos con lo observado, se observó que 149 chicos no fumaban,
y con lo esperado, se esperaba que 146 chicos no fumaran. Hay una pequeña diferencia. En chicas
se esperaba que 153 no fumaran, y no fuman 151 por lo observado, hay una pequeña diferencia
también. Por tanto, podemos decir que las variables no tiene relación ya que la diferencia que se
aprecia entre los datos observados y los esperados, es muy pequeña.
14. Ahora vamos a ver la relación entre variables nominales y nominales.
Utilizaremos el Coeficiente de Contingencia y V de Cramer.
- Variables a relacionar:
Grado apgar (funcionamiento de la familia). Esta tiene tres categorías:
Funcional, disfuncional leve y disfuncional grave. Es una variable nominal.
La vamos a relacionar con la frecuencia de consumo de tabaco: No fumo,
menos de una vez a la semana, al menos una vez a la semana, todos los
días. Variable nominal.
Variables nominales y variables
nominales: funcionamiento familiar y
consumo de tabaco
15. Variables nominales y variables
nominales: funcionamiento familiar y
consumo de tabaco
La prueba Phi la desechamos porque no es dicotómica, no es un tabla de
2x2, las variables no son binarias. Nos fijamos en el coeficiente de
contingencia porque es el que tiene una correlación más alta (0.195). Tiene
una correlación entre baja y media. P (Sig.) es 0.001, por lo que es menor
que 0.5, es significativa, aceptamos la hipótesis alternativa, por tanto, existe
relación entre el grado de funcionamiento familiar (APGAR) y el consumo de
tabaco. La interpretación (signo positivo) es a más, más. Pero como estamos
ante variables nominales, es necesario analizar la tabla. Comparamos las
frecuencias esperadas con las observadas.
16. Variables nominales y variables
nominales: funcionamiento familiar y
consumo de tabaco
17. Las esperadas parten de un modelo que no tiene diferencias y nosotros
ya hemos observado (en la tabla) que sí existen tales diferencias. Por
ejemplo, se esperaba que 1,5 fumaran todos los días y fumaron 5.
La frecuencia observada es mayor a la esperada en aquellos
participantes con una disfunción familiar grave que además fumaban
todos los días.
Variables nominales y variables
nominales: funcionamiento familiar y
consumo de tabaco