El análisis de datos bivariado es una forma de análisis estadístico en el cual se cuantifica a nivel descriptivo e inferencial el nivel de covarianza entre dos variables y de esta forma se da cuenta de la relación entre dos variables. La cuantificación de la covarianza consiste en la construcción de coeficientes que permitan integrar en un valor estimado, información con respecto a la varianza conjunta entre dos variables y tiene como objetivo fundamental definir la magnitud y el sentido de la relación entre las variables. De este modo, el análisis conjunto de las varianzas de dos variables (regularmente definidas como X y Y) permite identificar la relación empírica entre éstas, entendiendo por relación el ajuste de los datos a una función estadísticas subyacente.
En este caso, el análisis se basa en tablas de contingencia, por esto el estadístico que se utiliza tienen una definición diferente. El estadístico utilizado es Chi cuadrado y resume que tan alejados está el conteo de cada casilla de la tabla de contingencias al conteo esperado según la hipótesis nula. Se representa con la letra griega x se pronuncia chi o ji en español, por eso se le llama a esta distribución chi cuadrado.
Es un valor de \(x^2\) con (f-1)*(c-1) grados de libertad que se traduce a su p-valor correspondiente
Caso: Se ha realizado una investigación en estudiantes de quinto semestre de un curso electivo en Desarrollo Social, en la primera semana de clases los estudiantes respondieron una encuesta con algunos datos personales y una prueba de Cultura General, al finalizar el semestre volvieron a responder la misma encuesta, en la base de datos se cuenta con las siguientes variables:
Donde:
Se quiere determinar si hay relación entre el cambio de carrera y el género del estudiante.
Nota: Con el comando names() podrás conocer los nombres de las variables en una base de datos.
names(DatosDllSocial)
Inicialmente se comprobará si la tabla de contingencia del caso de estudio tiene al menos 5 casos por cada casilla:
table(DatosDllSocial$Genero, DatosDllSocial$Cambio)
Al ver el número de casos podemos comprobar que se cumple con el supuesto, podríamos asumir que la distribución muestral del estadístico con 1 grados de libertad.
Planteamiento:
Hipótesis científica: Hay relación entre el género de estudiantes y si se ha cambiado o no de carrera.
Hipótesis estadística: Hay asociación entre las variables género y cambio de carrera.
Hipótesis nula: Hay independencia entra las variables de género y cambio de carrera.
chisq.test(DatosDllSocial$Genero, DatosDllSocial $Cambio)
Estadístico de prueba
Es un valor de \(x^²\) con 1 grado de libertad.
Decisión
Como el p-valor es 0.22, no se puede rechazar la hipótesis nula con cualquiera de los niveles de significancia posibles (1%, 5%, 10%).
Conclusión
Como no se rechaza la hipótesis nula:
No hay asociación estadísticamente significativa entra las variables género y cambio de carrera.
Para el siguiente ejercicio se debe seleccionar dos variables categóricas de la base de datos. Una vez las elijas el paso a seguir es plantear las hipótesis de trabajo.
Nota: como recomendación al momento de realizar un ejercicio práctico puedes colocar tus anotaciones con el signo “#” así puedes tenerlos junto con el análisis realizado. Una vez realices el análisis deberás agregar a modo de comentario la Decisión y Conclusión de acuerdo con los resultados obtenidos.
Para este tipo de análisis el estadístico se basa en el coeficiente de correlación de Pearson, el cual resume la fuerza de la asociación lineal entre las variables.
Es un valor de t con n – 2 grados de libertad que se traduce a su p-valor correspondiente.
Caso: Se ha realizado una investigación en estudiantes de quinto semestre de un curso electivo en Desarrollo Social, en la primera semana de clases los estudiantes respondieron una encuesta con algunos datos personales y una evaluación de cultura general, al finalizar el semestre volvieron a responder la misma encuesta, en la base de datos se cuenta con las siguientes variables:
Donde:
Se requiere determinar si existe una relación entre el promedio acumulado y el puntaje obtenido en el pretest de Cultura General.
Es necesario comprobar si las poblaciones de las que provienen las variables son normales. Sin embargo, para esta ocasión se asumirá que la distribución es normal.
Planteamiento de hipótesis
Hipótesis científica: Hay relación lineal entre el puntaje obtenido en la prueba de Cultura General y el promedio acumulado de los estudiantes
Hipótesis estadística: Hay correlación entre el puntaje obtenido en la prueba de Cultura General y el promedio acumulado de los estudiantes
Hipótesis nula: No hay correlación entre el puntaje obtenido en la prueba de Cultura General y el promedio acumulado de los estudiantes
cor.test(DatosDllSocial$PromedioA, DatosDllSocial$CG_Pre)
Estadístico de prueba
Es un valor de t con n-2 grados de libertad.
Decisión
Como el p-valor es 0,002 se puede rechazar la hipótesis nula con un nivel de significancia de 5%
Conclusión
Como se rechaza la hiótesis nula:
Hay correlación entre las variables del puntaje obtenido en el la prueba de Cultura General y el promedio acumulado de los estudiantes.
Ejercicio 2
Ahora se requiere determinar si existe una relación entre el promedio acumulado y el puntaje obtenido en el postest de Cultura General.
Sigue la guía anterior y realiza el análisis. Una vez lleves a cabo el ejercicio deberás agregar a modo de comentario la decisión y conclusión de acuerdo con los resultados obtenido, recuerda que:
1. No solo debes incluir los comandos, siempre que se realiza un análisis debes empezar a revisar el cumplimiento de los supuestos. 2. En caso de asumir la distribución normal debe quedar expresado, para este caso si no se cumple igual deberás realizar el ejercicios haciendo la observación. 3. Detalla tus hipotesis de trabajo. 4. Analiza e interpreta los resultados.
En este caso, el análisis se basa en tablas de contingencia, por esto el estadístico que se utiliza tienen una definición diferente. El estadístico utilizado es Chi cuadrado y resume que tan alejados está el conteo de cada casilla de la tabla de contingencias al conteo esperado según la hipótesis nula. Se representa con la letra griega x se pronuncia chi o ji en español, por eso se le llama a esta distribución chi cuadrado
Es un valor de \(x^2\) con (f-1)*(c-1) grados de libertad que se traduce a su p-valor correspondiente.
Caso: Se ha realizado una investigación en estudiantes de quinto semestre de un curso electivo en Desarrollo Social, en la primera semana de clases los estudiantes respondieron una encuesta con algunos datos personales y una prueba de Cultura General, al finalizar el semestre volvieron a responder la misma encuesta, en la base de datos se cuenta con las siguientes variables:
Donde:
Se quiere determinar si hay relación entre el estado académico y el género del estudiante.
names(Datos_DllSocial)
Inicialmente se comprobará si la tabla de contingencia del caso de estudio tiene al menos 5 casos por cada casilla:
table(Datos_DllSocial$Genero, Datos_DllSocial$Cambio)
Al ver el número de casos podemos comprobar que se cumple con el supuesto, podríamos asumir que la distribución muestral del estadístico \(x^2\) con 1 grados de libertad.
Planteamiento:
Hipótesis científica: Hay relación entre el género de estudiantes y el estado académico.
Hipótesis estadística: Hay asociación entre las variables género y el estado académico.
Hipótesis nula: Hay independencia entra las variables de género y el estado académico.
table(Datos_DllSocial$Genero, Datos_DllSocial$Cambio)
Estadístico de prueba
Es un valor de con 1 grado de libertad.
Decisión
Como el p-valor es 0.89, no se puede rechazar la hipótesis nula con cualquiera de los niveles de significancia posibles (1%, 5%, 10%)
Conclusión
Como no se rechaza la hipótesis nula:
No hay asociación estadísticamente significativa entra las variables género y el estado académico.
Se quiere determinar si hay relación entre el cambio de carrera y el género del estudiante.
Planteamiento:
Hipótesis científica: Hay relación entre el género de estudiantes y si se ha cambiado o no de carrera.
Hipótesis estadística: Hay asociación entre las variables género y cambio de carrera.
Hipótesis nula: Hay independencia entra las variables de género y cambio de carrera.
chisq.test(Datos_DllSocial$Genero, Datos_DllSocial$Cambio)
Nota: aparece un mensaje de advertencia de que la aproximación del estadístico puede estar incorrecta por la violación de la condición de al menos 5 casos por casilla.
Antes de realizar cualquier análisis se debe comprobar el cumplimiento de los supuestos. Para esto debemos utilizar el comando “table” acompañado del nombre de la base de datos y las variables categóricas de interés
table(Datos_DllSocial$Genero, Datos_DllSocial$Cambio)
Con los resultados obtenidos podemos verificar que no se puede asumir normalidad al no cumplir con el mínimo de casos por casillas. En este caso no se puede realizar el análisis.
Para el siguiente ejercicio se debe seleccionar dos variables categóricas de la base de datos. Una vez las elijas el paso a seguir es plantear las hipótesis de trabajo. Nota: como recomendación al momento de realizar un ejercicio práctico puedes colocar tus anotaciones con el signo “#” así puedes tenerlos junto con el análisis realizado. Una vez realices el análisis deberás agregar a modo de comentario la Decisión y Conclusión de acuerdo con los resultados obtenidos.
Pista: Siempre antes de hacer el análisis revisa el cumplimiento de los supuestos.
Para este tipo de análisis el estadístico se basa en el coeficiente de correlación de Pearson, el cual resume la fuerza de la asociación lineal entre las variables.
Es un valor de t con n – 2 grados de libertad que se traduce a su p-valor correspondiente.
Caso: Se ha realizado una investigación en estudiantes de quinto semestre de un curso electivo en Desarrollo Social, en la primera semana de clases los estudiantes respondieron una encuesta con algunos datos personales y una evaluación de cultura general, al finalizar el semestre volvieron a responder la misma encuesta, en la base de datos se cuenta con las siguientes variables:
Donde:
Se requiere determinar si existe una relación entre el promedio acumulado y el puntaje obtenido en el pretest de Cultura General.
Condiciones (Supuestos) y distribución muestral
Es necesario comprobar si las poblaciones de las que provienen las variables son normales. Sin embargo, para esta ocasión se asumirá que la distribución es normal.
Prueba de hipótesis
Planteamiento de hipótesis
#hipótesis científica: Hay relación lineal entre el puntaje obtenido en la prueba de Cultura General y el promedio acumulado de los estudiantes
#Hipótesis estadística:
#Hipótesis nula:
Análisis
Para realizar el análisis se debe utilizar el comando “cor.test” acompañado de la información de la base de datos y las variables de interés entre paréntesis.
Ejemplo: “cor.test(NombreDelArchivo$Variable1, NombreDelArchivo$Variable2)”
Sigue la guía anterior y realiza el análisis. Una vez realices el ejercicio deberás agregar a modo de comentario la Decisión y Conclusión de acuerdo con los resultados obtenidos, recuerda que:
1. No solo debes incluir los comandos, siempre que se realiza un análisis debes empezar a revisar el cumplimiento de los supuestos, 2. En caso de asumir la distribución normal debe quedar expresado, para este caso si no se cumple igual deberás realizar el ejercicios haciendo la observación. 3. Detalla tus hipotesis de trabajo. 3. Detalla tus hipotesis de trabajo 4. Analiza e interpreta los resultados