Clase de la Comisión 1 de Estadística. Unidad IV. Análisis de la relación entre variables numéricas
By Aula Virtual
Summary
Topics Covered
- Preguntas explicativas habilitan análisis bivariado
- Hipótesis guía población y variables
- Diagrama de dispersión revela relación lineal
- Ausencia de relación en datos reales
- Coeficiente Pearson mide fuerza y sentido
Full Transcript
Bueno, ¿cómo están? Esta es la última clase de la unidad 4 del programa de la comisión uno de estadística.
Este, esta aclaración es importante, es una clase válida para los estudiantes de la comisión uno de estadística eh para trabajar sobre el análisis de la
relación entre variables numéricas, que fue la clase que nos quedó pendiente de dar de manera presencial. Así que yo me había comprometido a subirles la
grabación y aquí estamos.
Bueno, vamos a empezar. Vamos a hacer primero una pequeña contextualización del análisis de la relación entre variables, algo de lo que ya hemos hablado en las dos clases anteriores
y siempre teniendo en cuenta lo siguiente. Eh, nosotros siempre hablamos
siguiente. Eh, nosotros siempre hablamos a lo largo del curso que el análisis estadístico de datos tiene sentido siempre que uno se formule una pregunta
concreta sobre la realidad social.
Si esa pregunta sobre la realidad social indaga simplemente por la variación que presenta alguna característica,
estamos frente a preguntas de tipo descriptivas. ¿Por qué? Porque son
descriptivas. ¿Por qué? Porque son
preguntas que solo quieren saber cómo son eh cómo es la variación que presentan algunas características, como por ejemplo, cómo son las condiciones de
vida de la población, cómo son las opiniones de las personas, qué creencias tienen las personas, cómo actúan las personas ante alguna situación.
Entonces, son preguntas que para responderlas eh requieren del uso de herramientas estadísticas de análisis univariado, es decir, analizar las
variables de a una univariado, ¿sí? Para
poder dar cuenta de la variación que presentan.
Ahora, si yo estoy frente a una pregunta que indaga sobre las causas de esa variación, cuáles son las causas por las cuales varían esas características, por
ejemplo, preguntarme, ¿de qué depende que algunas personas tengan mejores condiciones de vida que otras? ¿De qué
depende que algunas tengan una opinión y no otra? Crean en algo y no en otra
no otra? Crean en algo y no en otra cosa, actúen de una forma y no de otra.
Son preguntas que ya no buscan simplemente la descripción de la variación, sino que el foco lo ponen en la explicación. Sí, están buscando
la explicación. Sí, están buscando explicar la variación de las características. Son preguntas de tipo
características. Son preguntas de tipo explicativas.
Entonces, para responder este tipo de preguntas, yo tengo que indagar en los factores que podrían estar influyendo en
esa variación. Y cuando hablamos de
esa variación. Y cuando hablamos de factores, hablamos de otras variables que suponemos podrían estar afectando el
comportamiento de las características que buscamos explicar, las condiciones de vida, las opiniones, las prácticas, las creencias. Entonces, para dar
las creencias. Entonces, para dar respuesta a este tipo de preguntas, necesitamos echar mano al análisis de la relación entre variables. ¿Sí?
Entonces eh las preguntas que indagan sobre los factores que inciden en la variación que presentan las características de una
población en estudio habilitan el análisis bivariado, es decir, el análisis de la relación entre dos variables. ¿Sí? Son preguntas que se
variables. ¿Sí? Son preguntas que se enfocan en explic en explicar por qué varían los datos y son preguntas que habilitan el
enunciado de objetivos de tipo explicativos. Estamos buscando
explicativos. Estamos buscando explicaciones. Entonces, vamos con un
explicaciones. Entonces, vamos con un ejemplo. Supónganse que nos estamos
ejemplo. Supónganse que nos estamos preguntando si el ingreso per cápita familiar está relacionado con los años de educación formal del jefe de hogar.
Cuando hablamos de ingreso per cápita familiar, hablamos de ese ingreso que reúne una familia dividido por la cantidad de personas que integran esa familia, ¿no? Entonces, el ingreso per
familia, ¿no? Entonces, el ingreso per cápita familiar está relacionado con los años de educación formal del jefe de hogar. Estoy frente a un propósito, un
hogar. Estoy frente a un propósito, un objetivo de tipo explicativo. ¿Por qué?
¿Qué es lo que quiero explicar acá? Lo
que quiero explicar es la variación que presenta el ingreso per cápita, es decir, ¿de qué depende que algunos hogares tengan un ingreso per cápita
familiar más alto que otros? Sí, eso es lo que busco explicar, el ingreso. ¿Cómo
busco explicarlo? Bueno, en función de los años de educación formal del jefe de hogar. No es la única explicación
hogar. No es la única explicación posible para entender por qué varía el ingreso per cápita, pero es una. Sí, los
fenómenos en las ciencias sociales son multicausales, no tienen una sola causa o un solo factor que incide en su comportamiento. Pero en el análisis
comportamiento. Pero en el análisis bivariado, lo que vamos haciendo es un análisis que se enfoca en analizar la relación de un factor en función de esa
variable que buscamos explicar.
Entonces, vamos a repasar un poco el proceso del análisis bivariado. Habíamos
dicho que para analizar la relación entre dos variables disponemos de diferentes herramientas estadísticas.
Eh, cuando trabajamos el análisis de la relación entre dos variables categóricas, la herramienta es la tabla de contingencia.
Cuando analizamos la relación entre una variable categórica y otra numérica, lo que hacemos es la comparación del resumen de los cinco números. Sí, a
partir de la comparación de, por ejemplo, de los diagramas de caja, eh, que comprenden medidas de tendencia central y de posición. Y para analizar la relación entre dos variables
numéricas, el recurso que disponemos es el diagrama de dispersión eh junto con el coeficiente de Pi a trabajar en detalle. Entonces, en esta
clase nos vamos a detener en esta herramienta para el análisis de la relación entre dos variables numéricas.
Entonces, el proceso es similar al que habíamos eh trabajado en los otros dos tipos de análisis bivariado. Sí, yo
formulo la pregunta, enuncio una hipótesis a partir de la cual yo voy a identificar a quiénes necesito observar y qué variables necesito observar en esa
población para poder afirmar o rechazar la hipótesis.
Le doy tratamiento a los datos y los analizo para llegar a las conclusiones que me permitan responder esa pregunta inicial.
Entonces, volvemos sobre esta pregunta, ¿no? El ingreso per cápita familiar está
¿no? El ingreso per cápita familiar está relacionado con los años de educación formal del jefe de hogar. Enuncio una
hipótesis que dice, "A mayor cantidad de años de educación formal del jefe de hogar, mayor ingreso per cápita familiar.
Es una respuesta tentativa a la pregunta de investigación. Sí, tentativa porque
de investigación. Sí, tentativa porque es una suposición y porque yo la formulo en forma previa al análisis de los datos. Expresa lo que yo espero
datos. Expresa lo que yo espero encontrar de la relación entre las variables y sobre todo este punto es el que más me interesa que le presten atención
y es que la hipótesis guía el análisis de los datos. Y vamos a ver de qué hablamos cuando hablamos de que la hipótesis guía el análisis de los datos.
Lo primero que yo puedo advertir analizando la hipótesis es a quiénes necesito observar. En este caso, yo
necesito observar. En este caso, yo necesito observar hogares. Sí, para ver si la hipótesis es correcta o no, yo necesito observar hogares. Por ejemplo,
hogares de la ciudad de Oberá en el año 2023. Sí, esa es la manera correcta.
2023. Sí, esa es la manera correcta.
ustedes ya lo saben, esto de definir una población estadística, es decir, considerar una unidad de análisis en un espacio geográfico y un tiempo determinado. En este caso sería eh
determinado. En este caso sería eh Noverá en el año 2023.
¿Qué características necesito observar en esa población? Es decir, ¿qué características necesito observar en esos hogares? Bueno, necesito observar
esos hogares? Bueno, necesito observar por un lado el ingreso per cápita familiar y por el otro lado los años de educación formal del jefe de hogar.
¿Qué valores pueden adoptar esas variables? Bueno, el ingreso por cita
variables? Bueno, el ingreso por cita familiar podría adoptar 100,000, 120,000, 250,000 pes o incluso menos de 100,000 pesos. Sí, eh 500,000 pes o
100,000 pesos. Sí, eh 500,000 pes o incluso más de 500,000 pesos. Los años
de educación formal del jefe de hogar, bueno, podrían ser 1, 2, 3, 7, 11, 12, 13, 14, ¿no? Los años eh de educación
que tenga el jefe de hogar. Y en este caso estamos frente a dos variables de tipo numéricas. ¿Sí? Todo esto nosotros
tipo numéricas. ¿Sí? Todo esto nosotros lo podemos analizar a partir de la hipótesis, lo podemos eh discernir a
partir del análisis de la hipótesis.
Entonces, para ver si esta hipótesis es correcta o no, necesito analizar la relación entre el ingreso per cápita familiar y los años de educación formal del jefe hogar. Como son dos variables
numéricas, tengo que usar la herramienta que me permite analizar la relación entre dos variables numéricas. Y esa
herramienta es una herramienta gráfica, ¿sí?, que es el diagrama de dispersión.
¿sí?, que es el diagrama de dispersión.
Vamos a ver de qué hablamos cuando hablamos de diagrama de dispersión.
Entonces, nosotros tenemos esta hipótesis. A mayor
cantidad de años de educación formal del jefe de hogar, mayor el ingreso per cápita, recolecto los datos y los tengo en una matriz de datos. Acá lo que
estamos viendo es un recorte de una matriz de datos que presenta las unidades de análisis, que son hogares y los valores que se registraron para cada
una de esas unidades de análisis en la variable años de educación formal del jefe de hogar e ingreso per cápita familiar. Sí, es una matriz chiquitita
familiar. Sí, es una matriz chiquitita de 17 casos.
Entonces, vamos a ver cómo se grafican estos datos en un diagrama de dispersión para analizar la relación entre estas dos variables que son numéricas. El
diagrama de dispersión es un diagrama que consiste en dos ejes, un eje horizontal y un eje vertical, donde vamos a ubicar cada una de las variables
numéricas. ¿Cómo vamos a ubicar estas
numéricas. ¿Cómo vamos a ubicar estas variables? Bueno, en el eje vertical
variables? Bueno, en el eje vertical vamos a buscar, vamos a ubicar la variable que buscamos explicar, que nuestro ejemplo es el ingreso per
cápita familiar, porque nosotros habíamos dicho que queríamos explicar la variación que presentaba el ingreso per capital familiar. Queríamos ver si el de
capital familiar. Queríamos ver si el de qué dependía que los hogares tuvieran eh un ingreso per cápita más alto o más bajo. Sí.
Entonces, en el eje vertical vamos a ubicar la variable que buscamos explicar, que es la variable dependiente. ¿Sí? Dependiente de quién?
dependiente. ¿Sí? Dependiente de quién?
Del factor que vamos a considerar como el que explica la variación de la variable dependiente. En este caso los
variable dependiente. En este caso los años de educación formal. En el eje horizontal vamos a ubicar la variable explicativa o independiente.
Bien, entonces, ¿cómo funciona este gráfico de dispersión? Es un gráfico de puntos. Es
dispersión? Es un gráfico de puntos. Es
un gráfico que va a tener tantos puntos como unidades de análisis observadas.
¿Sí? Cada unidad de análisis va a ser un punto y la ubicación de cada unidad de análisis, es decir, de cada punto en este diagrama de dispersión, va a estar
dada por el valor que esa unidad de análisis presenta en cada una de las variables. ¿Sí? Entonces, vamos a
variables. ¿Sí? Entonces, vamos a considerar la primer unidad de análisis de nuestra pequeña matriz de datos. es
un hogar cuyo jefe de hogar tiene 8 años de educación formal y un ingreso per cápita familiar de 450,000.
Entonces, la ubicación de este hogar en el diagrama de dispersión va a estar representada por un punto cuya ubicación
está dada por el valor que presenta en los años de educación formal, que son ocho, y el valor que presenta en el ingreso per cápita familiar, que es 450,000 pesos.
La siguiente unidad de análisis es un hogar cuyo jefe de hogar tiene 7 años de educación formal y el ingreso per cápita es de 400,000 pes. ¿Sí?
La siguiente unidad de análisis es un hogar cuyo jefe de hogar tiene 2 años de educación formal y un ingreso per cápita
de 150,000 pesos. Y así sucesivamente voy a ir ubicando los 17 puntos, porque fíjense que son 17 unidades de análisis.
Voy a tener 17 puntos en este diagrama cuya ubicación va a estar definida por el valor que presenta en la variable años de educación formal e ingreso per
cápita familiar.
para ir conformando lo que nosotros vamos a denominar una nube de puntos. Y
esa nube de puntos es la que nos interesa analizar para ver si existe relación entre las variables.
Bien, aquí tenemos los 17 puntos ubicados.
Fíjense que hay algunas unidades de análisis, a ver si me siguen con el mouse. Por ejemplo, acá la unidad de
mouse. Por ejemplo, acá la unidad de análisis 8o y nu presentan exactamente los mismos valores. Entonces, son puntos que en el diagrama de dispersión se
sobreescriben. ¿Sí? Por eso acá si
sobreescriben. ¿Sí? Por eso acá si contamos los puntos no son 17, simplemente porque hay algunos que registran el mismo valor en ambas variables, entonces queda uno
superpuesto encima del otro. Lo que
estamos viendo acá, una vez que tenemos eh todos los puntos ubicados en el diagrama de dispersión, es que al variar
los años de educación formal, varían en varía en forma coordinada el ingreso per cápita que registran esos hogares.
Aumenta un año la educación formal del jefe de hogar y aumenta proporcionalmente el ingreso per cápita familiar.
Estos puntos describen una figura que se asemeja a una recta. Lo que estamos viendo es una
una recta. Lo que estamos viendo es una relación lineal. Entonces, el diagrama
relación lineal. Entonces, el diagrama de dispersión sirve porque visualmente nosotros podemos analizar si la nube de
puntos conformada por todas las unidades de análisis presenta una forma lineal. En este caso presenta una forma lineal perfecta
porque yo puedo trazar una recta que une, que pasa por cada uno de los puntos. ¿Sí?
puntos. ¿Sí?
Entonces, esto por supuesto que es una situación hipotética porque en la vida real eh no ocurre, no se observan de esta forma las relaciones entre las
variables numéricas, pero lo que está representando esta esta situación hipotética es una relación perfecta.
¿Por qué una relación perfecta? Porque
yo puedo predecir exactamente el comportamiento del ingreso per cápita familiar a partir de conocer los años de educación formal del jefe de hogar. ¿Sí?
Es algo así como, decime cuántos años de educación formal tiene el jefe de tu hogar y yo te voy a decir exactamente cuál es el ingreso per cápita familiar que hay en tu hogar. ¿Sí? Entonces, eh
es una situación en la que yo puedo predecir el comportamiento de la variable que puedo explicar a partir de la variación de este factor que yo
considero como causal de ese comportamiento. Entonces, esto en la
comportamiento. Entonces, esto en la vida real social no ocurre de esta forma porque los fenómenos en las ciencias sociales eh no tienen una única eh
causa, no son multicausales. Hay un
montón de factores que inciden en el comportamiento de una variable, en este caso en el ingreso per cápita familiar.
No alcanza con conocer los años de educación formal para explicar enteramente el comportamiento del ingreso per cápita familiar, pero sí los años de educación formal son es una
variable eh importante y que influye en ese ingreso per cápita familiar.
Entonces, veamos una situación que podría ser más parecida eh a una situación real que uno puede absorber a partir de un
relevamiento de datos sociales. Lo que
vemos acá es que para un mismo valor de los años de educación formal, ¿sí?
que en este caso serían hogares cuyos jefes de hogares tienen 7 años de educación formal. Uno puede observar
educación formal. Uno puede observar distintos valores del ingreso per cápita. Sí, lo mismo, por ejemplo, para
cápita. Sí, lo mismo, por ejemplo, para los hogares cuyos jefes de hogares tienen 11 años de educación formal, observamos distintos valores
del ingreso per cápita familiar.
Entonces, lo que estamos viendo es cierta variación en el ingreso en función eh para un para un mismo valor
de la variable años de educación formal.
Si analizamos la nube de puntos, esta nube de puntos adopta una forma lineal, aunque los puntos no se escriben sobre
una recta perfecta. Sí, lo que estamos observando en esta nube de puntos es un comportamiento lineal. Entonces, existe
comportamiento lineal. Entonces, existe una relación lineal, pero esta relación ya no va a ser perfecta. Es decir, yo ya no voy a poder predecir exactamente el
valor del ingreso per cápita familiar a partir de los años de educación formal que tenga el jefe de hogar. Pero sí voy a poder aproximarme bastante, ¿sí?
Porque lo que yo sigo viendo en este caso es que el ingreso per cápita familiar tiende a subir a medida que aumentan los años de educación formal
del jefe de hogar. Podemos decir esto porque lo que estamos observando es un comportamiento lineal entre estas dos variables. Sí,
variables. Sí, fíjense, aumentan los años de educación formal. Yo tengo acá hogares, cuyo jefe
formal. Yo tengo acá hogares, cuyo jefe de hogar tiene 5 años de educación formal y el ingreso per cápita familiar es menor que el
ingreso que registran los hogares, cuyo jefe de hogar tiene 6 años de educación formal. Entonces, lo que vamos viendo es
formal. Entonces, lo que vamos viendo es que el el ingreso per cápita familiar aumenta en promedio a medida que aumenta
el ingreso eh a medida que aumentan los años de educación formal. Sí.
Entonces, los puntos forman una figura que se asemeja a una recta. La nube de puntos representa una forma lineal y nosotros estamos en condiciones de decir
que existe una relación lineal entre las variables. En este caso vamos a hablar
variables. En este caso vamos a hablar de una relación lineal positiva. ¿Por
qué positiva? Porque a valores crecientes de los años de educación formal, aumentan los años de educación formal y tienden a aumentar el ingreso
per cápita familiar. ¿Sí? Entonces, a
valores crecientes de una variable, valores crecientes de la otra. Las los
puntos presentan una forma lineal. Esa nube de puntos cuando yo la observa presenta una forma lineal y es una forma lineal positiva. Sí.
positiva. Sí.
Otra forma, vamos a ver otra forma de eh analizar este diagrama de dispersión.
Supónganse que yo tengo eh yo ya tengo los puntos graficados, ¿sí? Cada punto
es una unidad de análisis. Esos la
ubicación de esos puntos está definida por el valor que cada unidad de análisis presenta en la variable años de educación formal del jefe de hogar y el
ingreso per capital familiar.
Y lo que yo hago es trazar dos líneas tomando el valor promedio, la media aritmética de estas dos variables. ¿Sí?
Esta línea vertical punteada está ubicada en el valor siete porque en promedio todos los hogares tienen jefes de hogar con 7 años de educación formal.
Y esta línea punteada está ubicada aquí porque representa el promedio del ingreso per cápita familiar de todos los
hogares. ¿Para qué me sirve esto? Bueno,
hogares. ¿Para qué me sirve esto? Bueno,
yo podría decir de este lado, si ubican, si ven el movimiento de de la flecha, de este lado yo voy a tener a todas las unidades de análisis, es decir, todos
los hogares cuyos jefes de hogar tienen una cantidad de años de educación formal por encima del promedio. Y de este lado
voy a tener a todos los hogares cuyos jefes de hogar tienen años de educación formal con valores por debajo del promedio.
Del mismo modo, con esta recta punteada o esta línea punteada, lo que yo voy lo puedo lo que puedo discernir son
todos los hogares que tienen ingresos per cápita familiar por encima del promedio del ingreso per cápita familiar y todos los hogares que tienen ingresos per cápita familiar que
se encuentran por debajo del promedio de ingreso per cápita familiar. ¿Para qué
me sirve esto? Bueno, yo lo que puedo ver en este diagrama, en esta en este diagrama de dispersión es que en este
cuadrante yo tengo casos que son hogares con jefes que tienen años de educación por encima de la media y que también tienen ingresos per cápitas familiares
por encima de la media. Y en este cuadrante yo tengo hogares con jefes que tienen años de educación por debajo de la media y que tienen ingresos per
cápita familiares por debajo de la media. O dicho de otra forma,
media. O dicho de otra forma, los que tienen valores altos en educación tienen valores altos en ingreso per cápita y los que tienen valores bajos en educación tienen
valores bajos en el ingreso per cápita.
¿Sí?
Entonces, lo que yo estoy viendo acá es que el ingreso familiar, el ingreso familiar cambia cuando cambian los años de educación formal del jefe de hogar.
Cuando los años de educación del jefe de hogar son altos, los ingresos per cápitas son altos. Y cuando los años de educación formal del jefe de hogar son
bajos, los ingresos per cápita son bajos. Sí, estoy viendo que el ingreso
bajos. Sí, estoy viendo que el ingreso per cápita cambia cuando cambian los años de educación formal. Estoy viendo
que el ingreso per cápita aumenta cuando aumentan eh los años de educación formal del jefe. Sí, lo que estoy viendo es que
del jefe. Sí, lo que estoy viendo es que existe una relación entre las variables.
Bien, vamos a ver otro ejemplo.
Supónganse que yo me pregunto si el ingreso está relacionado con la edad de los asalariados. Cambiamos de población,
asalariados. Cambiamos de población, ¿sí? Y cambiamos de variados. Yo me
¿sí? Y cambiamos de variados. Yo me
pregunto si el ingreso de la ocupación principal está relacionado con la edad de los asalariados.
Estoy frente a un propósito de tipo explicativo porque estoy buscando explicar la variación que presentan los ingresos de los asalariados.
Es decir, quiero explicar de qué depende que algunos ganen más que otros.
¿En función de qué busco explicarlo? En
función de la edad de los asalariados. Y
yo me planteo una hipótesis, una suposición. Yo no sé si esto es cierto o
suposición. Yo no sé si esto es cierto o no es cierto. A mayor edad de los asalariados, mayor ingreso. Sí,
dijimos que la hipótesis guía el análisis de los datos. ¿Por qué? Porque
yo puedo advertir a quiénes tengo que observar. Bueno, en este caso tengo que
observar. Bueno, en este caso tengo que observar asalariados, ¿sí? asalariados,
por ejemplo, de posadas en el cuarto trimestre del 2024. Ubico a esa unidad de análisis en un contexto geográfico y
temporal, en una definición espacio temporal.
Y puedo advertir también del análisis de la hipótesis qué características yo necesito observar en esa población.
Necesito observar el ingreso y necesito observar la edad de esos asalariados. Sí. ¿Qué valores
adoptan esas variables? Bueno, el
ingreso puede adoptar distintos valores, la edad puede adoptar distintos valores, en ambos casos valores de tipo numérico. Por lo tanto,
para decir si esta hipótesis es correcta o no es correcta, necesito analizar la relación entre dos variables numéricas.
¿Sí?
Bien, este podría ser el diagrama de dispersión.
que tengo que construir para ver si esta hipótesis es correcta. En el eje vertical ubiqué la variable ingreso porque es la variable que yo quiero explicar y es la variable que yo quiero
saber si su comportamiento depende de la edad. Por eso la edad la ubiqué en el
edad. Por eso la edad la ubiqué en el eje horizontal. ¿Sí?
eje horizontal. ¿Sí?
Supónganse que yo eh obtuve el promedio de edad de los asalariados y el promedio de ingresos y con eso yo puedo imaginarme
este diagrama de dispersión, ¿no? Y me
pregunto si la hipótesis fuera correcta, atención porque esto suele ser una pregunta de examen final. Si la hipótesis fuera
examen final. Si la hipótesis fuera correcta, ¿en qué cuadrantes yo esperaría encontrar caso? Si yo digo a
mayor edad de los asalariados, mayor ingreso.
Bueno, yo esperaría que los asalariados con mayor edad, que son los que se encuentran de este lado del diagrama de dispersión, es decir, por encima del
promedio, ¿sí? Los asalariados de mayor
promedio, ¿sí? Los asalariados de mayor edad registran qué tipo de ingreso.
Bueno, yo esperaría que registren ingresos altos, pero ¿qué esperaría yo para los asalariados de menor ingresor edad?
Porque si no digo esto, no estoy haciendo un análisis de la relación entre variables. Para los asalariados de
entre variables. Para los asalariados de menor edad, en función de mi hipótesis, yo esperaría que presenten ingresos más bajos, ¿sí? por debajo del promedio, por
bajos, ¿sí? por debajo del promedio, por ejemplo. De esta manera yo esperaría
ejemplo. De esta manera yo esperaría encontrar casos ubicados de esta forma.
Sí, esperaría encontrar una relación lineal positiva porque a medida porque yo esperaría que a medida que aumente la
edad aumente también el ingreso. Sí,
esto es si mi hipótesis fuera correcta.
Sí, si mi hipótesis fuera correcta, yo esperaría encontrar casos acá, es decir, personas de mayor edad, edades por encima de la media de edad, que
registran un ingreso mayor, un ingreso que se encuentre por encima de la media de ingreso. Y esperaría encontrar
de ingreso. Y esperaría encontrar también personas de menor edad, es decir, que tengan edades por debajo de la media de edad, que registren un
ingreso menor, es decir, un ingreso por debajo de la mega ingreso.
Yo podría encontrarme algo así. Por
ejemplo, estos son datos inventados, ¿sí? Una situación ficticia. Yo miro
¿sí? Una situación ficticia. Yo miro
esta nube de puntos y esta nube de puntos describe una figura que se asemeja a una recta. Yo podría trazar
una recta acá que describa el comportamiento de la relación entre estas dos variables. Y lo que yo voy observando es que a medida que va
aumentando la edad de los asalariados aumenta el ingreso y que entre los asalariados de mayor edad yo tiendo a encontrar ingresos altos y entre los
asalariados de menor edad yo encuentro ingresos bajos. Sí, yo observando este
ingresos bajos. Sí, yo observando este diagrama de dispersión podría decir que las variables están relacionadas y que
esa relación se da en el siguiente sentido. Valores altos de ingreso para
sentido. Valores altos de ingreso para los valores altos de edad y valores bajos de ingreso para los valores bajos de edad. ¿Sí?
de edad. ¿Sí?
Ahora yo les voy a mostrar un diagrama de dispersión construido a partir de datos reales obtenidos de la encuesta permanente de hogares en el cuarto
trimestre del año 2024, que es la la base más actual que tenemos eh a julio del 2025, que es el momento en el que estoy grabando esta clase, para ver qué es lo que ocurre con la
relación entre estas dos variables.
dijimos que si la hipótesis fuera correcta, esta hipótesis a mayor edad de los asalariados, mayor ingresos, yo esperaría encontrar algo así, ¿sí? Unos
puntos que describan una figura que se asemeje a una recta, un comportamiento coordinado, sí, en en los puntos. Es
decir, que eh el a medida que varían los valores de la edad, varían de manera coordinada el valor del ingreso. Esto es
lo que yo hubiese esperado si la hipótesis fuera correcta. Sin embargo,
no lo que yo veo acá es lo que les decía, una relación lineal, una relación lineal positiva, ¿sí? a valores
crecientes de la edad, valores crecientes del ingreso. Valores
decrecientes de la edad, valores decrecientes del ingreso. Bien,
sin embargo, esto es lo que yo observé en datos reales tomados de la encuesta permanente de hogares para el aglomerado
posadas en el cuarto trimestre del 2024.
Sí, estos son asalariados en función de su edad y en función del ingreso.
Miro esta nube de puntos y lo primero que yo me tengo que preguntar es, ¿esta nube de puntos describe una figura que se asemeja a una recta?
Pareciera que no. No. Entonces, yo acá en principio lo que estoy viendo es que no hay una relación lineal entre estas variables. Sí.
variables. Sí.
Yo puedo ayudarme del recurso de las medias para tratar de explicar un poco qué es lo que yo estoy observando acá.
Lo que yo estoy observando acá es que entre los asalariados de mayor edad observo tanto ingresos altos por encima de la media de ingreso como ingresos
bajos.
Y para los asalariados de menor edad, observo tanto ingresos altos como ingresos bajos. Quiere decir que el
ingresos bajos. Quiere decir que el ingreso no cambia cuando cambia la edad de los asalariados. No estoy observando
un comportamiento coordinado de estas unidades de análisis en función de los valores que adoptan en las dos
variables. Sí, puedo tener asalariados
variables. Sí, puedo tener asalariados con más o con menos edad y su ingreso
eh no varía. Sí, o sea, sí varía, pero no de manera coordinada. Es decir, que tengo tanto ingresos altos como bajos para los mayores de edad como ingresos
altos como bajos para los menores de edad. Lo que estoy viendo acá es que no
edad. Lo que estoy viendo acá es que no hay relación entre las variables. ¿Sí?
Entonces, el diagrama de dispersión nos sirve para realizar este primer análisis de la nube de puntos para advertir si
existe o no existe una relación lineal.
Si los puntos describen una figura que se asemeja a una recta, entonces yo puedo pensar en yo puedo sostener la existencia de una relación línea. Pero
si estos puntos no describen una forma lineal, entonces yo no puedo eh sostener que existe relación entre las variables.
¿Sí? Bien, vamos a ver otro ejemplo con otra hipótesis. A mayor distancia de la escuela, menor asistencia a clases. A
mayor distancia de la escuela, menor asistencia a clases.
Supónganse que estamos hablando de alumnos rurales donde yo tengo que observar la distancia a la que viven de la escuela en kilómetros, por ejemplo, y el porcentaje de asistencia a clases.
Sí, construyo un diagrama de dispersión.
Esto también es una situación ficticia cuyos puntos presentan esta forma.
Presentan una forma lineal. Sí, estos
puntos forman eh describen una figura que se asemeja a una recta. Sí, yo veo acá
eh una forma lineal.
Ahora, ¿cómo es esta forma?
Yo observo utilizando de nuevo el recurso de de las medias, ¿no? Yo acá lo que estoy considerando es el promedio de al que viven eh el promedio de
kilómetros de distancia al que viven todos los alumnos de la escuela y el promedio de asistencia en porcentaje, ¿no? Entonces, ¿qué es lo que veo acá?
¿no? Entonces, ¿qué es lo que veo acá?
que los alumnos rurales que viven más cerca de la escuela, porque son los que se viven a una distancia menor al promedio, ¿sí? Registran porcentajes de
promedio, ¿sí? Registran porcentajes de asistencia altos.
Ahora, cuando observo los alumnos que viven a una mayor distancia de la escuela, porque viven a distancias que son mayores al promedio, el porcentaje
de asistencia decrece.
¿Sí? Entonces, lo que estoy viendo es que la asistencia a clases cambia cuando cambia la distancia a la que
viven de la escuela. ¿Y cómo cambia?
Bueno, a valores crecientes de la de la distancia a la escuela, valores decrecientes
de asistencia. ¿Sí? Entonces, a medida
de asistencia. ¿Sí? Entonces, a medida que aumenta la distancia a la que viven de la escuela, decrece el porcentaje de asistencia clases.
Entonces, estamos frente a una relación lineal, ¿sí? Porque los puntos conforman
lineal, ¿sí? Porque los puntos conforman una recta, ¿sí? Eh, presentan una forma que se asemeja a una recta. Ahora es una relación lineal negativa. Negativa
porque a valores crecientes de la variable que yo tengo ubicada en el eje X, valores decrecientes de la variable que yo tengo ubicada en el eje I, que es
la variable que quiero explicar, la variable dependiente. ¿Sí? Entonces, a
variable dependiente. ¿Sí? Entonces, a
valores crecientes de x, valores decrecientes de y, yo estoy frente a una relación lineal negativa.
Bien vamos a hablar ahora de la fuerza de la relación porque hay algo que nosotros ya dijimos en las dos clases anteriores de análisis divariado, que también es
importante para el análisis de la relación entre dos variables numéricas, que son los tres aspectos que tenemos que considerar en el análisis divariado.
Por un lado, es la existencia de la relación. Esto, como venimos de decir,
relación. Esto, como venimos de decir, lo podemos eh considerar a partir del análisis de la nube de puntos. Entonces,
ese análisis gráfico visual de la nube de puntos eh nos permite definir si tiene sentido o no pensar en la existencia de una relación lineal entre
las variables consideradas. Entonces,
la nube de puntos adopta una forma lineal. Yo me hago esa pregunta frente
lineal. Yo me hago esa pregunta frente al diagrama de dispersión. Si yo observo que adopto una forma lineal, entonces yo puedo afirmar la existencia de la
relación. Ahora, si yo tengo una una
relación. Ahora, si yo tengo una una nube de puntos completamente dispersas y esos puntos no adoptan una forma lineal, entonces yo no estoy en condiciones de
decir que existe relación entre las variables, como era el caso del diagrama de dispersión que analizaba la relación
entre la edad y el ingreso, tomando los datos reales de la encuesta permanente de hogares, ¿no? Bien, entonces el primer aspecto a analizar en un diagrama
de dispersión es la existencia de la relación. Una vez que yo advierto que
relación. Una vez que yo advierto que existe relación, que los puntos adoptan una forma lineal, entonces sí voy a reparar en la forma que adopta esa
relación y en la fuerza. Y de eso nos vamos a detener ahora e en estos dos aspectos, la forma y la fuerza de la relación.
Bien, entonces cuando los puntos forman una figura que se asemeja a una recta, estamos en presencia de una relación lineal. Esto ya lo dijimos. Cuanto más
lineal. Esto ya lo dijimos. Cuanto más
se ajuste la nube de puntos a una recta, más fuerte va a ser esa relación. ¿Qué
quiere decir? Cuanto más se ajuste, cuanto más se acerque a una cuando cuando los puntos estén más cerca de de esa recta, cuando presenten menor
dispersión respecto de esa recta, nosotros vamos a poder eh afirmar que es más fuerte la esa relación lineal que que hemos observado. Entonces, para eso
nosotros disponemos de la recta de mejor ajuste, que cuando ustedes este realicen los diagramas de dispersión a partir del Excel, eh van a ver que tienen la opción
de agregar la línea de tendencia, ¿sí?
Eh creo que así se llama en el Excel, la línea de tendencia y hace referencia a esto, a la recta de mejor ajuste, que así lo van a encontrar ustedes en la bibliografía. Es una recta, es la recta
bibliografía. Es una recta, es la recta que mejor describe esa nube de puntos.
Sí, porque como dijimos esa nube de puntos eh esos puntos no se ubican todos sobre una recta, excepto en el caso de
una relación perfecta, que ya dijimos que es una situación hipotética, teórica e ideal, que en datos sociales nosotros no vamos a observar nunca, ¿no?
Entonces, lo que nosotros podemos hacer es utilizar la recta de mejor ajuste, que lo que hace es ajustar lo
efectivamente observado a un modelo de relación lineal. Es una recta que
relación lineal. Es una recta que responde a un modelo matemático que estima un valor promedio de para cada
valor de x para tratar de describir eh la relación que presentan estos puntos.
¿Sí? Entonces,
la fuerza de la relación va a ser mayor cuanto más cerca estén los puntos de esa recta de mejor ajuste. Entonces, para
eso nos sirve eh la recta, para poder evaluar la dispersión que presentan los puntos de esa recta que lo que está
graficando es eh una relación perfecta, ¿no?
Bien. Entonces, otro otra herramienta que nosotros tenemos para evaluar la fuerza de la relación, además de analizar visualmente la dispersión de esos puntos respecto de la recta de
mejor ajuste, es lo que vamos a llamar el coeficiente de correlación lineal de Pson. ¿Sí? Este es un coeficiente que
Pson. ¿Sí? Este es un coeficiente que ustedes también lo van a poder calcular a partir de una función eh del Excel y que la tienen explicada en el tutorial que está subido al aula
virtual. No se trata acá de que ustedes
virtual. No se trata acá de que ustedes calculen manualmente el coeficiente de Piarson, porque el cálculo no es lo importante, pero sí es muy importante la
interpretación de ese valor y a eso le vamos a prestar atención ahora.
Entonces, el coeficiente de Pinson es un valor numérico que mide estos dos aspectos de la relación, la fuerza y el
sentido que adopta la relación lineal entre dos variables variables numéricas.
Entonces, fíjense, esto mide la fuerza y el sentido de la relación lineal. Es
decir, va a tener sentido interpretar el coeficiente de Piarson si previamente nosotros analizando el diagrama de dispersión advertimos la existencia de
una relación lineal. Si no advertimos la relación de una de la la existencia de una relación lineal, no tiene sentido hablar ni de la fuerza ni el sentido.
¿Sí? Bien.
El coeficiente de Pson. Aquí tienen la fórmula, pero insisto, no vamos a poner el foco en la fórmula del coeficiente de Piersson, pero sí tienen que tener en
cuenta esto. Adopta un valor entre -1 y
cuenta esto. Adopta un valor entre -1 y 1. Nunca podría dar 2,3. Sí. Si el
1. Nunca podría dar 2,3. Sí. Si el
coeficiente de Pixson les da 2,3, revisen el cálculo porque tiene un error. Sí, siempre el coeficiente de
error. Sí, siempre el coeficiente de Pson adopta un valor entre -1 y 1. ¿Cómo
se interpreta ese valor? Bien,
vamos a vamos a revisar eh dos cosas del coeficiente de Pi, el signo positivo o negativo que tiene ese
valor, porque el signo nos va a hablar del sentido de la relación y el valor absoluto de ese coeficiente, porque el valor nos va a hablar de la fuerza.
Entonces, e si el coeficiente de Piarson arroja un valor negativo, nos va a hablar de una relación, una relación lineal negativa. Y si el coeficiente de
lineal negativa. Y si el coeficiente de Pearson adopta un valor positivo, nos habla de una relación lineal positiva.
¿Sí? ¿De qué hablábamos cuando hablábamos de relaciones negativas?
Bueno, que a valores crecientes de x se observan valores de crecientes de y una relación positiva que a valores crecientes de x se observan valores
crecientes de y, ¿sí? y el valor absoluto, es decir, el valor que adopte el coeficiente, que ya dijimos que va a
ser entre 0 y un eh cuanto más próximo se encuentre a uno, nos va a hablar de una relación cada vez más fuerte y cuanto más próximo a cero, nos va a
hablar de una relación más débil o inexistente. ¿Sí?
inexistente. ¿Sí?
Y el R0 nos va a hablar de que no existe relación lineal entre las variables.
Entonces, eh, bueno, el R0 nos habla de que no existe relación lineal entre las variables. el R1 o el R -1 nos hablaría
variables. el R1 o el R -1 nos hablaría de una relación perfecta que, como dijimos en casos reales, en las ciencias sociales, relaciones perfectas no vamos
a observar nunca, pero sí podríamos llegar a observar relaciones muy fuertes cuyo valor de R se acerque bastante a
uno, ¿sí?, a uno o a -1. Entonces, vamos
uno, ¿sí?, a uno o a -1. Entonces, vamos
a ver eh exactamente cómo deberíamos interpretar nosotros ese valor de r.
Bueno, si el valor de R adopta un valor entre 0 y 0,2, podemos decir que no existe relación entre las variables. Si
se adopta un valor entre 0,2 a 0,4, esa relación va a ser débil.
Se adopta un valor entre 0,4 y 0,6, la relación va a ser moderada. Entre 0,6 a 0,8 va a ser fuerte y entre 0,8 a 1 va a
ser muy fuerte. Específicamente, si
adoptara el valor uno, sería una relación perfecta. Si ese valor de r es
relación perfecta. Si ese valor de r es negativo, me va a hablar de una relación lineal negativa o inversa. Y si ese valor es positivo, me va a hablar de una
relación lineal positiva o directa. ¿Sí?
Entonces, eh si yo obtuviera un R de -0,89, estaría hablando de una relación que es muy fuerte e inversa. Y si estoy frente
a un R de 0,53, me hablaría de una relación que es moderada y directa.
Bien, entonces este es el ejemplo eh que veíamos al principio de la clase, ¿no?
Todos los puntos se ubican sobre una recta. La recta describe perfectamente a
recta. La recta describe perfectamente a la nube de puntos. En esta situación, el ingreso, yo podría eh predecir con
exactitud el ingreso de una persona a partir de los años de educación formal, ¿sí? Eh, y en este caso el R adoptaría
¿sí? Eh, y en este caso el R adoptaría el valor uno. Por supuesto que esto es una situación, como dijimos, hipotética.
En un caso como este, yo observo la nube de puntos, observo que la nube adopta un una forma lineal. Sí.
Esta es la recta de mejor ajuste que describe eh que ajusta lo observado a un a una recta, ¿sí? Pero observo que los puntos se dispersan en torno a esta
recta, no están sobre la recta. ¿Sí?
Calculo el valor de ropta un valor de 0,83 que me está hablando de una relación que es lineal muy fuerte y positiva porque
el valor de r es positivo. ¿Qué quiere
decir positiva? que a medida que aumenta eh el porcentaje de población, en este caso con educación incipiente o nula, aumenta
también el porcentaje de población con necesidades básicas insatisfechas. ¿Sí?
Por mostrar otro ejemplo. En este caso, lo que yo estoy observando es que los puntos también adoptan una forma lineal.
¿Sí? Eh, acá tengo la recta de mejor ajuste, es decir, que ajusta lo observado a una a una recta.
Calculo el coeficiente de pison y me da -0,80.
¿Qué es lo que puedo decir? Que existe
una relación fuerte porque el valor absoluto es 0,8.
Pero al presentar un valor negativo, lo que estoy diciendo es que es la la relación es negativa. Es decir, a valores crecientes de x, valores decrecientes de y.
crece la tasa de alfabetización femenina adulta, decrece la tasa de mortalidad eh infantil en menores de 5 años.
Bien, entonces con esto damos por cerrado el análisis de la relación entre dos variables numéricas, eh atendiendo a la existencia de la
relación a partir de eh el análisis de la nube de puntos. Esto es
imprescindible. Uno tiene que poder describir esa nube de puntos y acuérdense este recurso de las de los promedios eh que nos ayuda a describir
la nube de puntos para argumentar por qué existe o no existe relación entre las variables y luego de eso, en caso de advertir la existencia de la relación entre variables, paso a analizar el
sentido y la forma de esa relación, para lo cual el coeficiente de Piarson nos puede servir. ¿Sí? Eh, bien, entonces
puede servir. ¿Sí? Eh, bien, entonces dejamos por aquí eh este tema.
Loading video analysis...