Clase de la Comisión 1 de Estadística. Unidad IV. Análisis de la relación entre variables numéricas

By Aula Virtual

Summary

Topics Covered

Preguntas explicativas habilitan análisis bivariado
Hipótesis guía población y variables
Diagrama de dispersión revela relación lineal
Ausencia de relación en datos reales
Coeficiente Pearson mide fuerza y sentido

Full Transcript

Bueno, ¿cómo están? Esta es la última clase de la unidad 4 del programa de la comisión uno de estadística.

Este, esta aclaración es importante, es una clase válida para los estudiantes de la comisión uno de estadística eh para trabajar sobre el análisis de la

relación entre variables numéricas, que fue la clase que nos quedó pendiente de dar de manera presencial. Así que yo me había comprometido a subirles la

grabación y aquí estamos.

Bueno, vamos a empezar. Vamos a hacer primero una pequeña contextualización del análisis de la relación entre variables, algo de lo que ya hemos hablado en las dos clases anteriores

y siempre teniendo en cuenta lo siguiente. Eh, nosotros siempre hablamos

siguiente. Eh, nosotros siempre hablamos a lo largo del curso que el análisis estadístico de datos tiene sentido siempre que uno se formule una pregunta

concreta sobre la realidad social.

Si esa pregunta sobre la realidad social indaga simplemente por la variación que presenta alguna característica,

estamos frente a preguntas de tipo descriptivas. ¿Por qué? Porque son

descriptivas. ¿Por qué? Porque son

preguntas que solo quieren saber cómo son eh cómo es la variación que presentan algunas características, como por ejemplo, cómo son las condiciones de

vida de la población, cómo son las opiniones de las personas, qué creencias tienen las personas, cómo actúan las personas ante alguna situación.

Entonces, son preguntas que para responderlas eh requieren del uso de herramientas estadísticas de análisis univariado, es decir, analizar las

variables de a una univariado, ¿sí? Para

poder dar cuenta de la variación que presentan.

Ahora, si yo estoy frente a una pregunta que indaga sobre las causas de esa variación, cuáles son las causas por las cuales varían esas características, por

ejemplo, preguntarme, ¿de qué depende que algunas personas tengan mejores condiciones de vida que otras? ¿De qué

depende que algunas tengan una opinión y no otra? Crean en algo y no en otra

no otra? Crean en algo y no en otra cosa, actúen de una forma y no de otra.

Son preguntas que ya no buscan simplemente la descripción de la variación, sino que el foco lo ponen en la explicación. Sí, están buscando

la explicación. Sí, están buscando explicar la variación de las características. Son preguntas de tipo

características. Son preguntas de tipo explicativas.

Entonces, para responder este tipo de preguntas, yo tengo que indagar en los factores que podrían estar influyendo en

esa variación. Y cuando hablamos de

esa variación. Y cuando hablamos de factores, hablamos de otras variables que suponemos podrían estar afectando el

comportamiento de las características que buscamos explicar, las condiciones de vida, las opiniones, las prácticas, las creencias. Entonces, para dar

las creencias. Entonces, para dar respuesta a este tipo de preguntas, necesitamos echar mano al análisis de la relación entre variables. ¿Sí?

Entonces eh las preguntas que indagan sobre los factores que inciden en la variación que presentan las características de una

población en estudio habilitan el análisis bivariado, es decir, el análisis de la relación entre dos variables. ¿Sí? Son preguntas que se

variables. ¿Sí? Son preguntas que se enfocan en explic en explicar por qué varían los datos y son preguntas que habilitan el

enunciado de objetivos de tipo explicativos. Estamos buscando

explicativos. Estamos buscando explicaciones. Entonces, vamos con un

explicaciones. Entonces, vamos con un ejemplo. Supónganse que nos estamos

ejemplo. Supónganse que nos estamos preguntando si el ingreso per cápita familiar está relacionado con los años de educación formal del jefe de hogar.

Cuando hablamos de ingreso per cápita familiar, hablamos de ese ingreso que reúne una familia dividido por la cantidad de personas que integran esa familia, ¿no? Entonces, el ingreso per

familia, ¿no? Entonces, el ingreso per cápita familiar está relacionado con los años de educación formal del jefe de hogar. Estoy frente a un propósito, un

hogar. Estoy frente a un propósito, un objetivo de tipo explicativo. ¿Por qué?

¿Qué es lo que quiero explicar acá? Lo

que quiero explicar es la variación que presenta el ingreso per cápita, es decir, ¿de qué depende que algunos hogares tengan un ingreso per cápita

familiar más alto que otros? Sí, eso es lo que busco explicar, el ingreso. ¿Cómo

busco explicarlo? Bueno, en función de los años de educación formal del jefe de hogar. No es la única explicación

hogar. No es la única explicación posible para entender por qué varía el ingreso per cápita, pero es una. Sí, los

fenómenos en las ciencias sociales son multicausales, no tienen una sola causa o un solo factor que incide en su comportamiento. Pero en el análisis

comportamiento. Pero en el análisis bivariado, lo que vamos haciendo es un análisis que se enfoca en analizar la relación de un factor en función de esa

variable que buscamos explicar.

Entonces, vamos a repasar un poco el proceso del análisis bivariado. Habíamos

dicho que para analizar la relación entre dos variables disponemos de diferentes herramientas estadísticas.

Eh, cuando trabajamos el análisis de la relación entre dos variables categóricas, la herramienta es la tabla de contingencia.

Cuando analizamos la relación entre una variable categórica y otra numérica, lo que hacemos es la comparación del resumen de los cinco números. Sí, a

partir de la comparación de, por ejemplo, de los diagramas de caja, eh, que comprenden medidas de tendencia central y de posición. Y para analizar la relación entre dos variables

numéricas, el recurso que disponemos es el diagrama de dispersión eh junto con el coeficiente de Pi a trabajar en detalle. Entonces, en esta

clase nos vamos a detener en esta herramienta para el análisis de la relación entre dos variables numéricas.

Entonces, el proceso es similar al que habíamos eh trabajado en los otros dos tipos de análisis bivariado. Sí, yo

formulo la pregunta, enuncio una hipótesis a partir de la cual yo voy a identificar a quiénes necesito observar y qué variables necesito observar en esa

población para poder afirmar o rechazar la hipótesis.

Le doy tratamiento a los datos y los analizo para llegar a las conclusiones que me permitan responder esa pregunta inicial.

Entonces, volvemos sobre esta pregunta, ¿no? El ingreso per cápita familiar está

¿no? El ingreso per cápita familiar está relacionado con los años de educación formal del jefe de hogar. Enuncio una

hipótesis que dice, "A mayor cantidad de años de educación formal del jefe de hogar, mayor ingreso per cápita familiar.

Es una respuesta tentativa a la pregunta de investigación. Sí, tentativa porque

de investigación. Sí, tentativa porque es una suposición y porque yo la formulo en forma previa al análisis de los datos. Expresa lo que yo espero

datos. Expresa lo que yo espero encontrar de la relación entre las variables y sobre todo este punto es el que más me interesa que le presten atención

y es que la hipótesis guía el análisis de los datos. Y vamos a ver de qué hablamos cuando hablamos de que la hipótesis guía el análisis de los datos.

Lo primero que yo puedo advertir analizando la hipótesis es a quiénes necesito observar. En este caso, yo

necesito observar. En este caso, yo necesito observar hogares. Sí, para ver si la hipótesis es correcta o no, yo necesito observar hogares. Por ejemplo,

hogares de la ciudad de Oberá en el año 2023. Sí, esa es la manera correcta.

2023. Sí, esa es la manera correcta.

ustedes ya lo saben, esto de definir una población estadística, es decir, considerar una unidad de análisis en un espacio geográfico y un tiempo determinado. En este caso sería eh

determinado. En este caso sería eh Noverá en el año 2023.

¿Qué características necesito observar en esa población? Es decir, ¿qué características necesito observar en esos hogares? Bueno, necesito observar

esos hogares? Bueno, necesito observar por un lado el ingreso per cápita familiar y por el otro lado los años de educación formal del jefe de hogar.

¿Qué valores pueden adoptar esas variables? Bueno, el ingreso por cita

variables? Bueno, el ingreso por cita familiar podría adoptar 100,000, 120,000, 250,000 pes o incluso menos de 100,000 pesos. Sí, eh 500,000 pes o

100,000 pesos. Sí, eh 500,000 pes o incluso más de 500,000 pesos. Los años

de educación formal del jefe de hogar, bueno, podrían ser 1, 2, 3, 7, 11, 12, 13, 14, ¿no? Los años eh de educación

que tenga el jefe de hogar. Y en este caso estamos frente a dos variables de tipo numéricas. ¿Sí? Todo esto nosotros

tipo numéricas. ¿Sí? Todo esto nosotros lo podemos analizar a partir de la hipótesis, lo podemos eh discernir a

partir del análisis de la hipótesis.

Entonces, para ver si esta hipótesis es correcta o no, necesito analizar la relación entre el ingreso per cápita familiar y los años de educación formal del jefe hogar. Como son dos variables

numéricas, tengo que usar la herramienta que me permite analizar la relación entre dos variables numéricas. Y esa

herramienta es una herramienta gráfica, ¿sí?, que es el diagrama de dispersión.

¿sí?, que es el diagrama de dispersión.

Vamos a ver de qué hablamos cuando hablamos de diagrama de dispersión.

Entonces, nosotros tenemos esta hipótesis. A mayor

cantidad de años de educación formal del jefe de hogar, mayor el ingreso per cápita, recolecto los datos y los tengo en una matriz de datos. Acá lo que

estamos viendo es un recorte de una matriz de datos que presenta las unidades de análisis, que son hogares y los valores que se registraron para cada

una de esas unidades de análisis en la variable años de educación formal del jefe de hogar e ingreso per cápita familiar. Sí, es una matriz chiquitita

familiar. Sí, es una matriz chiquitita de 17 casos.

Entonces, vamos a ver cómo se grafican estos datos en un diagrama de dispersión para analizar la relación entre estas dos variables que son numéricas. El

diagrama de dispersión es un diagrama que consiste en dos ejes, un eje horizontal y un eje vertical, donde vamos a ubicar cada una de las variables

numéricas. ¿Cómo vamos a ubicar estas

numéricas. ¿Cómo vamos a ubicar estas variables? Bueno, en el eje vertical

variables? Bueno, en el eje vertical vamos a buscar, vamos a ubicar la variable que buscamos explicar, que nuestro ejemplo es el ingreso per

cápita familiar, porque nosotros habíamos dicho que queríamos explicar la variación que presentaba el ingreso per capital familiar. Queríamos ver si el de

capital familiar. Queríamos ver si el de qué dependía que los hogares tuvieran eh un ingreso per cápita más alto o más bajo. Sí.

Entonces, en el eje vertical vamos a ubicar la variable que buscamos explicar, que es la variable dependiente. ¿Sí? Dependiente de quién?

dependiente. ¿Sí? Dependiente de quién?

Del factor que vamos a considerar como el que explica la variación de la variable dependiente. En este caso los

variable dependiente. En este caso los años de educación formal. En el eje horizontal vamos a ubicar la variable explicativa o independiente.

Bien, entonces, ¿cómo funciona este gráfico de dispersión? Es un gráfico de puntos. Es

dispersión? Es un gráfico de puntos. Es

un gráfico que va a tener tantos puntos como unidades de análisis observadas.

¿Sí? Cada unidad de análisis va a ser un punto y la ubicación de cada unidad de análisis, es decir, de cada punto en este diagrama de dispersión, va a estar

dada por el valor que esa unidad de análisis presenta en cada una de las variables. ¿Sí? Entonces, vamos a

variables. ¿Sí? Entonces, vamos a considerar la primer unidad de análisis de nuestra pequeña matriz de datos. es

un hogar cuyo jefe de hogar tiene 8 años de educación formal y un ingreso per cápita familiar de 450,000.

Entonces, la ubicación de este hogar en el diagrama de dispersión va a estar representada por un punto cuya ubicación

está dada por el valor que presenta en los años de educación formal, que son ocho, y el valor que presenta en el ingreso per cápita familiar, que es 450,000 pesos.

La siguiente unidad de análisis es un hogar cuyo jefe de hogar tiene 7 años de educación formal y el ingreso per cápita es de 400,000 pes. ¿Sí?

La siguiente unidad de análisis es un hogar cuyo jefe de hogar tiene 2 años de educación formal y un ingreso per cápita

de 150,000 pesos. Y así sucesivamente voy a ir ubicando los 17 puntos, porque fíjense que son 17 unidades de análisis.

Voy a tener 17 puntos en este diagrama cuya ubicación va a estar definida por el valor que presenta en la variable años de educación formal e ingreso per

cápita familiar.

para ir conformando lo que nosotros vamos a denominar una nube de puntos. Y

esa nube de puntos es la que nos interesa analizar para ver si existe relación entre las variables.

Bien, aquí tenemos los 17 puntos ubicados.

Fíjense que hay algunas unidades de análisis, a ver si me siguen con el mouse. Por ejemplo, acá la unidad de

mouse. Por ejemplo, acá la unidad de análisis 8o y nu presentan exactamente los mismos valores. Entonces, son puntos que en el diagrama de dispersión se

sobreescriben. ¿Sí? Por eso acá si

sobreescriben. ¿Sí? Por eso acá si contamos los puntos no son 17, simplemente porque hay algunos que registran el mismo valor en ambas variables, entonces queda uno

superpuesto encima del otro. Lo que

estamos viendo acá, una vez que tenemos eh todos los puntos ubicados en el diagrama de dispersión, es que al variar

los años de educación formal, varían en varía en forma coordinada el ingreso per cápita que registran esos hogares.

Aumenta un año la educación formal del jefe de hogar y aumenta proporcionalmente el ingreso per cápita familiar.

Estos puntos describen una figura que se asemeja a una recta. Lo que estamos viendo es una

una recta. Lo que estamos viendo es una relación lineal. Entonces, el diagrama

relación lineal. Entonces, el diagrama de dispersión sirve porque visualmente nosotros podemos analizar si la nube de

puntos conformada por todas las unidades de análisis presenta una forma lineal. En este caso presenta una forma lineal perfecta

porque yo puedo trazar una recta que une, que pasa por cada uno de los puntos. ¿Sí?

puntos. ¿Sí?

Entonces, esto por supuesto que es una situación hipotética porque en la vida real eh no ocurre, no se observan de esta forma las relaciones entre las

variables numéricas, pero lo que está representando esta esta situación hipotética es una relación perfecta.

¿Por qué una relación perfecta? Porque

yo puedo predecir exactamente el comportamiento del ingreso per cápita familiar a partir de conocer los años de educación formal del jefe de hogar. ¿Sí?

Es algo así como, decime cuántos años de educación formal tiene el jefe de tu hogar y yo te voy a decir exactamente cuál es el ingreso per cápita familiar que hay en tu hogar. ¿Sí? Entonces, eh

es una situación en la que yo puedo predecir el comportamiento de la variable que puedo explicar a partir de la variación de este factor que yo

considero como causal de ese comportamiento. Entonces, esto en la

comportamiento. Entonces, esto en la vida real social no ocurre de esta forma porque los fenómenos en las ciencias sociales eh no tienen una única eh

causa, no son multicausales. Hay un

montón de factores que inciden en el comportamiento de una variable, en este caso en el ingreso per cápita familiar.

No alcanza con conocer los años de educación formal para explicar enteramente el comportamiento del ingreso per cápita familiar, pero sí los años de educación formal son es una

variable eh importante y que influye en ese ingreso per cápita familiar.

Entonces, veamos una situación que podría ser más parecida eh a una situación real que uno puede absorber a partir de un

relevamiento de datos sociales. Lo que

vemos acá es que para un mismo valor de los años de educación formal, ¿sí?

que en este caso serían hogares cuyos jefes de hogares tienen 7 años de educación formal. Uno puede observar

educación formal. Uno puede observar distintos valores del ingreso per cápita. Sí, lo mismo, por ejemplo, para

cápita. Sí, lo mismo, por ejemplo, para los hogares cuyos jefes de hogares tienen 11 años de educación formal, observamos distintos valores

del ingreso per cápita familiar.

Entonces, lo que estamos viendo es cierta variación en el ingreso en función eh para un para un mismo valor

de la variable años de educación formal.

Si analizamos la nube de puntos, esta nube de puntos adopta una forma lineal, aunque los puntos no se escriben sobre

una recta perfecta. Sí, lo que estamos observando en esta nube de puntos es un comportamiento lineal. Entonces, existe

comportamiento lineal. Entonces, existe una relación lineal, pero esta relación ya no va a ser perfecta. Es decir, yo ya no voy a poder predecir exactamente el

valor del ingreso per cápita familiar a partir de los años de educación formal que tenga el jefe de hogar. Pero sí voy a poder aproximarme bastante, ¿sí?

Porque lo que yo sigo viendo en este caso es que el ingreso per cápita familiar tiende a subir a medida que aumentan los años de educación formal

del jefe de hogar. Podemos decir esto porque lo que estamos observando es un comportamiento lineal entre estas dos variables. Sí,

variables. Sí, fíjense, aumentan los años de educación formal. Yo tengo acá hogares, cuyo jefe

formal. Yo tengo acá hogares, cuyo jefe de hogar tiene 5 años de educación formal y el ingreso per cápita familiar es menor que el

ingreso que registran los hogares, cuyo jefe de hogar tiene 6 años de educación formal. Entonces, lo que vamos viendo es

formal. Entonces, lo que vamos viendo es que el el ingreso per cápita familiar aumenta en promedio a medida que aumenta

el ingreso eh a medida que aumentan los años de educación formal. Sí.

Entonces, los puntos forman una figura que se asemeja a una recta. La nube de puntos representa una forma lineal y nosotros estamos en condiciones de decir

que existe una relación lineal entre las variables. En este caso vamos a hablar

variables. En este caso vamos a hablar de una relación lineal positiva. ¿Por

qué positiva? Porque a valores crecientes de los años de educación formal, aumentan los años de educación formal y tienden a aumentar el ingreso

per cápita familiar. ¿Sí? Entonces, a

valores crecientes de una variable, valores crecientes de la otra. Las los

puntos presentan una forma lineal. Esa nube de puntos cuando yo la observa presenta una forma lineal y es una forma lineal positiva. Sí.

positiva. Sí.

Otra forma, vamos a ver otra forma de eh analizar este diagrama de dispersión.

Supónganse que yo tengo eh yo ya tengo los puntos graficados, ¿sí? Cada punto

es una unidad de análisis. Esos la

ubicación de esos puntos está definida por el valor que cada unidad de análisis presenta en la variable años de educación formal del jefe de hogar y el

ingreso per capital familiar.

Y lo que yo hago es trazar dos líneas tomando el valor promedio, la media aritmética de estas dos variables. ¿Sí?

Esta línea vertical punteada está ubicada en el valor siete porque en promedio todos los hogares tienen jefes de hogar con 7 años de educación formal.

Y esta línea punteada está ubicada aquí porque representa el promedio del ingreso per cápita familiar de todos los

hogares. ¿Para qué me sirve esto? Bueno,

hogares. ¿Para qué me sirve esto? Bueno,

yo podría decir de este lado, si ubican, si ven el movimiento de de la flecha, de este lado yo voy a tener a todas las unidades de análisis, es decir, todos

los hogares cuyos jefes de hogar tienen una cantidad de años de educación formal por encima del promedio. Y de este lado

voy a tener a todos los hogares cuyos jefes de hogar tienen años de educación formal con valores por debajo del promedio.

Del mismo modo, con esta recta punteada o esta línea punteada, lo que yo voy lo puedo lo que puedo discernir son

todos los hogares que tienen ingresos per cápita familiar por encima del promedio del ingreso per cápita familiar y todos los hogares que tienen ingresos per cápita familiar que

se encuentran por debajo del promedio de ingreso per cápita familiar. ¿Para qué

me sirve esto? Bueno, yo lo que puedo ver en este diagrama, en esta en este diagrama de dispersión es que en este

cuadrante yo tengo casos que son hogares con jefes que tienen años de educación por encima de la media y que también tienen ingresos per cápitas familiares

por encima de la media. Y en este cuadrante yo tengo hogares con jefes que tienen años de educación por debajo de la media y que tienen ingresos per

cápita familiares por debajo de la media. O dicho de otra forma,

media. O dicho de otra forma, los que tienen valores altos en educación tienen valores altos en ingreso per cápita y los que tienen valores bajos en educación tienen

valores bajos en el ingreso per cápita.

¿Sí?

Entonces, lo que yo estoy viendo acá es que el ingreso familiar, el ingreso familiar cambia cuando cambian los años de educación formal del jefe de hogar.

Cuando los años de educación del jefe de hogar son altos, los ingresos per cápitas son altos. Y cuando los años de educación formal del jefe de hogar son

bajos, los ingresos per cápita son bajos. Sí, estoy viendo que el ingreso

bajos. Sí, estoy viendo que el ingreso per cápita cambia cuando cambian los años de educación formal. Estoy viendo

que el ingreso per cápita aumenta cuando aumentan eh los años de educación formal del jefe. Sí, lo que estoy viendo es que

del jefe. Sí, lo que estoy viendo es que existe una relación entre las variables.

Bien, vamos a ver otro ejemplo.

Supónganse que yo me pregunto si el ingreso está relacionado con la edad de los asalariados. Cambiamos de población,

asalariados. Cambiamos de población, ¿sí? Y cambiamos de variados. Yo me

¿sí? Y cambiamos de variados. Yo me

pregunto si el ingreso de la ocupación principal está relacionado con la edad de los asalariados.

Estoy frente a un propósito de tipo explicativo porque estoy buscando explicar la variación que presentan los ingresos de los asalariados.

Es decir, quiero explicar de qué depende que algunos ganen más que otros.

¿En función de qué busco explicarlo? En

función de la edad de los asalariados. Y

yo me planteo una hipótesis, una suposición. Yo no sé si esto es cierto o

suposición. Yo no sé si esto es cierto o no es cierto. A mayor edad de los asalariados, mayor ingreso. Sí,

dijimos que la hipótesis guía el análisis de los datos. ¿Por qué? Porque

yo puedo advertir a quiénes tengo que observar. Bueno, en este caso tengo que

observar. Bueno, en este caso tengo que observar asalariados, ¿sí? asalariados,

por ejemplo, de posadas en el cuarto trimestre del 2024. Ubico a esa unidad de análisis en un contexto geográfico y

temporal, en una definición espacio temporal.

Y puedo advertir también del análisis de la hipótesis qué características yo necesito observar en esa población.

Necesito observar el ingreso y necesito observar la edad de esos asalariados. Sí. ¿Qué valores

adoptan esas variables? Bueno, el

ingreso puede adoptar distintos valores, la edad puede adoptar distintos valores, en ambos casos valores de tipo numérico. Por lo tanto,

para decir si esta hipótesis es correcta o no es correcta, necesito analizar la relación entre dos variables numéricas.

¿Sí?

Bien, este podría ser el diagrama de dispersión.

que tengo que construir para ver si esta hipótesis es correcta. En el eje vertical ubiqué la variable ingreso porque es la variable que yo quiero explicar y es la variable que yo quiero

saber si su comportamiento depende de la edad. Por eso la edad la ubiqué en el

edad. Por eso la edad la ubiqué en el eje horizontal. ¿Sí?

eje horizontal. ¿Sí?

Supónganse que yo eh obtuve el promedio de edad de los asalariados y el promedio de ingresos y con eso yo puedo imaginarme

este diagrama de dispersión, ¿no? Y me

pregunto si la hipótesis fuera correcta, atención porque esto suele ser una pregunta de examen final. Si la hipótesis fuera

examen final. Si la hipótesis fuera correcta, ¿en qué cuadrantes yo esperaría encontrar caso? Si yo digo a

mayor edad de los asalariados, mayor ingreso.

Bueno, yo esperaría que los asalariados con mayor edad, que son los que se encuentran de este lado del diagrama de dispersión, es decir, por encima del

promedio, ¿sí? Los asalariados de mayor

promedio, ¿sí? Los asalariados de mayor edad registran qué tipo de ingreso.

Bueno, yo esperaría que registren ingresos altos, pero ¿qué esperaría yo para los asalariados de menor ingresor edad?

Porque si no digo esto, no estoy haciendo un análisis de la relación entre variables. Para los asalariados de

entre variables. Para los asalariados de menor edad, en función de mi hipótesis, yo esperaría que presenten ingresos más bajos, ¿sí? por debajo del promedio, por

bajos, ¿sí? por debajo del promedio, por ejemplo. De esta manera yo esperaría

ejemplo. De esta manera yo esperaría encontrar casos ubicados de esta forma.

Sí, esperaría encontrar una relación lineal positiva porque a medida porque yo esperaría que a medida que aumente la

edad aumente también el ingreso. Sí,

esto es si mi hipótesis fuera correcta.

Sí, si mi hipótesis fuera correcta, yo esperaría encontrar casos acá, es decir, personas de mayor edad, edades por encima de la media de edad, que

registran un ingreso mayor, un ingreso que se encuentre por encima de la media de ingreso. Y esperaría encontrar

de ingreso. Y esperaría encontrar también personas de menor edad, es decir, que tengan edades por debajo de la media de edad, que registren un

ingreso menor, es decir, un ingreso por debajo de la mega ingreso.

Yo podría encontrarme algo así. Por

ejemplo, estos son datos inventados, ¿sí? Una situación ficticia. Yo miro

¿sí? Una situación ficticia. Yo miro

esta nube de puntos y esta nube de puntos describe una figura que se asemeja a una recta. Yo podría trazar

una recta acá que describa el comportamiento de la relación entre estas dos variables. Y lo que yo voy observando es que a medida que va

aumentando la edad de los asalariados aumenta el ingreso y que entre los asalariados de mayor edad yo tiendo a encontrar ingresos altos y entre los

asalariados de menor edad yo encuentro ingresos bajos. Sí, yo observando este

ingresos bajos. Sí, yo observando este diagrama de dispersión podría decir que las variables están relacionadas y que

esa relación se da en el siguiente sentido. Valores altos de ingreso para

sentido. Valores altos de ingreso para los valores altos de edad y valores bajos de ingreso para los valores bajos de edad. ¿Sí?

de edad. ¿Sí?

Ahora yo les voy a mostrar un diagrama de dispersión construido a partir de datos reales obtenidos de la encuesta permanente de hogares en el cuarto

trimestre del año 2024, que es la la base más actual que tenemos eh a julio del 2025, que es el momento en el que estoy grabando esta clase, para ver qué es lo que ocurre con la

relación entre estas dos variables.

dijimos que si la hipótesis fuera correcta, esta hipótesis a mayor edad de los asalariados, mayor ingresos, yo esperaría encontrar algo así, ¿sí? Unos

puntos que describan una figura que se asemeje a una recta, un comportamiento coordinado, sí, en en los puntos. Es

decir, que eh el a medida que varían los valores de la edad, varían de manera coordinada el valor del ingreso. Esto es

lo que yo hubiese esperado si la hipótesis fuera correcta. Sin embargo,

no lo que yo veo acá es lo que les decía, una relación lineal, una relación lineal positiva, ¿sí? a valores

crecientes de la edad, valores crecientes del ingreso. Valores

decrecientes de la edad, valores decrecientes del ingreso. Bien,

sin embargo, esto es lo que yo observé en datos reales tomados de la encuesta permanente de hogares para el aglomerado

posadas en el cuarto trimestre del 2024.

Sí, estos son asalariados en función de su edad y en función del ingreso.

Miro esta nube de puntos y lo primero que yo me tengo que preguntar es, ¿esta nube de puntos describe una figura que se asemeja a una recta?

Pareciera que no. No. Entonces, yo acá en principio lo que estoy viendo es que no hay una relación lineal entre estas variables. Sí.

variables. Sí.

Yo puedo ayudarme del recurso de las medias para tratar de explicar un poco qué es lo que yo estoy observando acá.

Lo que yo estoy observando acá es que entre los asalariados de mayor edad observo tanto ingresos altos por encima de la media de ingreso como ingresos

bajos.

Y para los asalariados de menor edad, observo tanto ingresos altos como ingresos bajos. Quiere decir que el

ingresos bajos. Quiere decir que el ingreso no cambia cuando cambia la edad de los asalariados. No estoy observando

un comportamiento coordinado de estas unidades de análisis en función de los valores que adoptan en las dos

variables. Sí, puedo tener asalariados

variables. Sí, puedo tener asalariados con más o con menos edad y su ingreso

eh no varía. Sí, o sea, sí varía, pero no de manera coordinada. Es decir, que tengo tanto ingresos altos como bajos para los mayores de edad como ingresos

altos como bajos para los menores de edad. Lo que estoy viendo acá es que no

edad. Lo que estoy viendo acá es que no hay relación entre las variables. ¿Sí?

Entonces, el diagrama de dispersión nos sirve para realizar este primer análisis de la nube de puntos para advertir si

existe o no existe una relación lineal.

Si los puntos describen una figura que se asemeja a una recta, entonces yo puedo pensar en yo puedo sostener la existencia de una relación línea. Pero

si estos puntos no describen una forma lineal, entonces yo no puedo eh sostener que existe relación entre las variables.

¿Sí? Bien, vamos a ver otro ejemplo con otra hipótesis. A mayor distancia de la escuela, menor asistencia a clases. A

mayor distancia de la escuela, menor asistencia a clases.

Supónganse que estamos hablando de alumnos rurales donde yo tengo que observar la distancia a la que viven de la escuela en kilómetros, por ejemplo, y el porcentaje de asistencia a clases.

Sí, construyo un diagrama de dispersión.

Esto también es una situación ficticia cuyos puntos presentan esta forma.

Presentan una forma lineal. Sí, estos

puntos forman eh describen una figura que se asemeja a una recta. Sí, yo veo acá

eh una forma lineal.

Ahora, ¿cómo es esta forma?

Yo observo utilizando de nuevo el recurso de de las medias, ¿no? Yo acá lo que estoy considerando es el promedio de al que viven eh el promedio de

kilómetros de distancia al que viven todos los alumnos de la escuela y el promedio de asistencia en porcentaje, ¿no? Entonces, ¿qué es lo que veo acá?

¿no? Entonces, ¿qué es lo que veo acá?

que los alumnos rurales que viven más cerca de la escuela, porque son los que se viven a una distancia menor al promedio, ¿sí? Registran porcentajes de

promedio, ¿sí? Registran porcentajes de asistencia altos.

Ahora, cuando observo los alumnos que viven a una mayor distancia de la escuela, porque viven a distancias que son mayores al promedio, el porcentaje

de asistencia decrece.

¿Sí? Entonces, lo que estoy viendo es que la asistencia a clases cambia cuando cambia la distancia a la que

viven de la escuela. ¿Y cómo cambia?

Bueno, a valores crecientes de la de la distancia a la escuela, valores decrecientes

de asistencia. ¿Sí? Entonces, a medida

de asistencia. ¿Sí? Entonces, a medida que aumenta la distancia a la que viven de la escuela, decrece el porcentaje de asistencia clases.

Entonces, estamos frente a una relación lineal, ¿sí? Porque los puntos conforman

lineal, ¿sí? Porque los puntos conforman una recta, ¿sí? Eh, presentan una forma que se asemeja a una recta. Ahora es una relación lineal negativa. Negativa

porque a valores crecientes de la variable que yo tengo ubicada en el eje X, valores decrecientes de la variable que yo tengo ubicada en el eje I, que es

la variable que quiero explicar, la variable dependiente. ¿Sí? Entonces, a

variable dependiente. ¿Sí? Entonces, a

valores crecientes de x, valores decrecientes de y, yo estoy frente a una relación lineal negativa.

Bien vamos a hablar ahora de la fuerza de la relación porque hay algo que nosotros ya dijimos en las dos clases anteriores de análisis divariado, que también es

importante para el análisis de la relación entre dos variables numéricas, que son los tres aspectos que tenemos que considerar en el análisis divariado.

Por un lado, es la existencia de la relación. Esto, como venimos de decir,

relación. Esto, como venimos de decir, lo podemos eh considerar a partir del análisis de la nube de puntos. Entonces,

ese análisis gráfico visual de la nube de puntos eh nos permite definir si tiene sentido o no pensar en la existencia de una relación lineal entre

las variables consideradas. Entonces,

la nube de puntos adopta una forma lineal. Yo me hago esa pregunta frente

lineal. Yo me hago esa pregunta frente al diagrama de dispersión. Si yo observo que adopto una forma lineal, entonces yo puedo afirmar la existencia de la

relación. Ahora, si yo tengo una una

relación. Ahora, si yo tengo una una nube de puntos completamente dispersas y esos puntos no adoptan una forma lineal, entonces yo no estoy en condiciones de

decir que existe relación entre las variables, como era el caso del diagrama de dispersión que analizaba la relación

entre la edad y el ingreso, tomando los datos reales de la encuesta permanente de hogares, ¿no? Bien, entonces el primer aspecto a analizar en un diagrama

de dispersión es la existencia de la relación. Una vez que yo advierto que

relación. Una vez que yo advierto que existe relación, que los puntos adoptan una forma lineal, entonces sí voy a reparar en la forma que adopta esa

relación y en la fuerza. Y de eso nos vamos a detener ahora e en estos dos aspectos, la forma y la fuerza de la relación.

Bien, entonces cuando los puntos forman una figura que se asemeja a una recta, estamos en presencia de una relación lineal. Esto ya lo dijimos. Cuanto más

lineal. Esto ya lo dijimos. Cuanto más

se ajuste la nube de puntos a una recta, más fuerte va a ser esa relación. ¿Qué

quiere decir? Cuanto más se ajuste, cuanto más se acerque a una cuando cuando los puntos estén más cerca de de esa recta, cuando presenten menor

dispersión respecto de esa recta, nosotros vamos a poder eh afirmar que es más fuerte la esa relación lineal que que hemos observado. Entonces, para eso

nosotros disponemos de la recta de mejor ajuste, que cuando ustedes este realicen los diagramas de dispersión a partir del Excel, eh van a ver que tienen la opción

de agregar la línea de tendencia, ¿sí?

Eh creo que así se llama en el Excel, la línea de tendencia y hace referencia a esto, a la recta de mejor ajuste, que así lo van a encontrar ustedes en la bibliografía. Es una recta, es la recta

bibliografía. Es una recta, es la recta que mejor describe esa nube de puntos.

Sí, porque como dijimos esa nube de puntos eh esos puntos no se ubican todos sobre una recta, excepto en el caso de

una relación perfecta, que ya dijimos que es una situación hipotética, teórica e ideal, que en datos sociales nosotros no vamos a observar nunca, ¿no?

Entonces, lo que nosotros podemos hacer es utilizar la recta de mejor ajuste, que lo que hace es ajustar lo

efectivamente observado a un modelo de relación lineal. Es una recta que

relación lineal. Es una recta que responde a un modelo matemático que estima un valor promedio de para cada

valor de x para tratar de describir eh la relación que presentan estos puntos.

¿Sí? Entonces,

la fuerza de la relación va a ser mayor cuanto más cerca estén los puntos de esa recta de mejor ajuste. Entonces, para

eso nos sirve eh la recta, para poder evaluar la dispersión que presentan los puntos de esa recta que lo que está

graficando es eh una relación perfecta, ¿no?

Bien. Entonces, otro otra herramienta que nosotros tenemos para evaluar la fuerza de la relación, además de analizar visualmente la dispersión de esos puntos respecto de la recta de

mejor ajuste, es lo que vamos a llamar el coeficiente de correlación lineal de Pson. ¿Sí? Este es un coeficiente que

Pson. ¿Sí? Este es un coeficiente que ustedes también lo van a poder calcular a partir de una función eh del Excel y que la tienen explicada en el tutorial que está subido al aula

virtual. No se trata acá de que ustedes

virtual. No se trata acá de que ustedes calculen manualmente el coeficiente de Piarson, porque el cálculo no es lo importante, pero sí es muy importante la

interpretación de ese valor y a eso le vamos a prestar atención ahora.

Entonces, el coeficiente de Pinson es un valor numérico que mide estos dos aspectos de la relación, la fuerza y el

sentido que adopta la relación lineal entre dos variables variables numéricas.

Entonces, fíjense, esto mide la fuerza y el sentido de la relación lineal. Es

decir, va a tener sentido interpretar el coeficiente de Piarson si previamente nosotros analizando el diagrama de dispersión advertimos la existencia de

una relación lineal. Si no advertimos la relación de una de la la existencia de una relación lineal, no tiene sentido hablar ni de la fuerza ni el sentido.

¿Sí? Bien.

El coeficiente de Pson. Aquí tienen la fórmula, pero insisto, no vamos a poner el foco en la fórmula del coeficiente de Piersson, pero sí tienen que tener en

cuenta esto. Adopta un valor entre -1 y

cuenta esto. Adopta un valor entre -1 y 1. Nunca podría dar 2,3. Sí. Si el

1. Nunca podría dar 2,3. Sí. Si el

coeficiente de Pixson les da 2,3, revisen el cálculo porque tiene un error. Sí, siempre el coeficiente de

error. Sí, siempre el coeficiente de Pson adopta un valor entre -1 y 1. ¿Cómo

se interpreta ese valor? Bien,

vamos a vamos a revisar eh dos cosas del coeficiente de Pi, el signo positivo o negativo que tiene ese

valor, porque el signo nos va a hablar del sentido de la relación y el valor absoluto de ese coeficiente, porque el valor nos va a hablar de la fuerza.

Entonces, e si el coeficiente de Piarson arroja un valor negativo, nos va a hablar de una relación, una relación lineal negativa. Y si el coeficiente de

lineal negativa. Y si el coeficiente de Pearson adopta un valor positivo, nos habla de una relación lineal positiva.

¿Sí? ¿De qué hablábamos cuando hablábamos de relaciones negativas?

Bueno, que a valores crecientes de x se observan valores de crecientes de y una relación positiva que a valores crecientes de x se observan valores

crecientes de y, ¿sí? y el valor absoluto, es decir, el valor que adopte el coeficiente, que ya dijimos que va a

ser entre 0 y un eh cuanto más próximo se encuentre a uno, nos va a hablar de una relación cada vez más fuerte y cuanto más próximo a cero, nos va a

hablar de una relación más débil o inexistente. ¿Sí?

inexistente. ¿Sí?

Y el R0 nos va a hablar de que no existe relación lineal entre las variables.

Entonces, eh, bueno, el R0 nos habla de que no existe relación lineal entre las variables. el R1 o el R -1 nos hablaría

variables. el R1 o el R -1 nos hablaría de una relación perfecta que, como dijimos en casos reales, en las ciencias sociales, relaciones perfectas no vamos

a observar nunca, pero sí podríamos llegar a observar relaciones muy fuertes cuyo valor de R se acerque bastante a

uno, ¿sí?, a uno o a -1. Entonces, vamos

uno, ¿sí?, a uno o a -1. Entonces, vamos

a ver eh exactamente cómo deberíamos interpretar nosotros ese valor de r.

Bueno, si el valor de R adopta un valor entre 0 y 0,2, podemos decir que no existe relación entre las variables. Si

se adopta un valor entre 0,2 a 0,4, esa relación va a ser débil.

Se adopta un valor entre 0,4 y 0,6, la relación va a ser moderada. Entre 0,6 a 0,8 va a ser fuerte y entre 0,8 a 1 va a

ser muy fuerte. Específicamente, si

adoptara el valor uno, sería una relación perfecta. Si ese valor de r es

relación perfecta. Si ese valor de r es negativo, me va a hablar de una relación lineal negativa o inversa. Y si ese valor es positivo, me va a hablar de una

relación lineal positiva o directa. ¿Sí?

Entonces, eh si yo obtuviera un R de -0,89, estaría hablando de una relación que es muy fuerte e inversa. Y si estoy frente

a un R de 0,53, me hablaría de una relación que es moderada y directa.

Bien, entonces este es el ejemplo eh que veíamos al principio de la clase, ¿no?

Todos los puntos se ubican sobre una recta. La recta describe perfectamente a

recta. La recta describe perfectamente a la nube de puntos. En esta situación, el ingreso, yo podría eh predecir con

exactitud el ingreso de una persona a partir de los años de educación formal, ¿sí? Eh, y en este caso el R adoptaría

¿sí? Eh, y en este caso el R adoptaría el valor uno. Por supuesto que esto es una situación, como dijimos, hipotética.

En un caso como este, yo observo la nube de puntos, observo que la nube adopta un una forma lineal. Sí.

Esta es la recta de mejor ajuste que describe eh que ajusta lo observado a un a una recta, ¿sí? Pero observo que los puntos se dispersan en torno a esta

recta, no están sobre la recta. ¿Sí?

Calculo el valor de ropta un valor de 0,83 que me está hablando de una relación que es lineal muy fuerte y positiva porque

el valor de r es positivo. ¿Qué quiere

decir positiva? que a medida que aumenta eh el porcentaje de población, en este caso con educación incipiente o nula, aumenta

también el porcentaje de población con necesidades básicas insatisfechas. ¿Sí?

Por mostrar otro ejemplo. En este caso, lo que yo estoy observando es que los puntos también adoptan una forma lineal.

¿Sí? Eh, acá tengo la recta de mejor ajuste, es decir, que ajusta lo observado a una a una recta.

Calculo el coeficiente de pison y me da -0,80.

¿Qué es lo que puedo decir? Que existe

una relación fuerte porque el valor absoluto es 0,8.

Pero al presentar un valor negativo, lo que estoy diciendo es que es la la relación es negativa. Es decir, a valores crecientes de x, valores decrecientes de y.

crece la tasa de alfabetización femenina adulta, decrece la tasa de mortalidad eh infantil en menores de 5 años.

Bien, entonces con esto damos por cerrado el análisis de la relación entre dos variables numéricas, eh atendiendo a la existencia de la

relación a partir de eh el análisis de la nube de puntos. Esto es

imprescindible. Uno tiene que poder describir esa nube de puntos y acuérdense este recurso de las de los promedios eh que nos ayuda a describir

la nube de puntos para argumentar por qué existe o no existe relación entre las variables y luego de eso, en caso de advertir la existencia de la relación entre variables, paso a analizar el

sentido y la forma de esa relación, para lo cual el coeficiente de Piarson nos puede servir. ¿Sí? Eh, bien, entonces

puede servir. ¿Sí? Eh, bien, entonces dejamos por aquí eh este tema.

Loading...

Loading video analysis...