https://www.pinterest.es/pin/912964155688206847/
La regresión a la media
Antonio Callén Mora
Siempre he tenido curiosidad por la Estadística y me he sentido
atraído, en cierta medida, por los números y las probabilidades.
Sin embargo, he de reconocer que a veces hay conceptos y situaciones
que me cuesta entenderlos por ser poco intuitivos. No obstante, siempre
me queda la esperanza de insistir en algunos aspectos concretos, buscar
información y ejemplos diversos para acabar por entenderlos
e incluso aplicarlos a problemas de la vida real. Es decir que, normalmente,
me gustan por el reto que suponen y porque me ayudan a ejercitar la
mente y a resolver algunos problemas o, cuando menos, tener una visión
más objetiva de la realidad. Hoy por hoy, una vez concluida
mi vida profesional, no dejan de ser un entretenimiento o diversión
para no caer en el aburrimiento o colmar mis ganas de seguir aprendiendo.
Para entrar en el terreno de lo práctico, voy a poner un ejemplo
que siempre he tenido muy presente por hacer referencia a mi familia.
En efecto, soy el menor de cuatro hermanos y, sin embargo, soy el
más alto. Es decir, yo mido 1,80 m y mis hermanos rondan los
1,70 m. Mi padre y mi madre medirían sobre 1,65 m y 1,60 m,
respectivamente. Como es lógico, la alimentación y condiciones
de vida podrían servir en parte para explicar el salto generacional.
Sin embargo, entre mi hermano mayor y yo hay una diferencia de 13
años que no creo explique por si sola la diferencia de 10 cm
de estatura que nos caracteriza. Además, lo curioso es que
cuando pasamos a ver lo que ha pasado con nuestros hijos es cuando
se va manifestando mejor el fenómeno de regresión a
la media, concepto que explicaré posteriormente.
En efecto, en la tabla adjunta se puede observar, en datos aproximados
de valor relativo a efectos de este ejemplo, la estatura de la descendencia
de nuestros hijos.
Tabla 1. Altura aproximada (m), según sexo, de los progenitores
y de la descendencia de cuatro hermanos:
Hermano
(altura
aprox.) |
Esposa
(altura) |
Nº
hijos |
Varón
|
Hembra |
Mayor
(1,70) |
1,55 |
3
|
1,85
1,65 |
1,70 |
Segundo
(1,67) |
1,62 |
2 |
1,82 |
1,60 |
Tercero
(1,70) |
1,67 |
2 |
1,90 |
1,70 |
Cuarto
(1,80) |
1,62 |
2 |
1,80 |
1,70 |
Es
decir, grosso modo, podemos decir:
Siendo yo el más alto de mis hermanos, mi hijo varón
ha resultado ser el cuarto sobre cinco en la escala de estatura, si
bien su madre estaba en la segunda plaza por estatura en el rango
de las madres.
Todos mis hermanos han tenido hijos varones más altos que el
mío, independientemente de la estatura de sus esposas que,
salvo en un caso, era igual o inferior a la de mi mujer.
En
el caso de la descendencia femenina, la cosa fue más igualada;
pero mi hija, no superó en altura a sus primas.
Hay una notable diferencia de estatura entre los dos hijos varones
del hermano mayor.
Digamos
que uno de ellos pudo salir más a la familia paterna y el otro
a la materna.
En
el caso del tercer hermano, ambos hijos están en la parte alta
de la tabla, lo cual sin duda está relacionado con una mayor
aportación por la parte materna, cuyo padre era más
alto que el nuestro. Fruto de lo cual es que uno de sus hermanos supera
los 1,85 m (no mostrado en la tabla).
Obviamente, estoy haciendo un análisis simplista y poco riguroso,
pero creo que es útil para explicar el concepto que nos ocupa.
De hecho, he de aclarar que por mi rama paterna tenía un tío
que superaba el 1,80 y una tía que medía alrededor de
1,75 m. Sin embargo, la otra tía que conocí medía
escasamente 1,55 m. Como vemos, una amplia dispersión.
Visto esto, vamos a definir el concepto de regresión a la media
y ver si sirve para explicar estos y otros datos.
Según nos indica la inteligencia artificial (IA) podemos usar
la siguiente definición: “La regresión a la media es
el fenómeno estadístico que hace referencia a la tendencia
de las puntuaciones a promediar. En concreto, las puntuaciones extremas
tienden a suceder con poca frecuencia y cuando se presentan parecen
regresar hacia el promedio (la media). El concepto se basa en que
los valores extremos, o alejados de la media, irán probablemente
seguidos de valores más moderados cuando se repita la medición.
Hoy en día, se suele emplear el término para describir
el fenómeno por el cual un sesgo o error de muestreo inicial
puede desaparecer si se realiza una nueva medida, repetida, o bien
que la realización de mayores muestreos da lugar a medias muestrales
que están más próximas a la media poblacional”.
De hecho, el concepto de regresión proviene de la genética
y fue popularizado por Sir Francis Galton a finales del siglo XIX
quien observó que las características extremas (por
ejemplo, la altura) de los padres no se transmiten por completo a
su descendencia.
Más bien, las características de la descendencia retroceden
hacia un punto mediocre (un punto que desde entonces ha sido identificado
como la media).
Para
la altura, Galton estimó que este coeficiente era aproximadamente
2/3: la altura de un individuo medirá alrededor de un punto
medio que es dos tercios de la desviación de los padres del
promedio de la población (Fuente: Wikipedia).
Este fenómeno nos puede ayudar a comprender e incluso prever
fenómenos que son poco intuitivos y también a alejarnos
de sesgos cognitivos. Si esto no fuese así, se darían
fenómenos límites con mucha mayor frecuencia. Sucedería
que los hijos de parejas altas serían cada vez más altos
y los de parejas bajas se alejarían también de la media
por el otro extremo. De cualquier forma, no vamos a entrar aquí
en terrenos complejos como puede ser la herencia cuantitativa que
es por la cual se rigen algunas variables como la estatura o el peso,
por citar un par de ellas.
De hecho, hoy en día estamos habituados a disponer de aparatos
electrónicos que nos miden variables usuales como el peso,
las pulsaciones o la tensión arterial, por lo cual conviene
tener en cuenta este fenómeno. En efecto, se recomienda repetir
las mediciones para tener una idea más precisa del valor real,
ya que una sola medición podría dar un valor erróneo,
por el simple error de medición, el cual podría ser
extremo. Esto nos puede evitar sustos y ponernos de manifiesto que
las máquinas no son tan fiables como a menudo pensamos.
Otro ejemplo es el de su importancia para tenerlo en cuenta a la hora
de las decisiones sanitarias. De hecho, a menudo se presenta la situación
en que se atribuye eficacia a un tratamiento cuando en realidad ésta
es debida al azar, por un mal diseño del experimento.
Un caso típico es cuando se toman mediciones no aleatorias
y se miden variables que están poco correlacionadas, como puede
ser el caso de dos medidas sucesivas de presión arterial. Imaginemos
que en una primera medición elegimos para probar un tratamiento
pacientes que presentan valores extremos de presión arterial.
Es posible que, en la primera medición, este valor extremo
sea circunstancial y alejado de la media o normalidad. Lo cual implica
que, independientemente del tratamiento efectuado, es decir de su
eficacia, al tomar una segunda medida, por regresión a la media,
aquella será más baja o menos extrema y podemos estar
atribuyendo al producto una propiedad de la que carece. Esto implica
que si queremos tomar la decisión correcta deberemos hacer
un diseño experimental que nos libre de este tipo de error.
De ahí la importancia de incluir controles en este tipo de
pruebas, como puede ser la inclusión de una droga placebo.
De hecho, el efecto placebo se puede explicar en ocasiones por la
regresión a la media. Es decir, si nosotros aplicamos un tratamiento
en un proceso álgido es muy probable que, por la remisión
de síntomas consecutiva a un curso de curación natural,
por la acción de las defensas del organismo, nos hagan atribuir
al tratamiento una virtud que no tiene.
Otro ejemplo clásico es el relacionado con el deporte o las
apuestas. En la liga de baloncesto en USA, se cita el fenómeno
que se ha dado en llamar “Sophomore slump” que traducido vendría
a ser como la “caída del segundo año”. Este hecho se
da en jugadores que, en su primer año, de novatos, han presentado
resultados excepcionales, los cuales, por el efecto de regresión
a la media, bajan en el segundo año. Otro ejemplo es el de
algunos atletas que obtienen excelentes resultados en una olimpiada
o competición, constituyendo este resultado su mejor marca
y, posteriormente, bajan en su rendimiento en competiciones sucesivas.
Otro ejemplo típico es cuando se selecciona a un grupo de mejores
y peores estudiantes u operarios en una determinada prueba o situación.
Cuando se hace una segunda prueba, el grupo con mejores resultados
habrá presentado un rendimiento inferior que en la primera
ocasión y los que rindieron peor en la primera prueba habrán
mejorado. Esto puede ser debido al mejor o peor resultado de unos
pocos componentes de cada grupo, por regresión a la media.
De modo que, si se pretende evaluar un programa aplicado para mejoras,
se debe tener en cuenta este fenómeno para que no desvirtúe
el resultado y nos haga atribuir eficacia a algo que no la tiene.
Imaginemos que hemos elegido a los peores de un grupo, lo cual podría
ser la consecuencia de causas circunstanciales (falta de motivación,
mal estado de salud, estrés, etc.), de forma inexorable si
estos individuos son evaluados posteriormente, una vez normalizada
o mejorada su situación, su rendimiento será mejor;
independientemente de que hayan o no seguido un programa de mejora.
Es decir, la elección de una situación extrema en el
primer momento (el grupo de cola) hace que, por regresión a
la media, en una futura evaluación los resultados hayan mejorado.
Leo en algún artículo al respecto que este fenómeno
también es aplicable a los resultados electorales. Sin entrar
en el terreno del debate político, creo que en este país
tenemos ejemplos recientes de este fenómeno que han dado al
traste con algunas formaciones políticas en los últimos
años. No hace falta poner ejemplos, pues hay varios y seguro
están en la mente del lector.
Para concluir quisiera poner un último ejemplo tocante a mi
familia que es el que me ha llevado a escribir este artículo.
Por parte de mi rama paterna, de los cinco hermanos que llegaron a
la edad adulta y tuvieron descendencia, cuatro llegaron a ser nonagenarios.
Quien conoció a mi familia a menudo dicen que eso es cosa de
“buenos genes”. Lo cierto es que a mi padre y tíos les tocó
pasar momentos muy difíciles en la vida, como la guerra y la
posguerra. Sin embargo, podemos considerar esta longevidad como un
caso relativamente extremo.
Es
decir que está alejado de la esperanza de vida media, pongamos
85 años. La cuestión es que, por lo que la vida me está
mostrando, la siguiente generación llevamos camino de no repetir
este resultado. En efecto, de los 15 primos hermanos que constituimos
la siguiente generación han fallecido 5, la tercera parte,
llegando a 87 años el más longevo. Tan solo uno de los
15 ha llegado a los 90 años por el momento; se trata de una
prima que, por edad, era la segunda en el ranking. En definitiva,
que para llegar a esa meta en buen estado habrá que poner todos
los medios a nuestro alcance para librarnos de los males que acechan
a nuestra sociedad y además tener suerte. Nada es gratis.
Antonio Callén Mora