Mentiras, mentiras muy gordas y… estadísticas educativas (II)

novembre 2013

http://gaussianos.com/hay-que-decirlo-mas-correlacion-implica-causalidad/
 
Magnífico este artículo de Gaussianos que vuelve a darme pie para cargar contra la tiranía de las estadísticas y, en especial, de las estadísticas educativas.
Los docentes y los directivos de centros educativos estamos asistiendo como convitados de piedra a la entronización del sacrosanto método empírico-estadístico por parte del Departament d’Ensenyament de la Generalitat de Catalunya. Y, lo peor de todo, nadie parece estar interesado en recordar el irrisorio resultado y el descrédito que en pleno siglo XX cosecharon las políticas basadas en las doctrinas de la escuela de Chicago aplicadas a las Ciencias Humanas.
De hecho, el fenómeno no es nuevo. La proliferación -arbitraria y desaforada- de indicadores, variables de control y otras magnitudes cuantitativas referidas a los centros educativos no ha hecho sino aumentar en los últimos diez o doce años.
Es la coartada perfecta: bajo la pátina de un pretendido método analítico y empírico, los planificadores educativos, o sea, los políticos y sus tecnócratas dedocráticos, manipulan e instrumentalizan estudios, variables, encuestas, estadísticas y lo que se tercie para llegar siempre a las mismas conclusiones; esto es, que la culpa de casi todo la tienen los profesores, que hay que reforzar la figura del directivo profesional y que los centros públicos deben regirse con los principios de la iniciativa privada.
O, en resumen, que la mejor política educativa es la que menos dinero le cuesta al Estado.
El artículo:

Hay que decirlo más: correlación no implica causalidad

Correlación no implica causalidad, hay que decirlo más (si queréis, con la entonación que Ernesto Sevilla le daba a cierto insulto muy español en cierto vídeo que fue un fenómeno de internet hace un tiempo…). Y hay que decirlo más porque en general no llegamos a comprender qué significa esta frase. Bueno, o eso o que aun comprendiéndola intentamos confundir a quien no la entiende haciéndole creer que una cosa sí que implica a la otra.
Prácticamente a diario nos encontramos en (principalmente) medios de comunicación noticias cuyo titular tiene una estructura parecida a algunos de los siguientes:
Un estudio afirma que cuanto más A más B.
Un estudio afirma que quienes son A tienen menos B.
Un estudio afirma que dado que A es así entonces B es de esta otra forma.
En principio, todos esos titulares indican básicamente que lo que dice A es lo que provoca que ocurra B, o, lo que es lo mismo, que B es consecuencia de A. Normalmente, cuando uno se lee esas noticias, acaba dándose cuenta de que lo que hay es una correlación entre A y B (vamos, una relación entre esos dos sucesos), pero, en principio, sin ningún indicio de que sea uno de ellos, A en este caso, el que provoca el otro, B.
El estudio de la correlación entre dos variables es uno de los temas que se trata en Estadística. Resumiendo un poco, la cuestión sería algo como lo siguiente:
– A partir de ciertos datos obtenidos de cada una de esas variables uno estima si hay alguna relación entre ellas. La que se estudia con mayor frecuencia es la llamada regresión lineal (mediante la que buscamos si hay relación lineal hay entre las variables), pero hay muchos más tipos posibles: cuadrática, exponencial, logarítmica…
– Con esos datos se calcula una función (que, por ejemplo, en regresión lineal es una recta) que nos determina exactamente qué relación hay entre esas variables.
– Se estudia la correlación real entre ellas (es decir, cómo de fuerte es la relación que habíamos estimado a partir de los datos iniciales) mediante uncoeficiente de correlación.
Este coeficiente suele tomar valores entre -1 y 1, y se interpreta de la siguiente forma:
    • Cuanto más cerca de 1 esté, mayor correlación positiva (es decir, que cuando aumenta una también lo hace la otra) hay entre las variables.

    • Cuanto más cerca de -1 esté, mayor correlación negativa (es decir, que cuando aumenta una disminuye la otra) hay entre las variables.

  • Cuanto más cerca de 0 esté, menor correlación hay entre las variables.
Ahora, que la relación entre las variables sea muy fuerte (esto es, que sea casi 1 o casi -1) no significa que una de ellas sea la causa de la otra. En ningún sitio esta teoría nos deja asegurar con tanta ligereza que el hecho de que haya una correlación muy fuerte entre A y B significa que la variable A es la que está provocado que se presente la variable B. La teoría habla de relación entre las variables, no de que una sea la causa de la otra. Por cierto, buenísima esta tira de XKCD sobre el tema:
Hasta aquí bien, ¿no? Vale, sigamos.
Todo esto de la mala interpretación de la correlación también se encuentra, y en demasiadas ocasiones, en estudios científicos supuestamente serios. No son pocos los estudios que al encontrar una cierta relación entre dos variables presentes en los sujetos estudiados se tiran a la piscina afirmando que por tanto una de ellas es la causa de la otra, cuando en realidad en dichos estudios no hay ninguna evidencia de que esto sea verdad (simplemente hay correlación).
Supongo que más de uno se estará preguntando lo siguiente: ¿entonces es mentira que correlación implique causalidad? Pues no, no es mentira, y verdad tampoco. Me explico:
Cuando se dice que la frase correlación no implica causalidad (en latín, Cum hoc ergo procter hoc) es cierta lo que se quiere decir es que el hecho de que haya correlación entre dos variables no significa que una provoque a la otra, pero eso no significa que si encontramos correlación entre dos variables automáticamente podamos descartar que una sea causa de la otra. Hay casos en los que A es la causa de que ocurra B, en otros es al revés, en otros hay alguna variable adicional la que hace que se produzca esa correlación…y a veces todo es fruto de la casualidad (sí, casualidad, no “causalidad”).
El problema de creerse que una fuerte correlación implica una cierta relación causal entre las variables es que esa creencia se puede usar (malintencionadamente o no) para engañarnos, ya que no es demasiado difícil encontrar correlación entre dos variables que en principio ni están relacionadas a poco que queramos “forzarla”.
Por ejemplo, si os digo que el descenso de piratas en el mundo está provocando una subida de la temperatura media global de nuestro planeta, ¿qué pensaríais? Posiblemente que estoy muy mal de la cabeza, ¿no? Bien, echadle un ojo a esta gráfica:

Fuente: Wikimedia Commons
En ella se ve claramente que desde 1860 se ha producido un descenso del número de piratas y a la vez un aumento de la temperatura media de la Tierra, y que hay correlación lineal (la gráfica se acerca bastante a una recta) entre las dos variables. ¿Es el descenso de piratas la causa de la subida de temperatura? Pues no parece que sea así. ¿Y al revés? ¿Es la subida de la temperatura media global la causa del descenso de piratas? Pues tampoco parece que sea así. Es muy posible que esta relación sea pura casualidad.
En la siguiente imagen (que vi en este post del blog de Francis) podéis ver algunos otros ejemplos como el anterior:
Tremendo que la mayor actividad en Facebook sea la causa de la crisis de deuda griega, ¿verdad?
Y para terminar os recomiendo ver esta charla de Tim Minchin (comediante, actor y músico australiano), que me pasó @antlarr en este tuit (después de subtitular él mismo el vídeo), que trata sobre el tema. Muy graciosa a la vez que reveladora para quienes todavía no están convencidos:

Y hay muchos más ejemplos. Algunos se comentan en este post de “Antonio S.” en Naukas, y seguro que vosotros conocéis muchos más. Os agradeceré que nos los dejéis en los comentarios.

Quinta y última aportación de Gaussianos a la Edición 4.12310562 del Carnaval de Matemáticas, que en esta ocasión tiene a Marta Macho como anfitriona a través del blogZTFNews.

Comentarios

Entradas populares