Hace unas pocas semanas, la Asociación Americana de Estadística (ASA, por sus siglas en inglés) publicó una editorial titulada “Moving to a World Beyond “p < 0.05”” en la revista The American Statistician[1]. Su contenido ha causado un gran revuelo en una amplia gama de disciplinas que, como la economía, utilizan métodos estadísticos como herramienta de investigación. Precedida por un comunicado emitido unos años antes que formalizaba el debate interno que derivó en la editorial, la ASA propone un cambio sustancial en la práctica de la estadística[2]. Como el título lo indica, la política oficial es dejar atrás la idea de lo que en la economía comúnmente llamamos significancia estadística.
Los economistas estamos acostumbrados a ver tablas de resultados que acompañan estimadores con una, dos o tres estrellitas. Sin embargo, la idea de abandonar esta práctica no es nueva en nuestra disciplina. De hecho, varias revistas, incluyendo algunas de las del llamado Top 5, han empezado a sugerir que los resultados de cualquier ejercicio econométrico sean reportados sólo con sus errores estándar, sin incluir notas que resuman pruebas de significancia estadística. Desde hace rato se veía venir el fin del show de las estrellas.
No pretendo resumir aquí todos los puntos del debate. Por el contrario, quiero concentrarme en tres de los problemas a los que ha llevado el uso universal del concepto de significancia estadística: la práctica de elegir entre una serie de estimaciones con base en si los resultados son estadísticamente significativos, a veces conocida como p-hacking; la equiparación de significancia estadística con lo que podríamos llamar significancia económica; y la falsa equivalencia entre verdad y significancia estadística. Aunque se basan en la práctica del análisis empírico, sobre todo a nivel microeconómico, las reflexiones van más allá del quehacer econométrico y apuntan a la relación entre los datos y el análisis económico.
***
Informalmente, el término p-hacking se refiere a la práctica de exprimir los datos hasta encontrar un “resultado” que se pueda reportar como estadísticamente significativo. Es una aproximación claramente antiética al análisis empírico, por lo que responsabilizar a una práctica estadística legítima – como una prueba de significancia que compare el p-valor con un umbral arbitrario- sería un despropósito. Sin embargo, no es necesaria la malicia para caer en la trampa de creer que el objetivo de un análisis empírico es encontrar un resultado estadísticamente significativo. Como profesor, he encontrado a muchísimos estudiantes que se aproximan de esta manera a los datos, ya sea para un trabajo en clase o sus tesis. Lo hacen sin ninguna intención de hacer trampa. Por el contrario, se basan en lo que han aprendido de leer artículos, asistir a seminarios o simplemente poner atención en sus clases de econometría. No ayuda tampoco el ampliamente discutido sesgo de publicación. Pero, desde el primer día en que un economista en formación se encuentra con los datos, la realidad se le presenta de una forma dicotómica. Es o no es significativo. Sí o no hay efecto. Es una forma simple y fácil de pensar el mundo, pero es equivocada y perezosa; olvida y esconde la incertidumbre inherente al análisis estadístico. En este contexto, es fácil olvidarse de la pregunta que guía el análisis para concentrarse en lograr un resultado que cumpla con las expectativas. Sencillo: bien si hay estrellas, mal si no.
Se podría decir, sin embargo, que el anterior es un problema de enseñanza, cuya solución no requiere una transformación radical del análisis estadístico. Al fin y al cabo, son precisamente esos espacios – las tesis, los trabajos en clase – en donde se puede corregir el camino. Pero esta reducción de un complejo mundo aleatorio a una simple dicotomía no comienza ni acaba con esa comprensión equivocada de cuál es el objetivo de un análisis empírico. La realidad es que la interpretación de muchos ejercicios econométricos se centra cada vez más en si existe un “efecto” – usualmente un efecto de tratamiento- estadísticamente significativo o no. Esto ha hecho que se vuelva más relevante en la discusión un efecto estadísticamente significativo de X sobre Y, pero con pocas implicaciones reales en términos de economía o política pública, que uno imprecisamente medido, pero con gran relevancia. Cuánto valoramos un resultado ha pasado a depender más de si la naturaleza – gloriosamente aleatoria e incierta- le dio su patadita de la buena suerte y le hizo cruzar el umbral del 5%, que de su significancia económica, humana, o social.
Y así, se ha construido una peligrosa equivalencia entre que un estimador sea estadísticamente significativo y que la afirmación que se desprende de su análisis sea cierta. Imagine un experimento aleatorio controlado muy bien implementado, para no preocuparnos por el problema de la identificación. Imagine también que la muestra es relativamente pequeña. El estimador del efecto de tratamiento promedio tiene un p-valor de 0.04. Buena publicación en el horizonte. ¡En-tu-siasmo! Imagine ahora que, por el contrario, el p-valor es 0.12. Súmele el odioso sesgo de publicación y tenemos un manuscrito engavetado. En la retina del público queda, en el primero de los casos, que con seguridad existe un impacto positivo del programa. En el segundo, y si estamos de buenas y el público conoce la existencia del experimento, que no existe tal efecto. De lado ha quedado cualquier noción de incertidumbre al respecto.
Es cierto que ésta es una presentación un poco simple de estos problemas. La realidad es más compleja y tanto investigadores como editores de revistas académicas han buscado soluciones a cada uno de ellos. El argumento de fondo es, sin embargo, que la visión simplificada de un fenómeno aleatorio como algo fácilmente dicotomizable ha contribuido de forma transversal a estos y otros fenómenos. ¿Qué propone entonces la ASA como solución? Por definición, no puede haber una solución igualmente sencilla de practicar. El número de la revista contiene decenas de artículos con propuestas de cómo transitar a un mundo más allá de la significancia estadística. Pero un punto común que encuentran estas propuestas es el de aceptar y valorar la incertidumbre.[3] Lo dicen mejor ellos que lo que lo puedo decir yo:
“Researchers will be free to communicate all their findings in all their glorious uncertainty, knowing their work is to be judged by the quality and effective communication of their science, and not by their p-values. As “statistical significance” is used less, statistical thinking will be used more.”[4]
Será una transición difícil y larga, pues requiere un cambio sustancial en la forma de pensar y enseñar. Es un salto de un mundo sencillo a uno en que las cosas no se pueden dividir tan fácilmente entre blanco y negro. Personalmente, creo que es una oportunidad de oro para volver a una versión menos limitada del análisis empírico en economía que vaya más allá de estimar efectos de tratamiento. Tener que enfrentar la incertidumbre, espero, nos llevará a asumir mejor la responsabilidad de contar una buena historia. Recordaremos que un buen artículo es, al final de cuentas, un buen ejercicio de persuasión y que los datos son herramientas para apoyar argumentos. Nos permitirá apreciar y reconocer la subjetividad en la interpretación de nuestros ejercicios econométricos. Y, ojalá, dejaremos de esperar, de forma infantil, que los datos hablen por sí solos.
—————————
Bonus track: En un ensayo sobre un tema diferente pero relacionado con lo que escribo en esta entrada, Christopher Ruhm habla sobre cómo la obsesión con la identificación nos ha llevado a olvidarnos de preguntas relevantes que no podemos contestar con certidumbre[5]. Recomendadísimo.
[1] Ronald L. Wasserstein, Allen L. Schirm & Nicole A. Lazar (2019) Moving to a World Beyond “p < 0.05”, The American Statistician, 73:sup1, 1-19, DOI: 10.1080/00031305.2019.1583913.
[2] Ronald L. Wasserstein & Nicole A. Lazar (2016) The ASA’s Statement on p-Values: Context, Process, and Purpose, The American Statistician, 70:2, 129-133, DOI:10.1080/00031305.2016.1154108
[3] Embrace, en inglés, que desafortunadamente no tiene una traducción exacta al español.
[4] Wasserstein, Schirm y Lazar (2019). Mi traducción: “Los/las investigadores/as estarán en libertar de comunicar todos sus resultados en su gloriosa incertidumbre, sabiendo que serán juzgados por la calidad y comunicación efectiva de su ciencia y no por su p-valor. A medida que se usa menos la “significancia estadística”, se usará más el pensamiento estadístico”
[5] Ruhm, Christopher J. (2018) Shackling the Identification Police? NBER Working Paper No. 25320