“Juan el investigador saca una moneda de su bolsillo y decide tirarla, digamos, cien veces. Como siente curiosidad sobre qué sale típicamente después de una Cara, cada vez que sale Cara, escribe en un papel qué salió después. Cuando completa las 100 tiradas de moneda, Juan espera por supuesto que la proporción de caras escritas en el papel sea 50%. Sorprendentemente, Juan se equivoca.” Para una moneda justa (con 50% de caras), y con tiradas cuyos resultados son independientes entre tiradas, la proporción esperada de caras es estrictamente menor que 50%.
Esto es, básicamente, el primer párrafo de “Surprised by the Hot Hand Fallacy? A Truth in the Law of Small Numbers,” por Joshua Miller y Adam Sanjurjo, que salió hace un año en Econometrica.
Si les cuesta creerlo, léanlo otra vez. Sorpréndanse nuevamente, porque es cierto.
Ya voy a explicar por qué es cierto con un ejemplo fácil. Pero para que no dejen de leer por falta de relevancia, es importante contar por qué lo publicaron en Econometrica. Resulta que hace unos 35 años Gilovich, Vallone y Tversky documentaron en forma “contundente” que había una creencia generalizada: todo el mundo creía que existe el “hot hands”; tanto los aficionados, como los jugadores, los entrenadores, y los analistas creían firmemente que luego de (digamos) embocar tres tiros en el básquetbol, era más probable que un jugador embocara la siguiente, que si venía de errar tres tiros. Luego, “demostraron” (incorrectamente como veremos) empíricamente que eso no era cierto, que el “hot hands” no existía. Los autores, y la vasta literatura que siguió en economía y psicología (el paper tiene 1.700 citas), consideraron que esto era relevante pues ilustraba un sesgo importante: ¿cómo puede ser que algo falso esté tan arraigado en las cabezas de gente cuyo ingreso depende fundamentalmente de entender bien si existe o no el fenómeno? Esto sólo puede suceder si la gente tiene una concepción equivocada de lo que es una secuencia aleatoria de eventos independientes, y eso tiene consecuencias muy importantes para áreas como las finanzas.
Para entender el supuesto sesgo que sería aplicable a otras áreas, consideremos la ley de los grandes números: una ley matemática que dice que en una secuencia larga de tiradas independientes de una moneda balanceada, la proporción de caras es 50% casi seguramente. La forma de resumir el hallazgo (para hacerlo aplicable a otras áreas) es el siguiente: hay un sesgo que se llama “the law of small numbers” o “ley de los números pequeños” (en contraposición a la ley de los grandes números) que dice que la gente espera (incorrectamente) que en una secuencia de 6 tiradas, la proporción de caras sea 50%, y por lo tanto luego de tres Caras, “debería” salir Número. Si luego de tres Caras no sale Número, es porque las tiradas no son independientes; si yo observo que es común una secuencia de cuatro Caras, eso indicará que las tiradas no son independientes, y que tres Caras al hilo “causan” una nueva Cara.
En finanzas esto es relevante porque, aún si los movimientos de la bolsa son aleatorios e independientes entre días, luego de observar tres bajas consecutivas, esperaré una suba e invertiré. La ley de los números pequeños había sido investigada por Tversky y Kahneman en “Belief in the Law of Small Numbers” en 1971 (3.400 citas), y el “hot hands” era una aplicación divertida y relevante en el mundo real. Esto era importante, pues una crítica común a los experimentos en laboratorios es que “los chicos en los laboratorios se equivocan, pero gente profesional, cuyo ingreso depende de entender la aleatoriedad, no se equivocará”. Gilovich, Vallone y Tversky habían demostrado que aún profesionales eran presas del sesgo de creer en la ley de los pequeños números.
Ahora, ¿cómo demostraron que no había hot hands? El primer test que hicieron fue ver si los jugadores más anotadores de un cierto equipo en una cierta temporada de la NBA tenían una proporción más grande de éxitos luego de tres éxitos que luego de tres fracasos; establecieron que no. El problema con ese test es que si yo sé que existe el hot hand, y emboqué tres, posiblemente intente tiros más difíciles (shot selection). O puede ser que mis rivales sepan que existe el hot hand, y que luego de yo embocar tres, embocaré casi con certeza la cuarta, y entonces pondrán a dos rivales a marcarme (y me será más difícil embocar). En cualquiera de esos casos, encontrar que la probabilidad de éxito luego de tres éxitos es igual a la probabilidad de éxito luego de tres fracasos, demostraría hot hands. No era un buen test.
Luego probaron con los tiros libres, que no tienen esos problemas, pero tienen otros. Pero uno de los tests cruciales, que ha sido replicado algunas veces, es que tomaron a 26 jugadores y jugadoras del equipo de básquetbol de Cornell, y les hicieron tirar 100 tiros desde una serie de puntos pre-especificados. Para cada uno calcularon la proporción de éxitos luego de un éxito, de dos éxitos o de tres éxitos, y la compararon con la proporción de éxitos luego de uno, dos o tres fracasos.
Eso, como el lector atento se dará cuenta, es muy parecido al párrafo introductorio. Concretamente, la proporción esperada de Caras luego de una Cara es menor que 50% y la proporción esperada de Caras luego de un Número es mayor que 50%. Por lo tanto, los hallazgos de Gilovich, Vallone y Tversky (que no hay diferencias entre ambas magnitudes) de hecho demuestran que sí existe el hot hands: de no existir hot hands (como la moneda, que no tiene hot hands) deberían haber encontrado que existe una diferencia significativa (a favor de embocar luego de haber errado), y como no encontraron eso, quiere decir que de hecho la gente emboca más luego de haber embocado.
Veamos ahora con un ejemplo sencillo qué es lo que está mal del test. Imaginemos que sólo nos interesa saber la proporción de Caras luego de una Cara, en una secuencia de tres tiradas. Eso “debería” ser 50%, pero como veremos ahora, no lo es. En la tabla siguiente escribo los 8 resultados posibles, y la proporción de Caras luego de una Cara en cada uno:
Las dos rayitas en las últimas columnas sólo dicen que en esas secuencias no se puede responder la pregunta sobre proporción de Caras luego de una Cara. Y el 50% en la segunda columna me dice que luego de la primera Cara ocurrió una Cara, y que luego de la segunda ocurrió un Número, por lo que la proporción de Caras, luego de una Cara, es 50%.
Ahora bien, si hubiéramos puesto a millones de personas a tirar monedas tres veces, tendríamos aproximadamente 1/8 de la gente en cada columna. Pero para calcular el valor promedio (esperado) de Caras luego de una Cara, sólo son relevantes las primeras 6 columnas. Como la cantidad de gente en cada una sería aproximadamente la misma, habría 1/6 de ese total de gente en cada una de las primeras seis columnas. Por lo tanto, el valor promedio del número de Caras luego de una Cara sería 5/12 (un sexto por 100%, más otro sexto por 50%, más un último sexto por 100%), que es menor que 1/2 = 6/12.
Volvamos ahora al test de Gilovich y sus coautores. Según esta prueba, y para simplificar un poco, si no hubiera habido hot hands, deberían haber encontrado que luego de tres embocadas, la proporción de embocadas debería ser menor que 50% (en el caso de este ejemplo, 5/12); como encontraron que era 50%, eso quiere decir que efectivamente hay hot hands; después de embocar, aumenta la probabilidad de embocar.
Matemáticamente es muy importante pausar un segundo y ver qué es lo que está pasando. En este problema el “objeto primitivo” es la secuencia de 3 tiradas (al igual que el objeto primitivo para Gilovich y sus coautores era la secuencia de 100 tiradas), y no cada tirada individual. De hecho, si en la tabla anterior contamos “proporción de Caras después de cada Cara” en los 8 resultados posibles, vemos que hay 4 Caras y 4 Números, que arroja el resultado esperado de 50% de Caras. Pero en el problema de Gilovich et al. y en este problema matemático, la primitiva es la secuencia, y no la tirada individual.
Con esta nueva comprensión del problema matemático, Miller y Sanjurjo volvieron a los datos originales de Gilovich et al. (y algunos de los papers que lo replicaron) y encontraron evidencia sustancial de “hot hands”.
Uno de mis coautores está “enojado” con el tono de “mirá que sorpresa este hallazgo matemático” que tiene el trabajo de Miller y Sanjurjo. Podría ser mucho más tranquilo y decir sencillamente “Gilovich et al. se equivocaron, aquí hay una forma correcta de ver el problema” y sería igualmente efectivo. Aún así, vale la pena leerlo; todavía está por verse el impacto más grande sobre el “belief in the law of small numbers” y la evidencia que no sufre de este problema. Pero como adelanté, este test estaba bueno porque se aplicaba a profesionales con intereses “grandes” en entender el problema.