Toma y Daca: La base de la cooperación

En la ópera Gianni Schicchi de Puccini, el personaje Buoso Donati ha muerto y le ha dejado su fortuna a un monasterio, lo que ha desolado a su familia. Antes que alguien conozca el deceso de Buoso, su familia acuerda con Gianni Schicchi para que represente a Donati y rehaga su testamento con el notario de forma de recuperar la fortuna. Sin embargo, nada le ata las manos a Schiacchi y al momento de reescribir el testamento de Donati, lega su fortuna al gran actor Gianni Schicchi. ¿Por qué Schicchi se tendría que haber comportado de forma diferente? ¿Qué incentivos tenía a honrar el contrato con la familia de Donati? Ninguno. Schicchi percibe claramente que no tendrá ninguna interacción futura con la familia de Donati de la cual pudiese derivar un superávit (en valor presente) mayor al que puede alcanzar desertando el acuerdo que tenía con la misma, y así lo hace. ¿Podría Schicchi haber tenido incentivos a honrar el contrato? En teoría sí, siempre y cuando hubiese anticipado futuras interacciones con la familia de Donati que le hubiesen cambiado su estructura de incentivos. Las interacciones repetidas entre las partes generan incentivos que pueden diferir fundamentalmente de aquellos derivados de las interacciones no repetidas.

¿Bajo qué condiciones la cooperación emerge en un mundo poblado por agentes egoístas sin que medie una autoridad central? Esta pregunta ha intrigado a economistas y politólogos por mucho tiempo. Y por buenos motivos. Sabemos que las personas no son ángeles, y que tienden a cuidarse a sí mismos primero. Sin embargo, también sabemos que la cooperación efectivamente ocurre y que nuestra civilización está basada en ella. Pero, en situaciones en las que cada individuo tiene incentivos a ser egoísta, ¿cómo puede desarrollarse esta cooperación?

Dilema del prisionero

Un buen punto de partida es el Dilema del Prisionero. En este juego participan dos jugadores. Cada uno tiene dos opciones, cooperar o desertar. Cada uno tiene que tomar la decisión sin conocer qué es lo que hará el otro jugador. Sin importar lo que el otro jugador haga, la deserción genera un mayor pago que cooperar. El dilema ocurre, sin embargo, porque si ambos desertan, a ambos les va peor que sí los dos cooperan.

La manera en la que funciona el juego es la siguiente. Un jugador elige una fila, ya sea cooperar o desertar. El otro jugador simultáneamente elige una columna, cooperar o desertar. En conjunto, estas decisiones resultan en uno de los cuatro desenlaces posibles que se observan en la siguiente figura.

 

Figura 1: Dilema del Prisionero

Jugador Columna
Coopera Deserta
Jugador Fila Coopera R=3, R=3                                 Recompensa por cooperación mutua P=0, T=5                                 Pago del perdedor y Tentación por desertar
Deserta T=5, P=0                                 Tentación por desertar y Pago del perdedor C=1, C=1                                 Castigo por deserción mutua

 

Si ambos jugadores cooperan, a los dos les va relativamente bien y reciben la recompensa (R) que implica haber cooperado mutuamente. En particular, de acuerdo a la matriz de pagos de la figura 1 el premio es igual a 3. Si un jugador coopera pero el otro deserta, el desertor recibe la tentación por desertar, mientras que el jugador que cooperó recibe el pago del perdedor. En el ejemplo, estos equivalen a 5 y 0 puntos, respectivamente. Si los dos jugadores desertan, ambos reciben 1 punto, el castigo por la deserción mutua.

¿Qué se debería hacer en este juego? Supongamos que somos el jugador fila, y creemos que el jugador columna cooperará. Esto significa que recibiríamos uno de los dos resultados en la primera columna de la figura 1. Podríamos cooperar también obteniendo 3 puntos del premio por la cooperación mutua. O podríamos desertar obteniendo 5 puntos. Por lo tanto, si creemos que el otro jugador va a cooperar, nos conviene desertar. Ahora supongamos que creemos que el otro jugador desertará. Estamos en la segunda columna de la figura 1, y tenemos la opción de cooperar, lo que nos convierte en un perdedor otorgándonos 0 puntos o desertar, lo que resultaría en un castigo mutuo otorgándonos 1 punto. Nuevamente, nos conviene desertar. Por lo tanto, sin importar lo que el otro jugador decida, nos conviene desertar, lo cual es una estrategia dominante.

Hasta ahora no hay problemas. Pero la misma lógica aplica para el otro jugador. Por lo tanto, el otro jugador debería también desertar. En ese caso ambos recibiríamos 1 punto, lo que es peor que haber recibido los 3 puntos de premio si ambos cooperábamos. La racionalidad individual nos lleva a un peor resultado para ambos. Allí está el dilema. El juego del Dilema del Prisionero es simplemente una formulación abstracta de situaciones comunes e interesantes de la vida cotidiana en las que lo mejor para cada persona individualmente lleva a una deserción mutua en lugar de estar mejor cooperando mutuamente.

Como se verá a continuación, con un número indefinido de iteraciones la cooperación puede surgir. Se evaluarán las interacciones entre dos jugadores a la vez. Se asume también que el jugador reconoce al otro jugador y que recuerda cómo interactuaron anteriormente. Esta habilidad de reconocer y recordar permite que la historia de la interacción particular sea tomada en cuenta en la estrategia de cada jugador.

También hay que tener en cuenta que:

  1. No hay mecanismos disponibles para que los jugadores puedan hacer amenazas o para aplicar compromisos.
  2. No hay manera de estar seguro de qué hará el otro jugador en cierto momento.
  3. No hay manera de eliminar al otro jugador o huir de la interacción. Por lo tanto, cada jugador mantiene la habilidad de cooperar o desertar en cada jugada.
  4. No hay manera de cambiar los pagos de los otros jugadores.

Bajo estas condiciones, las palabras que no estén respaldadas por acciones no tienen valor. Los jugadores sólo pueden comunicarse entre ellos a través de la secuencia de su propio comportamiento. Este es el problema del Dilema del Prisionero es su forma fundamental.

Dilema del prisionero iterado

Lo que hace posible que la cooperación surja es que los jugadores puedan volver a encontrarse. Esta posibilidad significa que las decisiones tomadas hoy no solo determinan el resultado de la actual jugada sino que también pueden influenciar las futuras decisiones de los jugadores. Pero el futuro es menos importante que el presente por dos razones. La primera es que los jugadores tienden a valorar menos los pagos a medida que estos se alejan en el tiempo. La segunda es que siempre existe la posibilidad de que los jugadores no se vuelvan a encontrar. Por estos motivos, el pago del siguiente período siempre cuenta menos que el pago de la jugada actual. Una forma simple de tener esto en cuenta es acumular pagos a lo largo del tiempo de manera tal que la próxima jugada valga una fracción de la jugada actual.

La pregunta que surge es la siguiente: ¿Qué estrategia le otorgará a un jugador el mayor pago posible? Si bien es una excelente pregunta, no hay una mejor regla independientemente de la estrategia del otro jugador. Debido a ello, un estudio muy importante fue el de Robert Axelrod (ver acá), quien a través de un torneo ha estudiado el surgimiento de la cooperación analizando qué estrategia es buena para aplicar en un Dilema del Prisionero iterado. Un grupo de teóricos fueron invitados a presentar cada uno una estrategia, y cada una de estas reglas de decisión fue comparada con las demás para ver cuál de ellas era la mejor de todas. Sorprendentemente, la ganadora fue la estrategia más simple de todas. Esta fue la estrategia de Toma y daca, la estrategia que coopera en la primera jugada y luego juega cualquier cosa que haya jugado el jugador en el período anterior (esta estrategia fue enviada por Anatol Rapoport). El estudio de Axelrod fue tan influyente que cuando Richard Dawkins revisó su libro clásico sobre el gen egoísta (ver acá), incluyo un nuevo capítulo basado en el mismo.

En una segunda ronda del torneo, muchas más partidas fueron presentadas por amateurs y profesionales por igual, todos los cuales estaban al tanto de los resultados de la primera ronda. El resultado fue una nueva victoria para la estrategia de Toma y daca.

El análisis de estos torneos revela ciertas propiedades que tienden a hacer que una estrategia sea exitosa: (a) evitar conflictos innecesarios al cooperar cuando el otro jugador lo hace; (b) provocar al otro jugador ante su deserción; (c) poder perdonar luego de responder a una provocación y (d) clarificar el comportamiento de modo que un jugador pueda adaptarse al patrón de acción del otro jugador. Entonces, vemos que bajo ciertas condiciones, la cooperación ciertamente puede surgir en un mundo habitado por individuos egoístas sin que medie una autoridad central.