La mano del día
Viernes

Antes de empezar el fin de semana, ilústrate con nuestra mano del día de hoy viernes, aprende, diviértete y coméntala en nuestro foro. 

Blog de usuarios

Lee los blog realizados por los usuarios e intercambia comentarios con sus autores. Crea tu propio blog, y al mismo tiempo participa en el Intelli del Mes. 19 Intellis serán recompensados cada mes...

 SNG Fifty50 $5.5

Celina Lin SNG Fifty50 $5.5 Vídeo Sesión

SNG $13 6-max
Parte 1

En este vídeo cnew27 juega una sesión de SitGo  de 6 jugadores, con un buy in de 13$ 

Nash, el prisionero, Pareto, los faroles….que mezcla !!!

por tu pierdes, 03.12.2009.

Hola gentes,

Hacía tiempo que no escribía nada, y hoy les traigo algo un poco fuera de lo acostumbrado.

Les pido paciencia en la lectura, la mente abierta, y a ver que sale.

John Forbes Nash, matemático, premio nobel de economía en 1994, con enormes aportes a la "teoría de juegos", nos ha dejado un legado más que interesante. Entre otras cosas lo que se conoce como el "equilibrio de Nash"
 

En teoría de juegos, se define el equilibrio de Nash  como un modo de obtener una estrategia óptima para juegos que involucren a dos o más jugadores. Si hay un conjunto de estrategias tal que ningún jugador se beneficia cambiando su estrategia mientras los otros no cambien la suya, entonces ese conjunto de estrategias y las ganancias correspondientes constituyen un equilibrio de Nash.

El concepto de equilibrio de Nash apareció por primera vez en su disertación Non-cooperative games (1950). John Forbes Nash demostró que las distintas soluciones que habían sido propuestas anteriormente para juegos tienen la propiedad de producir un equilibrio de Nash.

Un juego puede no tener equilibrio de Nash, o tener más de uno. Nash fue capaz de demostrar que si permitimos estrategias mixtas (en las que los jugadores pueden escoger estrategias al azar con una probabilidad predefinida), entonces todos los juegos de n jugadores en los que cada jugador puede escoger entre un número finito de estrategias tienen al menos un equilibrio de Nash con estrategias mixtas.

Si un juego tiene un único equilibrio de Nash y los jugadores son completamente racionales, los jugadores escogerán las estrategias que forman el equilibrio.

Referencia: es.wikipedia.org/wiki/Equilibrio_de_Nash

Un ejemplo típico que permite explicar el equilibrio de Nash, es lo que se conoce como "Dilema del Prisionero", que paso a comentar a continuación:

La enunciación clásica del dilema del prisionero es:

La policía arresta a dos sospechosos. No hay pruebas suficientes para condenarlos y, tras haberlos separado, los visita a cada uno y les ofrece el mismo trato. Si uno confiesa y su cómplice no, el cómplice será condenado a la pena total, diez años, y el primero será liberado. Si uno calla y el cómplice confiesa, el primero recibirá esa pena y será el cómplice quien salga libre. Si ambos confiesan, ambos serán condenados a seis años. Si ambos lo niegan, todo lo que podrán hacer será encerrarlos durante seis meses por un cargo menor.

Lo que puede resumirse como:
 

  Tú confiesas Tú lo niegas
Él confiesa Ambos son condenados a 6 años. Él sale libre; tú eres condenado a 10 años
Él lo niega Él es condenado a 10 años; tú sales libre Ambos son condenados a 6 meses.

Vamos a suponer que ambos prisioneros son completamente egoístas y su única meta es reducir su propia estancia en la cárcel. Como prisioneros tienen dos opciones: cooperar con su cómplice y permanecer callado, o traicionar a su cómplice y confesar. El resultado de cada elección depende de la elección del cómplice. Por desgracia, uno no conoce qué ha elegido hacer el otro. Incluso si pudiesen hablar entre sí, no podrían estar seguros de confiar mutuamente.
 

Si uno espera que el cómplice escoja cooperar con él y permanecer en silencio, la opción óptima para el primero sería confesar, lo que significaría que sería liberado inmediatamente, mientras el cómplice tendrá que cumplir una condena de 10 años. Si espera que su cómplice decida confesar, la mejor opción es confesar también, ya que al menos no recibirá la condena completa de 10 años, y sólo tendrá que esperar 6, al igual que el cómplice. Si, sin embargo, ambos decidiesen cooperar y permanecer en silencio, ambos serían liberados en sólo 6 meses.

Confesar es una estrategia dominante para ambos jugadores. Sea cual sea la elección del otro jugador, pueden reducir siempre su sentencia confesando. Por desgracia para los prisioneros, esto conduce a un resultado regular, en el que ambos confiesan y ambos reciben largas condenas. Aquí se encuentra el punto clave del dilema. El resultado de las interacciones individuales produce un resultado que no es óptimo -en el sentido de eficiencia de pareto (*) ; existe una situación tal que la utilidad de uno de los detenidos podría mejorar (incluso la de ambos) sin que esto implique un empeoramiento para el resto. En otras palabras, el resultado en el cual ambos detenidos no confiesan domina al resultado en el cual los dos eligen confesar.

Si se razona desde la perspectiva del interés óptimo del grupo (de los dos prisioneros), el resultado correcto sería que ambos cooperasen, ya que esto reduciría el tiempo total de condena del grupo a un total de un año. Cualquier otra decisión sería peor para ambos si se consideran conjuntamente. A pesar de ello, si siguen sus propios intereses egoístas, cada uno de los dos prisioneros recibirá una sentencia dura.

Si has tenido una oportunidad para castigar al otro jugador por confesar, entonces un resultado cooperativo puede mantenerse. La forma iterada de este juego (mencionada más abajo) ofrece una oportunidad para este tipo de castigo. En ese juego, si el cómplice traiciona y confiesa una vez, se le puede castigar traicionándolo a la próxima. Así, el juego iterado ofrece una opción de castigo que está ausente en el modo clásico del juego.

Una opción es considerar este dilema como una simple "máquina de la verdad". El jugador puede tomar no dos, sino tres opciones: cooperar, no cooperar o, sencillamente, no jugar. La respuesta lógica en este caso es "no jugar", pues el prisionero carece de información suficiente para jugar correctamente: no sabe cuál será la opción de su compañero. No hay tal dilema, pues no es posible el juego. Si juega, se trata de una "apuesta", más que de una solución lógica.

(*) El concepto de eficiencia de Pareto (también llamado óptimo de Pareto, Pareto-optimalidad u óptimo paretiano) es aquella situación en la cual se cumple que no es posible beneficiar a más elementos de un sistema sin perjudicar a otros. Se basa en criterios de utilidad: si algo genera o produce provecho, comodidad, fruto o interés sin perjudicar a otro, provocará un proceso natural deoptimización hasta alcanzar el punto óptimo.

Referencia: es.wikipedia.org/wiki/Dilema_del_prisionero

.

Excelente, ya sabemos quien es Nash, que si nos meten presos no debemos dejar que nos incomuniquen, y que el tal Pareto andaba preocupado optimizando cosas…..¿que tiene que ver esto con el poker?

 

Planteamos la siguiente situación:

Dos jugadores de poker, en una mesa determinada, están en el river. Vamos a llamarlos jugador A, y jugador B. El jugador B tiene una mano extremadamente evidente (supongamos que lo tenemos suficientemente leído como para saber bastante acertadamente lo que lleva). Por lo tanto el jugador A, que sabe  lo que tiene el jugador B, sabe si va por delante o va por detrás en la mano. El jugador B que se sabe leído, y sabe que su mano es evidente, sabe que el jugador A sabe lo que tiene en la mano. Es decir, ambos saben. A sabe la mano de B, y B sabe que A lo sabe. Pongamos para este ejemplo que A juega sin posición y B con posición.

Si el jugador A tiene una mano ganadora, apostará por valor, porque tiene la mejor mano, si sabe que gana. Pero si el jugador A tiene una peor mano, aún puede apostar tratando de que el jugador B foldee porque supone que A que conoce su mano apuesta por valor. De forma que el jugador A puede aportar por valor o puede apostar de farol. El jugador B puede pagar la apuesta de A si considera que va de farol, o puede foldearse si cree que va apostando por valor.

Entonces nos encontramos que:

  • El jugador A tiene dos posibles estrategias puras hacer farol o no hacer farol. Una estrategia combinada o estrategia mixta donde el jugador haga "a" veces farol, y no haga "1-a" veces farol, nos indica que A hace farol con una probabilidad "a" en el caso en que apueste.
  • El jugador B puede optar también por dos estrategias puras pagar o foldear. Dado que si opta siempre por una estrategia (por ejemplo pagar, el jugador A que se adapta nunca lo farolearía, y si opta por foldear siempre el jugador A lo farolearía siempre) pura siempre estaría perdiendo, debe optar también por una estrategia mista. Supongamos "b" y "1-b", donde "b" veces igualaría, y "1-b" veces se foldea ante la apuesta del jugador A.
  • Hay que tener en claro, que n caso que el jugador A no apueste, el jugador B siempre hace check-behind, porque dado que A sabe perfectamente que mano lleva, B no puede farolear a A, y no puede apostarle por valor porque no le va  apagar.

Suponiendo un determinado tamaño de bote, y que la apuesta del jugador 1 es "c" veces el tamaño del bote, la mejor respuesta de un jugador se determina de la siguiente forma:

El jugador B puede igualar en forma rentable, si va por delante en c*bote / (c+2) * bote = c/(c+2) de los  casos.

Entonces, el jugador B va a igualar cuando "a" sea superior a c/(c+2), o sea, si a>c/(c+2) => B iguala.

Si a= c/(c+2) da lo mismo que el jugador B juegue igualar o foldear, es indiferente, y para todos a< c/c+2 el jugador B debería foldearse.

Para que al jugador A, le sea rentable hacer un farol de "c" veces el tamaño del bote, se debería dar que ese farol tenga éxito en c/(c+1) veces., es significa quel el jugador B debe foldear su mano c/(c+1) veces, o lo que es lo mismo que b< c/ (c+1)

Entonces, si b > c / (c+1) el jugador A no debería hacer nunca farol, mientras que para b > c /(c+1) siempre debería hacer farol, y en caso de b= c/(c+1) da igual lo que haga el jugador A, es indiferente.

El equilibrio de Nash queda establecido como:

{   [c/(c+1) , 1-c/(c+1)] ; [c/(c+2) , 1-c/(c+2)]  }

Si la apuesta es del tamaño del bote, es decir si c=1, entonces ocurre que c/(c+1) = 1/2 = 0.50

Por lo tanto para el jugador A su estrategia óptima sería (0.50 ; 0.50). ¿Porque sería esta la estrategia óptima? Simplemente porque haga lo que haga el jugador B, no podría explotar la estrategia de A. Para el jugador B, la estrategia óptima sería (1/3;2/3) puesto que de esta forma el jugador A no podría explotarlo.

De hecho, el EV para A en caso de que se diera esto sería:

Cuando no haga farol, el jugador B juega check/behind y el EV=0

Cuando haga farol, 2/3 Bote – 1/3 * 2Bote = 0

Para el jugador B, el EV sería:

Cuando A no hace farol, check/behind con EV=0

Cuando A hace farol, 1/3 * 2Bote – 2/3 Bote = 0

Como se ninguno de los dos jugadores saca ventaja en esta situación.

Ahora bien, que una estrategia sea óptima, significa solamente que no es explotable, es decir que el otro jugador no puede unilaterlamente mejorar su juego para ganar más contra nosotros. Eso no quiere decir que sea "la mejor" estrategia.

Ahora bien, en la práctica, los jugadores se adaptan al estilo de sus rivales, si enfrentamos un calling, dificilmente tengamos una tasa de faroles demasiado elevada, y si estamos contra una roka, no igualaremos tanto. Y así en cada caso.
Un jugador bueno tratará de adaptarse a su rival de la mejor forma posible, y el otro rival intentará readaptarse, entrando en un juego donde quien se adapta/readapta mejor y antes al contrario saca ventajas.

Entonces el paso siguiente es pensar, ¿somos nosotros los que estamos un paso por delante o estamos un paso por detrás en el proceso de adaptación?. Si nos suponemos (con fundamentos) superiores en este proceso, podemos sacar lucro de esta adaptación. Pero si este proceso nos resulta dificultoso y suponemos que en realidad es el villano el que está mejor posicionado, siempre podemos irnos a una estrategia óptima que no le permita adaptarse, o mejor dicho donde su adaptación nos resulte indiferentes.

Básicamente, lo que planteo, es que podemos usar las estrategias óptimas para minimizar nuestra desventaja ante un villano en que nos parece que vamos por detrás en el proceso de adaptación.

Pedazo de ladrillazo que me salio. En fin….espero no haberlos aburrido demasiado.

Para los que gusten de profundizar estos temas, les recomiendo el libro: "The Mathematics of Poker" de Bill Chan y Jerrod Ankerman,

Este libro por si les interesa, fue comentado en: trainer.intellipoker.es/index.php/2009/09/14/libros-the-mathematics-of-poker/

, para todos

Bookmark and Share
Aviso: La redacción de IntelliPoker no se hace responsable del contenido de las entradas en los blogs. Ésta únicamente da su opinión y recomendaciones a cada uno de los autores de los blogs.
PokerStars EPT APPT LAPT © Copyright 2007-2012 Rational Instruction Services, Ltd. Todos los derechos reservados.