jueves, 3 de septiembre de 2015

La paradoja del diablo


Esta es la paradoja del diablo:

Estás en el infierno, condenado para toda la eternidad. El diablo te ofrece una salida. Solo tienes que decidir qué día participar en una lotería en la que, si ganas, vas al cielo también para toda la eternidad y, si pierdes, te quedas como estabas, en el infierno para siempre jamás. El truco es que las probabilidades de ganar cambian cada día de la siguiente manera: si eliges que la lotería sea hoy la probabilidad de ganar es 1/2, si eliges que sea mañana pasará a ser 2/3, pasado mañana será 3/4, al día siguiente 4/5 y así sucesivamente. Como vemos, a medida que esperas la probabilidad de ganar aumenta. Permíteme que insista: la lotería es solo una vez, ganes o pierdas, ya no habrá más. Suponemos, habrá que decirlo, que el infierno te disgusta mucho (quema y eso) y el cielo te encanta (hay más atracciones aparte de estar tocando la lira).

La paradoja surge porque pareciera que siempre conviene esperar un día más. Por mucho que te disguste el infierno y te guste el cielo, esperar un día más supone estar un día en el infierno a cambio de un aumento de la probabilidad de estar infinitos días en el cielo. Por pequeño que sea este aumento, es un aumento y es por infinitos días. Claro que si siempre merece la pena esperar, entonces te quedas siempre en el infierno, cosa que tampoco quieres.

Este es el planteamiento. Hay quien lo relaciona con la apuesta de Pascal (podéis verlo aquí). Yo las veo muy distintas, pero de eso ya hablaré en otro momento. Ahora os dejo la paradoja para que le deis vueltas. En una próxima entrada explicaré la falacia y en otra daré la solución.

-----------------------------------------------------------------------------------------------------------
Hace tres años en el blog: Preguntas últimas, preguntas siguientes.
-----------------------------------------------------------------------------------------------------------

24 comentarios:

  1. El hecho de que la probabilidad de alcanzar el resultado deseado aumente, aunque sea "mínimamente", a medida que pasamos más tiempo en el infierno, no implica necesariamente que siempre "merezca la pena esperar",

    http://ordenrf.ru/upload/novosty-info/leningrad-2.jpg

    ResponderEliminar
    Respuestas
    1. Perdón, se me había vuelto a olvidar firmar.

      Cascarilleiro

      Eliminar
    2. El enunciado dice algo más: que ese incremento de probabilidad, por pequeño que sea, se multiplica por infinitos días de estancia en el cielo, y que eso es infinito, más que lo que pierdes por quedarte un día (finito) más en el infierno.

      Eliminar
  2. Estoy en el día n de mi estancia en el Infierno y me dan a escoger entre:
    1. jugármela y obtener con probabilidad n/(n+1) una estancia en el cielo, tocando la lira (aunque en mi caso tendría que aprender primero) y disfrutando de las otras atracciones añadidas...
    2. esperar un día más y así:
    2a) poder hacer 1, eso sí con un probabilidad de éxito (n+1)/(n+2) > n/(n+1)
    2b) pasar el día n sufriendo las penalidades del infierno, vamos que si empiezo a oler a carne quemada, probablemente sea la mía, y aunque eso no sea "mortal" si es desagradable
    Tal y como lo veo, el enunciado ignora precisamente ese "sufrimiento", debe haber un momento en que la ganancia neta derivada del incremento de probabilidad no compensa lo desagradable de la situación. Sólo tiene en cuenta que de n a n+1 tiene efectos positivos, incremento de la probabilidad de un resultado deseable, y no el coste.

    Cascarilleiro

    ResponderEliminar
    Respuestas
    1. No veo dónde se ignora el sufrimiento de estar un día más en el infierno. Explícitamente lo compara con la felicidad de cada uno de los infinitos días en el cielo.

      Eliminar
    2. Un poco de notación:
      C= felicidad derivada de alcanzar el cielo
      d= factor de descuento temporal
      Si estoy en el día n, afronto la elección entre 1 y 2 (véase comentario anterior) lo que supone que comparo dos niveles de felicidad:
      1- el lograr el cielo hoy (día n) con probabilidad n/(n+1)
      2- el lograr el cielo mañana (día n+1) con probabilidad (n+1)/(n+2) > n/(n+1) pero asumiendo el sufrimiento de estar un día más en el infierno
      Es decir, comparo: s, el nivel de sufrimiento/infelicidad derivada de estar
      d*(n+1)/(n+2)*C - n/(n+1)*C la variación de felicidad derivada de "esperar un día más" medida hoy (día n)
      con s, el nivel de sufrimiento/infelicidad derivada de estar ese día más en el infierno
      Ya acabando, decidiré esperar un día más siempre y cuando:
      d*(n+1)/(n+2)*C - n/(n+1)*C sea mayor que s

      Cascarilleiro

      Eliminar
  3. yo pediría el comodín de Cantor o algo de eso....aunque no se yo que será peor.

    ResponderEliminar
    Respuestas
    1. No será Cantor quien ayude a resolver la paradoja. Atento.

      Eliminar
  4. La utilidad de jugar un dia cualquiera es

    U(n-1) = p*w + (1-p)*(-w) = w(2p - 1)

    la utilidad de jugar el dia siguiente es

    U(n) = w(2p' - 1) - 1

    donde -1 es el valor arbitrario asignado a pasar un dia mas en el infierno.

    delta U = U1 - U0

    DU = w(2p' - 1) - w(2p - 1) - 1 = w*2p' - w - w*2p + w - 1

    DU = 2w(p' - p) - 1

    p' - p = 1 / (n*(n`+1))

    DU = 2w / (n * (n+1)) - 1

    For any value of w, the limit as n->w is

    Lim [n->w] 2w / (n * (n+1)) - 1 = 2n / (n * (n+1)) - 1
    = (2 / (n+1)) - 1

    As w (and therefore n) tends to infinity we have

    Lim [n->Inf] (2 / (n+1)) - 1 = 0 - 1 = -1

    Lim DU = -1



    p1 - p0 = 1 / (

    ResponderEliminar
    Respuestas
    1. Here's an alternative analysis. Given that

      DU = 2w / (n * (n+1)) - 1

      we can specify that the condition to stop waiting is

      DU = 0 =>

      2w / (n * (n+1)) - 1 = 0

      n^2 + n - 2w = 0 (quadratic formula)

      n = (-1 + sqrt(1 + 8w)) / 2

      which is unbounded as w -> Infinity, effectively restating the paradox. Note that this is consistent with the previous analysis: even if n is unbounded, DU tends to -1 as n tends towards infinity.

      Two ways to go forward:

      a) postulate that the utility function must be bounded.

      This "solves" the paradox by rewriting it differently than its spirit. Feels like cheating.

      b) accept the possibility that the player is reflective and can commit to a future plan.

      In this case the player can reflect on its own decision process realizing that it leads to failure, so it commits to some arbitrarily large n to avoid an eternity in hell.

      Eliminar
    2. Según el enunciado de la paradoja, habría una suma infinita de utilidades a la hora de evaluar la felicidad de estar en el cielo y compararla con los días extra en el infierno. Tu análisis evita esto al suponer directamente que la utilidad de estar infinitos días en el cielo es finita.

      Como explico en la entrada siguiente, justamente el problema del enunciado de la paradoja es hablar de una suma infinita (de una serie no convergente) como si fuera algo definido, cuando no lo es. Solo faltaría en tu análisis el justificar la acotación de la utilidad de infinitos días y hacerla congruente con la utilidad positiva de un día.

      Eliminar
  5. "Tu análisis evita esto al suponer directamente que la utilidad de estar infinitos días en el cielo es finita."

    No, es que no hago eso. Lo que hago es definir el juego para una utilidad finita, y luego tomar el limite segun esa utilidad tiende a infinito (la unica manera de tratar con infinitos sin liarla).

    Tu manera de resolver el problema corresponde con mi idea de postular una utilidad acotada, pero como dije antes me huele a escaqueo de la paradoja, porque la esencia de la paradoja es una utilidad infinita por estar en el cielo, sea esta utilidad infinita consecuencia de una suma divergente o no. Podriamos definir la utilidad asi:

    Utilidad = dias pasados en el cielo

    y no necesariamente asi

    Utilidad = Suma de 1 por cada dia en el cielo

    dicha funcion esta bien definida, pero sigue siendo no acotada.

    ResponderEliminar
    Respuestas
    1. Pues no sé de qué otra forma interpretar tu primera expresión:

      U(n-1) = p*w + (1-p)*(-w) = w(2p - 1)

      ¿No es w la utilidad de infinitos días en el cielo y -w en el infierno?

      ¿Qué tal si defines con cuidado cada variable o parámetro y cada paso que haces?

      Eliminar
  6. "Lo que hago es definir el juego para una utilidad finita, y luego tomar el limite segun esa utilidad tiende a infinito (la unica manera de tratar con infinitos sin liarla)."

    Por tanto la expresion

    DU = 2w / (n * (n+1)) - 1

    es la diferencia de utilidad, tras haber esperado n dias, en un juego donde el ganador pasa w dias en el cielo (o w dias en el infierno si pierde). Para que quede claro, w y n
    _son numeros naturales_, w,n ∈ N .

    Una vez construida una expresion para cualquier valor _natural_ de n,w, lo que hacemos es tomar el limite Lim [n, w → Infinity]:

    ====================
    For any value of w, the limit as n→w is

    Lim [n→w] 2w / (n * (n+1)) - 1

    = 2n / (n * (n+1)) - 1

    = (2 / (n+1)) - 1

    As w (and therefore n) tends to infinity we have

    Lim [n→Infinity] (2 / (n+1)) - 1

    = 0 - 1

    = -1
    ====================

    En palabras: segun la espera y la recompensa tienden a infinito, el beneficio de esperar un dia mas tiende a -1.

    Esto es asi aun cuando el valor de w por si solo no converge (tiende a infinito) ni tampoco el valor de n (tiende a infinito). Pero la diferencia de utilidad al ser una expresion racional de exponente superior en el denominador si converge.

    (Lo que no podemos hacer es pretender multiplicar un valor que tiende a cero por infinito, como si infinito fuera un valor. La unica manera de tratar la utilidad infinita de la paradoja es ver si produce algun limite al tender dicha utilidad a infinito. En el primero de los dos analisis que hice dicho limite si existe)

    ResponderEliminar
    Respuestas
    1. 1. Consideras que la utilidad de estar infinitos días en el cielo es finita (w) y también la del infierno (-w).
      2. Consideras el incremento de utilidad entre aceptar la lotería el día n-1 o el día n.
      3. Tomas el límite de este incremento cuando n tiende a w (en la expresión, no significa nada más que sustituyes w por n). Esto no lo entiendo. Es algo que carece de significado.
      4. Calculas el límite cuando n tiende a infinito. Al igualar w a n en el paso anterior, lo que estás haciendo es tomar el límite cuando ambos w y n tienden a infinito igual de rápidos, y además, valiendo lo mismo. Para ello debería haber alguna relación entre las variables n y w que lo justifique y eso es algo que no ocurre. Es como que me digas que x/y tiende a cero cuando x e y tienden a infinito porque supones que y=x^2. No es algo que puedas decir.

      Eliminar
    2. "Para ello debería haber alguna relación entre las variables n y w que lo justifique y eso es algo que no ocurre."

      Lo que hago es construir un juego con las caracteristicas que dices, entre ellas que el jugador espera un tiempo igual (en realidad basta w=n^k, k < 2) al tiempo que pasaria en el cielo:

      Es dicho juego compatible con el enunciado? Creo que pense que dado que no hay mas informacion para decidir cualquier otra manera de construir el limite, la suposicion mas natural era w = n.

      Pero aunque el juego sea compatible, no se deduce necesariamente del enunciado, asi que como dices no esta justificado. Dicho de otra manera, para cierto subconjunto de juegos el limite de DU es -1, pero dicho subconjunto no se sigue necesariamente del enunciado.

      Con lo cual solo queda la segunda parte del analisis que plantee.

      Eliminar
    3. Yo creo que la interpretación que puedes hacer de tu análisis es "si logras modelizar la decisión de manera que el infinito de los días domine al infinito de la utilidad de estar en el cielo, entonces podrás solucionar la paradoja". Está en la línea de lo que tú dices, con la salvedad de que tú ya aventuras que existe un subconjunto de maneras de hacerlo que caerá dentro de este rango, pero en tu análisis eso está por ver. Es decir, detectas por dónde pueden ir los tiros, pero no una manera de que vayan. El enunciado de la paradoja indica que no pueden ir por ahí.

      Se trata de ver por qué está mal el enunciado de la paradoja. Es lo que he mostrado en la entrada siguiente al decir que maneja sumas infinitas que no están definidas y por tanto la argumentación carece de sentido.

      Creo que lo que tú argumentas es que el enunciado de la paradoja está mal y lleva a un non-sequitur porque muestras que no hay por qué deducir la conclusión, y lo muestras encontrando ese subconjunto de casos para los que la conclusión podría ser otra. Pero como te digo, aunque sea un buen paso que nos pone sobre una pista, eso es incompleto (i) porque no aclara la falacia cometida en el enunciado (como decir "el movimiento se demuestra andando no aclara el fallo de las paradojas de Zenón de Elea) y (ii) porque faltaría, como he dicho antes, mostrar que hay maneras coherentes de modelizar la decisión que cae dentro de ese subconjunto.

      Eliminar
    4. Estoy de acuerdo con tu interpretacion de mi primer analisis, y los problemas que tiene. En lo que no estoy de acuerdo es con tu solucion, que es lo que comentaba en mi segundo analisis:

      "Tu manera de resolver el problema corresponde con mi idea de postular una utilidad acotada, pero como dije antes me huele a escaqueo de la paradoja, porque la esencia de la paradoja es una utilidad infinita por estar en el cielo, sea esta utilidad infinita consecuencia de una suma divergente o no. Podriamos definir la utilidad asi:

      Utilidad = dias pasados en el cielo

      y no necesariamente asi

      Utilidad = Suma de 1 por cada dia en el cielo

      dicha funcion esta bien definida, pero sigue siendo no acotada."

      No considero que la funcion U(w) = w este mal definida igual que no lo esta f(x) = x, simplemente no estan acotadas.

      Con lo cual no creo que haya ninguna falacia en la paradoja, y postular una utilidad acotada no me parece una solucion satisfactoria dado que no representa la esencia del problema.

      Lo que es una solucion mas satisfactoria en mi opinion va por aqui, como dije:

      "b) accept the possibility that the player is reflective and can commit to a future plan.

      In this case the player can reflect on its own decision process realizing that it leads to failure, so it commits to some arbitrarily large n to avoid an eternity in hell."

      Eliminar
    5. Seguimos sin justificar la existencia de un modelo en el que las preferencias sean tales que en el cálculo de la utilidad, el cambio en n es el mismo que en w. Pero esto va en contra de lo que tenemos como argumento de la función de utilidad: por una parte los n días que han pasado (que tiende a infinito) y por otra el valor w de la utilidad de estar el resto de la eternidad en el cielo (que, por decirlo así, ya es infinito mucho antes de que n tienda a infinito). O sea, que en cualquier límite sensato que tenga que ver con el enunciado de la paradoja, w debe ir a infinito mucho más rápido que n.

      Anyway. Volvamos a las funciones Utilidad que propones. Ambas son la misma. Que no estén acotadas no es problema para una buena definición de función, como bien dices, pero sí lo es para una buena definición de utilidad. En esta paradoja en concreto, el párrafo anterior creo que lo ilustra bien, puesto que genera la paradoja: por una parte queremos esperar siempre, pero por otra eso es peor y no lo queremos hacer.

      No sé si estás familiarizado con la paradoja de San Petersburgo:
      https://en.wikipedia.org/wiki/St._Petersburg_paradox
      donde se ve claramente la relación entre una función de utilidad no acotada y las series no convergentes que conducen a la paradoja. Una cosa lleva a la otra.

      Es decir: proponer funciones de utilidad no acotadas para representar las preferencias nos lleva a contradicciones.

      Una vez entendido esto tenemos dos posibilidades (entre otras):

      (i) El decisor es libre de tener preferencias contradictorias. Entonces no hay paradoja, simplemente el decisor prefiere una cosa o su contraria según le dé por usar una fórmula u otra. En este caso no hay "solución" de la paradoja.

      (ii) Intentar modelizar cuál sería el comportamiento de un decisor que no quiere caer en tales contradicciones.

      Presentas como solución el que el decisor se compromete a tomar la decisión de aceptar la lotería un día predeterminado ahora, y a no hacer caso a esos otros cálculos que le indicarán, cuando llegue ese día, que debe seguir esperando. Creía que no querías escaquearte de la paradoja. Estás diciendo que paso de todo y acepto hacer algo en el futuro. Es decir, paso de analizar la paradoja y ver en qué está mal y hago algo en el futuro sin explicitar cómo lo hago.

      Eliminar
    6. Como te dije, estoy de acuerdo en que el enunciado de la paradoja no permite establecer una relacion entre w y n. Precisamente por eso me parecio la interpretacion mas "sensata" la de w=n al no favorecer ninguna. Pero te doy la razon, este analisis aunque interesante no creo que vuele.

      En cuanto a lo demas, no comparto contigo que la supuesta falacia de la paradoja sea una suma mal definida, dado que dicha suma no es necesaria para su definicion. El enunciado de la paradoja se puede formalizar con funciones de utilidad bien definidas, aunque no acotadas. Asi que tu solucion es mas bien rechazar un funcion de utilidad no acotada y reemplazarla por una con discounting.

      Las contradicciones de las que hablas son entre nuestras expectativas de que la teoria de la decision de un resultado correcto, y el resultado que realmente da. Mas que ver en la paradojas una falacia lo que veo es una teoria de la decision que no es capaz de manejarla satisfactoriamente.

      Me sorprende que hables de pasar de todo y pasar de analizar la paradoja con respecto a mi propuesta de un agente reflexivo con capacidad de binding, dado que dichos tipos de agente se han propuesto en otros casos (por ejemplo newcomb), incluidos casos muy similares a este

      http://arxiv.org/pdf/1509.02971v1.pdf

      Es al contrario de escaquearse, en vez de formular la paradoja de una manera que se adecue a nuestra teoria de decision, hablo justamente de lo contrario, de atacar la paradoja de lleno con toda su dificultad. Un agente que sea capaz de razonar sobre su propio razonamiento puede no ser muy preciso, pero es que supiera exactamente como hacer eso lo habria publicado.

      Eliminar
    7. En el enunciado de la paradoja, tal como lo he escrito, sí hay un problema de suma infinita. En enunciados alternativos, está el problema de la utilidad infinita (o no acotada) que genera problemas muy similares.

      En el enunciado de la paradoja no sé cómo eres capaz de ver una teoría de la decisión que no la maneja, porque justamente lo que no hay es una teoría de la decisión. En las siguientes entradas del blog he ido exponiendo precisamente un ejemplo de cómo manejar la paradoja.

      Sobre la propuesta que señalabas, yo decía que se escaqueaba de la paradoja por dos razones (i) porque no señalaba su falacia y (ii) porque no ofrecía una alternativa. En lo que toca a (ii) lo que decías era demasiado ambiguo como para ser operativo. Cuando tenga tiempo miraré el enlace, si en él se concreta una manera de determinar el día en que elijo la lotería de una manera coherente, pues nada, entonces sí se cumple con (ii) y yo me retracto. Pero por lo que dices en el último párrafo, no se llega a tanto.

      Eliminar
    8. Esta es una puntualizacion menor pero para que veas que no paso de todo: La paradoja, ni en su version original, ni en la tuya, habla explicitamente de una suma. De lo que se habla es _de una multiplicacon por una utilidad infinita_, que es la esencia del problema tal como se planteo originalmente (Gracely 1988)

      Otra cosa es que tu añadas al problema que dicha utilidad infinita tenga que venir de una suma, pero estrictamente no es asi. Y por eso insisto en que no hay ninguna falacia en la paradoja, salvo que interpretes como falacia la inclusion de una utilidad no acotada, que seria un uso poco usual de "falacia".

      Yo no hablo de una teoria de la decision en el enunciado. Lo que veo es que aplicando una teoria de decision naif, el resultado es que el jugador permanece en el infierno eternamente. Por eso hablo de que dicha teoria de la decision estandar no maneja satisfactoriamente la paradoja (aceptando una utilidad no acotada como premisa).

      La propuesta que señalo no se escaquea de la paradoja en el punto i), porque como repito, no veo tal falacia en la paradoja, a no ser que interpretes utilidad no acotada como falacia. Y tampoco se escaquea en el punto ii) dado que puedo hacerlo operativo, puedo facilmente escribir un algoritmo a partir de la expresion

      n = (-1 + sqrt(1 + 8w)) / 2

      que determina que el agente se quedara indefinidamente en el infierno, tras lo cual elegira un valor arbitrario de n. Esta solucion es operativa, evita el problema gordo, lo que no es es _optima_. Sospecho que no existe solucion optima a no ser que añadamos mas informacon al problema (eg como ejemplo de nuevo ambiguo, establecer limites computacionles sobre el agente)

      Anyway, sospecho que podemos agree to disagree, este asunto no creo que de para mas. Como ultima sugerencia amistosa te recomiendo que si vas a tratar un paradoja poco conocida cites la fuente para que los lectores puedan consultar la version original y tambien puedan consultar tratamientos alternativos publicados en la literatura (como el enlace que te he puesto antes)

      Saludos,

      Davd

      Eliminar
    9. Es que la utilidad infinita no existe. O, por lo menos, no existe como algo con lo que se pueda hacer cálculos, tanto si viene de la suma de una serie no convergente como si está así definida (?) directamente. Sí, hacer cálculos con utilidades infinitas es una falacia, son cálculos no definidos. Es este planteamiento, en cualquiera de sus versiones, lo falaz de la paradoja. No veo que sea naif proponer una teoría de la decisión que no caiga en esa paradoja. No entiendo por qué dices que escribir un algoritmo a partir de una expresión arbitraria significa ser operativo. Puedes decir que es operativo porque puedes hacer la operación, pero no es operativo porque no se ve cómo llegar a esa expresión partiendo de los elementos primitivos del problema (de las preferencias del individuo) y de posibles supuestos que puedas justificar por el camino.

      Gracias por aportar la fuente del planteamiento original.

      Saludos.

      Eliminar
    10. https://www.youtube.com/watch?v=YT9b2IBAwgA

      Eliminar