@font-face{font-family:'Figtree';font-style:normal;font-weight:300 900;font-display:swap;src:url('/Content/skins/ng2022/fonts/Figtree/Figtree.woff2') format('woff2')}@font-face{font-family:'Figtree';font-style:italic;font-weight:300 900;font-display:swap;src:url('/Content/skins/ng2022/fonts/Figtree/Figtree-italic.woff2') format('woff2')}

{{text}}

{{partText}}

{{partClaim}}

{{Text}}

`, uniqueTemplate: `

¿Ya eres suscriptor? Inicia sesión

Lee {{artTitle}} por un módico precio.

Suscríbete ahora

`, returnText: `No me interesa`, text: `Este contenido es exclusivo para suscriptores.`, partImg: `/medio/2023/05/16/portada-planeta_31e7e28b.png`, partImgTablet: `/medio/2023/05/16/portada-planeta_31e7e28b.png`, partText: `

Sigue leyendo todo el contenido exclusivo por solo 1€/mes

`, partClaim: `Suscríbete por 1€/mes`, Text: `¿Ya eres suscriptor? Inicia sesión`, } };

Los investigadores han dado con un original método para entrenar IA: ponerla a jugar Pokémon

Las mecánicas de los videojuegos de rol pueden usarse para entrenar la inteligencia artificial en tareas de razonamiento complejas.

Abel G.M.
Abel G.M.

Periodista especializado en historia, paleontología y mascotas

Actualizado a

Pokémon Rojo carátula (The Pokémon Company)
Ken Sugimori / Nintendo

Entrenar una inteligencia artificial es algo mucho más complicado de lo que mucha gente cree. Modelos conversacionales como ChatGPT (seguramente el más popular) son muy buenos como herramientas de búsqueda y tratamiento de datos, pero no tanto a la hora de razonar. En palabras del economista Xavier Sala i Martín, profesor de la Universidad de Columbia y autor del libro Entre el paraíso y el apocalipsis, “ChatGPT se parece mucho más al Excel que a Terminator”.

Los modelos actuales de IA pueden procesar información a gran velocidad e incluso realizar de forma competente tareas de escritura, cálculo y organización relativamente complejas, pero ¿significa eso que pueden “pensar” en el sentido tradicional del término? No exactamente: estos modelos funcionan como una inmensa biblioteca; y en cuanto a las tareas de redacción, aunque puedan parecer correctas e incluso imitar el estilo humano, no dejan de ser esto: una imitación basada en el análisis y reproducción de una gran cantidad de contenido generado por humanos.

En cambio, a la hora de realizar tareas que impliquen algo más que un análisis de datos y reproducción de lenguaje o imágenes, es cuando empiezan a mostrar sus carencias. Incluso la polémica creación de imágenes con ciertos estilos artísticos (como Disney, Pixar o Ghibli) se basan en el análisis de contenido ya creado y la reproducción con el mismo tipo de elementos visuales o paleta de colores. Es más, la correcta generación de este tipo de imágenes depende de que se le den instrucciones lo más precisas posibles.

Los modelos actuales puedan generar en cuestión de segundos tareas analíticas complejas, como un análisis de mercado para una reuni��n corporativa. Sin embargo, fallan en cosas que podría hacer un niño de corta edad, como por ejemplo… completar un videojuego. Y esa es precisamente la herramienta que un grupo de investigadores ha elegido para poner a prueba el entrenamiento de un modelo de IA: ponerlo a jugar videojuegos, en concreto, Pokémon Rojo, una de las ediciones iniciales de la exitosa saga de Nintendo y que, por ser de las primeras, es la más simple a nivel de programación.

Estos son más que un mero entretenimiento, ya que incluso un juego pensado para todas las edades implica un tipo de pensamiento en el que las actuales inteligencias artificiales todavía fallan. Los resultados, publicados en el estudio Jugar a Pokémon Rojo con Deep Reinforcement Learning, exponen los retos de entrenar inteligencias artificiales para que sean capaces de hacer algo más que recopilar y organizar datos, y lleguen a “pensar” de verdad.

El alumno empollón versus el alumno que razona

El objetivo del estudio era analizar el desempeño de un modelo de IA de aprendizaje profundo por refuerzo (Deep Reinforcement Learning), llamado DreamerV3, dándole una misión: llegar a la tercera ciudad del juego Pokémon Rojo, Ciudad Celeste. Para hacernos una idea de la tarea, un jugador humano mínimamente familiarizado con las mecánicas de Pokémon puede cumplir este objetivo en una hora aproximadamente o, si ya ha jugado anteriormente a este mismo título y recuerda los mapas, en apenas media hora si no se entretiene y se focaliza en las tareas esenciales.

Sin embargo, para una inteligencia artificial no fue tan sencillo. DreamerV3 tardó unas 50 horas de partida en llegar a Ciudad Celeste. El modelo tenía cero conocimientos previos del juego y ni siquiera se le “enseñó” como funcionaban los controles; es decir, aprendió enteramente a base de prueba y error. Y aun habiendo tardado tanto, podría considerarse todo un éxito.

En comparación con juegos más clásicos como los simuladores de ajedrez, la inteligencia artificial se desempeña mucho peor en un juego como Pokémon, pensado para que lo puedan jugar personas de cualquier edad. El único requisito imprescindible es saber leer. ¿Cómo es posible que una IA sea capaz de vencer a campeones mundiales de ajedrez pero le cueste tanto avanzar en un juego que puede completar un niño de 7 años?

Pokémon Red, Blue, and Yellow battle screenshot (The Pokémon Company)
Game Freak / Nintendo

Pantalla de combate de Pokémon Rojo. El jugador puede elegir entre atacar, usar un objeto, cambiar de pokémon o huir (y esta última opción no siempre es posible). Una IA debe ser capaz de aprender qué hace cada uno de esos comandos y cuándo conviene usar cada uno.

La clave está en la previsibilidad: los simuladores son entrenados con datos de millones de partidas reales y tienen unas normas relativamente simples, ya que hay pocas piezas y cada una tiene unos movimientos determinados. Si una computadora dispone de una amplia base de datos de partidas de campeones, puede decidir su siguiente jugada en base a las del contrincante humano: puede hasta intuir si este le está tendiendo una trampa, e incluso tender trampas a su vez.

Retomando el análisis del profesor Sala i Martín entre los modelos de IA conversacional, “ChatGPT es como el alumno empollón que memoriza un montón de información antes del examen: si le preguntas algo que se haya aprendido, te lo responderá. Pero si lo pones en una situación inesperada, si le pides que te haga un razonamiento complejo o que te lo relacione con algo que no sabe, ahí es donde empieza a patinar”.

En los usos más simples de la IA, o cuando detrás hay una persona que la supervise y detecte sus errores, esto es corregible. El problema surge cuando la inteligencia artificial quiere aplicarse a ciertos campos en los que deberá tomar decisiones sin supervisión humana que van más allá de las capacidades de este “alumno empollón”: el ejemplo más evidente es la conducción autónoma. ¿Cómo decide una IA, ante una situación imprevisible de riesgo para los pasajeros, si es mejor desviarse hacia un lado o hacia otro, o bien frenar?

Estos modelos deben ser entrenados como alumnos que razonan, y no como empollones. Y ahí es donde entra, como un inesperado mentor, la que posiblemente sea la franquicia de videojuegos (y material derivado) más exitosa y rentable de nuestros tiempos: Pokémon.

¿Por qué Pokémon es ideal para entrenar modelos de IA que razonen?

En comparación con los simuladores, Pokémon tiene muchos elementos que no son evidentes para una inteligencia artificial, como mapas no lineales, inventarios de objetos, menús a varios niveles o combates por turnos. Al principio del experimento, las elecciones de DreamerV3 eran “casi aleatorias”. A medida que progresaba, el modelo aprendió a leer patrones visuales para entender cuándo estaba en el mapa, en combate, en un menú o en una conversación; como moverse por los escenarios y cómo tomar decisiones en combate.

La exploración fue la parte más complicada, ya que avanzar por el juego implica reconocer los elementos del mapa como algo más que imágenes, siendo elementos con los que el jugador (en este caso el modelo de IA) debe interactuar: por ejemplo, debe saber que el gráfico de una puerta implica que se puede entrar a un edificio o una cueva por ese espacio en concreto; algo parecido a lo que debería hacer una inteligencia artificial aplicada a la conducción autónoma, sabiendo por ejemplo cómo mantenerse en un carril siguiendo marcas visuales (líneas del asfalto).

Otro ejemplo podría ser el de distinguir un personaje clave para progresar en el juego del resto, como es el caso del primer líder de gimnasio, Brock, al que hay que derrotar para desbloquear el camino a Ciudad Celeste, el objetivo final que pusieron los autores del estudio. Imaginemos ahora una IA aplicada a un hipotético modelo de robot de asistencia para personas dependientes, como los que se están investigando: si alguien llama a la puerta, el robot debe ser capaz de “razonar”, a partir de las imágenes de una cámara, si debe abrir a esa persona o no.

Pokémon Rojo laboratorio Oak
Game Freak / Nintendo

La primera decisión del juego, elegir un pokémon inicial, determinará la facilidad con la que el jugador podrá avanzar en el primer tramo del juego. Un humano puede tomar esa decisión conscientemente, pero una IA no entrenada elegirá al azar, lo cual influirá decisivamente en la dificultad que afrontará.

Por otra parte, la mecánica central del juego, es decir, la captura y entrenamiento de pokémon, implica un razonamiento lógico más complejo de lo que podría parecer. Cada criatura tiene diversos movimientos, pero no todos son igual de eficientes: los hay más potentes, los hay que resultan más o menos efectivos según la combinación de tipos de los pokémon (por ejemplo, los ataques de fuego causan mayor daño contra criaturas de tipo planta y menos contra las de tipo agua) y los hay que, aunque son muy poderosos, tienen una baja precisión y suelen fallar.

Esta mecánica es fácil de asimilar para un jugador humano: puede entender fácilmente que aunque un ataque sea muy poderoso, igual no es tan útil si tiene un 50% de probabilidades de fallar; o que si quiere tener oportunidades de ganar contra un líder de gimnasio, debe llevar en su equipo a una criatura con una combinación de tipos efectiva. Pero esto que parece tan evidente requiere de un razonamiento complejo que implica llevar a una IA a un nivel superior al del simple análisis de datos.

La cosa se complica aún más por el hecho de que, para progresar en el juego, el jugador debe capturar pokémon con una cierta variedad de tipos, entender que los hay más o menos fuertes y optimizar su elección. Algo que a muchos ya nos llevó tiempo cuando jugamos por primera vez, es todavía más complicado para una IA a la que lanzaron dentro del juego sin ningún conocimiento previo. De hecho, que fuera capaz de completar el objetivo marcado, que no supone ni tan solo una quinta parte de la partida, debería considerarse un pequeño milagro.

Más adelante, en un punto al que no llegó el estudio, el juego se pondría incluso más complicado para una IA: por ejemplo, hay mapas en los que el jugador debe moverse por el mar o mover rocas haciendo uso de habilidades concretas, que a su vez deben enseñarse a los pokémon mediante un objeto. En ese momento, el modelo debería estar lo bastante entrenado como para “pensar”: “Si quiero moverme por el mar, debo conseguir el objeto que enseña la habilidad Surf, ir al inventario para activar este objeto y usarlo para enseñar la habilidad a un pokémon compatible. Luego debería colocarme frente al mar, seleccionar este pokémon y activar la habilidad”. Esto es algo intuitivo para una persona, pero extremadamente complejo para una IA.

Pokémon Rojo Calle Victoria
Game Freak / Nintendo

A medida que el juego progresa, avanzar por los mapas implica mover rocas y colocarlas encima de interruptores para abrir el camino, una tarea extremadamente compleja para una IA.

Siguiendo con las comparaciones, una hipotética inteligencia artificial de asistencia médica entrenada para primeros auxilios debería saber cómo responder si una persona se encuentra mal, analizando los posibles factores que pueden causarle los síntomas. Sin embargo, también debería tomar en consideración los posibles efectos adversos que una medicación incorrecta podría provocar en caso de equivocarse en el diagnóstico, sopesando los pros y los contras.

Se puede decir, pues, que ese es el elemento que separa la inteligencia artificial de la natural: la intuición, es decir, la capacidad de llegar a conclusiones sin depender de un aporte de datos externos o del ensayo a base de prueba y error. Niños con tan solo 7 años fueron capaces de completar Pokémon Rojo cuando salió, sin necesidad de guías y, como mucho, la ayuda de algún hermano mayor. No se sabe de ningún jugador, por malo que fuese, que tardase 50 horas en llegar a Ciudad Celeste.

Y cuando se habla del futuro de la inteligencia artificial, hay que recordar que estamos hablando de poner en sus (metafóricas) manos la vida de personas: ahí no valen millones de ensayos de prueba y error hasta dar con la solución correcta. Si se quiere conseguir una IA verdaderamente inteligente tiene que ser, verdaderamente, “la mejor que habrá jamás”.