Alpha Zero. El alfa del aleph trascendente, la cabeza de buey mesopotámico, el punto donde estaban todos los puntos del inmortal cuento de Jorge Luis Borges junto con el cero hindú que ayuda a enfrentarse a la nada; el cero trasladado por la cultura árabe para llegar a Europa de manos de, ni más ni menos, el matemático Fibonacci. Un Yin, un Yang, un cero, un uno, un uno, un dos, un tres, un cinco, un ocho, un trece y así hasta el infinito; dos opuestos, dos especies de bellos animales, juntos, biunívocamente juntos, gritando como tigres y osos salvajes en la tundra, jugando al ajedrez.
El 5 de diciembre de 2017 hubo revuelo mundial en el mundo de los trebejos. Alpha Zero, un sistema de inteligencia artificial desbrozando la complejidad del milenario juego en cuatro horas, sin conocimiento previo, sin ayuda humana y destrozando al más grande entre los grandes, el módulo Stockfish. Viniendo de la nada nos recuerda que el conocimiento está ahí agazapado dentro de la esfera de aquello que está por descubrir. Porque la realidad, esa construcción mental que cree que ahí fuera hay entes, entidades y procesos, es más amplia que el entendimiento, la razón, cualquier búsqueda espiritual o material de las cosas. De repente Alpha Zero nos pone en nuestro lugar: una especie más, de corto entendimiento y altas miras. Y aquellos programas que creíamos invencibles, que intentaban codificar nuestro propio entendimiento, se pierden en la precisión insólita de las jugadas de la nueva bestia. Y he aquí la hermosa paradoja: Alpha Zero simula un aprendizaje tabula rasa, como si fuera el cerebro de un bebé y, cuando emerge triunfante, se ha convertido en algo que no sabemos qué es, pero sabemos que es mejor a lo que conocíamos. Un ente inteligente que solo juega, ¡pero cómo juega!
Por eso tanto revuelo. Nos ha descolocado: la red neuronal y el aprendizaje profundo logran caminos insospechados. Generan conocimiento inexplorado. Y nos hace despertar. Despertar y encontrarnos con un espejo reluciente, una máscara de sueños, un epitafio multimedia de nuestro ser. Y escuchar. Oír el rugido de las bestias hambrientas que nos amedrentan. Y conocer. Destripar la naturaleza de lo que nos hace humanos, los mitos, y deshojar todas, una a una, las margaritas de la sabiduría. Hoy es el primer día de Janucá y las kandelikas se encenderán para iluminar nuestro ser espiritual. Rayos de luz eterna sobre los fantasmas de nuestros antepasados. Rayos de la sefirot que atraviesan los tiempos y nos muestran, una vez más, una metáfora: una red neuronal profunda, el inicio frente a la nada del vacío. Alpha Zero.
Alpha Zero, en realidad, no juega al ajedrez. Mueve las piezas. Pero lo hace con tino, con tanto tino que llegó a 3400 de Elo en unas cuantas horas de entrenamiento, partiendo desde cero, sin conocimiento alguno de ajedrez más que las reglas de ataque y defensa y, claro está, los movimientos de las piezas. Su funcionamiento es bastante críptico: no tiene una función de evaluación como el resto de los programas de ajedrez. Es decir, no encapsula conocimiento ajedrecístico, sino que lo crea. Lo hace gracias a una red neuronal profunda de múltiples capas interconectadas que distribuye ese conocimiento que va descubriendo a lo largo de distintos niveles de complejidad. Esto significa que no evalúa si una posición es buena o no, lo único que sabe es que una jugada tiene cierta probabilidad de contribuir a ganar la partida. A esto le une una estrategia de búsqueda aleatoria (Monte Carlo) que da con jugadas y variantes fuertes rápidamente. El conocimiento ajedrecístico de Alpha Zero está distribuido por los nodos de su red neuronal profunda de una manera tan sutil y a unos niveles de complejidad tan distintos de la verbalización humana que resultará imposible (en principio) extraer conocimiento por ese lado. Lo que sí sería posible hacer es ver cómo fue adquiriendo destrezas en sus jugadas a lo largo de las millones de partidas que jugó contra sí misma para descubrir y llegar a ser tal monstruosidad ajedrecística. El proceso es aquí lo importante, el desarrollo y la evolución de la red y de sus parámetros. Hay que imaginarse millones de partidas iniciales en donde todas eran ridículas hasta que, en un momento casi mágico, Alpha Zero comienza a encontrar jugadas que no son tan ridículas, que tienen mucho sentido para nosotros.
Por ejemplo, cualquiera que sepa jugar al ajedrez podría decir lo siguiente: «e4 ocupa el centro, abre diagonales, domina d5 y f5 y amenaza con un posible avance para adentrarse en el campo enemigo». Esto, en programas como Stockfish, que perdió estrepitosamente contra Alpha Zero (cien partidas, veintiocho victorias, setenta y dos tablas y cero derrotas, aunque en condiciones poco favorables para el pobre módulo, todo hay que decirlo) está codificado en forma de «función de evaluación» que contribuye a valorar la posición. Por eso cuando se pone un módulo a analizar una partida vemos una evaluación numérica, cuanto más negativo más favorable para las negras y, al revés, cuanto más positivo mejor para las blancas. En cambio, Alpha Zero solo da valor a la jugada y ese valor no es el resultado de saber si la posición es mejor o peor para un bando u otro, es simplemente un valor asociado a la probabilidad (basada en la experiencia y simulación de partidas) de que esa jugada sea ganadora.
La experiencia humana en el ajedrez tiene mil quinientos años, cien o doscientos arriba o abajo. Las bases de datos de partidas de calidad tienen millones de ellas; además en internet se juegan cada día otros cuantos millones más (la mayoría de escasa relevancia) pero que contienen jugadas y patrones y posiciones que son de interés para el saber ajedrecístico. En otras palabras, la información a la que se tiene acceso en estos momentos es abrumadora. Aun así, el conjunto de todas estas partidas no alcanzan siquiera a arañar el número de partidas posibles: 10**120, número astronómico que, sin embargo, Alpha Zero navega como si fuera el mar Mediterráneo: un velero fenicio en busca de las costas occidentales, negociando olas y peñascos y desafiando la brisa ausente. A Alpha Zero no le importa todo este conocimiento: se lo ha fabricado desde, bien, desde cero; todos las partidas en una sola partida, como el Aleph de Borges, en unas cuantas horas de entrenamiento.
¿Qué moraleja contiene este increíble logro de la ciencia de la computación? Para mí hay una connotación filosófica clara, Alpha Zero nos enseña a ser mucho más humildes a la hora de pensar que nuestra manera de conocer el mundo, la realidad, es una manera que nos acerca a ella frontalmente, sin fisuras. El conocimiento nos hace libres, hemos conquistado saberes impensables hace diez mil años cuando nuestros antepasados todavía intentaban poner palabras a las cosas y a las emociones. Pero es posible que nuestra manera de pensar, que se ha ido moldeando en nuestro cerebro desde los albores de las civilizaciones, refleje restricciones biológicas, fisiológicas y fisico-químicas que nos hacen razonar de manera poco eficiente. La facilidad con que Alpha Zero ha conquistado el go, el shogi, el ajedrez, pilares de la complejidad, nos lo demuestra. Nuestra capacidad para relacionar información sencilla es muy limitada. ¿Qué hay más sencillo que poner piedras blancas en las intersecciones de unas líneas para rodear piedras negras? Quizás el movimiento de una torre, simple, directo, en línea recta. Y, sin embargo, millones de aficionados se ahogan en una complejidad aparente, presente en sus cerebros pero ausente en el tablero, que les hace dudar una y mil veces antes de mover cualquiera de sus piezas.
Una hipótesis, quizás no demasiado descabellada, es que somos una especie patafísica. Sí, señoras y señores. Una especie que se ha creído el cuento de la ciencia de que somos seres racionales y buscamos la unificación del conocimiento, el arjé común de la fisis. Pamplinas. En cambio, en consonancia con los preceptos patafísicos de Alfred Jarry, somos una especie de excepciones, de opuestos, de alfas y ceros, de racionalidad irracional, que busca el placer en el dolor y el dolor en el placer, que se emociona constantemente con el canto de las sirenas, que ama y odia como si fueran caramelos, que embiste el vacío de la muerte con un escaso bagaje: amaneceres arrebolados de sueños y esperanzas. Y amanece, que no es poco.
Hoy es el séptimo día de Janucá y las kandelikas siguen iluminando la vida de los humanos. El Alef, que todo lo ve, todo lo sabe, todo lo imagina y todo lo computa, habita en cada uno de nuestros maravillosos cerebros.
Excelentes e inquietantes reflexiones…
4 horas por si solo es un dato carece de significado. 4 horas de 5000 TPUs. Millones y millones de autopartidas.
Dado que solo Google es ahora mismo capaz de reproducir el experimento, siendo riguroso no es estrictamente científico.
20 días después aun no han liberado las otras 90 partidas. Solo las 10 de la selección, parece sobreentendido que las mas espectaculares, donde eso no lo puede negar nadie, hay maravillas como el 21Ag5 de la quinta o el aplastamiento posicional de la tercera.
La configuración del SF usada, es bastante extraña. Cuanto es superior solo se podría demostrar en un TCEC, donde Google obviamente no piensa asistir.
No obstante siendo el go mucho mas complicado era de esperar que llegara el turno del ajedrez, como dijo Kasparov.
algun sitio donde se pueda leer un analisis? aunque nos sea muy profundo de esas partidas, explicando alguna variante
YouTube está repleto de análisis de las 10 partidas. En español los mejores canales han hecho vídeos de análisis en chess.es el mf Luis Fernando Siles lleva analizadas 4 partidas, el MI Michael rahal ha analizado una, el GM Pepe Cuenca de chess24 ha analizado otra. El que creo que ya ha subido todas es Juanjo de reydama, aunque su análisis es un nivel más amateur.
Un par de preguntas: ¿Alguien se acuerda de Deep Blue? ¿Los que lo vivimos en primera persona hemos visto jugar o hablar de Deep Blue fuera de la competición contra Kasparov que hizo que la cotización de acciones de IBM se dispararan en bolsa? Pues bien, éste es exactamente el mismo caso.
En el comentario anterior hicieron referencia a las TPU (Tensor Processing Unit) diseñadas específicamente por Google para el funcionamiento de redes neuronales.
Una TPU tiene una capacidad de cálculo equivalente, aproximadamente, a 71 procesadores Intel Xeon. Mientras que Stockfish corrió en un PC tan solo con un minuto de tiempo para pensar y con memoria limitada a 1GB (¿llamémosle miedo?), AlphaZero se ejecutó en una máquina con 4 TPUs, es decir, el equivalente a la capacidad de 4 x 71 = 284 ordenadores personales.
Pero esto no es nada si lo comparamos con que las redes neuronales en las que está basado AlphaZero se entrenaron en una supercomputadora con 5000 TPUs, es decir, 5000 x 71 = 355000 ordenadores personales.
Decir que AlphaZero sólo tardó 4 horas en entrenar a su red neuronal para jugar al ajedrez equivale a varios años de entrenamiento en un PC, o lo que es lo mismo, a comparar AlphaZero con el nivel que pueda alcanzar Stockfish dentro de varios años.
Sí, se ha logrado un gran nivel de ajedrez, inhumano dicen muchos (aunque inhumano ya es el nivel actual de Stockfish, Houdini o Komodo), pero no menos que si se modificara el código fuente en el que está programado Stockfish y se hiciera funcionar a éste en una máquina de tal capacidad de proceso.
Al César lo que es del César y a Dios lo que es de Dios…
¿Pero cómo juega? He leído bastantes versiones de «AlphaZero pulverizó a Stockfish», pero me gustaría saber qué tiene el juego de AlphaZero. ¿Es agresivo? ¿es paciente como una gota de agua rompiendo una roca? ¿es aburrido? ¿hace jugadas «geniales» para un observador humano? ¿podría una persona jugar con ese estilo?
Solo se han publicado 10 partidas de las 100 por lo que es precipitado decir cómo juega.
En estas 10 partidas, lo que réplica es un GM de élite que no conoce el miedo y que no tiene fallos tácticos.
Este SF es pseudo infalible en lo táctico, pero sus valoraciones posicionales no son tan fuertes, mientras AZ es más fuerte en ese plano. Así que las partidas son un festival de entregas de peones e incluso piezas en sacrificios posicionales, logrando maniatar la posición de SF y dejándole en zugwang (tienes el turno y mover una pieza solo puede empeorar tu posición) varias veces.
También sorprende el uso de la dama. Una de las reglas del ajedrez humano, es no mover la dama pronto, dado que al ser la más valiosa, el sacarla pronto significa recibir ataques de piezas menores del rival y perder turnos buscando casillas no atacadas para disponerla. AZ hace un uso intensivo y desde el inicio de la partida de la pieza.
Otra cosa muy curiosa es el manejo de la presión focal, básicamente muchas veces se dedica a cargar la presión en un punto específico del tablero con las piezas mayores. Si sf se logra defender trayendo piezas, pasa a atacar el siguiente punto debil de presión que eso crea en otra zona del tablero ipsofacto.
«El futuro de la tecnologia amenaza con destruir todo lo que es humano en el ser humano, pero la tecnologia no alcanza a la locura, y en ella es donde lo humano del ser humano se refleja»
Clarice Lispector
Como escribió Hejo, son inquietantes las consecuencias para nosotros. Esperemos que las máquinas, cuando vayan más allá de esa «profundidad psíquica» que nosotros apenas rozamos, no se encuentren con obstáculos tipicamente humanos que desnaturalicen su función. Talvez lleguen a esa conciencia cósmica, libres de nuestros miedos, ambiciones y lastres varios. Excelente artículo.
Amplio espectro del conocimiento y el sentimiento con el ser.
Pingback: Patafísica de Alpha Zero: 0 1 1 2 3 5 8 13 21…