AlphaGo Zero

AlphaGo Zero es una versión del software AlphaGo de DeepMind. El equipo de AlphaGo publicó un artículo en la revista Nature el 19 de octubre de 2017, presentando AlphaGo Zero, una versión creada sin utilizar datos de juegos humanos y más potente que cualquier versión anterior. Al jugar contra sí mismo, AlphaGo Zero superó la fuerza de AlphaGo Lee en tres días al ganar 100 juegos a 0, alcanzó el nivel de AlphaGo Master en 21 días y superó todas las versiones antiguas en 40 días.[1]

Entrenar inteligencia artificial (IA) sin conjuntos de datos derivados de expertos humanos tiene implicaciones significativas para el desarrollo de IA con habilidades sobrehumanas porque los datos de expertos son "a menudo costosos, poco confiables o simplemente no están disponibles".[2]Demis Hassabis, cofundador y director ejecutivo de DeepMind, dijo que AlphaGo Zero era tan poderoso porque "ya no estaba limitado por los límites del conocimiento humano".[3]​ Además, AlphaGo Zero funcionó mejor que los modelos de aprendizaje profundo con refuerzo estándar (como las implementaciones de DQN [4]​ ) debido a su integración de la búsqueda de árbol de Monte Carlo. David Silver, uno de los primeros autores de los artículos de DeepMind publicados en Nature sobre AlphaGo, dijo que es posible tener algoritmos de IA generalizados eliminando la necesidad de aprender de los humanos.[5]

Posteriormente, Google desarrolló AlphaZero, una versión generalizada de AlphaGo Zero que podía jugar ajedrez y Shōgi además de Go. En diciembre de 2017, AlphaZero venció a la versión de 3 días de AlphaGo Zero ganando 60 juegos a 40, y con 8 horas de entrenamiento superó a AlphaGo Lee en una escala Elo. AlphaZero también derrotó a un programa de ajedrez superior (Stockfish) y a un programa de Shōgi superior (Elmo).[6][7]

Entrenamiento

[editar]

La red neuronal de AlphaGo Zero se entrenó utilizando TensorFlow, con 64 trabajadores de GPU y 19 servidores de parámetros de CPU. Sólo se utilizaron cuatro TPU para la inferencia. Al principio, la red neuronal no sabía nada sobre Ir más allá de las reglas. A diferencia de versiones anteriores de AlphaGo, Zero solo percibía las piedras del tablero, en lugar de tener algunos casos extremos raros programados por humanos para ayudar a reconocer posiciones inusuales del tablero de Go. La IA participó en el aprendizaje por refuerzo, jugando contra sí misma hasta que pudo anticipar sus propios movimientos y cómo esos movimientos afectarían el resultado del juego.[8]​ En los primeros tres días, AlphaGo Zero jugó 4,9 millones de juegos contra sí mismo en rápida sucesión.[9]​ Pareció desarrollar las habilidades necesarias para vencer a los mejores humanos en tan solo unos días, mientras que el anterior AlphaGo requirió meses de entrenamiento para alcanzar el mismo nivel.[10]

A modo de comparación, los investigadores también entrenaron una versión de AlphaGo Zero utilizando juegos humanos, AlphaGo Master, y descubrieron que aprendía más rápido, pero en realidad tenía un peor rendimiento a largo plazo.[11]​ DeepMind presentó sus hallazgos iniciales en un artículo a Nature en abril de 2017, que luego se publicó en octubre de 2017.

Costo de hardware

[editar]

El costo del hardware para un solo sistema AlphaGo Zero en 2017, incluidos los cuatro TPU, se ha estimado en alrededor de 25 millones de dólares.[12]

Aplicaciones

[editar]

Según Hassabis, es probable que los algoritmos de AlphaGo sean los más beneficiosos para dominios que requieren una búsqueda inteligente a través de un enorme espacio de posibilidades, como el plegamiento de proteínas (ver AlphaFold) o la simulación precisa de reacciones químicas.[13]​ Las técnicas de AlphaGo probablemente sean menos útiles en dominios que son difíciles de simular, como aprender a conducir un automóvil.[14]​ DeepMind declaró en octubre de 2017 que ya había comenzado a trabajar activamente para intentar utilizar la tecnología AlphaGo Zero para el plegamiento de proteínas y afirmó que pronto publicaría nuevos hallazgos.[15][16]

Recepción

[editar]

AlphaGo Zero fue ampliamente considerado como un avance significativo, incluso en comparación con su innovador predecesor, AlphaGo. Oren Etzioni, del Instituto Allen de Inteligencia Artificial, calificó a AlphaGo Zero como "un resultado técnico muy impresionante" tanto en su capacidad para hacerlo como en su capacidad para entrenar el sistema en 40 días, en cuatro TPU.[8]The Guardian lo llamó un "gran avance para la inteligencia artificial", citando a Eleni Vasilaki de la Universidad de Sheffield y Tom Mitchell de la Universidad Carnegie Mellon, quienes lo calificaron como una hazaña impresionante y un "logro de ingeniería sobresaliente", respectivamente.[14]Mark Pesce de la Universidad de Sydney calificó a AlphaGo Zero como "un gran avance tecnológico" que nos lleva a "territorio desconocido".[17]

Gary Marcus, psicólogo de la Universidad de Nueva York, ha advertido que, por lo que sabemos, AlphaGo puede contener "conocimientos implícitos que los programadores tienen sobre cómo construir máquinas para resolver problemas como Go" y necesitará ser probado en otros dominios antes de ser probado. Estoy seguro de que su arquitectura base es efectiva para mucho más que jugar Go. Por el contrario, DeepMind "confía en que este enfoque sea generalizable a un gran número de dominios".[9]

En respuesta a los informes, el profesional surcoreano de Go Lee Sedol dijo: "La versión anterior de AlphaGo no era perfecta, y creo que por eso se creó AlphaGo Zero". Sobre el potencial de desarrollo de AlphaGo, Lee dijo que tendrá que esperar y ver, pero también dijo que afectará a los jugadores jóvenes de Go. Mok Jin-seok, quien dirige el equipo nacional de Go de Corea del Sur, dijo que el mundo del Go ya ha estado imitando los estilos de juego de versiones anteriores de AlphaGo y creando nuevas ideas a partir de ellas, y tiene la esperanza de que surjan nuevas ideas de AlphaGo Zero. . Mok también añadió que las tendencias generales en el mundo del Go ahora están siendo influenciadas por el estilo de juego de AlphaGo. "Al principio era difícil de entender y casi me sentía como si estuviera jugando contra un extraterrestre. Sin embargo, después de haber tenido una gran experiencia, me he acostumbrado", dijo Mok. "Hemos superado el punto en el que debatimos la brecha entre la capacidad de AlphaGo y la de los humanos. Ahora es entre computadoras". Según se informa, Mok ya ha comenzado a analizar el estilo de juego de AlphaGo Zero junto con los jugadores del equipo nacional. "A pesar de haber visto sólo unos pocos partidos, tuvimos la impresión de que AlphaGo Zero juega más como un humano que sus predecesores", dijo Mok.[18]​ El profesional chino de Go, Ke Jie, comentó sobre los notables logros del nuevo programa: "Un AlphaGo de autoaprendizaje puro es el más fuerte. Los humanos parecen redundantes frente a su superación personal".[19]

Comparación con predecesores

[editar]
Configuración y resistencia [20]
Versiones Hardware de reproducción [21] calificación elo Partidos
AlphaGo Fan 176 GPU,[1]​ distribuidas 3.144 5:0 contra Fan Hui
AlphaGo Lee 48 TPU,[1]​ distribuidos 3.739 [22] 4:1 contra Lee Sedol
AlphaGo Master 4 TPU,[1]​ máquina única 4.858 [22] 60:0 contra jugadores profesionales;

Cumbre sobre el futuro del Go

AlphaGo Cero (40 days) 4 TPU,[1]​ máquina única 5.185 [22] 100:0 contra AlphaGo Lee

89:11 contra AlphaGo Master

AlfaZero (34 hours) 4 TPU, una sola máquina 4.430 (est.) 60:40 contra un AlphaGo Zero de 3 días

AlphaZero

[editar]

El 5 de diciembre de 2017, el equipo de DeepMind lanzó una preimpresión en arXiv, presentando AlphaZero, un programa que utiliza el enfoque generalizado de AlphaGo Zero, que logró en 24 horas un nivel de juego sobrehumano en ajedrez, shogi y Go, derrotando a los programas campeones del mundo, Stockfish. Elmo y la versión de 3 días de AlphaGo Zero en cada caso.[6]

AlphaZero (AZ) es una variante más generalizada del algoritmo AlphaGo Zero (AGZ) y puede jugar shogi y ajedrez además de Go. Las diferencias entre AZ y AGZ incluyen: [6]

  • AZ tiene reglas codificadas para configurar hiperparámetros de búsqueda.
  • La red neuronal ahora se actualiza continuamente.
  • El ajedrez (a diferencia del Go) puede terminar en empate; por lo tanto, el AZ puede tener en cuenta la posibilidad de un empate.

Está disponible un programa de código abierto, Leela Zero, basado en las ideas de los artículos de AlphaGo. Utiliza una GPU en lugar de las TPU en las que confían las versiones recientes de AlphaGo.

Referencias

[editar]
  1. a b c d e Hassabis, Demis (18 de octubre de 2017). «AlphaGo Zero: Learning from scratch». DeepMind official website. Archivado desde el original el 19 de octubre de 2017. Consultado el 19 de octubre de 2017. 
  2. «Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone». Yahoo! Finance. 19 de octubre de 2017. Archivado desde el original el 19 de octubre de 2017. Consultado el 19 de octubre de 2017. 
  3. Knapton, Sarah (18 de octubre de 2017). «AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days». The Telegraph. Archivado desde el original el 19 de octubre de 2017. Consultado el 19 de octubre de 2017. 
  4. mnj12 (7 de julio de 2021), mnj12/chessDeepLearning, consultado el 7 de julio de 2021 .
  5. «DeepMind AlphaGo Zero learns on its own without meatbag intervention». ZDNet. 19 de octubre de 2017. Archivado desde el original el 20 de octubre de 2017. Consultado el 20 de octubre de 2017. 
  6. a b c Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent et al. (2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. doi:10.48550/ARXIV.1712.01815. Consultado el 21 de abril de 2024. 
  7. Knapton, Sarah (6 de diciembre de 2017). «Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours». The Telegraph. Archivado desde el original el 2 de diciembre de 2020. Consultado el 5 de abril de 2018. 
  8. a b Greenemeier, Larry. «AI versus AI: Self-Taught AlphaGo Zero Vanquishes Its Predecessor». Scientific American (en inglés). Archivado desde el original el 19 de octubre de 2017. Consultado el 20 de octubre de 2017. 
  9. a b «Computer Learns To Play Go At Superhuman Levels 'Without Human Knowledge'». NPR (en inglés). 18 de octubre de 2017. Archivado desde el original el 20 de octubre de 2017. Consultado el 20 de octubre de 2017. 
  10. «Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone». Fortune (en inglés). 19 de octubre de 2017. Archivado desde el original el 19 de octubre de 2017. Consultado el 20 de octubre de 2017. 
  11. «This computer program can beat humans at Go—with no human instruction». Science | AAAS (en inglés). 18 de octubre de 2017. Archivado desde el original el 2 de febrero de 2022. Consultado el 20 de octubre de 2017. 
  12. Gibney, Elizabeth (18 de octubre de 2017). «Self-taught AI is best yet at strategy game Go». Nature News (en inglés). doi:10.1038/nature.2017.22858. Archivado desde el original el 1 de mayo de 2020. Consultado el 10 de mayo de 2020. 
  13. «The latest AI can work things out without being taught». The Economist (en inglés). Archivado desde el original el 19 de octubre de 2017. Consultado el 20 de octubre de 2017. 
  14. a b Sample, Ian (18 de octubre de 2017). «'It's able to create knowledge itself': Google unveils AI that learns on its own». The Guardian. Archivado desde el original el 19 de octubre de 2017. Consultado el 20 de octubre de 2017. 
  15. «'It's able to create knowledge itself': Google unveils AI that learns on its own». The Guardian. 18 de octubre de 2017. Archivado desde el original el 19 de octubre de 2017. Consultado el 26 de diciembre de 2017. 
  16. Knapton, Sarah (18 de octubre de 2017). «AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days». The Telegraph. Archivado desde el original el 15 de diciembre de 2017. Consultado el 26 de diciembre de 2017. 
  17. «How Google's new AI can teach itself to beat you at the most complex games». Australian Broadcasting Corporation (en inglés australiano). 19 de octubre de 2017. Archivado desde el original el 20 de octubre de 2017. Consultado el 20 de octubre de 2017. 
  18. «Go Players Excited About 'More Humanlike' AlphaGo Zero». Korea Bizwire (en inglés). 19 de octubre de 2017. Archivado desde el original el 21 de octubre de 2017. Consultado el 21 de octubre de 2017. 
  19. «New version of AlphaGo can master Weiqi without human help». China News Service (en inglés). 19 de octubre de 2017. Archivado desde el original el 19 de octubre de 2017. Consultado el 21 de octubre de 2017. 
  20. «【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解» (en chino). Sohu. 24 de mayo de 2017. Archivado desde el original el 17 de septiembre de 2017. Consultado el 1 de junio de 2017. 
  21. Hardware used during training may be substantially more powerful
  22. a b c Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Nature2017

Enlaces externos y lecturas adicionales

[editar]