מפתח | DeepMind |
---|---|
מחזור חיים | 2017–הווה (כ־7 שנים) |
AlphaZero היא תוכנת מחשב, שפותחה על ידי DeepMind חברת מחקר בתחום הבינה המלאכותית, במטרה להגיע לרמות חשיבה גבוהות במשחקי שחמט, שוגי וגו. אלגוריתם זה משתמש בגישה הדומה ל-AlphaGo Zero.
ב-5 בדצמבר 2017, צוות DeepMind הציג את AlphaZero, אשר בתוך 24 שעות של אימונים השיג רמה על-אנושית (אנ') של משחק בשלושת המשחקים האלה על ידי הבסת תוכניות 0אלוף-העולם stockfish, אלמו, ואת גרסת של AlphaGo Zero. בכל אחד מהמקרים היא עשתה שימוש ביחידות עיבוד טנזורים מותאמות אישית (TPU), שתוכניות גוגל מותאמות לשימוש בהן. AlphaZero הוכשרה אך ורק באמצעות "משחק עצמי" תוך שימוש ב-5,000 מכשירי TPU מהדור הראשון כדי להפיק את המשחקים ו-64 דור שני של מכשירי TPU להכשרת רשתות נוירונים (אנ'), והכל במקביל, ללא גישה לספרות או שולחנות קצה. לאחר ארבע שעות של אימונים, העריכה DeepMind ש-AlphaZero שיחקה בשחמט הדירוג Elo גבוה יותר מ- Stockfish 8; לאחר 9 שעות אימונים, האלגוריתם ניצח את סטוקפיש 8 בטורניר מבוקר בזמן של 100 משחקים (28 ניצחונות, 0 הפסדים ו-72 תוצאות תיקו).[1][2] האלגוריתם המאומן שיחק במכונה אחת עם ארבעה TPU.
המאמר של DeepMind על AlphaZero פורסם בכתב העת "Science" ב-7 בדצמבר 2018.[3] בשנת 2019 פרסם DeepMind מאמר חדש המפרט את MuZero, אלגוריתם חדש המסוגל להכליל את עבודות AlphaZero, ומשחק הן את Atari והן את משחקי הלוח ללא ידיעת הכללים או ייצוגי המשחק.[4]
AlphaZero התאמן אך ורק באמצעות משחק עם עצמו, תוך שימוש ב-5,000 TPUs מהדור הראשון להפקת המשחקים ו-64 מהדור השני של TPU להכשרת רשתות הנוירונים. במקביל, AlphaZero שבאימונים הותאמה מעת לעת מול מדד הביקורת שלה (Stockfish, elmo או AlphaGo Zero) בקצרה למשך שניות לכל מהלך כדי לקבוע עד כמה האימונים מתקדמים. DeepMind שפטה כי ביצועי AlphaZero התעלו על הרף שנקבע כביקורת לאחר כארבע שעות אימונים עבור סטוקפיש, שעתיים עבור אלמו ושמונה שעות עבור AlphaGo Zero.
{{cite news}}
: (עזרה)
{{cite journal}}
: (עזרה)תחזוקה - ציטוט: postscript (link)