ألفازيرو أو ألفا زيرو (بالإنجليزية: AlphaZero) هو برنامج حاسوب طورته شركة ديب مايند المتخصصة في أبحاث الذكاء الاصطناعي من أجل إتقان ألعاب الشطرنج والشوغي وغو. وتستخدم خوارزميته منهجا مماثلا لمنهج ألفاغو زيرو [الإنجليزية].
أصدر فريق ديب مايند في 5 ديسمبر 2017 مطبوعة أولية عرّف فيها عن ألفازيرو، الذي حقق بعد 24 ساعة من التدريب مستوى لعب فاق مستوى البشر في هذه الألعاب الثلاثة وذلك بهزيمة البرامج أبطال العالم ستوكفيش وإلمو ونسخة 3 أيام من ألفاغو زيرو. استخدم ألفازيرو في كل حالة وحدات معالجة موتر [الإنجليزية] (TPUs) مخصصة كانت برامج غوغل قد أُمثِلت لاستخدامها.[1] تدرب ألفازيرو عبر «اللعب مع الذات» فقط باستخدام 5000 وحدة معالجة موتر من الجيل الأول لتوليد المباريات و64 وحدة معالجة موتر من الجيل الثاني لتدريب الشبكات العصبية، كل هذا بالتوازي مع عدم الوصول إلى كتب الافتتاحيات أو جداول نهاية اللعب. بعد أربع ساعات من التدريب، قدَّرت ديب مايند أن ألفازيرو كان يلعب الشطرنج بتصنييف إيلو أكبر من ستوكفيش 8، وبعد تسع ساعات من التدريب هزمت الخوارزميةُ ستوكفيش 8 في مقابلة موقتة من 100 مباراة (28 فوز، 0 خسارة و72 تعادل).[1][2][3] لعبت خوارزمية ألفازيرو المدربة على آلة وحيدة تملك أربع وحدات معالجة موتر.
نُشرت الورقة العلمية الخاصة بألفازيرو من قبل ديب مايند في دورية ساينس في 7 ديسمبر 2018.[4] وفي 2019 نشرت ديب مايند ورقة جديدة تعطي تفاصيلا حول ميوزيرو [الإنجليزية] وهي خوارزمية جديدة قادرة على تعميم عمل ألفازيرو، بحيث تلعب كلًّا من ألعاب آتاري وألعاب الرقعة من دون معرفة مسبقة باللعبة أو قوانينها.[5]
ألفازيرو هو نسخة أكثر عمومية من خوارزمية ألفاغو زيرو، ويمكنها فضلا عن لعب غو لعب الشوغي والشطرنج كذلك. من الاختلافات بين ألفازيرو وألفاغو زيرو:[1]
بمقارنة الأبحاث في شجرة بحث مونتي كارلو [الإنجليزية]، يبحث ألفازيرو 80 ألف وضعية لكل ثانية فقط في الشطرنج و40 ألف وضعية في الشوغي مقارنة بـ 70 مليون وضعية في الثانية لستوكفيش و35 مليون وضعية لإلمو. يعوض ألفازيرو انخفاض عدد الوضعيات التي يقيِّمهاعبر استخدام شبكته العصبية العميقة للتركيز بشكل انتقائي أكثر على الوضعيات الواعدة التي لها حظوظ أكبر في الفوز.[1]
دُرِّب ألفا زيرو عبر اللعب مع ذاته فقط، باستخدام 5000 وحدة معالجة موتر [الإنجليزية] (TPU) من الجيل الأول لتوليد المباريات و64 وحدة معالجة موتر من الجيل الثاني لتدريب الشبكات العصبية. بالتوازي، كان ألفا زيرو الذي يخضع للتدريب يتقابل بشكل دوري ضد البرامج المرجعية التي صُمِّم للتفوق عليها (ستوكفيش، إلمو، ألفاغو زيرو) في مباريات قصيرة بتوقيت ثانية لكل نقلة من أجل تحديد مدى تقدم وتحسن التدريب. قالت ديب مايند أن أداء ألفازيرو تجاوز ستكوفيش بعد أربع ساعات، وتجاوز إلمو بعد ساعتين وتجاوز ألفاغو زيرو بعد ثماني ساعات.[1]
في مقابلة ألفازيرو ضد ستوكفيش 8 (بطل العالم لبطولة أفضل محرك شطرنج [الإنجليزية] 2016) مُنح كل برنامج دقيقة واحدة لكل نقلة. وخُصِّص لستوكفيش 64 معالجا منطقيا [الإنجليزية] وحجم تجزئة مقداره 1 جيغابايت،[1] وهي ظروف انتقدها تورد رومستاد ووصفها بأنها أقل من مثالية.[6][ملاحظة 1] تم تدريب ألفازيرو لمدة تسع ساعات قبل المقابلة، واشتغل على آلة واحدة تملك أربع وحدات معالجة موتر ذات استخدام متخصص. في 100 مباراة من وضعية البداية العادية، فاز ألفازيرو بـ25 مباراة بالأبيض وثلاثة بالأسود وتعادل في 72 مباراة المتبقية.[8] في سلسلة 11 مقابلة كل مقابلة فيها 100 مباراة (دون تحديد الوقت أو قيود الموارد) ضد ستوكفيش ابتداء من أكثر 12 افتتاحية مفضلة لدى البشر، فاز ألفازيرو بـ290 مباراة وتعادل في 886 وخسر 24.[1]
دُرّب ألفازيرو على لعب الشوغي لمدة ساعتين قبل المقابلة. في 100 مباراة ضد إلمو (بطل العالم في الشوغي في النسخة الـ27 في صيف 2017، مع بحث يانيورا 4.73). فاز ألفازيرو 90 مرة وخسر 8 مرات وتعادل مرتين.[8] وكما هو الحال في مباريات الشطرنج مُنح لكل برنامج دقيقة لكل نقلة ومُنح لإلمو 64 معالجا منطقيا و1 جيغا حجم تجزئة.[1]
بعد 34 ساعة من التعلم الذاتي للعبة غو، فاز ألفازيرو ضد ألفاغو زيرو بـ 60 مباراة وخسر 40.[1][8]
قالت ديب مايند في المطبوعة الأولية " تمثل لعبة الشطرنج قمة الأبحاث في الذكاء الاصطناعي لعدة عقود. أفضل وأحدث البرامج مبنية على محركات قوية تبحث عدة ملايين من الوضعيات، مستغلة خبرات شخصية في هذا المجال وتكيفات مجال [الإنجليزية] متطورة. ألفازيرو هو خوارزمية تعلمٍ بالتعزيز عامة -ابتُكرت في البداية من أجل غو- حققت نتائج متفوقة خلال عدة ساعات، عبر البحث في وضعيات أقل بآلاف المرات ولم يُعطى لها أي معلومات في المجال سوى قواعد اللعبة."[1] وصف الرئيس التنفيذي لديب مايند ديمس هاسابيس وهو لاعب شطرنج كذلك أسلوب لعب ألفازيرو "بالفضائي": يفوز في بعض الأحيان عبر القيام بتضحيات غير متوقعة وغير بديهية، مثل التضحية بملكة وفيل من أجل استغلال أفضلية في الوضعية. الأمر كما لو أنه يلعب شطرنجا من بعد آخر".[9]
نظرا لصعوبة تحقيق فوز ضد خصم قوي تُعتبر نتيجة +28 –0 =72 هامش فوز معتبر. مع ذلك، قلل بعض الأساتذة الكبار مثل هيكارو ناكامورا ومطور محرك كومودو لاري كوفمان من فوز ألفازيرو محاججين بأن المقابلة كانت ستكون نتائجها متقاربة أكثر لو كان لستوكفيش وصولٌ لقواعد بيانات الافتتاحيات (لأن ستوكفيش قد أُمثِل لذلك الغرض).[10] وأشار رومستاد كذلك إلى أن ستوكفيش لم يُأَمثل للعب بنقلات ثابتة الوقت وأن النسخة المستخدمة قديمة بعام واحد.[11][12]
على نحو مماثل، حاجج بعض المختصين في الشوغي بأن إلمو خُصص له حجم تجزئة منخفض جدا لدرجة أن إعدادات الاستسلام وإعدادات «قاعدة دخول الملك» قد تكون غير مناسبة، وأن إلمو قد عفا عليه الزمن مقارنة ببرامج جديدة.[13][14]
عنونت الصحف أن التدريب على لعب الشطرنج استغرق أربع ساعات فقط:«دُرِّب في وقت يزيد قليلا عن الوقت بين الفطور والغداء».[2][15] مدحت وايرد ألفازيرو بحماسة ووصفته «بأول ذكاء اصطناعي متعدد المواهب بطل لألعاب الرقعة.»[16] أشارت الخبيرة في الذكاء الاصطناعي جوانا بريسون أن «موهبة جوجل في الدعاية الجيدة» وضعتها في موقف قوي ضد منافسيها. «الأمر لا يتعلق بتوظيف أفضل المبرمجين وحسب. بل هو سياسي جدا كذلك، فهو يساعد في جعل جوجل تملك أكبر قوة ممكنة عند التفاوض مع الحكومات والمشرعين فيما يخص قطاع الذكاء الاصطناعي».[8]
عموما، أبدى الأساتذة الكبار البشر تحمسهم تجاه ألفازيرو، حيث ربط الأستاذ الكبير الدنماركي بيتر هاين نيلسن لعب ألفازيرو بالكائنات الفضائية المتفوقة.[8] ووصف الأستاذ الكبير النرويجي جون لودفيغ همر لعب ألفازيرو بأنه «شطرنج هجومي جنوني» مع فهم عميق للوضعيات.[2] وقال بطل العالم السابق غاري كاسباروف «إنه إنجاز رائع، حتى ولو أننا توقعنا ذلك بعد ألفاغو.»[10][17]
الأستاذ الكبير هيكارو ناكامورا كان أقل إعجابا بألفازيرو وصرّح:«لا أضع بالضرورة الكثير من المصداقية في النتائج، ببساطة وحسب فهمي كان ألفازيرو يستخدم حاسوب جوجل فائق القدرة وستوكفيش لايفعل ذلك، ستوكفيش كان يشتغل على حاسوب قد تكون قدرته مثل حاسوبي المحمول. لو أردت مقابلة متماثلة عليك أن تشغل ستوكفيش على حاسوب فائق كذلك.»[7] أفضل لاعب في الشطرنج بالمراسلة وولف مورو لم يكن منبهرا كذلك، زاعما أن ألفازيرو ربما لن يصل إلى نصف النهائي في منافسة عادلة مثل بطولة أفضل محرك شطرنج (TCEC) أين تلعب كل المحركات على حواسيب متكافئة. وصرح كذلك رغم أنه لن يتمكن من هزيمة ألفازيرو إذا لعب هذا الأخير افتتاحيات ميالة للتعادل مثل دفاع بيتروف، إلا أن ألفازيرو لن يتمكن من هزيميته في مباراة شطرنج بالمراسلة كذلك.[18]
قال موتوهيرو إيسوزاكي -مطور يانيورا- رغم أن ألفازيرو هزم إلمو كليا، إلا أن تصنيف ألفازيرو في الشوغي توقف عن الزيادة في نقطة لا يتجاوز فيها إلمو سوى بـ 100 أو 200، وهذه الفجوة في التصنيف ليست كبيرة ويمكن لإلمو أو أي برنامج شوغي آخر أن يلحق هذا التصنيف خلال عام أو عامين.[19]
ردت ديب مايند على العديد من الانتقادات في النسخة الأخيرة من الورقة العلمية المنشورة في ديسمبر 2018 في مجلة ساينس. ووضحت أن ألفازيرو لم يكن يشتغل على حاسوب فائق القدرة، وتم تدريبه باستخدام 5000 وحدة معالجة موتر واشتغل فقط على 4 وحدات معالجة موتر ووحدة معالجة مركزية (CPU) مكونة من 44 لب أثناء مقابلاته. حيث أن وحدة معالجة موتر (TPU) هي مماثلة تقريبا في سرعة الاستدلال لوحدة المعالجة الرسومية تيتان 5 (Titan V GPU)، رغم أن معماريتهما مختلفة.[20]
في النتائج النهائية، اشتغلت النسخة 8 من ستوكفيش على نفس شروط نهائي بطولة أفضل محرك شطرنج (TCEC): وحدة معالجة مركزية بـ44 لب، الوصول إلى جداول نهاية اللعب سيزيجي، و32 جيغا حجم تجزئة (هاش)، وبدل الوقت الثابت دقيقة لكل نقلة مُنح كلا المحركين 3 ساعات زائد 15 ثانية لكل نقلة. في مقابلة من 1000 مباراة فاز ألفازيرو بنتيجة 155 فوز، 6 خسارات و839 تعادلا. لعبت ديب مايند سلسلة من المباريات باستخدام افتتاحيات بطولة محركات الشطنرج وفاز ألفازيرو بنتيجة مقنعة.
على نحو مماثل لستوكفيش، اشتغل إلمو تحت نفس الشروط كما هو الحال في بطولة CSA 2017. كانت نسخة إلمو المستخدمة هي WCSC27 في توليفة مع YaneuraOu 2017. اشتغل إلمو على معالج ذو 44 لبا و32 جيغا حجم تجزئة. فاز ألفازويرو بـ98.2% من المباريات بالأسود (الذي يلعب النقلة الأولى في الشوغي) و91.2% من إجمالي المباريات.
كان الأساتذة الكبار البشر عموما منبهرين بمباريات ألفازيرو ضد ستوكفيش.[21] قال بطل العالم السابق غاري كاسباروف كان من دواعي سروري مشاهدة لعب ألفازيرو، خاصة وأن أسلوبه كان مفتوحا وحركيا مثل أسلوبي.[22][23] في مجتمع شطرنج الحاسوب، وصف مارك ليفلر مطور كومودو ما حدث أنه «إنجاز مذهل حقا» لكنه أشار كذلك إلى أن البيانات كانت قديمة وأن ستوكفيش كسب الكثير من القوة منذ يناير 2018 (عندما صدر ستوكفيش 8). أما زميله في التطوير لاري كوفمان فقال أن ألفازيرو ربما سيخسر مقابلة ضد النسخة الأخيرة من ستوكفيش (ستوكفيش 10) تحت شروط بطولة أفضل محركات الشطرنج (TCEC)، وحاجج كوفمان أن الأفضلية الوحيدة للمحركات المبنية على الشبكات العصبية هي استخدامها لوحدة معالجة الرسوميات (GPU)، لذلك لو لم يكن اعتبار لاستهلاك الطاقة (كمثال: في مسابقة متساوية في العتاد يشتغل فيها كلا المحركين على نفس المعالج CPU والمعالج الرسومي GPU) حينها أي شيء حققه المعالج الرسومي كان «مجانيا». بناء على هذا، صرح أن أقوى محرك كان سيكون على الأرجح هجينا بين الشبكات العصبية وبحث ألفا-بيتا القياسي.[24]
ألهم ألفازيرو مجتمع شطرنج الحاسوب لتطوير ليلا تشيس زيرو [الإنجليزية] باستخدام نفس تقنيات ألفازيرو، تنافست ليلا تشيس زيرو في عدة بطولات ضد ستوكفيش وأظهرت قوة مماثلة تقريبا لستوكفيش. وفي 2 سبتمبر 2020، بالنسخة 12 من ستوكفيش تم إدراج نو (NNUE) وهي شبكة عصبية قابلة للتحديث بكفاءة [الإنجليزية] في ستوكفيش لتقييم وضعيات البحث ليصبح هجينا بين التقنيتين.[25][26][27]
في 2019 نشرت ديب مايند ميوزيرو، وهو نظام موحد يلعب الشطرنج والشوغي وغو بامتياز، بالإضافة إلى ألعاب أتاري ذات البيئة التعلمية، من دون برمجة مسبقة لقواعدها.[28][29]
نتائج المقابلة في حد ذاتها ليس لها معنى بسبب خيار ضبط الوقت وخصائص ستوكفيش: لُعبت المباريات في وقت ثابت 1 دقيقة/نقلة، وهذا يعني أن ستوكفيش لن يستفيد من تجريبيات (heuristics) تنظيم الوقت (بُذل الكثير من الجهد في جعل ستوكفيش يحدد الوضعيات المهمة والحاسمة في المباراة واتخاذ قرار متى ينفق وقتا أكبر على نقلة ما، لذلك حين يكون اللعب محددا بزمن لكل نقلة، ستتأثر قوته بشكل معتبر). نسخة ستوكفيش المستخدمة قديمة بعام واحد، وكانت تلعب بمعالجات بحث أكثر بكثير من العدد الذي تلقت اختبارات معتبرة عليه، وأعطي لها حجم جداول تجزئة صغير جدا بالنسبة لذلك العدد من المعالجات. أعتقد أن نسبة التعادلات كانت ستكون أكثر ارتفاعا في مقابلة بظروف عادية.[7]
{{استشهاد بأرخايف}}
: الوسيط |arxiv=
مطلوب (مساعدة)
{{استشهاد بأرخايف}}
: الوسيط |arxiv=
مطلوب (مساعدة)