اختبار أ-ب

مثال على اختبار A / B على موقع ويب. من خلال تقديم نسختين من موقع الويب للزائرين بشكل عشوائي يختلفان فقط في تصميم عنصر زر واحد، يمكن قياس الفعالية النسبية للتصميمين.

اختبار أ-ب أو اختبار A / B (بالإنجليزية A/B testing) (المعروف أيضًا باسم اختبار الجرافة bucket testing أو اختبار التشغيل المنفصل split-run testing) هو منهجية بحث لاختبار المستخدم.[1] تتكون اختبارات A / B من تجربة عشوائية مع متغيرين، A و B[2][3] وتشمل تطبيق اختبار فرضية إحصائية أو «اختبار فرضية من عينتين» كما هو مستخدم في مجال الإحصاء. اختبار A / B هو طريقة لمقارنة نسختين من متغير واحد، عادةً عن طريق اختبار استجابة الشخص للمتغير A مقابل المتغير B، وتحديد أيهما أكثر فعالية.[4]

ملخص

[عدل]

اختبار A / B هو اختصار لتجربة بسيطة خاضعة للرقابة.[1] حيث تتم مقارنة عينتين (A و B) لمتغير متجه واحد. هذه القيم متشابهة باستثناء شكل واحد قد يؤثر على سلوك المستخدم. تعتبر اختبارات A / B على نطاق واسع أبسط أشكال التجارب الخاضعة للرقابة. ومع ذلك، بإضافة المزيد من المتغيرات للاختبار، يزداد تعقيدها.[5]

تُعد اختبارات A / B مفيدة لفهم تفاعل المستخدم ورضاه عن الميزات عبر الإنترنت مثل ميزة أو منتج جديد.[6] تستخدم مواقع الوسائط الاجتماعية الكبيرة مثل LinkedIn وFacebook وInstagram اختبار A / B لجعل تجارب المستخدم أكثر نجاحًا وكوسيلة لتبسيط خدماتهم.[6]

اليوم، تُستخدم اختبارات A / B أيضًا لإجراء تجارب معقدة على مواضيع مثل تأثيرات الشبكة عندما يكون المستخدمون غير متصلين، وكيف تؤثر الخدمات عبر الإنترنت على إجراءات المستخدم، وكيف يؤثر المستخدمون على بعضهم البعض.[6] تستخدم العديد من المهن البيانات من اختبارات A / B. وهذا يشمل مهندسي البيانات والمسوقين والمصممين ومهندسي البرمجيات ورجال الأعمال.[7] تعتمد العديد من الوظائف على البيانات المأخوذة من اختبارات A / B، لأنها تتيح للشركات فهم النمو وزيادة الإيرادات وتحسين رضا العملاء.[7]

الاختيار A قد يكون هو الإصدار المستخدم حاليًا (وبالتالي تشكيل المجموعة الضابطة)، بينما الاختيار B فيحتوي تعديل في بعض النواحي مختلفًا عن A. على سبيل المثال، في أحد مواقع التجارة الإلكترونية، يعد مسار الشراء مرشحًا جيدًا لاختبار A / B، نظرًا لأنه حتى الانخفاضات الهامشية في معدلات الانسحاب يمكن أن تمثل مكسبًا كبيرًا في المبيعات. يمكن أحيانًا رؤية التحسينات المهمة من خلال اختبار العناصر مثل نسخ النص والتخطيطات والصور والألوان،[8] ولكن ليس دائمًا. في هذه الاختبارات، يرى المستخدمون واحدًا فقط من نسختين، لأن الهدف هو اكتشاف أيهما أفضل.[9]

يشبه الاختبار متعدد المتغيرات أو الاختبار متعدد الحدود اختبار A / B، ولكنه قد يختبر أكثر من نسختين في نفس الوقت أو يستخدم المزيد من عناصر التحكم. اختبارات A / B البسيطة غير صالحة لحالات الملاحظة أو شبه التجريبية أو غيرها من المواقف غير التجريبية - وهي شائعة مع بيانات المسح والبيانات غير المتصلة بالإنترنت والظواهر الأخرى الأكثر تعقيدًا.

يزعم البعض أن اختبار A / B هو تغيير في الفلسفة واستراتيجية الأعمال في منافذ معينة، على الرغم من أن النهج مطابق للتصميم بين الموضوعات، والذي يستخدم بشكل شائع في مجموعة متنوعة من تقاليد البحث.[10][11][12] إن اختبار A / B كفلسفة لتطوير الويب يجعل المجال يتماشى مع حركة أوسع نحو الممارسة القائمة على الأدلة. من فوائد اختبار A / B أنه يمكن إجراؤه بشكل مستمر على أي شيء تقريبًا، خاصة وأن معظم برامج أتمتة التسويق تأتي عادةً مع القدرة على تشغيل اختبارات A / B على أساس مستمر.

إحصائيات الاختبار الشائعة

[عدل]

«الاختبارات الفرضية المكونة من عينتين» مناسبة لمقارنة العينتين حيث يتم تقسيم العينات على حالتي التحكم في التجربة. تعد اختبارات Z مناسبة لمقارنة الوسائل في ظل ظروف صارمة فيما يتعلق بالطبيعية والانحراف المعياري المعروف. تعد اختبارات t للطالب مناسبة لمقارنة الوسائل في ظل ظروف مريحة عند افتراض أقل. يُعد اختبار Welch t هو الأقل، وبالتالي فهو الاختبار الأكثر استخدامًا في اختبار فرضية من عينتين حيث يتم تحسين متوسط المقياس. في حين أن متوسط المتغير المطلوب تحسينه هو الاختيار الأكثر شيوعًا للمقدر، يتم استخدام البعض الآخر بانتظام.

للمقارنة بين توزيعين ذي حدين مثل نسبة النقر إلى الظهور، قد يستخدم المرء اختبار فيشر الدقيق.

التوزيع المفترض مثال الحالة اختبار قياسي الاختبار البديل
جاوس متوسط العائد لكل مستخدم اختبار ويلش (اختبار T غير المزاوج) اختبار الطالب
ذات الحدين معدل النقر اختبار فيشر الدقيق اختبار برنارد
بواسون المعاملات لكل مستخدم يدفع اختبار إلكتروني[13] اختبار سي
متعدد الحدود عدد كل منتج تم شراؤه اختبار مربع تشي
مجهول اختبار مان ويتني يو أخذ عينات جيبس

التاريخ

[عدل]

مثل معظم الموضوعات، يعد تحديد تاريخ لظهور طريقة جديدة أمرًا صعبًا. حدثت أول تجربة عشوائية مزدوجة التعمية لتقييم فعالية دواء في عام 1835.[14] بدأت تجربة الحملات الإعلانية، التي تمت مقارنتها باختبار A / B الحديث، في أوائل القرن العشرين.[15] استخدم رائد الإعلان كلود هوبكنز القسائم الترويجية لاختبار فعالية حملاته. ومع ذلك، فإن هذه العملية، التي وصفها هوبكنز في إعلانه العلمي، لم تتضمن مفاهيم مثل الدلالة الإحصائية وفرضية العدم، والتي يتم استخدامها في اختبار الفرضيات الإحصائية.[16] تم تطوير الأساليب الإحصائية الحديثة لتقييم أهمية بيانات العينة بشكل منفصل في نفس الفترة. أنجز ويليام سيلي جوسيت هذا العمل في عام 1908 عندما قام بتغيير Z-test لإنشاء اختبار t للطالب.[17][18]

مع نمو الإنترنت، أصبح هناك طرق جديدة متاحة لأخذ عينات من الناس. أجرى مهندسو Google أول اختبار أ / ب في عام 2000 في محاولة لتحديد العدد الأمثل للنتائج التي سيتم عرضها على صفحة نتائج محرك البحث الخاصة بها.[19] لم ينجح الاختبار الأول بسبب مواطن الخلل التي نتجت عن أوقات التحميل البطيئة. لاحقًا، ستكون أبحاث اختبار A / B أكثر تقدمًا، لكن الأساس والمبادئ الأساسية تظل كما هي، وفي عام 2011، بعد 11 عامًا من اختبار Google الأول، أجرت Google أكثر من 7000 اختبار A / B مختلف.[4]

في عام 2012، قام موظف من شركة Microsoft يعمل على محرك البحث Microsoft Bing بإنشاء تجربة لاختبار طرق مختلفة لعرض عناوين الإعلانات. في غضون ساعات، أنتج التنسيق البديل زيادة في الإيرادات بنسبة 12٪ دون أي تأثير على مقاييس تجربة المستخدم.[3] اليوم، تجري كل من الشركات مثل Microsoft و Google أكثر من 10000 اختبار A / B سنويًا.[3]

تستخدم العديد من الشركات الآن نهج «التجربة المصممة» لاتخاذ قرارات التسويق، مع توقع أن تكون نتائج العينات ذات الصلة يمكن أن تحسن نتائج التحويل الإيجابية.  إنها ممارسة شائعة بشكل متزايد حيث تنمو الأدوات والخبرات في هذا المجال. 

أمثلة

[عدل]

التسويق عبر البريد الإلكتروني

[عدل]

قررت شركة لديها قاعدة بيانات عملاء تتكون من 2000 شخص إنشاء حملة بريد إلكتروني برمز خصم من أجل تحقيق مبيعات من خلال موقعها على الويب. يقوم بإنشاء نسختين من البريد الإلكتروني مع عبارة مختلفة للحث على اتخاذ إجراء (جزء النسخة الذي يشجع العملاء على فعل شيء ما - في حالة حملة البيع، قم بالشراء) وتحديد الرمز الترويجي.

  • أرسلت إلى 1000 شخص رسالة بريد إلكتروني تتضمن عبارة تحث المستخدم على اتخاذ إجراء تفيد بأن «العرض ينتهي يوم السبت! استخدم الرمز A1»،
  • وإلى 1000 شخص آخر، أرسلت رسالة بريد إلكتروني تتضمن عبارة تحث المستخدم على اتخاذ إجراء، «سينتهي العرض قريبًا! استخدم الرمز B1».

جميع العناصر الأخرى لنسخة وتخطيط رسائل البريد الإلكتروني متطابقة. تراقب الشركة بعد ذلك الحملة التي حققت معدل نجاح أعلى من خلال تحليل استخدام الرموز الترويجية. حصل البريد الإلكتروني الذي يستخدم الرمز A1 على معدل استجابة 5٪ (استخدم 50 من 1000 شخص عبر البريد الإلكتروني الرمز لشراء منتج)، والبريد الإلكتروني الذي يستخدم الرمز B1 حصل على معدل استجابة 3٪ (استخدم 30 من المستلمين الرمز لـ شراء منتج). لذلك تحدد الشركة أنه في هذه الحالة، يكون النموذج A1 أكثر فاعلية وستستخدمه في المبيعات المستقبلية. قد يتضمن النهج الأكثر دقة تطبيق اختبار إحصائي لتحديد ما إذا كانت الفروق في معدلات الاستجابة بين A1 و B1 ذات دلالة إحصائية (أي، من المحتمل جدًا أن تكون الاختلافات حقيقية وقابلة للتكرار وليست بسبب فرصة عشوائية).[20]

في المثال أعلاه، الغرض من الاختبار هو تحديد الطريقة الأكثر فعالية لتشجيع العملاء على الشراء. ومع ذلك، إذا كان الهدف من الاختبار هو معرفة البريد الإلكتروني الذي سيؤدي إلى زيادة معدل النقر - أي عدد الأشخاص الذين ينقرون فعليًا على موقع الويب بعد تلقي البريد الإلكتروني - فقد تكون النتائج مختلفة.

على سبيل المثال، على الرغم من أن المزيد من العملاء الذين يتلقون الرمز B1 قد وصلوا إلى موقع الويب، نظرًا لأن الرسالة لم تذكر تاريخ انتهاء العرض الترويجي، فقد لا يشعر الكثير منهم بالحاجة الملحة لإجراء عملية شراء فورية. وبالتالي، إذا كان الغرض من الاختبار هو مجرد معرفة البريد الإلكتروني الذي سيجلب المزيد من الزيارات إلى موقع الويب، فقد يكون البريد الإلكتروني الذي يحتوي على الرمز B1 أكثر نجاحًا. يجب أن يحتوي اختبار A / B على نتيجة محددة قابلة للقياس مثل عدد المبيعات التي تم إجراؤها أو تحويل معدل النقرات أو عدد الأشخاص الذين قاموا بالتسجيل.[21]

اختبار A / B لتسعير المنتج

[عدل]

يمكن استخدام اختبار A / B لتحديد السعر المناسب للمنتج، قد تكون هذه إحدى أصعب المهام عند إطلاق منتج أو خدمة جديدة.

يعد اختبار A / B (صالحًا بشكل خاص للسلع الرقمية) طريقة ممتازة لمعرفة نقطة السعر وتقديم أقصى قدر من إجمالي الإيرادات.

اختبار A / B السياسي

[عدل]

لا تُستخدم اختبارات A / B للشركات فقط، ولكنها أيضًا تقود الحملات السياسية. في عام 2007، استخدمت حملة باراك أوباما الرئاسية اختبار A / B كوسيلة لجذب الانتباه عبر الإنترنت وفهم ما يريد الناخبون رؤيته من المرشح الرئاسي.[7] على سبيل المثال، اختبر فريق أوباما أربعة أزرار مميزة على موقع الويب الخاص بهم دفعت المستخدمين إلى الاشتراك في النشرات الإخبارية. بالإضافة إلى ذلك، استخدم الفريق ست صور مصاحبة مختلفة لجذب المستخدمين. من خلال اختبار A / B، كان الموظفون قادرين على تحديد كيفية جذب الناخبين بشكل فعال وكسب اهتمام إضافي.[7]

توجيه HTTP واختبار ميزة API

[عدل]
موجه HTTP مع اختبار A / B

اختبار A / B شائع جدًا عند نشر إصدار أحدث من API.[22] لاختبار تجربة المستخدم في الوقت الفعلي، يتم تكوين وكيل HTTP Layer-7 Reverse بطريقة أن N ٪ من حركة مرور HTTP تنتقل إلى الإصدار الأحدث من مثيل الواجهة الخلفية، بينما تصل نسبة 100-N ٪ المتبقية من حركة مرور HTTP الإصدار الأقدم (المستقر) من خدمة تطبيق HTTP الخلفية.[22] يتم ذلك عادةً للحد من تعرض العملاء لمثيل خلفي أحدث، بحيث إذا كان هناك خطأ في الإصدار الأحدث، فإن N ٪ فقط من إجمالي وكلاء المستخدم أو العملاء يتأثرون بينما يتم توجيه الآخرين إلى خلفية ثابتة، والتي هي آلية شائعة للتحكم في الدخول.[22]

التجزئة والاستهداف

[عدل]

تطبق اختبارات A / B بشكل شائع نفس المتغير (على سبيل المثال، عنصر واجهة المستخدم) باحتمالية متساوية لجميع المستخدمين. ومع ذلك، في بعض الظروف، قد تكون الاستجابات للمتغيرات غير متجانسة. وهذا يعني أنه في حين أن المتغير «أ» قد يكون له معدل استجابة أعلى بشكل عام، فإن المتغير «ب» قد يكون له معدل استجابة أعلى ضمن شريحة معينة من قاعدة العملاء.[23]

على سبيل المثال، في المثال أعلاه، يمكن أن يكون تفصيل معدلات الاستجابة حسب النوع كما يلي:

النوع (ذكر أو أنثى) شاملة رجال نساء
إجمالي عمليات الإرسال 2000 1,000 1,000
إجمالي الردود 80 35 45
البديل أ 50/1,000 (5٪) 10/500 (2٪) 40/500 (8٪)
البديل ب 30/1,000 (3٪) 25/500 (5٪) 5/500 (1٪)

في هذه الحالة، يمكننا أن نرى أنه بينما كان للمتغير أ معدل استجابة أعلى بشكل عام، كان للمتغير ب معدل استجابة أعلى مع الرجال.

نتيجة لذلك، قد تختار الشركة إستراتيجية مجزأة نتيجة لاختبار A / B، وإرسال البديل B إلى الرجال والمتغير A إلى النساء في المستقبل. في هذا المثال، ستؤدي الإستراتيجية المجزأة إلى زيادة معدلات الاستجابة المتوقعة من إلى - تشكل زيادة بنسبة 30٪.

إذا كان من المتوقع الحصول على نتائج مجزأة من اختبار A / B، فيجب تصميم الاختبار بشكل صحيح في البداية ليتم توزيعه بالتساوي عبر سمات العميل الرئيسية، مثل النوع. وهذا يعني أن الاختبار يجب أن يحتوي على عينة تمثيلية من الرجال مقابل النساء، وأيضا تعيين الرجال والنساء بشكل عشوائي لكل «متغير» (البديل أ مقابل البديل ب). قد يؤدي عدم القيام بذلك إلى تحيز التجربة واستخلاص استنتاجات غير دقيقة من الاختبار.[24]

يمكن تعميم نهج التقسيم والاستهداف هذا ليشمل سمات متعددة للعملاء بدلاً من سمة عميل واحدة - على سبيل المثال، سن العملاء- لتحديد أنماط أكثر دقة التي قد تكون موجودة في نتائج الاختبار.

انظر أيضًا

[عدل]

المراجع

[عدل]
  1. ^ ا ب Young، Scott W. H. (أغسطس 2014). "Improving Library User Experience with A/B Testing: Principles and Process". Weave: Journal of Library User Experience. ج. 1 ع. 1. DOI:10.3998/weave.12535642.0001.101.
  2. ^ Kohavi، Ron؛ Longbotham, Roger (2017). "Online Controlled Experiments and A/B Tests" (PDF). في Sammut، Claude؛ Webb، Geoff (المحررون). Encyclopedia of Machine Learning and Data Mining. Springer.
  3. ^ ا ب ج Kohavi، Ron؛ Thomke، Stefan (سبتمبر 2017). "The Surprising Power of Online Experiments". Harvard Business Review: 74–82. مؤرشف من الأصل في 2021-08-14.
  4. ^ ا ب "The ABCs of A/B Testing - Pardot". Pardot (بالإنجليزية الأمريكية). Archived from the original on 2021-03-30. Retrieved 2016-02-21.
  5. ^ Kohavi، Ron؛ Longbotham، Roger (2017). "Online Controlled Experiments and A/B Testing". Encyclopedia of Machine Learning and Data Mining. ص. 922–929. DOI:10.1007/978-1-4899-7687-1_891. ISBN:978-1-4899-7685-7.
  6. ^ ا ب ج Xu، Ya؛ Chen، Nanyu؛ Fernandez، Addrian؛ Sinno، Omar؛ Bhasin، Anmol (10 أغسطس 2015). "From Infrastructure to Culture: A/B Testing Challenges in Large Scale Social Networks". Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining: 2227–2236. DOI:10.1145/2783258.2788602.
  7. ^ ا ب ج د Siroker، Dan؛ Koomen، Pete (7 أغسطس 2013). A / B Testing: The Most Powerful Way to Turn Clicks Into Customers. John Wiley & Sons. ISBN:978-1-118-65920-5. مؤرشف من الأصل في 2021-08-17.
  8. ^ "Split Testing Guide for Online Stores". webics.com.au. 27 أغسطس 2012. مؤرشف من الأصل في 2021-03-03. اطلع عليه بتاريخ 2012-08-28.
  9. ^ Kaufman، Emilie (2014). "On the Complexity of A/B Testing" (PDF). ج. 35. arXiv:1405.3224. Bibcode:2014arXiv1405.3224K. مؤرشف من الأصل (PDF) في 2021-07-07 – عبر JMLR: Workshop and Conference Proceedings. {{استشهاد بدورية محكمة}}: الاستشهاد بدورية محكمة يطلب |دورية محكمة= (مساعدة)
  10. ^ Christian، Brian (27 فبراير 2000). "The A/B Test: Inside the Technology That's Changing the Rules of Business | Wired Business". Wired.com. مؤرشف من الأصل في 2014-03-17. اطلع عليه بتاريخ 2014-03-18.
  11. ^ Christian، Brian. "Test Everything: Notes on the A/B Revolution | Wired Enterprise". Wired.com. مؤرشف من الأصل في 2014-03-16. اطلع عليه بتاريخ 2014-03-18.
  12. ^ Cory Doctorow (26 أبريل 2012). "A/B testing: the secret engine of creation and refinement for the 21st century". Boing Boing. مؤرشف من الأصل في 2020-09-24. اطلع عليه بتاريخ 2014-03-18.
  13. ^ Krishnamoorthy، K.؛ Thomson، Jessica (2004). "A more powerful test for comparing two Poisson means". Journal of Statistical Planning and Inference. ج. 119: 23–35. DOI:10.1016/S0378-3758(02)00408-1.
  14. ^ Stolberg، M (ديسمبر 2006). "Inventing the randomized double-blind trial: the Nuremberg salt test of 1835". Journal of the Royal Society of Medicine. ج. 99 ع. 12: 642–643. DOI:10.1258/jrsm.99.12.642. PMC:1676327. PMID:17139070.
  15. ^ "What is A/B Testing." Convertize. Retrieved 2020-01-28. نسخة محفوظة 2020-08-17 على موقع واي باك مشين.
  16. ^ "Claude Hopkins Turned Advertising Into A Science." Retrieved 2019-11-01. نسخة محفوظة 2021-08-10 على موقع واي باك مشين.
  17. ^ "Brief history and background for the one sample t-test". مؤرشف من الأصل في 2020-09-24.
  18. ^ Box، Joan Fisher (1987). "Guinness, Gosset, Fisher, and Small Samples". Statistical Science. ج. 2 ع. 1: 45–52. DOI:10.1214/ss/1177013437.
  19. ^ "The ABCs of A/B Testing - Pardot". Pardot (بالإنجليزية الأمريكية). Archived from the original on 2021-03-30. Retrieved 2016-02-21.
  20. ^ Amazon.com. "The Math Behind A/B Testing". مؤرشف من الأصل في 2015-09-21. اطلع عليه بتاريخ 2015-04-12.
  21. ^ Kohavi، Ron؛ Longbotham، Roger؛ Sommerfield، Dan؛ Henne، Randal M. (فبراير 2009). "Controlled experiments on the web: survey and practical guide". Data Mining and Knowledge Discovery. ج. 18 ع. 1: 140–181. DOI:10.1007/s10618-008-0114-1.
  22. ^ ا ب ج Szucs، Sandor (2018). "Modern HTTP Routing" (PDF). Usenix.org. مؤرشف من الأصل (PDF) في 2021-09-01.
  23. ^ "Advanced A/B Testing Tactics That You Should Know | Testing & Usability". Online-behavior.com. مؤرشف من الأصل في 2014-03-19. اطلع عليه بتاريخ 2014-03-18.
  24. ^ "Eight Ways You've Misconfigured Your A/B Test". Dr. Jason Davis. 12 سبتمبر 2013. مؤرشف من الأصل في 2021-04-27. اطلع عليه بتاريخ 2014-03-18.