نوع | |
---|---|
سمي باسم | |
نظام التشغيل | |
النموذج المصدري | |
المطور الأصلي |
رن واي، كومبفيز، وستابيليتي أيه آي |
موقع الويب |
stability.ai… (الإنجليزية) |
لغة البرمجة | |
---|---|
الإصدار الأول |
22 أغسطس 2022 |
الإصدار الأخير |
SDXL 1.0 (model)[1] |
المستودع | |
الرخصة |
Creative ML OpenRAIL-M |
ستيبل ديفيوجن (بالإنجليزية: Stable Diffusion) هو نموذج تعلم عميق لتحويل النص إلى صورة أصدرته شركة ستابيليتي أيه آي في عام 2022 استنادًا إلى تقنيات نموذج ديفيوجن، ويعتبر جزءًا من طفرة الذكاء الاصطناعي المستمرة.
يستخدم بشكل أساسي لإنشاء صور مفصلة مشروطةً بأوصاف نصية، على الرغم من أنه يمكن تطبيقه أيضًا على مهام أخرى مثل التلوين الداخلي والخارجي، وتوليد ترجمات من صورة إلى أخرى موجهة بمطالبة نصية.[4] طوره باحثين من مجموعة "كومبفيز" في جامعة لودفيغ ماكسيميليان في ميونيخ بالتعاون مع شركة رن واي [الإنجليزية]، وبدعم مالي من شركة ستابيليتي أيه آي، وبيانات تدريب من منظمات غير ربحية.[5][6][7][8]
يُعد ستيبل ديفيوجن نموذج انتشار كامن، وهو نوع من الشبكات العصبية الاصطناعية التوليدية العميقة. تم إصدار شفرته ونموذجه علنًا، [9] ويمكن تشغيله على معظم أجهزة المستهلكين المزودة بوحدة معالجة رسومات متواضعة سعتها 4 غيغابايت على الأقل من ذاكرة الوصول العشوائي للفيديو [الإنجليزية]. يمثل هذا تحولًا عن نماذج "النص إلى الصورة" السابقة مثل دال-إي وميدجورني التي كان يمكن الوصول إليها فقط عبر الخدمات السحابية.[10][11]
نشأ ستيبل ديفيوجن من مشروع يسمى (بالإنجليزية: Latent Diffusion)، [12] طوره باحثين في جامعة لودفيغ ماكسيميليان في ميونخ وجامعة هايدلبرغ. لاحقًا انضم أربعة من المؤلفين الخمسة الأصليين وهم (روبن رومباخ، وأندرياس بلاتمان، وباتريك إيسر، ودومينيك لورينز) إلى شركة "ستابيليتي أيه آي" وأصدروا إصدارات لاحقةً من ستيبل ديفيوجن.[13]
أصدرت مجموعة كومبفيز في جامعة لودفيغ ماكسيميليان في ميونيخ الترخيص التقني للنموذج.[11] قاد فريق التطوير باتريك إيسر من "رن واي"، و"روبن رومباخ" من كومبفيز، اللذان كانا من بين الباحثين الذين اخترعوا سابقًا بنية نموذج (بالإنجليزية: latent diffusion) التي يستخدمها ستيبل ديفيوجن.[8] كما أشادت شركة ستابيليتي أيه آي بـ "إليوثر أيه آي - (بالإنجليزية: EleutherAI)"، و"لايون" (وهي منظمة ألمانية غير ربحية جمعت البيانات التي دُرب ستيبل ديفيوجن عليها) لدعمهم المشروع.[8]
تعتمد النماذج في سلسلة "ستابل ديفوجن" قبل الإصدار الثالث على نوع من نماذج الانتشار يعرف بـ "نموذج الانتشار الكامن"،[14] وهو نموذج طوره فريق "كومبفيس" (الرؤية الحاسوبية والتعلم الآلي) في جامعة لودفيغ ماكسيميليان في ميونخ.[9][15] وتُدرب نماذج الانتشار التي ظهرت في عام 2015 على هدف إزالة التطبيقات المتتالية للضوضاء على صور التدريب، مما يجعلها بمثابة سلسلة تشفير ذاتي. ويتكون "ستابل ديفوجن" من ثلاثة أجزاء رئيسية: المشفر التلقائي التبايني (VAE)، وشبكة يو-نت، ومشفر نص اختياري.[16]
يعمل المشفر التلقائي التبايني على ضغط الصورة من مساحة البكسلات إلى مساحة كامنة ذات أبعاد أقل، محتفظًا بالمعنى الدلالي الأساسي للصورة.[15] وتُطبق الضوضاء الغاوسية بشكل متكرر على التمثيل الكامن المضغوط خلال عملية الانتشار الأمامي.[16] وتعمل كتلة شبكة يو-نت، المبنية على بنية شبكة ريزنت، على إزالة الضوضاء من مخرجات الانتشار الأمامي بشكل عكسي للحصول على تمثيل كامن. وأخيرًا، يقوم المشفر التلقائي التبايني بتوليد الصورة النهائية بتحويل التمثيل إلى بكسلات.[16]
يمكن أن تخضع عملية إزالة الضوضاء لشروط مرنة ومتنوعة، سواء كانت نصية أو بصرية أو من نوع آخر. تُعرض هذه الشروط المشفرة على شبكات عصبية مخصصة لإزالة الضوضاء، وذلك عبر آلية الانتباه التبادلي.[16] وفي حالة الشروط النصية، يتم استخدام مشفر نص ثابت مدرب مسبقًا، وهو "كليب فيت-إل/14" (بالإنجليزية: CLIP ViT-L/14)، لتحويل العبارات النصية إلى تمثيل رقمي مضغوط.[9]
يرى الباحثون أن نماذج الانتشار الكامنة تتميز بزيادة الكفاءة الحسابية أثناء التدريب والتوليد.[8][15] وقد اشتق اسم "الانتشار" من ظاهرة الانتشار الحراري في الفيزياء، حيث أظهرت الدراسات ارتباطًا وثيقًا بين هذا المجال والتعلم العميق عام 2015.[17][18]
بفضل ما يزيد عن 860 مليون معلمة في شبكة يو-نت و123 مليون في مشفر النص، يُعد نموذج "الانتشار المستقر" خفيف الوزن نسبيًا مقارنة بغيره من النماذج في عام 2022. مما أتاح تشغيله، على عكس نظرائه، على وحدات معالجة الرسوميات المتاحة للمستهلكين، [19] بل وحتى على وحدات المعالجة المركزية وحدها عند استخدام نسخة "أوبن فينو" من هذا النموذج.[20]
يستخدم إصدار "XL" البنية المعمارية ذاتها لنموذج الانتشار الكامن (LDM) المستخدمة في الإصدارات السابقة، [21] مع زيادة في الأبعاد: شبكة "يو نت" أوسع، سياق انتباه متقاطع أطول، مشفرين نصيين بدلًا من مشفر واحد، وتدريب على نسب أبعاد متعددة (بخلاف النسبة المربعة للعرض إلى الارتفاع في الإصدارات السابقة).
أُصدر "SD XL Refiner" بالتزامن مع الإصدار الأساسي، وله بنية مطابقة لبنية الإصدار "SD XL"، إلا أنه تدرب على إضافة التفاصيل الدقيقة إلى الصور الموجودة مسبقًا عبر عملية "img2img" الشرطية للنص.
أحدث الإصدار 3.0 تحولًا جذريًا في البنية الأساسية للشبكة العصبية.[21] فقد استُبدلت شبكة "يو نت" بشبكة أكثر تطوراً، ألا وهي "محول التدفق المعدل" (Rectified Flow Transformer). تعتمد هذه الشبكة على تطبيق طريقة التدفق المصحح باستخدام المحول.[22][23]
تتألف بنية التحويل الذاتي المستخدمة في الإصدار 3.0 من ثلاثة "مسارات" رئيسية: الأول مخصص لترميز النص الأصلي، والثاني لترميز النص المُحول، والثالث لترميز الصورة (في الفضاء الكامن). يتم دمج ترميز النص المُحول مع ترميز الصورة بشكل متكرر خلال كل كتلة من كتل التحويل.
أُطلق على هذه البنية المبتكرة اسم "المحول الانتشاري متعدد الوسائط" (MMDiT)، حيث تشير صفة "متعدد الوسائط" إلى قدرته على دمج ترميزات النص والصورة معًا داخل عملياتها. يميز هذا الإصدار عن سابقاته من نماذج DiT، حيث يكون تأثير ترميز النص على ترميز الصورة متبادلاً، وليس أحادي الاتجاه.
دُرب نموذج "الانتشار الثابت" على أزواج من الصور والتعليقات التوضيحية مستمدة من قاعدة البيانات الضخمة "لايون-5 بي" (بالإنجليزية: LAION-5B)، وهي مجموعة بيانات عامة المصدر اشتقت من بيانات كومن كراول [الإنجليزية] المستخرجة من الويب. تم تصنيف نحو خمسة مليارات زوج من الصور والنصوص ضمن هذه المجموعة بناءً على اللغة، في مجموعات بيانات منفصلة استنادًا إلى دقة الصورة، واحتمالية وجود علامة مائية، والتقييم الجمالي المتوقع (مثل الجودة البصرية).[24] وتجدر الإشارة إلى أن منظمة لايون [الإنجليزية]، وهي مؤسسة ألمانية غير ربحية تدعمها شركة "ستابيليتي أيه آي"، هي المسؤولة عن إنشاء هذه المجموعة الضخمة من البيانات.[24][25]
دُرب النموذج على ثلاث مجموعات فرعية محددة من "لايون-5 بي" وهي:[24]
كشفت تحليلات خارجية لبيانات التدريب المستخدمة في هذا النموذج أن حوالي 47% من عينة عشوائية تضم 12 مليون صورة مأخوذة من المجموعة الأصلية الأكبر كانت مستمدة من 100 نطاق مختلف على الويب. وقد استحوذ موقع بنترست على نسبة 8.5% من هذه العينة، تلاه مواقع أخرى مثل ووردبريس، وبلوغر، وفليكر، وديفيانت آرت وويكيميديا كومنز. كما أظهر تحقيق أجرته هيئة البث البافارية (بايريشر روندفونك) أن مجموعات بيانات "لايون" المتاحة على منصة "هجينج فيس" تحتوي على كميات كبيرة من البيانات الحساسة والخاصة.[26]
دُرب النموذج مبدئيًا على مجموعتي البيانات الفرعيتين (بالإنجليزية: laion2B-en) و(بالإنجليزية: laion-high-resolution)، ثم خضع لتدريب نهائي مكثف على مجموعة (بالإنجليزية: LAION-Aesthetics v2 5+) الضخمة التي تضم 600 مليون صورة مصحوبة بأوصاف نصية. وقد اختيرت هذه الصور بدقة بناءً على تقييمات نموذج (بالإنجليزية: LAION-Aesthetics Predictor V2) الذي تنبأ بإعجاب البشر بها بدرجة لا تقل عن خمسة من عشرة.[24][27][28]
ولضمان جودة الصور، استُبعدت الصور منخفضة الدقة والصور التي تحمل علامات مائية (والتي حددها نموذج (بالإنجليزية: LAION-5B-WatermarkDetection) بنسبة احتمال تجاوزت 80%).[24] كما حُذفت عشرة بالمائة من بيانات التدريب النصية في المراحل النهائية لتحسين عملية الانتشار التوليدي.[29]
استغرقت عملية تدريب النموذج 150 ألف ساعة عمل لوحدات معالجة الرسوميات من نوع إنفيديا A100، وذلك باستخدام خدمات الحوسبة السحابية من أمازون ويب. وقد بلغت التكلفة الإجمالية للتدريب حوالي 600 ألف دولار أمريكي.[30][31][32]
بلغت تكلفة تدريب النموذج SD3 حوالي عشرة ملايين دولار أمريكي.[33]
تواجه تقنية "الانتشار المستقر" تحديات تتعلق بتدهور جودة الصور وعدم دقتها في بعض الحالات. فقد تم تدريب النسخ الأولية من هذا النموذج على مجموعة بيانات تضم صورًا بدقة 512×512 بكسل، مما يؤدي إلى تدهور ملحوظ في جودة الصور الناتجة عند ابتعاد مواصفات المستخدم عن هذه الدقة المحددة مسبقًا.[34] وقد قدم الإصدار الثاني من النموذج لاحقًا إمكانية توليد صور بدقة أعلى تصل إلى 768×768 بكسل.[35]
ومن التحديات الأخرى التي تواجه هذا النموذج هي صعوبة توليد صور واقعية للأطراف البشرية، وذلك بسبب ضعف جودة بيانات الأطراف المتوفرة في قاعدة البيانات المستخدمة في التدريب.[36] ولم يدُرب النموذج بشكل كافٍ لفهم تفاصيل الأطراف والوجوه البشرية نتيجة نقص السمات التمثيلية في قاعدة البيانات، مما قد يؤدي إلى نتائج غير متوقعة عند محاولة توليد صور بهذه التفاصيل.[37] وقد تم إطلاق الإصدار الأول من "الانتشار المستقر إكس إل" (SDXL) في يوليو 2023، والذي يوفر دقة أعلى تصل إلى 1024×1024 بكسل وتحسينًا في توليد الأطراف والنص.[38][39]
قد يُشكّل توافر المطورين الأفراد عائقًا إضافيًّا. فلتخصيص النموذج لحالات استخدام جديدة لم تغطها مجموعة البيانات التدريبية، كما في حالة نموذج "وايفو ديفيوجن" لتوليد شخصيات الأنمي، [40] يتطلب الأمر جمع بيانات جديدة وإجراء تدريب إضافي. وقد استُخدمت تعديلات دقيقة على نموذج "ستيبل ديفيوجن" نتجت عن إعادة تدريب إضافية لتغطية مجموعة واسعة من التطبيقات، بدءًا من التصوير الطبي، [41] ووصولًا إلى توليد الموسيقى خوارزميًّا.[42] إلا أن عملية الصقل الدقيق هذه حساسة لجودة البيانات الجديدة؛ فالصور منخفضة الدقة أو ذات جودة مختلفة عن البيانات الأصلية لا تؤدي فقط إلى الفشل في تعلم المهمة الجديدة، بل تساهم أيضًا في تدهور الأداء العام للنموذج. وحتى مع تدريب النموذج على صور عالية الجودة، يواجه الأفراد تحديًا في تشغيل النماذج على الأجهزة الاستهلاكية. فعلى سبيل المثال، يتطلب تدريب نموذج "وايفو ديفيوجن" ذاكرة وصول عشوائي للفيديو لا تقل عن 30 جيجابايت [43]، وهو ما يتجاوز الموارد المتاحة عادة في وحدات معالجة الرسوميات الاستهلاكية مثل سلسلة جيفورس 30 من إنفيديا، التي تبلغ سعتها حوالي 12 جيجابايت فقط.[44]
يُقرّ مبتكرو نموذج ستيبل ديفيوجن بوجود احتمال التحيز الخوارزمي، حيث دُرب النموذج بشكل أساسي على صور مصحوبة بأوصاف باللغة الإنجليزية.[31] ونتيجة لذلك، تعكس الصور الناتجة عن النموذج التحيزات الاجتماعية السائدة في المنظور الغربي، إذ لاحظ المبتكرون نقصًا في البيانات المستمدة من مجتمعات وثقافات أخرى. كما يقدم النموذج نتائج أدق للمطالبات المصاغة باللغة الإنجليزية مقارنةً باللغات الأخرى، وغالبًا ما تكون الثقافات الغربية أو البيضاء هي التمثيل الافتراضي.[31]
لتجاوز القيود المفروضة على التدريب الأولي للنموذج، قد يقرر المستخدمون النهائيون إجراء تدريب إضافي لضبط مخرجات التوليد بدقة بحيث تتوافق مع حالات استخدام محددة، وهي عملية تعرف أيضًا بالتخصيص. هناك ثلاث طرق يمكن للمستخدمين من خلالها تطبيق الضبط الدقيق على نقطة تفتيش نموذج الانتشار المستقر:
يدعم النموذج توليد صور جديدة بالكامل باستخدام مطالبات نصية تصف العناصر المراد تضمينها أو استبعادها من الناتج.[9] كما يمكن لهذا النموذج أن يعيد رسم الصور الحالية بإضافة عناصر جديدة إليها، ويتم ذلك بتقديم نص دقيق للعناصر المطلوبة في عملية تُعرف بتوليف الصور الموجه.[49] وتتم هذه العملية عبر آلية إزالة الضوضاء بالانتشار.[9] بالإضافة إلى ذلك، يسمح النموذج أيضًا بتعديل الصور الموجودة جزئيًا عن طريق الإكمال الداخلي والخارجي، عند استخدامه مع واجهة مستخدم مناسبة تدعم هذه الميزات، والتي يوجد العديد منها مفتوحة المصدر.[50]
يوصى بتشغيل النموذج باستخدام ذاكرة الوصول العشوائي للفيديو (VRAM) سعتها 10 جيجابايت أو أكثر. ومع ذلك، يمكن للمستخدمين الذين يملكون ذاكرة فيديو أقل أن يختاروا تحميل الأوزان بدقة نقطية float16 بدلًا من الدقة الافتراضية float32، وذلك لتحقيق توازن بين أداء النموذج وتقليل استهلاك الذاكرة.[34]
يستنفد البرنامج النصي المتوفر في برنامج استقرار الانتشار، المعروف بـ "نص إلى صورة" (بالإنجليزية: txt2img)، موجهًا نصيًا بالإضافة إلى مجموعة متنوعة من معاملات الخيارات التي تشمل أنواع أخذ العينات وأبعاد صورة الناتج وقيم البذور. يخرج البرنامج النصي ملف صورة بناءً على تفسير النموذج للموجه.[9] تُوضع علامة مائية رقمية غير مرئية على الصور الناتجة للسماح للمستخدمين بتحديد الصورة على أنها مولدة بواسطة استقرار الانتشار، [9] رغم أن هذه العلامة المائية تفقد فعاليتها إذا تم تغيير حجم الصورة أو تدويرها.[51]
تتضمن كل صورة مولدة من "نص إلى صورة" قيمة بذرة محددة تؤثر على صورة الناتج. قد يختار المستخدمون تعيين البذرة عشوائيًا لاستكشاف مخرجات مولدة مختلفة، أو استخدام نفس البذرة للحصول على ناتج مماثل لصورة تم إنشاؤها سابقًا.[34] يمكن للمستخدمين أيضًا ضبط عدد خطوات الاستدلال لأخذ العينات؛ تستغرق القيمة الأعلى مدة زمنية أطول، ومع ذلك، قد تؤدي القيمة الأقل إلى عيوب مرئية.[34] يسمح خيار آخر قابل للتكوين وهو قيمة مقياس التوجيه الخالي من التصنيف، للمستخدم بتعديل مدى التزام صورة الناتج بالموجه.[29] قد تختار حالات الاستخدام الأكثر تجريبية قيمة مقياس أقل، بينما قد تستخدم حالات الاستخدام التي تهدف إلى مخرجات أكثر تحديدًا قيمة أعلى.[34]
توفر واجهات المستخدم الأمامية لنموذج ستيبل ديفيوجن ميزات إضافية تسمح للمستخدمين بتعديل الوزن الممنوح لأجزاء معينة من المطالبة النصية، مثل زيادة أو تقليل التأكيد على الكلمات الرئيسية عن طريق إحاطتها بأقواس.[52] تُعدّ "المطالبات السلبية" طريقة بديلة لضبط الوزن لأجزاء من المطالبة، وهي ميزة مدرجة في بعض التطبيقات الأمامية، مثل خدمة "دريم ستوديو" السحابية الخاصة بشركة "ستابيليتي أيه آي"، والتي تسمح للمستخدم بتحديد مطالبات يجب على النموذج تجنبها أثناء توليد الصورة.[50][53]
يستخدم نموذج "ستابل ديفوجن" برنامجًا نصيًا آخر يُعرف بـ "صورة إلى صورة" (بالإنجليزية: img2img). يتلقى هذا البرنامج مطالبة نصية ومسارًا لصورة موجودة وقيمة عددية تتراوح بين صفر وواحد. ينتج البرنامج صورة جديدة مستندة إلى الصورة الأصلية مع إضافة عناصر تتوافق مع المطالبة النصية. تحدد القيمة العددية المقدمة كمية الضوضاء التي تُضاف إلى الصورة الناتجة. بزيادة هذه القيمة، يزداد التنوع في الصورة الناتجة، إلا أنه قد ينتج عن ذلك صورة لا تتسق دلاليًا مع المطالبة المقدمة.[9]
تتعدد الطرق لتحويل الصورة إلى صورة أخرى، ومن أبرزها طريقة "SDEdit" التي تعتمد على إضافة ضوضاء إلى الصورة الأصلية، ثم إزالتها بطريقة مشابهة لعملية تحويل النص إلى صورة.[54]
تُمكّن قدرة تقنية "صورة إلى صورة" من إضافة تشويش بصري إلى الصورة الأصلية، مما يجعلها أداة واعدة في مجال إخفاء الهوية وتعزيز البيانات. إذ يتم من خلال هذه التقنية تعديل الملامح البصرية للصورة وإخفاء هويتها الأصلية.[55] ولا يقتصر دور هذه العملية على إخفاء الهوية فقط، بل يمكن الاستفادة منها أيضًا في تحسين دقة الصورة وزيادة التفاصيل بها.[56] وقد خضعت تقنية "ستابل ديفوجن" لتجارب لاستخدامها في ضغط الصور.[55] ورغم ذلك، كشفت المقارنات مع تقنيات الضغط التقليدية مثل جيه بيه إي جي وويب بي عن وجود قيود في قدرة "ستابل ديفوجن" على الحفاظ على جودة النصوص الصغيرة والوجوه عند تطبيق عملية الضغط.[57]
تتيح العديد من التطبيقات الأمامية لنموذج "ستابل ديفوجن" إمكانيات إضافية لتعديل الصور بطريقة "صورة إلى صورة". ومن بين هذه الإمكانيات، نجد عملية "الالتصاق" التي تسمح بتعديل جزء محدد من صورة موجودة. يتم تحديد هذا الجزء بواسطة قناع طبقة يوفره المستخدم، ثم يتم ملء المساحة المحددة بمحتوى جديد يتم توليده بناءً على وصف نصي يقدمه المستخدم.[50] وقد طورت شركة "ستابيليتي أيه آي" نموذج متخصص ومعدل خصيصًا لمهام الالتصاق هذه، وذلك بالتزامن مع إطلاق الإصدار الثاني من نموذج "ستابل ديفوجن".[35] وبجانب عملية الالتصاق، توجد عملية أخرى تسمى "الالتصاق الخارجي" والتي تعمل على توسيع الصورة خارج أبعادها الأصلية، ويتم ملء المساحة الإضافية بمحتوى جديد يتم توليده بناءً على وصف نصي يقدمه المستخدم.[50]
تم تقديم نموذج جديد يعتمد على مفهوم العمق، أُطلق عليه اسم "عمق إلى صورة" (بالإنجليزية: depth2img)، وذلك بالتزامن مع إصدار النسخة الثانية من برنامج ستابل ديفيوجن في 24 نوفمبر 2022. يستطيع هذا النموذج أن يستخلص معلومات العمق من أي صورة يعمل عليها، ثم يقوم بإنشاء صورة جديدة تستجيب للمطالبة النصية مع الحفاظ على عمق الصورة الأصلية. وبذلك، يضمن النموذج الجديد الحفاظ على الاتساق والعمق في الصورة الناتجة.[35]
شبكة التحكم (بالإنجليزية: ControlNet) هي بنية عصبية صُمِّمت خصيصًا لإدارة نماذج الانتشار عبر إدماج شروط إضافية.[58] تعمل هذه الشبكة على استنساخ أوزان كتل الشبكة العصبية الأصلية إلى نسختين: نسخة "ثابتة" وأخرى "قابلة للتدريب".[59] تتولى النسخة "القابلة للتدريب" مهمة تعلم الشرط المطلوب، في حين تحافظ النسخة "الثابتة" على النموذج الأصلي دون تغيير. تضمن هذه الآلية عدم المساس بسلامة نماذج الانتشار الجاهزة للإنتاج عند تدريبها على مجموعات بيانات صغيرة من أزواج الصور.[60][61]
تُوفر شركة "ستابيليتي أيه آي" خدمةً لتوليد الصور عبر الإنترنت تُسمى دريم ستوديو.[62][63] كما أصدرت نسخة مفتوحة المصدر من دريم ستوديو تُسمى ستابل ستوديو.[64][65] بالإضافة إلى ذلك، توجد العديد من الواجهات مفتوحة المصدر من جهات خارجية، مثل "ستيبل ديفيوجن ويب يو آي"، والتي تُعد الأكثر شيوعًا وتوفر ميزات إضافية، [66] و"فوكس" التي تهدف إلى تقليل كمية المطالبات المطلوبة من المستخدم، [67] و"كومفي يو آي" التي تمتلك واجهة مستخدم مبنية على العقد، وهي في الأساس لغة برمجة مرئية شبيهة بالعديد من تطبيقات نمذجة ثلاثية الأبعاد.[68][69][70]
رقم الإصدار | تاريخ الإصدار | المعلمات | ملاحظات |
---|---|---|---|
1.1، و1.2، و1.3، و1.4[71] | أغسطس 2022 | أُصدرت جميع الإصدارات بواسطة فريق "كومبفيس". لا يوجد "إصدار 1.0". نشأ الإصدار 1.2 عن الإصدار 1.1، وظهر الإصداران 1.3 و1.4 من الإصدار 1.2.[72] | |
1.5[73] | أكتوبر 2022 | 983 مليون | ضُبط هذا النموذج على قيمة أولية مقدارها 1.2 بدلاً من 1.4، وقد تم إطلاقه من قبل شركة "رنواي إم إل". |
2.0[74] | نوفمبر 2022 | أُعيد تدريبه من البداية على مجموعة بيانات مُنقّاة.[75] | |
2.1[76] | ديسمبر 2022 | ضُبِط النموذج على أوزان 2.0. | |
XL 1.0[21][77] | يوليو 2023 | 3.5 مليار | يضم النموذج الأساسي لـ XL 1.0 معلمات قدرها 3.5 مليار معلمة، مما يجعله أكبر بحوالي 3.5 مرة من الإصدارات السابقة.[78] |
XL Turbo[79] | نوفمبر 2023 | مُقطّر من XL 1.0 ليعمل في عدد أقل من خطوات الانتشار.[80] | |
3.0[81][82] | فبراير 2024 (معاينة مبكرة) | 800 مليون إلى 8 مليار | عائلة من النماذج. |
3.5[83] | أكتوبر 2024 | 2.5 مليار إلى 8 مليار | عائلة من النماذج تضم نموذجًا كبيرًا (8 مليار معلمة)، ونموذجًا كبيرًا مدربًا (مستخلص من SD 3.5 الكبير)، ونموذجًا متوسطًا (2.5 مليار معلمة). |
بلغت مدة تدريب نموذج "ستيبل ديفيوجن 2.0" حوالي 0.2 مليون ساعة على وحدة معالجة رسوميات من نوع إنفيديا A100 بسعة 40 جيجابايت.[74]
تؤكد "ستابيليتي أيه آي" على عدم وجود أي حقوق ملكية للصور التي يولدها النموذج، وتمنح المستخدمين الحرية التامة في استخدام هذه الصور، شريطة ألا يكون محتوى الصورة مخالفًا للقانون أو مسيئًا للأفراد.[88] وقد دُرب النموذج على مجموعة ضخمة من الصور دون تدخل بشري، مما أدى إلى ظهور بعض الصور الضارة وكميات كبيرة من البيانات الشخصية والحساسة في بيانات التدريب.[26] وقد أعرب الفنانون البصريون التقليديون عن قلقهم من أن الاستخدام الواسع لبرامج توليد الصور مثل "ستابل ديفيوجن" قد يؤدي في النهاية إلى تآكل قدرات الفنانين البشرية، بما في ذلك المصورين والممثلين والمنتجين السينمائيين، وذلك بسبب المنافسة المتزايدة من التقنيات المدعومة بالذكاء الاصطناعي.[89]
يتميز نموذج "ستابل ديفيوجن" بمرونة أكبر في توليد أنواع مختلفة من المحتوى، بما في ذلك المحتوى العنيف أو الجريء جنسياً، مقارنة بمنتجات الذكاء الاصطناعي التوليدية الأخرى المتاحة تجارياً.[90] وفي مواجهة المخاوف المتعلقة بإساءة استعمال هذا النموذج، يرى عماد مشتاق [الإنجليزية] الرئيس التنفيذي لشركة "ستابيليتي أيه آي"، أن "المسؤولية تقع على عاتق الأفراد في التعامل مع هذه التكنولوجيا بشكل أخلاقي وقانوني".[11] ويؤكد مشتاق أن جعل قدرات "ستابل ديفيوجن" متاحة للجمهور بشكل واسع سيؤدي إلى تحقيق فوائد صافية للتكنولوجيا، رغم وجود بعض الآثار الجانبية المحتملة.[11] ويرى مشتاق أيضًا أن الهدف من جعل "ستابل ديفيوجن" مفتوح المصدر هو كسر الاحتكار الذي تمارسه الشركات الكبرى على هذه التقنيات، حيث كانت هذه الشركات تقتصر على تطوير أنظمة ذكاء اصطناعي مغلقة لتوليد الصور.[11][90] ويتجلى ذلك في سهولة تجاوز أي قيود تفرضها شركة "ستابيليتي أيه آي" على المحتوى الذي يمكن توليده، وذلك بفضل توفر رمز المصدر.[91]
أثير جدل واسع حول انتشار صور مزيفة أنتجها نموذج "ستابل ديفيوجن" المدعوم بالذكاء الاصطناعي. تصور هذه الصور أشخاصًا حقيقيين بطريقة مبتذلة ومخلة بالآداب، ولا سيما القصر، وقد بلغ هذا الجدل ذروته عند انتشار تلك الصور على منصات مثل بكسيف.[92]
وفي حادثة أخرى، تعرضت واجهة المستخدم "كومفي يو آي" لهجوم إلكتروني في يونيو عام 2024. زعم القراصنة أنهم استهدفوا مستخدمي هذه الأداة الذين ارتكبوا ما وصفوه بـ"الخطايا"، والتي شملت إنتاج أعمال فنية مستخدمين الذكاء الاصطناعي وسرقة أعمال فنية أخرى والترويج للعملات المشفرة.[93]
في يناير 2023 رفعت كل من سارة أندرسن وكيلي مكيرنان وكارلا أورتيز، وهن ثلاث فنانات، دعوى قضائية ضد كل من شركتي ستابيليتي أيه آي وميدجورني ومنصة "ديفيانت آرت"، متهمات إياهن بانتهاك حقوق ملايين الفنانين. وقد استندت الدعوى إلى ادعاء بأن الشركات المذكورة قامت بتدريب أدواتها المعتمدة على الذكاء الاصطناعي على خمسة مليارات صورة جُمعت من شبكة الإنترنت دون الحصول على موافقة مسبقة من أصحاب حقوق الملكية الفكرية لهذه الصور.[94] وفي يوليو من العام نفسه، أصدر القاضي الأمريكي وليام أوريك قرارًا قضى برفض معظم المطالب الواردة في الدعوى. ومع ذلك، فقد سمح القاضي للفنانات بتقديم شكوى معدلة، مما أتاح لهن فرصة لإعادة صياغة حججهن القانونية وتقديم أدلة جديدة لدعم دعواهن.[95]
في يناير 2023، بدأت صور غيتي إجراءات قانونيةً ضد ستابيليتي أيه آي في المحكمة العليا الإنجليزية، زاعمةً انتهاكًا كبيرًا لحقوق الملكية الفكرية الخاصة بها. تزعم صور غيتي أن ستابيليتي أيه آي "كشطت" ملايين الصور من مواقع غيتي على الويب دون موافقة واستخدمت هذه الصور لتدريب وتطوير نموذج ستيبل ديفيوجن للتعلم العميق الخاص بها.[96][97]
تشمل النقاط الرئيسية للدعوى القضائية:
ومن المتوقع أن تُعقد المحاكمة صيف عام 2025، وستكون لها آثار بالغة على قانون حق المؤلف في المملكة المتحدة وتراخيص المحتوى الذي يُولَّد بواسطة الذكاء الاصطناعي.
بخلاف نماذج مثل دال-إي، تتيح "ستيبل ديفيوجن" كودها المصدري للعموم، [9][100] بالإضافة إلى النموذج ذاته (الأوزان المدربة مسبقًا). وقبل الإصدار الثالث من "ستيبل ديفيوجن"، كان النموذج يخضع للترخيص الإبداعي "إم إل أوبن آر إيل-إم" (بالإنجليزية: ML OpenRAIL-M)، وهو نوع من تراخيص الذكاء الاصطناعي المسؤول.[101] يحظر هذا الترخيص بعض الاستخدامات، مثل ارتكاب الجرائم والتشهير والتحرش واستقاء المعلومات الشخصية والتشهير الإلكتروني واستغلال القصر وتقديم المشورة الطبية وإنشاء الالتزامات القانونية تلقائيًا وإنتاج الأدلة القانونية والتمييز ضد الأفراد أو الجماعات أو إيذائهم بناءً على السلوك الاجتماعي أو الخصائص الشخصية أو الفئات المحمية قانونًا.[102][103] ويحتفظ المستخدم بحقوق الملكية للصور التي يولدها، ويجوز له استخدامها لأغراض تجارية.[104]
يعتمد الإصدار 3.5 من نموذج ستيبل ديفيوجن على ترخيص مجتمعي مفتوح صادر عن شركة ستابيليتي أيه آي، في حين تشترط الشركة الترخيص التجاري على الشركات التجارية التي تتجاوز إيراداتها السنوية مليون دولار أمريكي.[105] وعلى غرار ترخيص أوبن آر إيل-إم، يحتفظ المستخدم بحقوق الملكية الكاملة للصور التي ينتجها باستخدام هذا النموذج، ويتسنى له استخدامها في الأغراض التجارية دون قيود.[83]
{{استشهاد بأرخايف}}
: الوسيط |arxiv=
مطلوب (مساعدة)صيانة الاستشهاد: أسماء متعددة: قائمة المؤلفين (link)
{{استشهاد بأرخايف}}
: الوسيط |arxiv=
مطلوب (مساعدة)
{{استشهاد بأرخايف}}
: الوسيط |arxiv=
مطلوب (مساعدة)
{{استشهاد ويب}}
: صيانة الاستشهاد: أسماء عددية: قائمة المؤلفين (link)
{{استشهاد بأرخايف}}
: الوسيط |arxiv=
مطلوب (مساعدة)
{{استشهاد بأرخايف}}
: الوسيط |arxiv=
مطلوب (مساعدة)
{{استشهاد بأرخايف}}
: الوسيط |arxiv=
مطلوب (مساعدة)
{{استشهاد بأرخايف}}
: الوسيط |arxiv=
مطلوب (مساعدة)
{{استشهاد بأرخايف}}
: الوسيط |arxiv=
مطلوب (مساعدة)
{{استشهاد بأرخايف}}
: الوسيط |arxiv=
مطلوب (مساعدة)
{{استشهاد بدورية محكمة}}
: الاستشهاد بدورية محكمة يطلب |دورية محكمة=
(مساعدة)
The CCDH, a campaign group, tested four of the largest public-facing AI platforms: Midjourney, OpenAI's ChatGPT Plus, Stability.ai's DreamStudio and Microsoft's Image Creator.
{{استشهاد بأرخايف}}
: الوسيط |arxiv=
مطلوب (مساعدة)
{{استشهاد بأرخايف}}
: الوسيط |arxiv=
مطلوب (مساعدة)