يقوم الذكاء الاصطناعي بإنشاء صور عالية الجودة أسرع 30 مرة في خطوة واحدة
النشرة الإخبارية
Sed ut perspiciatis unde.
في عصر الذكاء الاصطناعي الحالي، تستطيع أجهزة الكمبيوتر توليد “الفن” الخاص بها عن طريق نماذج الانتشار، مما يضيف بشكل متكرر بنية إلى حالة أولية صاخبة حتى تظهر صورة أو مقطع فيديو واضح. فجأة احتلت عارضات الانتشار مقعدًا على طاولة الجميع: أدخل بضع كلمات واستمتع بتجربة أحلام فورية مليئة بالدوبامين عند تقاطع الواقع والخيال. خلف الكواليس، يتضمن ذلك عملية معقدة وتستغرق وقتًا طويلاً وتتطلب تكرارات عديدة للخوارزمية لتحسين الصورة.
قدم الباحثون في مختبر علوم الكمبيوتر والذكاء الاصطناعي بمعهد ماساتشوستس للتكنولوجيا (CSAIL) إطارًا جديدًا يبسط العملية متعددة الخطوات لنماذج الانتشار التقليدية في خطوة واحدة، ومعالجة القيود السابقة. ويتم ذلك من خلال نوع من نموذج المعلم والطالب: تدريس نموذج كمبيوتر جديد لتقليد سلوك النماذج الأصلية الأكثر تعقيدًا التي تولد الصور. يحتفظ هذا النهج، المعروف باسم التقطير المطابق للتوزيع (DMD)، بجودة الصور التي تم إنشاؤها ويسمح بتوليدها بشكل أسرع بكثير.
يقول تيانوي يين، طالب دكتوراه في معهد ماساتشوستس للتكنولوجيا في الهندسة الكهربائية وعلوم الكمبيوتر، والباحث الرئيسي في DMD: “إن عملنا عبارة عن طريقة جديدة تعمل على تسريع نماذج الانتشار الحالية مثل Stable Diffusion وDALLE-3 بمقدار 30 مرة”. نطاق. “لا يؤدي هذا التقدم إلى تقليل الوقت الحسابي بشكل كبير فحسب، بل يحافظ أيضًا على جودة المحتوى المرئي الذي تم إنشاؤه، إن لم يكن يتجاوزه. من الناحية النظرية، يمزج هذا النهج بين مبادئ شبكات الخصومة التوليدية (GANs) ومبادئ نماذج الانتشار، مما يحقق توليد المحتوى المرئي في خطوة واحدة – وهو تناقض صارخ مع الخطوات المائة للتحسين التكراري التي تتطلبها نماذج الانتشار الحالية. ومن المحتمل أن تكون طريقة نمذجة توليدية جديدة تتفوق في السرعة والجودة.
يمكن لنموذج النشر ذو الخطوة الواحدة هذا أن يعزز أدوات التصميم، مما يتيح إنشاء محتوى أسرع ويحتمل أن يدعم التقدم في اكتشاف الأدوية والنمذجة ثلاثية الأبعاد، حيث تعد السرعة والفعالية أمرًا أساسيًا.
احلام التوزيع
DMD بذكاء مكونين. أولاً، يستخدم فقدان الانحدار، الذي يثبت التعيين لضمان تنظيم تقريبي لمساحة الصور لجعل التدريب أكثر استقرارًا. بعد ذلك، يستخدم خسارة مطابقة التوزيع، والتي تضمن أن احتمالية إنشاء صورة معينة باستخدام نموذج الطالب تتوافق مع تكرار حدوثها في العالم الحقيقي. للقيام بذلك، فإنه يستفيد من نموذجي نشر يعملان كدليلين، مما يساعد النظام على فهم الفرق بين الصور الحقيقية والمولدة ويجعل تدريب المولد السريع ذو الخطوة الواحدة ممكنًا.
يحقق النظام توليدًا أسرع من خلال تدريب شبكة جديدة لتقليل اختلاف التوزيع بين الصور التي تم إنشاؤها وتلك الموجودة في مجموعة بيانات التدريب التي تستخدمها نماذج الانتشار التقليدية. يقول يين: “تتمثل رؤيتنا الرئيسية في تقريب التدرجات التي توجه تحسين النموذج الجديد باستخدام نموذجين للانتشار”. “وبهذه الطريقة، نقوم باستخلاص المعرفة من النموذج الأصلي الأكثر تعقيدًا إلى نموذج أبسط وأسرع، مع تجاوز مشكلات عدم الاستقرار سيئة السمعة وانهيار الوضع في شبكات GAN.”
استخدم يين وزملاؤه شبكات مدربة مسبقًا لنموذج الطالب الجديد، مما أدى إلى تبسيط العملية. ومن خلال نسخ وضبط المعلمات من النماذج الأصلية، حقق الفريق تقاربًا تدريبيًا سريعًا للنموذج الجديد، القادر على إنتاج صور عالية الجودة بنفس الأساس المعماري. ويضيف يين: “يتيح هذا الدمج مع تحسينات النظام الأخرى المستندة إلى البنية الأصلية لزيادة تسريع عملية الإنشاء”.
عند اختباره مقابل الطرق المعتادة، باستخدام مجموعة واسعة من المعايير، أظهر DMD أداءً ثابتًا. وفقًا للمعيار الشائع لتوليد الصور استنادًا إلى فئات محددة على ImageNet، تعد DMD أول تقنية نشر من خطوة واحدة تنتج صورًا تضاهي إلى حد كبير تلك الموجودة في النماذج الأصلية الأكثر تعقيدًا، مما يؤدي إلى مسافة قريبة جدًا من بداية Fréchet ( FID) بدرجة 0.3 فقط، وهو أمر مثير للإعجاب، نظرًا لأن FID يدور حول الحكم على جودة الصور التي تم إنشاؤها وتنوعها. علاوة على ذلك، تتفوق DMD في إنشاء تحويل النص إلى صورة على المستوى الصناعي وتحقق أداءً متطورًا في خطوة واحدة. لا تزال هناك فجوة طفيفة في الجودة عند معالجة تطبيقات تحويل النص إلى صورة الأكثر تعقيدًا، مما يشير إلى وجود مجال كبير للتحسين في المستقبل.
بالإضافة إلى ذلك، يرتبط أداء الصور التي تم إنشاؤها بواسطة DMD ارتباطًا جوهريًا بقدرات نموذج المعلم المستخدم أثناء عملية التقطير. في النموذج الحالي، الذي يستخدم الإصدار 1.5 من Stable Diffusion كنموذج للمعلم، يرث الطالب قيودًا مثل تقديم صور تفصيلية للنص والوجوه الصغيرة، مما يشير إلى أنه يمكن تعزيز الصور التي تم إنشاؤها بواسطة DMD بشكل أكبر من خلال نماذج المعلم الأكثر تقدمًا.
يقول فريدو دوراند، أستاذ الهندسة الكهربائية وعلوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا، والباحث الرئيسي في CSAIL، والمؤلف الرئيسي لهذه الورقة: “إن تقليل عدد التكرارات كان بمثابة الكأس المقدسة في نماذج الانتشار منذ بدايتها”. “نحن متحمسون جدًا لتمكيننا أخيرًا من إنشاء الصور بخطوة واحدة، الأمر الذي سيقلل بشكل كبير من تكاليف الحوسبة ويسرع العملية.”
يقول أليكسي إفروس، أستاذ الهندسة الكهربائية وعلوم الكمبيوتر في جامعة كاليفورنيا في بيركلي، والذي لم يشارك: “أخيرًا، ورقة بحثية تجمع بنجاح بين التنوع والجودة البصرية العالية لنماذج الانتشار والأداء في الوقت الفعلي لشبكات GAN”. في هذه الدراسة. “أتوقع أن يفتح هذا العمل إمكانيات رائعة لتحرير مرئي عالي الجودة في الوقت الفعلي.”
زملاء يين ودوراند هم أستاذ الهندسة الكهربائية وعلوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا والباحث الرئيسي في CSAIL William T. Freeman، بالإضافة إلى علماء أبحاث Adobe Michaël Gharbi SM ’15، PhD ’18؛ ريتشارد تشانغ؛ إيلي شيختمان؛ ومنتزه تايسونج. وقد تم دعم عملهم جزئيًا من خلال منح مؤسسة العلوم الوطنية الأمريكية (بما في ذلك منحة لمعهد الذكاء الاصطناعي والتفاعلات الأساسية)، ووكالة العلوم والتكنولوجيا الدفاعية في سنغافورة، وبتمويل من معهد جوانججو للعلوم والتكنولوجيا وأمازون. سيتم عرض عملهم في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط في يونيو.
اكتشاف المزيد من موقع علم
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.