يقوم الذكاء الاصطناعي بإنشاء صور عالية الجودة أسرع 30 مرة في خطوة واحدة

eilm

0 28 3 دقائق

يقوم الذكاء الاصطناعي بإنشاء صور عالية الجودة أسرع 30 مرة في خطوة واحدة

النشرة الإخبارية

Sed ut perspiciatis unde.

يشترك

في عصر الذكاء الاصطناعي الحالي، تستطيع أجهزة الكمبيوتر توليد “الفن” الخاص بها عن طريق نماذج الانتشار، مما يضيف بشكل متكرر بنية إلى حالة أولية صاخبة حتى تظهر صورة أو مقطع فيديو واضح. فجأة احتلت عارضات الانتشار مقعدًا على طاولة الجميع: أدخل بضع كلمات واستمتع بتجربة أحلام فورية مليئة بالدوبامين عند تقاطع الواقع والخيال. خلف الكواليس، يتضمن ذلك عملية معقدة وتستغرق وقتًا طويلاً وتتطلب تكرارات عديدة للخوارزمية لتحسين الصورة.

قدم الباحثون في مختبر علوم الكمبيوتر والذكاء الاصطناعي بمعهد ماساتشوستس للتكنولوجيا (CSAIL) إطارًا جديدًا يبسط العملية متعددة الخطوات لنماذج الانتشار التقليدية في خطوة واحدة، ومعالجة القيود السابقة. ويتم ذلك من خلال نوع من نموذج المعلم والطالب: تدريس نموذج كمبيوتر جديد لتقليد سلوك النماذج الأصلية الأكثر تعقيدًا التي تولد الصور. يحتفظ هذا النهج، المعروف باسم التقطير المطابق للتوزيع (DMD)، بجودة الصور التي تم إنشاؤها ويسمح بتوليدها بشكل أسرع بكثير.

يقول تيانوي يين، طالب دكتوراه في معهد ماساتشوستس للتكنولوجيا في الهندسة الكهربائية وعلوم الكمبيوتر، والباحث الرئيسي في DMD: “إن عملنا عبارة عن طريقة جديدة تعمل على تسريع نماذج الانتشار الحالية مثل Stable Diffusion وDALLE-3 بمقدار 30 مرة”. نطاق. “لا يؤدي هذا التقدم إلى تقليل الوقت الحسابي بشكل كبير فحسب، بل يحافظ أيضًا على جودة المحتوى المرئي الذي تم إنشاؤه، إن لم يكن يتجاوزه. من الناحية النظرية، يمزج هذا النهج بين مبادئ شبكات الخصومة التوليدية (GANs) ومبادئ نماذج الانتشار، مما يحقق توليد المحتوى المرئي في خطوة واحدة – وهو تناقض صارخ مع الخطوات المائة للتحسين التكراري التي تتطلبها نماذج الانتشار الحالية. ومن المحتمل أن تكون طريقة نمذجة توليدية جديدة تتفوق في السرعة والجودة.

يمكن لنموذج النشر ذو الخطوة الواحدة هذا أن يعزز أدوات التصميم، مما يتيح إنشاء محتوى أسرع ويحتمل أن يدعم التقدم في اكتشاف الأدوية والنمذجة ثلاثية الأبعاد، حيث تعد السرعة والفعالية أمرًا أساسيًا.

احلام التوزيع

DMD بذكاء مكونين. أولاً، يستخدم فقدان الانحدار، الذي يثبت التعيين لضمان تنظيم تقريبي لمساحة الصور لجعل التدريب أكثر استقرارًا. بعد ذلك، يستخدم خسارة مطابقة التوزيع، والتي تضمن أن احتمالية إنشاء صورة معينة باستخدام نموذج الطالب تتوافق مع تكرار حدوثها في العالم الحقيقي. للقيام بذلك، فإنه يستفيد من نموذجي نشر يعملان كدليلين، مما يساعد النظام على فهم الفرق بين الصور الحقيقية والمولدة ويجعل تدريب المولد السريع ذو الخطوة الواحدة ممكنًا.

يحقق النظام توليدًا أسرع من خلال تدريب شبكة جديدة لتقليل اختلاف التوزيع بين الصور التي تم إنشاؤها وتلك الموجودة في مجموعة بيانات التدريب التي تستخدمها نماذج الانتشار التقليدية. يقول يين: “تتمثل رؤيتنا الرئيسية في تقريب التدرجات التي توجه تحسين النموذج الجديد باستخدام نموذجين للانتشار”. “وبهذه الطريقة، نقوم باستخلاص المعرفة من النموذج الأصلي الأكثر تعقيدًا إلى نموذج أبسط وأسرع، مع تجاوز مشكلات عدم الاستقرار سيئة السمعة وانهيار الوضع في شبكات GAN.”

استخدم يين وزملاؤه شبكات مدربة مسبقًا لنموذج الطالب الجديد، مما أدى إلى تبسيط العملية. ومن خلال نسخ وضبط المعلمات من النماذج الأصلية، حقق الفريق تقاربًا تدريبيًا سريعًا للنموذج الجديد، القادر على إنتاج صور عالية الجودة بنفس الأساس المعماري. ويضيف يين: “يتيح هذا الدمج مع تحسينات النظام الأخرى المستندة إلى البنية الأصلية لزيادة تسريع عملية الإنشاء”.

عند اختباره مقابل الطرق المعتادة، باستخدام مجموعة واسعة من المعايير، أظهر DMD أداءً ثابتًا. وفقًا للمعيار الشائع لتوليد الصور استنادًا إلى فئات محددة على ImageNet، تعد DMD أول تقنية نشر من خطوة واحدة تنتج صورًا تضاهي إلى حد كبير تلك الموجودة في النماذج الأصلية الأكثر تعقيدًا، مما يؤدي إلى مسافة قريبة جدًا من بداية Fréchet ( FID) بدرجة 0.3 فقط، وهو أمر مثير للإعجاب، نظرًا لأن FID يدور حول الحكم على جودة الصور التي تم إنشاؤها وتنوعها. علاوة على ذلك، تتفوق DMD في إنشاء تحويل النص إلى صورة على المستوى الصناعي وتحقق أداءً متطورًا في خطوة واحدة. لا تزال هناك فجوة طفيفة في الجودة عند معالجة تطبيقات تحويل النص إلى صورة الأكثر تعقيدًا، مما يشير إلى وجود مجال كبير للتحسين في المستقبل.

بالإضافة إلى ذلك، يرتبط أداء الصور التي تم إنشاؤها بواسطة DMD ارتباطًا جوهريًا بقدرات نموذج المعلم المستخدم أثناء عملية التقطير. في النموذج الحالي، الذي يستخدم الإصدار 1.5 من Stable Diffusion كنموذج للمعلم، يرث الطالب قيودًا مثل تقديم صور تفصيلية للنص والوجوه الصغيرة، مما يشير إلى أنه يمكن تعزيز الصور التي تم إنشاؤها بواسطة DMD بشكل أكبر من خلال نماذج المعلم الأكثر تقدمًا.

يقول فريدو دوراند، أستاذ الهندسة الكهربائية وعلوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا، والباحث الرئيسي في CSAIL، والمؤلف الرئيسي لهذه الورقة: “إن تقليل عدد التكرارات كان بمثابة الكأس المقدسة في نماذج الانتشار منذ بدايتها”. “نحن متحمسون جدًا لتمكيننا أخيرًا من إنشاء الصور بخطوة واحدة، الأمر الذي سيقلل بشكل كبير من تكاليف الحوسبة ويسرع العملية.”

يقول أليكسي إفروس، أستاذ الهندسة الكهربائية وعلوم الكمبيوتر في جامعة كاليفورنيا في بيركلي، والذي لم يشارك: “أخيرًا، ورقة بحثية تجمع بنجاح بين التنوع والجودة البصرية العالية لنماذج الانتشار والأداء في الوقت الفعلي لشبكات GAN”. في هذه الدراسة. “أتوقع أن يفتح هذا العمل إمكانيات رائعة لتحرير مرئي عالي الجودة في الوقت الفعلي.”

زملاء يين ودوراند هم أستاذ الهندسة الكهربائية وعلوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا والباحث الرئيسي في CSAIL William T. Freeman، بالإضافة إلى علماء أبحاث Adobe Michaël Gharbi SM ’15، PhD ’18؛ ريتشارد تشانغ؛ إيلي شيختمان؛ ومنتزه تايسونج. وقد تم دعم عملهم جزئيًا من خلال منح مؤسسة العلوم الوطنية الأمريكية (بما في ذلك منحة لمعهد الذكاء الاصطناعي والتفاعلات الأساسية)، ووكالة العلوم والتكنولوجيا الدفاعية في سنغافورة، وبتمويل من معهد جوانججو للعلوم والتكنولوجيا وأمازون. سيتم عرض عملهم في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط في يونيو.

مرتبط

الوسوم

eilm

0 28 3 دقائق

يقوم الذكاء الاصطناعي بإنشاء صور عالية الجودة أسرع 30 مرة في خطوة واحدة

النشرة الإخبارية

معجب بهذه:

مرتبط

eilm

اترك تعليقاً إلغاء الرد

تقدمت شركة SpaceX بطلب لإطلاق مليون قمر صناعي آخر إلى المدار، كل ذلك لتشغيل الذكاء الاصطناعي

ناشرو الموسيقى يرفعون دعوى قرصنة جديدة ضد الأنثروبيين بدعوى التورنت الجماعي للأعمال المحمية بحقوق الطبع والنشر

تعلن NVIDIA وLilly عن مختبر الذكاء الاصطناعي المشترك للابتكار لتسريع اكتشاف الأدوية

السيناتور كانتويل ينتقد التخفيضات في التمويل الفيدرالي للبحث والتطوير؛ تم تعيين كاليان ديشباندي رئيسًا لمحكمة PTAB

CAFC تؤكد حكم عدم الانتهاك لشركة Hulu نظرًا لمتطلبات المطالبة بترتيب محدد للخطوات

مراجعة RIDGID 18V Hybrid 18 بوصة لمروحة الطبل

أدوات بوش الجديدة 2024 – صندوق الأدوات Buzz Tool Box Buzz

مراجعة منفاخ الثلج ديوالت 60 فولت

شرح تغييرات الضمان الممتد في ميلووكي – ما هو الموزع المعتمد؟

دليل المطارق – شرح أنواع المطارق.

ضرب عبادة عام 1979 الذي يظهر مدينة نيويورك شديدة العنف

تقدمت شركة SpaceX بطلب لإطلاق مليون قمر صناعي آخر إلى المدار، كل ذلك لتشغيل الذكاء الاصطناعي

ناشرو الموسيقى يرفعون دعوى قرصنة جديدة ضد الأنثروبيين بدعوى التورنت الجماعي للأعمال المحمية بحقوق الطبع والنشر

تعلن NVIDIA وLilly عن مختبر الذكاء الاصطناعي المشترك للابتكار لتسريع اكتشاف الأدوية

السيناتور كانتويل ينتقد التخفيضات في التمويل الفيدرالي للبحث والتطوير؛ تم تعيين كاليان ديشباندي رئيسًا لمحكمة PTAB

CAFC تؤكد حكم عدم الانتهاك لشركة Hulu نظرًا لمتطلبات المطالبة بترتيب محدد للخطوات

أخبرنا بقصتك، وركز على الأخطاء

النشرة الإخبارية

شارك هذا الموضوع:

معجب بهذه:

مرتبط

الفلسطينيون يطالبون الفيفا بحظر فريق كرة القدم الإسرائيلي وسط الحرب على غزة | أخبار كرة القدم

مريض بشريحة دماغ نيورالينك "يلعب الشطرنج عبر الإنترنت" بعقله | العلوم والتكنولوجيا

مقالات ذات صلة

اترك تعليقاً إلغاء الرد

مراجعة RIDGID 18V Hybrid 18 بوصة لمروحة الطبل

أدوات بوش الجديدة 2024 – صندوق الأدوات Buzz Tool Box Buzz

مراجعة منفاخ الثلج ديوالت 60 فولت

شرح تغييرات الضمان الممتد في ميلووكي – ما هو الموزع المعتمد؟

دليل المطارق – شرح أنواع المطارق.

ضرب عبادة عام 1979 الذي يظهر مدينة نيويورك شديدة العنف

تقدمت شركة SpaceX بطلب لإطلاق مليون قمر صناعي آخر إلى المدار، كل ذلك لتشغيل الذكاء الاصطناعي

ناشرو الموسيقى يرفعون دعوى قرصنة جديدة ضد الأنثروبيين بدعوى التورنت الجماعي للأعمال المحمية بحقوق الطبع والنشر

تعلن NVIDIA وLilly عن مختبر الذكاء الاصطناعي المشترك للابتكار لتسريع اكتشاف الأدوية

السيناتور كانتويل ينتقد التخفيضات في التمويل الفيدرالي للبحث والتطوير؛ تم تعيين كاليان ديشباندي رئيسًا لمحكمة PTAB

CAFC تؤكد حكم عدم الانتهاك لشركة Hulu نظرًا لمتطلبات المطالبة بترتيب محدد للخطوات

أخبرنا بقصتك، وركز على الأخطاء