نماذج اللغات الكبيرة متعددة الوسائط وMM1 من Apple | بواسطة ماثيو جونتون

eilm

0 2 5 دقائق

نماذج اللغات الكبيرة متعددة الوسائط وMM1 من Apple | بواسطة ماثيو جونتون

بالنسبة لأداة تشفير الصور، فقد تنوعت بين نماذج CLIP وAIM وحجم دقة الصورة ومجموعة البيانات التي تم تدريب النماذج عليها. يوضح لك الرسم البياني أدناه نتائج كل عملية استئصال.

الجدول 1 من الورقة

دعونا نستعرض الأجزاء الرئيسية أعلاه ونشرح ما هي.

مقطع يرمز إلى التدريب المسبق للصورة اللغوية المتباينة ويهدف إلى مساعدة النموذج الخاص بك على تعلم المفاهيم المرئية من خلال تقديم أسماء للأشياء التي من المفترض أن يتم رؤيتها كنص. كما توضح الصورة أدناه، يقوم هذا بدمج الصور مع ترميزات النص بحيث يقوم النموذج في النهاية بتوصيل رموز الرؤية المميزة (الممثلة في الصورة أدناه برموز النص T). تسمى هذه الطريقة بالتدريب المتباين.

الشكل 1 من “تعلم النماذج المرئية القابلة للتحويل من الإشراف على اللغة الطبيعية”

هدف يرمز إلى نموذج صورة الانحدار التلقائي، ويتم تدريبه من خلال خوارزمية تحسين الخسارة الترميمية. الهدف هنا هو معرفة ما إذا كان المحول يمكنه إعادة إنشاء (إعادة بناء) الصورة المعطاة له.

الشكل 2 من “التدريب المسبق القابل للتطوير لنماذج الصور ذات الانحدار الذاتي الكبيرة”

دقة الصورة يشير هنا إلى عدد البكسلات التي يتم تغذيتها في المحول. على سبيل المثال، دقة الصورة 378 × 378 تعني أننا سنمرر مصفوفة بهذا الحجم ثم نقوم بتحويلها إلى تضمينات سيتم بعد ذلك تدريب النموذج عليها. بيانات التدريب تم تقسيمها بين (DFN-2B)، (DFN-5B)، (DFN-5B + VeCap) و(ImageText-400M).

وجد الباحثون أن دقة الصورة كانت ذات أهمية قصوى، يليها حجم النموذج ثم محتويات بيانات التدريب. على وجه التحديد، رأوا أنه كلما كانت دقة الصورة أفضل، كان أداء النموذج أفضل بالنسبة لكل من اللقطة الصفرية واللقطة القليلة. نظرًا لأن هناك حاجة إلى مزيد من الحوسبة لتدريب وتشغيل النماذج ذات متطلبات دقة الصورة الأعلى، فإن هذا يشير إلى أنه بالنسبة لمحولات الرؤية، ستظل الحوسبة ذات أهمية قصوى.

بالنسبة لموصل VL، فقد تم اختبارهم باستخدام 64 أو 144 رمزًا مميزًا للصورة، وتم اختبارهم باستخدام 224 و336 و378 لدقة الصورة، وتم الاختيار بين عدد قليل من البنى. سوف أتطرق بإيجاز إلى البنى أدناه.

متوسط التجميع هو بالضبط ما يبدو عليه الأمر، حيث نأخذ متوسط جميع الرموز، ثم نقوم بإسقاط خطي لهذا المتوسط بحيث تكون الشبكة 8 × 8 أو 12 × 12.

تجميع الانتباه يفترض أنه يجب التعامل مع الرموز المميزة للصورة كعينات من مجموعة سكانية مختلفة اختلافًا جذريًا عن الرموز النصية. نقوم هنا بضبط عدد الرموز المميزة التي يتم إدخالها لكل صورة، في الورقة المشار إليها باسم k الاستعلامات القابلة للتعلم. نظر الباحثون فقط إلى k من 64 أو 144.

رسم الخرائط التلافيفية هي طريقة من Honeybee تستخدم ResNet لتحديد عدد الرموز المميزة التي سيتم تمريرها إلى LLM من الصورة ديناميكيًا. يتم تحقيق ذلك في وحدة C-Abstractor.

كما ترون مما سبق، فإن البنى المختلفة كان لها في الواقع تأثير ضئيل للغاية. وكما قد يخمن المرء، فإن الصور ذات الدقة الأعلى والمزيد من الرموز المميزة تمر عبر زيادة الأداء بين جميع الموصلات ولكن ليس بشكل كبير.

تشير هذه النتيجة إلى أننا إما لم نجد طريقة أفضل بكثير لربط برنامج تشفير الصور بـ LLM، أو أن هذه المنطقة ببساطة ليست المكان الذي ستميز فيه النماذج الرائعة نفسها.

هنا، استخدم المؤلفون 4 أنواع مختلفة من البيانات: الصور ذات التعليقات التوضيحية، والصور ذات التعليقات الاصطناعية، وبيانات نص الصورة المتداخلة، وبيانات النص فقط. لقد وجدوا 4 دروس، يحتوي كل منها على رسم بياني لتلخيص تغييرات الأداء.

أولاً، تساعد البيانات المتداخلة في أداء اللقطات القليلة والنص فقط، بينما تساعد البيانات الموضحة في أداء اللقطات الصفرية. لقد تنوع الباحثون في مقدار التشذير الذي قاموا به، حيث يوضح الرسم البياني أدناه النتائج. كما ترون، كان أداء المطالبات ذات اللقطات القليلة أفضل بشكل ملحوظ في النماذج التي تم تدريبها باستخدام البيانات المتداخلة مقارنة بالنماذج التي تم تدريبها باستخدام كل شيء أو لا شيء.

ثانيةتساعد البيانات النصية فقط في التفكير المنطقي قليلًا. النص فقط في هذا السياق يعني أن بيانات التدريب تتضمن أمثلة صورية وأمثلة نصية فقط. تم القيام بذلك للتأكد من أن النموذج يفهم اللغة البشرية وكذلك الصور. تُظهِر مقارنة التسمية التوضيحية فقط مع التسمية التوضيحية مع النص تحسنًا ملحوظًا للجميع باستثناء منطق اللقطة 0، ومع ذلك، فإن أداء التشذير فقط أفضل من نص التشذير الزائد للجميع باستثناء اختبار TextCore.

ثالث، إذا حصلت على المزيج الصحيح بين الصورة والنص، فيمكنك الحصول على أداء قوي حقًا. يعرض الرسم البياني أعلاه نسبًا مختلفة من البيانات المتداخلة + ذات التعليقات التوضيحية إلى البيانات النصية فقط. نظرًا لأن الهدف هو الحصول على نموذج متعدد الوسائط، فإنهم لم يختبروا الأداء مطلقًا إذا لم يكن لديك أي بيانات صورة. يشير المؤلفون هنا إلى أن نسبة 91/9 أنتجت النتائج الجيدة الأكثر ثباتًا.

الرابع، تساعد البيانات الاصطناعية في التعلم بعدد قليل من اللقطات. يرمز VeCap إلى Visual-enriched Caption، وهي طريقة لإنشاء التسميات التوضيحية بحيث تكون متأكدة من وصف الأجزاء المرئية الرئيسية من الصورة. على العكس من ذلك، تخيل تعليقًا قد يشرح المعنى الكامن وراء الصورة ولكنه لا يشرح أيًا من العناصر الموجودة في الصورة. ستفعل ذلك عادةً إذا عثرت أداة استخراج البيانات على صور تحتوي على بيانات نص بديل سيئة.

استنتج المؤلفون هنا أن VeCap يعطي دفعة “غير تافهة” في الاستدلال البسيط، ولكن لديه زيادة صغيرة نسبيًا في الجودة. وهذا يثير تساؤلات حول فعالية تكلفة VeCap.

باستخدام نتائج عمليات الاجتثاث، أنشأ الباحثون محولًا في شكلين: خليط من الخبراء ومحول عادي. يحتوي كلا الطرازين على جهاز تشفير بصورة 378 × 378، تم تدريبه مسبقًا باستخدام مجموعة بيانات DFN-5B فقط. كان لديهم مزيج من 45% من البيانات الموضحة، و45% من البيانات المتداخلة، و10% من البيانات النصية فقط (تقريبًا نسبة 91:9 من بيانات الصورة إلى البيانات النصية). كان لدى VL Connector 144 رمزًا مميزًا واختاروا C Abstractor، على الرغم من أنهم أشاروا إلى أن هذا كان اختيارًا تعسفيًا إلى حد ما. بالنسبة لماجستير القانون نفسه، قاموا بإنشاء نموذج معلمات 3B و7B و30B (مع ارتفاع نموذج وزارة التربية والتعليم إلى 7B فقط). ويوضح الرسم البياني أدناه كيفية أداء هذه النماذج.

ومن المثير للاهتمام، أن نموذج المعلمة 30B يعمل على قدم المساواة مع النماذج الأخرى التي تحتوي على مليارات المعلمات أكثر منه (LLaVA-NeXT-34B، وما إلى ذلك)، مما يشير إلى أنه قد تكون هناك بعض العلاقة الكمية بين حجم المعلمة والأداء هنا.

تعد LLMs متعددة الوسائط جزءًا مثيرًا بشكل لا يصدق من هذا المجال. وبينما نجد طرقًا أفضل لنقل أنواع البيانات المختلفة إلى رموز مميزة، فقد نتمكن من فتح تطبيقات أكبر لهذه المحولات. وبينما نتطلع إلى المستقبل، ليس من غير المعقول الآن أن نفكر في كيفية إدخال الحواس الأخرى خارج وصف النص، مثل الصوت أو الرائحة أو حتى اللمس. من المرجح أن تصبح جودة البيانات أكثر قيمة.

بما أن المؤلفين خلصوا إلى أن موصلات اللغة المختلفة لا تحدث فرقًا كبيرًا، سيكون من المثير للاهتمام معرفة ما إذا كان هذا يعني أن البحث يجب أن يركز على أداة تشفير الصور، أو بالأحرى إذا لم نعثر ببساطة على طريقة اختراق حقيقية لاستخدام لغة التشفير. موصل VL.

خارج هذه الورقة المحددة، أحد الأسئلة الكبيرة التي تطرح هو كيفية أداء هذه الامتيازات خارج نطاق المعايير. مع انتشار ماجستير إدارة الأعمال، يدور أحد الانتقادات الشائعة حول استخدام المعايير لمقارنتها. في كثير من الأحيان تستخدم هذه المعايير مجموعة بيانات متسقة للمقارنة، مما يسمح لنموذج واحد بأداء أفضل ببساطة عن طريق التجاوز، حتى لو عن غير قصد. إن استخدام منهجيات مثل ELO، خوارزمية تصنيف الشطرنج، في LLM Arena من lmsys قد يعطي مقارنة حقيقية أفضل لأداء النموذج.

في الختام، نظرًا لإمكانية توصيل المزيد من المدخلات ببرامج LLM، يمكن للمرء أن يتوقع زيادة عدد التطبيقات التي يمكن تطبيقها عليها. الوقت وحده هو الذي سيحدد مدى فائدة هذه التكنولوجيا.