هل النماذج اللغوية هي نماذج معيارية أم أنها حلول لمشاكل العالم الحقيقي؟ | بواسطة تولا ماسترمان

eilm

0 3 6 دقائق

هل النماذج اللغوية هي نماذج معيارية أم أنها حلول لمشاكل العالم الحقيقي؟ | بواسطة تولا ماسترمان

النشرة الإخبارية

Sed ut perspiciatis unde.

يشترك

تقييم تطور وتطبيق النماذج اللغوية على مهام العالم الحقيقي

طلاب الذكاء الاصطناعي يؤدون امتحانًا في الفصل الدراسي. الصورة التي أنشأها المؤلف وDALL-E 3.

في مجال التعليم، أفضل الاختبارات هي تلك التي تتحدى الطلاب لتطبيق ما تعلموه بطرق جديدة وغير متوقعة، والانتقال إلى ما هو أبعد من حفظ الحقائق لإظهار الفهم الحقيقي. يجب أن تتبع تقييماتنا لنماذج اللغة نفس النمط. نظرًا لأننا نرى نماذج جديدة تغمر فضاء الذكاء الاصطناعي كل يوم سواء من الشركات العملاقة مثل OpenAI وAnthropic، أو من فرق البحث والجامعات الأصغر، فمن الأهمية بمكان أن تتعمق تقييمات نماذجنا بشكل أعمق من الأداء وفقًا للمعايير القياسية. تشير الأبحاث الناشئة إلى أن المعايير التي اعتمدنا عليها لقياس قدرة النموذج ليست موثوقة كما كنا نعتقد من قبل. لكي نتمكن من دعم النماذج الجديدة بشكل مناسب، يجب أن تتطور معاييرنا لتصبح ديناميكية ومعقدة مثل تحديات العالم الحقيقي التي نطلب من هذه النماذج وبنيات عملاء الذكاء الاصطناعي الناشئة حلها.

في هذه المقالة سوف نستكشف مدى تعقيد تقييم نموذج اللغة من خلال الإجابة على الأسئلة التالية:

كيف يتم تقييم نماذج اللغة اليوم؟
ما مدى موثوقية نماذج اللغة التي تتفوق في المعايير؟
هل تستطيع نماذج اللغة ووكلاء الذكاء الاصطناعي ترجمة المعرفة إلى عمل؟
لماذا يجب أن تتقن نماذج اللغة (أو النماذج الأساسية) أكثر من النص؟

إذًا، كيف يتم تقييم نماذج اللغة اليوم؟

اليوم يتم تقييم معظم النماذج إما نماذج اللغة الكبيرة (LLMs) أو نماذج اللغة الصغيرة (SLMs) على مجموعة مشتركة من المعايير بما في ذلك فهم اللغة متعدد المهام الضخم (MMLU)، والرياضيات المدرسية (GSM8K)، وBig-Bench Hard (BBH). مجموعات البيانات من بين أمور أخرى.

لتوفير فهم أعمق لأنواع المهام التي يقيمها كل معيار، إليك بعض نماذج الأسئلة من كل مجموعة بيانات:

MMLU: مصمم لقياس المعلومات التي تعلمها النموذج أثناء التدريب المسبق عبر مجموعة متنوعة من المواضيع القائمة على العلوم والتكنولوجيا والهندسة والرياضيات (STEM) والعلوم الإنسانية ومستويات الصعوبة من الفهم المهني الأولي إلى الفهم المهني المتقدم باستخدام أسئلة الاختيار من متعدد.
مثال لسؤال الطب الجامعي في MMLU: “في الاختبار الجيني لحديثي الولادة، تم العثور على اضطراب وراثي نادر له انتقال متنحي مرتبط بالكروموسوم X. أي من العبارات التالية من المحتمل أن تكون صحيحة فيما يتعلق بنسب الاضطراب؟ أ. جميع المتحدرين من جهة الأم سيصابون بالاضطراب ب. ستتأثر الإناث بحوالي ضعف إصابة الذكور في أسرهن. ج. ستتأثر جميع بنات الذكر المصاب. د. سيكون هناك توزيع متساوٍ للذكور والإناث المتأثرين. (الإجابة الصحيحة هي ج) [2]
GSM8K: تكافح النماذج اللغوية عادةً لحل أسئلة الرياضيات، وتقوم مجموعة بيانات GSM8K بتقييم قدرة النموذج على التفكير وحل المشكلات الرياضية باستخدام 8.5 ألف مسألة رياضية متنوعة في المدارس الابتدائية.
مثال: “أعطته والدة دين 28 دولارًا للذهاب إلى متجر البقالة. اشترى دين 6 سيارات لعب و5 دمى دب. تبلغ تكلفة كل سيارة لعبة 12 دولارًا، وتبلغ تكلفة كل دمية دب دولارًا واحدًا. ثم تشعر والدته بالكرم وتقرر أن تمنحه 10 دولارات إضافية. كم من المال بقي لدى دين؟ [3]
بي بي اتش: تتكون مجموعة البيانات هذه من 23 مهمة من مجموعة بيانات Big Bench والتي كافحت النماذج اللغوية تقليديًا لحلها. تتطلب هذه المهام بشكل عام تفكيرًا متعدد الخطوات لإكمال المهمة بنجاح.
مثال: “إذا اتبعت هذه التعليمات، هل تعود إلى نقطة البداية؟ انعطف لليسار. انعطف يمينا. خذ 5 خطوات. خذ 4 خطوات. التف حوله. خذ 9 خطوات. الخيارات: – نعم – لا” [4]

يُظهر إعلان Anthropic الأخير عن Claude-3 أن نموذج Opus الخاص بهم يتجاوز GPT-4 باعتباره النموذج الرائد في غالبية المعايير المشتركة. على سبيل المثال، حقق Claude-3 Opus نسبة 86.8% على MMLU، متجاوزًا بفارق ضئيل GPT-4 الذي سجل 86.4%. سجل Claude-3 Opus أيضًا 95% على GSM8K و86.8% على BBH مقارنة بـ 92% و83.1% على GPT-4 على التوالي. [1].

في حين أن أداء نماذج مثل GPT-4 وClaude في هذه المعايير يعتبر مثيرًا للإعجاب، إلا أن هذه المهام لا تمثل دائمًا أنواع التحديات التي تريد الشركات حلها. بالإضافة إلى ذلك، هناك مجموعة متزايدة من الأبحاث التي تشير إلى أن النماذج تحفظ الأسئلة المعيارية بدلاً من فهمها. هذا لا يعني بالضرورة أن النماذج غير قادرة على التعميم على مهام جديدة، فنحن نرى أصحاب LLM وSLM يقومون بأعمال مذهلة كل يوم، ولكنه يعني أننا يجب أن نعيد النظر في كيفية تقييمنا للنماذج وتسجيل نقاطها والترويج لها.

ما مدى موثوقية النماذج اللغوية التي تتفوق في المعايير؟

يوضح البحث الذي أجرته شركة مايكروسوفت ومعهد الأتمتة CAS وجامعة العلوم والتكنولوجيا في الصين كيف أنه عند طرح نماذج لغوية مختلفة أسئلة معيارية معاد صياغتها أو تعديلها، يكون أداء النماذج أسوأ بكثير مما يحدث عند طرح نفس السؤال المعياري بدون تعديل. ولأغراض بحثهم كما هو موضح في الورقة، DyVal 2، أخذ الباحثون أسئلة من معايير مثل MMLU وقاموا بتعديلها إما عن طريق إعادة صياغة السؤال، أو إضافة إجابة إضافية على السؤال، أو إعادة صياغة الإجابات، أو تبديل الإجابات، أو إضافة محتوى إضافي للسؤال. عند مقارنة أداء النموذج في مجموعة بيانات “الفانيليا” مع الأسئلة المعدلة، لاحظوا انخفاضًا في الأداء، على سبيل المثال سجل GPT-4 84.4 في أسئلة MMLU الفانيليا و68.86 في أسئلة MMLU المعدلة [5].

المصدر: DyVal2، أداء النموذج على معايير الفانيليا مقارنة بمعيار التحقيق

وبالمثل، تشير الأبحاث التي أجراها قسم علوم الكمبيوتر في جامعة أريزونا إلى وجود كمية كبيرة من تلوث البيانات في نماذج اللغة [6]. وهذا يعني أن المعلومات الموجودة في المعايير أصبحت جزءًا من بيانات تدريب النماذج، مما يجعل الدرجات المرجعية غير ذات صلة بشكل فعال حيث يتم اختبار النماذج على المعلومات التي تم تدريبها عليها.

تسلط الأبحاث الإضافية التي أجرتها جامعة فودان وجامعة تونغجي وعلي بابا الضوء على الحاجة إلى تقييمات ديناميكية ذاتية التطور لوكلاء الذكاء الاصطناعي لمكافحة مشكلات تلوث البيانات وحفظ المعايير [7]. ستساعد هذه المعايير الديناميكية في منع النماذج من حفظ أو تعلم المعلومات أثناء التدريب المسبق الذي سيتم اختبارها عليه لاحقًا. على الرغم من أن التدفق المتكرر للمعايير الجديدة قد يخلق تحديات عند مقارنة نموذج قديم بنموذج أحدث، فمن الأفضل أن تخفف هذه المعايير من مشكلات تلوث البيانات وتسهل قياس مدى فهم النموذج للموضوعات من التدريب.

عند تقييم قدرة النموذج لمشكلة معينة، نحتاج إلى فهم مدى فهم النموذج للمعلومات التي تم تعلمها أثناء التدريب المسبق ومدى قدرته على التعميم على المهام أو المفاهيم الجديدة بما يتجاوز بيانات التدريب الخاصة به.

هل تستطيع نماذج اللغة ووكلاء الذكاء الاصطناعي ترجمة المعرفة إلى عمل؟

نظرًا لأننا نتطلع إلى استخدام النماذج كوكلاء للذكاء الاصطناعي لتنفيذ إجراءات نيابة عنا، سواء كان ذلك حجز إجازة أو كتابة تقرير أو البحث عن موضوعات جديدة لنا، فسنحتاج إلى معايير إضافية أو آليات تقييم يمكنها تقييم موثوقية ودقة هؤلاء الوكلاء. تتطلب معظم الشركات التي تتطلع إلى تسخير قوة النماذج الأساسية منح النموذج إمكانية الوصول إلى مجموعة متنوعة من الأدوات المدمجة مع مصادر البيانات الفريدة الخاصة بها وتتطلب من النموذج التفكير والتخطيط متى وكيف يتم استخدام الأدوات المتاحة لهم بشكل فعال. لا يتم تمثيل هذه الأنواع من المهام في العديد من معايير LLM التقليدية.

المصدر: AgentVerse، نتائج فريق من الوكلاء مقارنة بوكيل واحد في مهمة تطوير البرامج التي تتضمن استدعاء الأدوات وتنفيذ التعليمات البرمجية

ولمعالجة هذه الفجوة، تقوم العديد من فرق البحث بإنشاء معايير وأطر عمل خاصة بها تعمل على تقييم أداء الوكيل في المهام التي تتضمن استخدام الأدوات والمعرفة خارج بيانات التدريب الخاصة بالنموذج. على سبيل المثال، قام مؤلفو AgentVerse بتقييم مدى قدرة فرق الوكلاء على أداء مهام العالم الحقيقي التي تتضمن تخطيط الأحداث، وتطوير البرمجيات، والاستشارات. أنشأ الباحثون مجموعتهم الخاصة المكونة من 10 مهام اختبار تم تقييمها يدويًا لتحديد ما إذا كان الوكلاء قد قاموا بمجموعة الإجراءات الصحيحة، واستخدموا الأدوات المناسبة، وحصلوا على نتيجة دقيقة. ووجدوا أن فرق الوكلاء الذين عملوا في دورة ذات مراحل محددة لتوظيف الوكلاء وتخطيط المهام وتنفيذ المهام المستقلة والتقييم اللاحق تؤدي إلى نتائج متفوقة مقارنة بالوكلاء المستقلين. [8].

ما وراء الطرائق الفردية وفي العالم الحقيقي. لماذا يجب أن تتقن نماذج اللغة (أو النماذج الأساسية) أكثر من النص؟

في رأيي، تعد بنيات ومعايير الوكيل الناشئة خطوة رائعة نحو فهم مدى جودة أداء النماذج اللغوية في المشكلات الموجهة نحو الأعمال، ولكن أحد القيود هو أن معظمها لا يزال يركز على النص. عندما نأخذ في الاعتبار العالم والطبيعة الديناميكية لمعظم الوظائف، سنحتاج إلى أنظمة ونماذج وكيلة تقوم بتقييم الأداء في المهام المستندة إلى النص بالإضافة إلى المهام المرئية والسمعية معًا. تعد مجموعة بيانات AlgoPuzzleVQA أحد الأمثلة على تقييم النماذج من حيث قدرتها على التفكير والقراءة والتفسير البصري للألغاز الرياضية والخوارزمية [9].

المصدر: هل النماذج اللغوية معجزة؟ أمثلة على الأسئلة من مجموعة بيانات AlgoPuzzleVQA

في حين أن الشركات قد لا تكون مهتمة بمدى نجاح النموذج في حل اللغز، إلا أنها لا تزال خطوة في الاتجاه الصحيح لفهم مدى قدرة النماذج على التفكير بشأن المعلومات متعددة الوسائط.

خاتمة

وبينما نواصل اعتماد النماذج الأساسية في روتيننا اليومي ومساعينا المهنية، نحتاج إلى خيارات تقييم إضافية تعكس مشاكل العالم الحقيقي. وتعد المعايير الديناميكية ومتعددة الوسائط أحد المكونات الرئيسية لذلك. ومع ذلك، نظرًا لأننا نقدم أطر عمل وبنيات إضافية للوكلاء مع تعاون العديد من وكلاء الذكاء الاصطناعي لحل مشكلة ما، يصبح التقييم والمقارنة عبر النماذج والأطر أكثر صعوبة. ولا يكمن المقياس الحقيقي للنماذج الأساسية في قدرتها على اجتياز الاختبارات الموحدة، بل في قدرتها على الفهم والتكيف والتصرف داخل العالم الحقيقي المعقد والذي لا يمكن التنبؤ به في كثير من الأحيان. من خلال تغيير كيفية تقييم نماذج اللغة، فإننا نتحدى هذه النماذج لتتطور من الأذكياء القائمين على النصوص والعلماء المعياريين إلى مفكرين شاملين قادرين على معالجة التحديات المتعددة الأوجه (ومتعددة الوسائط).

هل أنت مهتم بمواصلة المناقشة أو التعاون؟ تواصل معنا ينكدين!