وفاة معيار الذكاء الاصطناعي الثابت | بواسطة ساندي بيسن
النشرة الإخبارية
Sed ut perspiciatis unde.
المقارنة المعيارية كمقياس للنجاح
غالبًا ما يتم الترحيب بالمعايير باعتبارها علامة مميزة للنجاح. إنها طريقة مشهورة لقياس التقدم – سواء كان ذلك يتعلق بإنجاز مسافة أقل من 4 دقائق أو القدرة على التفوق في الاختبارات القياسية. في سياق الذكاء الاصطناعي (AI)، تعد المعايير هي الطريقة الأكثر شيوعًا لتقييم قدرة النموذج. يتنافس قادة الصناعة مثل OpenAI وAnthropic وMeta وGoogle وما إلى ذلك في سباق للتفوق على بعضهم البعض بنتائج قياسية متفوقة. ومع ذلك، فإن الدراسات البحثية الأخيرة وتذمر الصناعة تلقي بظلال من الشك حول ما إذا كانت المعايير المشتركة تعكس حقًا جوهر قدرة النماذج.
تشير الأبحاث الناشئة إلى احتمال أن تكون مجموعات التدريب الخاصة ببعض النماذج قد تلوثت بالبيانات ذاتها التي يتم تقييمها عليها، وهو ما يثير الشكوك حول صحة درجاتها المعيارية التي تعكس الفهم الحقيقي. تمامًا كما هو الحال في الأفلام حيث يمكن للممثلين تصوير الأطباء أو العلماء، فإنهم يقدمون السطور دون استيعاب المفاهيم الأساسية حقًا. عندما لعب سيليان مورفي دور الفيزيائي الشهير ج. روبرت أوبنهايمر في فيلم أوبنهايمر، فمن المرجح أنه لم يفهم نظريات الفيزياء المعقدة التي تحدث عنها. على الرغم من أن المعايير تهدف إلى تقييم قدرات النموذج، فهل تفعل ذلك حقًا إذا كان النموذج قد حفظها مثل الممثل؟
اكتشفت النتائج الأخيرة من جامعة أريزونا أن GPT-4 ملوث بمجموعات بيانات AG News وWNLI وXsum مما يشوه مصداقية المعايير المرتبطة بها.[1]. علاوة على ذلك، وجد باحثون من جامعة العلوم والتكنولوجيا في الصين أنه عندما قاموا بنشر تقنية “التحقيق” الخاصة بهم على معيار MMLU الشهير [2]، انخفضت النتائج بشكل كبير.
تضمنت تقنيات التحقيق الخاصة بهم سلسلة من الأساليب التي تهدف إلى تحدي فهم النماذج للسؤال عند طرح طرق مختلفة مع خيارات إجابة مختلفة، ولكن نفس الإجابة الصحيحة. تتكون أمثلة تقنيات التحقيق من: إعادة صياغة الأسئلة، وإعادة صياغة الاختيارات، وتبديل الاختيارات، وإضافة سياق إضافي إلى الأسئلة، وإضافة خيار جديد إلى الأسئلة المعيارية.
من الرسم البياني أدناه، يمكن للمرء أن يستنتج أنه على الرغم من أن كل نموذج تم اختباره كان أداؤه جيدًا على معيار MMLU “الفانيليا” غير المعدل، إلا أنه عندما تمت إضافة تقنيات التحقيق إلى أقسام مختلفة من المعيار (LU، PS، DK، All) لم يكن أداؤهم قويًا. .
يدفع هذا الوضع المتطور إلى إعادة تقييم كيفية تقييم نماذج الذكاء الاصطناعي. أصبحت الحاجة إلى معايير تثبت القدرات بشكل موثوق وتتوقع مشكلات تلوث البيانات وحفظها أمرًا واضحًا.
مع استمرار تطور النماذج وتحديثها لتشمل البيانات المرجعية في مجموعات التدريب الخاصة بها، سيكون للمقاييس المرجعية عمر افتراضي قصير بطبيعتها. بالإضافة إلى ذلك، تتزايد نوافذ سياق النموذج بسرعة، مما يسمح بتضمين قدر أكبر من السياق في استجابة النماذج. كلما كانت نافذة السياق أكبر، زاد التأثير المحتمل للبيانات الملوثة التي تؤدي بشكل غير مباشر إلى تحريف عملية تعلم النموذج، مما يجعلها منحازة نحو أمثلة الاختبار المرئية.
ولمواجهة هذه التحديات، تظهر أساليب مبتكرة مثل المعايير الديناميكية، وتستخدم تكتيكات مثل: تغيير الأسئلة، وتعقيد الأسئلة، وإدخال الضجيج في السؤال، وإعادة صياغة السؤال، وعكس قطبية السؤال، والمزيد [3].
يوفر المثال أدناه مثالاً على عدة طرق لتغيير الأسئلة المعيارية (إما يدويًا أو تم إنشاء نموذج لغة).
وبينما نمضي قدمًا، تصبح ضرورة مواءمة أساليب التقييم بشكل أوثق مع تطبيقات العالم الحقيقي واضحة. إن وضع معايير تعكس بدقة المهام والتحديات العملية لن يوفر قياسًا أكثر دقة لقدرات الذكاء الاصطناعي فحسب، بل سيوجه أيضًا تطوير نماذج اللغات الصغيرة (SLM) ووكلاء الذكاء الاصطناعي. تتطلب هذه النماذج والوكلاء المتخصصين معايير تلتقط حقًا إمكاناتهم لأداء مهام عملية ومفيدة.
اكتشاف المزيد من موقع علم
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.