التعامل مع تعقيدات التكلفة: مزيج من الأفكار LLM Cascades ينير الطريق نحو نشر نموذج لغة كبير وفعال | بواسطة يوفال زوكرمان

eilm

0 7 4 دقائق

التعامل مع تعقيدات التكلفة: مزيج من الأفكار LLM Cascades ينير الطريق نحو نشر نموذج لغة كبير وفعال | بواسطة يوفال زوكرمان

النشرة الإخبارية

Sed ut perspiciatis unde.

يشترك

ماذا لو أخبرتك أنه يمكنك توفير 60% أو أكثر من تكلفة إنفاق LLM API دون المساس بالدقة؟ والمثير للدهشة، الآن يمكنك ذلك.

أصبحت نماذج اللغات الكبيرة (LLMs) الآن جزءًا من حياتنا اليومية. تستخدم الشركات التكنولوجيا لأتمتة العمليات، وتحسين تجارب العملاء، وبناء منتجات أفضل، وتوفير المال، والمزيد.

تعد استضافة LLMs الخاصة بك أمرًا صعبًا للغاية. إنها توفر إمكانات واسعة ولكن تشغيلها غالبًا ما يكون مكلفًا. وغالبًا ما تتطلب بنية تحتية معقدة وكميات هائلة من البيانات. التكلفة والتعقيد هما سبب استخدامك للهندسة السريعة. يمكنك أيضًا استخدام تقنية الاسترجاع المعزز (RAG) لتحسين السياق وتقليل الهلوسة. باستخدام كلتا التقنيتين، يمكنك تفريغ حملات LLMs إلى أمثال OpenAI أو Cohere أو Google. ومع ذلك، فإن توسيع نطاق اعتماد LLM إلى حالات الاستخدام الجديدة، خاصة مع أحدث النماذج القوية، يمكن أن يؤدي إلى زيادة تكلفة جديدة لم تكن في الحسبان من قبل. قد تكون النماذج الأضعف أرخص، ولكن هل يمكنك الوثوق بها في الأسئلة المعقدة؟ الآن، يُظهر لنا بحث جديد كيفية توفير المال والحصول على نتائج جيدة، وأحيانًا أفضل، في ماجستير إدارة الأعمال.

تعرف على LLM Cascades

في البحث عن تكاليف أقل للماجستير في القانون، تحول الباحثون إلى مفهوم LLM Cascades. في العصور المظلمة، قبل إطلاق ChatGPT، قام فريق من Google وجامعة تورنتو بتعريف هذا المصطلح على أنه برامج تستخدم حسابات الاحتمال للحصول على أفضل النتائج باستخدام العديد من شهادات LLM.

في الآونة الأخيرة، عرّفت ورقة FrugalGPT السلاسل المتتالية على أنها إرسال استعلام مستخدم إلى قائمة ماجستير إدارة الأعمال، واحدًا تلو الآخر، من حاملي ماجستير إدارة الأعمال الأضعف إلى الأقوى، حتى تكون الإجابة جيدة بما فيه الكفاية. يستخدم FrugalGPT Cascades نموذجًا مخصصًا لتحديد متى تكون الإجابة جيدة بما يكفي مقابل حد الجودة.

تقدم ورقة بحثية حديثة بعنوان “شلالات نموذج اللغة الكبيرة مع مزيج من تمثيلات الفكر للاستدلال الفعال من حيث التكلفة” من جامعة جورج ماسون ومايكروسوفت وفيرجينيا للتكنولوجيا بديلاً: وظيفة يمكنها تحديد ما إذا كانت الإجابة جيدة بما فيه الكفاية دون ضبط أخرى نموذج.

مزيج من الفكر LLM Cascades

بدلاً من استخدام عدة LLMs، يستخدم منطق “Mixture of Thought” (MoT) اثنين فقط – GPT 3.5 Turbo وGPT 4. يعتبر النموذج الأول هو LLM “الأضعف”، في حين أن الأخير هو LLM “القوي”. استخدم المؤلفون “اتساق الإجابة” في ماجستير إدارة الأعمال لتحديد ما إذا كانت استجابة ماجستير إدارة الأعمال جيدة بما فيه الكفاية. ينتج LLMs إجابات متسقة لمطالبات مماثلة عندما يكونون واثقين من صحة الإجابات. لذلك، عندما تكون إجابات LLM الأضعف متسقة، ليست هناك حاجة لاستدعاء LLM الأقوى. على العكس من ذلك، فإن هؤلاء الحاصلين على ماجستير إدارة الأعمال ينتجون إجابات غير متناسقة عندما يفتقرون إلى الثقة. وذلك عندما تحتاج إلى ماجستير إدارة أعمال أقوى للإجابة على الموجه. (ملاحظة: يمكنك أيضًا استخدام زوج LLM أضعف/أقوى من اختيارك.)

تستخدم المطالبات نفسها مطالبات قليلة في السياق لتحسين جودة إجابات LLM. توجه مثل هذه المطالبات استجابة LLM من خلال تقديم أمثلة لأسئلة وإجابات مماثلة.

لتحسين الاستدلال النموذجي وتبسيط قياس الاتساق، يقدم الباحثون تقنية تحفيز جديدة لمهام الاستدلال عن طريق “خلط” تقنيتين للتحفيز:

تشجع سلسلة الأفكار (CoT) المطالبة طلاب LLM على إنشاء خطوات أو أسباب وسيطة قبل الوصول إلى إجابة نهائية. يساعد إنشاء هذه الخطوات النموذج على تحسين نتائج المهام المعقدة. كما أنه يزيد من دقة الإجابة.
يعمل برنامج الفكر (PoT) على توسيع سلسلة الأفكار ويستخدم مخرجات النموذج كمدخل جديد لمزيد من المطالبات. غالبًا ما تطلب الموجهات التي تستخدم هذه التقنية من النموذج الإجابة باستخدام التعليمات البرمجية بدلاً من اللغة البشرية.

تقدم الورقة أيضًا طريقتين لتحديد اتساق الإجابة:

التصويت: تقوم هذه الطريقة بتجربة إجابات متعددة من استعلامات LLM ذات مطالبات مماثلة أو عن طريق تغيير خيار درجة حرارة الاستجابة. ثم يقوم بقياس مدى تشابه إجابات LLM مع بعضها البعض. يُفترض أن الإجابة الأكثر توافقًا مع جميع الإجابات الأخرى صحيحة. حدد الفريق أيضًا قيمة “عتبة” مرنة تعمل على مواءمة اتساق الإجابة وقيود الميزانية.
التحقق: يقارن هذا النهج الإجابات الأكثر اتساقًا في LLM عبر تمثيلين فكريين متميزين (على سبيل المثال، CoT وPoT). تقبل الخوارزمية إجابة LLM الأضعف إذا كانت الاستجابتين الفوريتين متطابقتين.

وبما أن التصويت يتطلب مطالبات متعددة، فقد يكون الأمر أكثر ملاءمة عند وجود ميزانية لتوجيه رقم العتبة.

خلاصة القول: خليط الفكر يوفر لك المال

دعونا نلقي نظرة على مقدار الأموال التي توفرها تقنية MoT وتأثيرها على دقة الإجابة.

استخدم الباحثون المبلغ التالي لحساب التكلفة السريعة:

تكلفة تحفيز النموذج الأضعف (لأننا قد نطالبه عدة مرات)
تكلفة عملية تقييم الإجابة
إذا رفضت عملية التقييم الإجابة، فإننا نضيف تكلفة تحفيز النموذج القوي

وكانت النتائج دراماتيكية:

يمكن أن يؤدي استخدام متغيرات MoT – الجمع بين التصويت والتحقق مع CoT وPoT – إلى أداء مشابه بنسبة 40% من تكلفة استخدام GPT-4 فقط.
في الاختبار مقابل مجموعة بيانات CREPE Q&A، تفوقت MoT على GPT-4 بنسبة 47% من تكلفتها.
يؤدي خلط PoT وCoT إلى تحسين عملية صنع القرار مقارنة باستخدام إحدى التقنيات وحدها.
ولم تؤثر زيادة الحد الأدنى عند استخدام طريقة التصويت بشكل كبير على الجودة على الرغم من التكلفة الإضافية.
أثبت نموذج الاتساق نفسه في تحديد إجابات LLM الصحيحة بشكل موثوق. ونجح في التنبؤ بموعد اللجوء إلى استخدام النموذج القوي للحصول على النتائج المثلى.

تأتي استضافة نماذج اللغات الكبيرة (LLMs) وإدارتها داخل الشركة مصحوبة بتحديات كبيرة. فهي تجلب التعقيد والتكاليف المرتفعة والحاجة إلى بنية تحتية واسعة النطاق وموارد البيانات. ونتيجة لذلك، تمثل LLM عقبات كبيرة أمام المنظمات التي تسعى إلى تسخير قدراتها الواسعة. قد يقودك ذلك إلى اللجوء إلى LLMs المستضافة. ومع ذلك، فإن هذا النهج يعرض الشركات لزيادات غير متوقعة في التكاليف وتحديات في الميزانية أثناء توسعها في حالات الاستخدام الجديدة. ويتجلى ذلك بشكل خاص عند دمج أحدث الموديلات القوية. ولتجنب هذا المصير، فإنك تواجه معضلة جديدة: هل يمكنك الوثوق في نماذج أضعف وأقل تكلفة؟ هل يمكنك التغلب على المخاوف بشأن دقتها في التعامل مع الأسئلة المعقدة؟

تقدم LLM Cascades with Mixture of Thought (MoT) خطوتين مهمتين إلى الأمام: