فهم تحسين التفضيل المباشر | بواسطة ماثيو جونتون
لنبدأ بتحديد ما يجب أن يفعله الضبط الدقيق من مستوى عالٍ. بمجرد أن يكون لديك نموذج تم تدريبه مسبقًا ليكون لديه قدرات توليدية قوية، فأنت عادةً تريد التحكم في مخرجاته بطريقة ما. سواء كان ذلك تحسينه للرد في الحوار كروبوت دردشة أو للرد بالكود بدلاً من اللغة الإنجليزية، فإن الهدف هنا هو الحصول على ماجستير في القانون يعمل بالفعل وإيجاد طريقة لتكون أكثر انتقائية في مخرجاته. نظرًا لأن هذا هو التعلم الآلي، فإن الطريقة التي نظهر بها السلوك الصحيح هي باستخدام البيانات.
هناك بعض المصطلحات الأساسية التي سأحددها هنا قبل أن نبدأ في الغوص في التفاصيل الفنية:
فقدان وظيفة – وظيفة نستخدمها كدليل لتحسين أداء نموذجنا. يتم اختيار هذا بناءً على ما وجد أنه فعال
تباعد كوالالمبور– يرمز إلى تباعد كولباك-ليبلر، وهو طريقة لقياس الفرق بين توزيعين احتماليين مستمرين. لمعرفة المزيد حول هذا الموضوع، هناك تدوينة رائعة بقلم أبارنا ديناكاران حول هذا الموضوع.
سياسة – فكرة تجريدية تصف كيفية اتخاذ الشبكة العصبية للقرارات. وبعبارة أخرى، إذا تم تدريب الشبكة العصبية 3 مرات، فستكون لها سياسة مختلفة في كل مرة، ويمكنك مقارنة أدائها.
قبل DPO، اعتدنا أن نقوم بتدريب نموذج منفصل تمامًا لمساعدتنا على الضبط الدقيق، ويُسمى عادةً نموذج المكافأة أو نموذج RLHF. سنقوم بأخذ عينات من الإكمالات من برنامج LLM الخاص بنا ثم نطلب من نموذج المكافأة أن يمنحنا درجة لكل إنجاز. الفكرة هنا كانت بسيطة. إن قيام البشر بتقييم مخرجات LLM الخاصة بك مكلف للغاية ولكن جودة LLM الخاصة بك سيتم تحديدها في النهاية بواسطة البشر. لإبقاء التكاليف منخفضة والجودة عالية، يجب عليك تدريب نموذج المكافأة لتقريب ردود فعل الإنسان. ولهذا السبب تم تسمية الطريقة بتحسين السياسة القريبة (أو PPO)، وهي تعيش أو تموت بناءً على قوة نموذج المكافأة الخاص بك.
للعثور على نموذج المكافأة المثالي، نفترض أن التفضيلات البشرية أكثر احتمالية من كونها حتمية، لذلك يمكننا تمثيل ذلك رمزيًا في نموذج برادلي-تيري كما هو موضح أدناه.
الانتقال من متغير إلى متغير، p* يعني أن هذا هو التوزيع الاحتمالي الأمثل، أو الذي يجب أن يتعامل معه النموذج كمصدر للحقيقة. y₁ و y₂ هما إكمالان للنموذج الذي سنقوم بمقارنته، وx هو الموجه المعطى لـ LLM. r* يعني أن دالة المكافأة هي الأمثل، أو بعبارة أخرى، لتدريب النموذج على تقريب التوزيع الاحتمالي الأمثل، فإنك تمنحه المكافآت من دالة المكافأة المثالية.
ومع ذلك، فإن التوزيع الاحتمالي المثالي للتفضيل البشري يصعب، إن لم يكن من المستحيل، معرفته. لهذا السبب، نركز على نموذج المكافأة، لذلك نحن بحاجة إلى إيجاد طريقة لمعرفة r*. في التعلم الآلي، غالبًا ما نستخدم تقليل الخسارة لتقدير المشكلات المعقدة. إذا كان لدينا إمكانية الوصول إلى بيانات التدريب التي توضح لنا ماهية التفضيلات البشرية حقًا، وبالتالي ستعطي درجات تشكل جزءًا من توزيع p*، فيمكننا استخدام تلك العينات لتدريب نموذج المكافأة كما هو موضح أدناه:
هنا rϕ هو نموذج المكافآت الذي ندربه، D هو مجموعة من العينات التي ندرب عليها، yث هو الانتهاء المفضل و ذل هو الانتهاء غير المفضل. لقد اختار المؤلفون تأطير المشكلة كمشكلة تصنيف ثنائي، وسنرى السبب لاحقًا، ولكن الآن فقط تذكر أن هذا هو سبب وجودناث و ذل.
بمجرد أن نقوم بتحسين نموذج المكافأة الخاص بنا، فإننا نستخدمه لضبط ماجستير إدارة الأعمال (LLM) باستخدام الفرق بين السياسة القديمة (π المرجع) والسياسة الجديدة (π θ). والأهم من ذلك أننا نقوم بعمل تباعد KL لمنع النموذج من التحول أكثر من اللازم.
لماذا لا نريد أن يتحول أكثر من اللازم؟ تذكر أن النموذج يعمل بالفعل في الغالب، وقد استغرق الأمر الكثير من موارد الحوسبة للوصول إلى هذا المستوى. وبالتالي، نريد التأكد من أن النموذج يحتفظ بالعديد من السمات الجيدة التي يتمتع بها حاليًا بينما نركز على جعله يتبع التعليمات بشكل أفضل.
في حين أن المنهجية المذكورة أعلاه فعالة – على سبيل المثال تم ضبط LLaMa2 بهذه الطريقة – إلا أنها تعاني من نقطة ضعف رئيسية واحدة: فهي تتطلب تدريب نموذج منفصل تمامًا، وهو أمر مكلف ويتطلب كميات هائلة من البيانات الإضافية.
يلغي DPO الحاجة إلى نموذج المكافآت معًا! وهذا يسمح لنا بتجنب تدريب نموذج مكافأة منفصل ومكلف، وبالصدفة، وجدنا أن DPO يتطلب بيانات أقل بكثير للعمل مثل PPO.
تنبع القفزة الكبرى من قيد KL الذي وضعناه على أنفسنا في المعادلة 3. وبإضافة هذا القيد، يمكننا في الواقع استخلاص السياسة المثالية التي من شأنها تعظيم نموذج المكافآت المقيدة بـ KL. الجبر موضح أدناه:
لأغراضنا، فإن النقطة الأكثر أهمية التي يجب أخذها هي أن لدينا الآن المعادلة أدناه للسياسة π ص، بحيث يمكن حل وظيفة المكافأة r بسهولة.
بطبيعة الحال، نحل على الفور لـ r
وبالعودة إلى معادلة التوزيع الاحتمالي المثالية (المعادلة 1)، يمكننا إعادة كتابتها بحيث يتم استبدال كل مثيل لـ r بالمعادلة 5.
ما أظهره هذا هو أنك لا تحتاج إلى نموذج المكافأة لتحسين السياسة لمتابعة التوزيع الاحتمالي المثالي للتفضيلات البشرية. بدلاً من ذلك، يمكنك العمل مباشرةً على السياسة لتحسينها (ومن هنا جاء اسم تحسين التفضيل المباشر). نحن نستخدم الاحتمالات التي تنشئها LLM لكل رمز مميز لمساعدته على ضبط نفسه.
لإنهاء الاشتقاق، نقوم بنفس العمليات الحسابية التي قمنا بها في المعادلة 3 للتوصل إلى وظيفة تحسين الخسارة لتحسين السياسة.
كان هذا كثيرًا من الجبر، لكن المعادلة 7 هي الأكثر أهمية لفهمها، لذا سأقوم بتفصيل الأجزاء الأكثر أهمية. لدينا الآن معادلة تقارن احتمالات السياسة القديمة (π المرجع) والسياسة الجديدة (π θ) للإكمال الفائز (yث) والإكمال الخاسر (yل). عندما نقارن هذه، فإننا نقوم بالتحسين بحيث يكون yث أكبر، لأن هذا يعني أن السياسات تتحسن في تقديم الاستجابات الفائزة بدلاً من الاستجابات الخاسرة.
أولاً، لا يتطلب DPO نموذج مكافأة! أنت ببساطة تحتاج إلى بيانات عالية الجودة حتى يكون للنموذج اتجاه واضح لما هو جيد وما هو سيئ، وسوف يتحسن.
ثانيًا، يعتبر DPO ديناميكيًا. في كل مرة تستخدم فيها بيانات جديدة، سوف تتكيف على الفور بفضل الطريقة التي تحدد بها الاتجاه الصحيح الذي يجب أن تسلكه. بالمقارنة مع PPO، حيث يتعين عليك إعادة تدريب نموذج المكافأة الخاص بك في كل مرة يكون لديك بيانات جديدة، يعد هذا فوزًا كبيرًا.
ثالثًا، يسمح لك DPO بتدريب نموذج لتجنب موضوعات معينة بقدر ما سيتعلم تقديم إجابات جيدة للآخرين. إحدى طرق تصور معادلة الخسارة الجديدة هي الإشارة إلى توجيه تدريبنا في الاتجاه الصحيح. وباستخدام المثال الجيد والسيئ، فإننا نعلم النموذج تجنب استجابات معينة بقدر ما نطلب منهم التوجه نحو الآخرين. نظرًا لأن جزءًا كبيرًا من الضبط الدقيق يتضمن تجاهل النموذج لموضوعات معينة، فإن هذه الميزة ذات قيمة كبيرة.
إن فهم العواقب المترتبة على حسابات DPO يجعلني أكثر تفاؤلاً بشأن مستقبل LLMs.
يتطلب DPO بيانات وحوسبة أقل من PPO، وكلاهما مساهمان رئيسيان في تكلفة إنشاء النموذج الخاص بك. ومع هذا التخفيض في التكلفة، سيتمكن عدد أكبر من الأشخاص من تحسين نماذجهم الخاصة، مما قد يمنح المجتمع إمكانية الوصول إلى ماجستير إدارة أعمال أكثر تخصصًا.
علاوة على ذلك، بما أن DPO يتطلب صراحةً أمثلة جيدة وسيئة، في حين أن PPO يطلب الأمثلة الجيدة فقط، فهو أفضل بكثير في تقييد السلوك. وهذا يعني أنه يمكن جعل حاملي شهادة الماجستير في القانون أكثر أمانًا، وهي قطعة أخرى ستسمح لهم بمساعدة المجتمع.
مع قوى مثل DPO التي تتيح لنا الوصول إلى LLMs ذات جودة أفضل والتي يمكن تدريبها بسهولة أكبر، فهذا وقت مثير للغاية لهذا المجال.
[1] ر. رافايلوف وآخرون، تحسين التفضيل المباشر: نموذج اللغة الخاص بك هو سرًا وضع المكافأة (2023)، أرخايف
[2] أ. جيانغ وآخرون، مزيج الخبراء (2024)، ArXiv