قم بضبط Google Gemma باستخدام Unsloth وDistilled DPO على جهاز الكمبيوتر الخاص بك – TechToday
النشرة الإخبارية
Sed ut perspiciatis unde.
اتباع وصفة Zephyr الخاصة بـ Hugging Face
إن العثور على معلمات تدريبية جيدة لمجالات LLM الجديدة أمر صعب دائمًا ويستغرق وقتًا طويلاً. مع Zephyr Gemma 7B، يبدو أن Hugging Face قد وجدت وصفة جيدة لضبط Gemma. لقد استخدموا مزيجًا من الضبط الدقيق المقطر الخاضع للإشراف و DPO مشابهًا لما فعلوه مع Zephyr الأصلي استنادًا إلى Mistral 7B. ومع ذلك، فإن تدريب Gemma مع DPO على الأجهزة الاستهلاكية يمثل تحديًا بسبب استهلاكها للذاكرة.
في هذه المقالة، أقوم أولاً بمراجعة الوصفة التي يستخدمها Hugging Face لتدريب Zephyr Gemma 7B. بعد ذلك، سأعرض كيفية استخدام هذه الوصفة مع Unsloth، وهو إطار عمل ينفذ تحسينات متنوعة للتدريب السريع والموفر للذاكرة. تتميز الطريقة المعروضة في هذه المقالة بأقصى استهلاك للذاكرة يبلغ 19 جيجابايت من VRAM ووقت تدريب إجمالي يبلغ 8 ساعات فقط. بمعنى آخر، تدريب DPO لـ Gemma ممكن على الأجهزة الاستهلاكية.
الضبط الدقيق الخاضع للإشراف (SFT)
يجب أن يستخدم DPO كمرجع نموذجًا تم تدريبه على الضبط الدقيق تحت الإشراف (SFT) على مجموعة بيانات التعليمات. أصدر Hugging Face أيضًا نموذج SFT هذا:
بالنسبة إلى SFT، استخدموا deita-10k وهي مجموعة بيانات تعليمات صغيرة مكونة من 9.5k أمثلة:
قامت مجموعة واسعة من LLMs بإنشاء جميع الأمثلة في مجموعة البيانات هذه (GPT-4، GPT-3.5، Claude، Vicuna، Llama 2، Mistral 7B، Zephyr، وما إلى ذلك). بالنسبة لتدريب SFT، استخدموا تنسيق بيانات خاصًا سنستخدمه أيضًا.
استخدمت Hugging Face المعلمات الفائقة المشار إليها في ملف التكوين هذا من دليل المحاذاة الخاص بها. لم يستخدموا LoRA أو التكميم. هذا يعني أنهم ربما استخدموا العديد من وحدات معالجة الرسوميات A100/H100 لتدريب Zephyr Gemma. ملحوظة: في البطاقة النموذجيةكتبوا “16 جهازاً” لكنهم لم يقولوا ما هي هذه الأجهزة.
لتشغيل هذه الوصفة على الأجهزة الاستهلاكية، سوف نستخدم LoRA والتكميم، أي QLoRA. سأقوم بتفصيل تكوين LoRA في القسم التالي.
رابط المصدر
اكتشاف المزيد من موقع علم
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.