النشر الأمثل لـ Mistral7B على Amazon SageMaker الاستدلال في الوقت الحقيقي | بواسطة رام فيجيراجو
النشرة الإخبارية
Sed ut perspiciatis unde.
استخدم حاويات الاستدلال النموذجية الكبيرة المدعومة بـ DJL Serving وNvidia TensorRT
يستمر مجال الذكاء الاصطناعي التوليدي في التوسع بمعدل غير مسبوق، مع تقديم المزيد من عائلات نماذج اللغات الكبيرة (LLM) يومًا بعد يوم. يوجد داخل كل عائلة أيضًا أحجام مختلفة لكل طراز، على سبيل المثال هناك Llama7b وLlama13B وLlama70B. بغض النظر عن النموذج الذي تحدده، تنشأ نفس التحديات عند استضافة شهادات LLM هذه للاستدلال.
لا يزال حجم هذه LLMs يمثل التحدي الأكثر إلحاحًا، حيث أنه من الصعب/المستحيل جدًا احتواء العديد من هذه LLMs على وحدة معالجة رسومات واحدة. هناك عدة طرق مختلفة لمعالجة هذه المشكلة، مثل تقسيم النماذج. باستخدام تقسيم النموذج، يمكنك استخدام تقنيات مثل Pipeline أو Tensor Parallelism لتقسيم النموذج بشكل أساسي عبر وحدات معالجة الرسومات المتعددة. خارج نطاق تقسيم النموذج، تتضمن الأساليب الشائعة الأخرى تكميم أوزان النموذج بدقة أقل لتقليل حجم النموذج نفسه على حساب الدقة.
في حين أن حجم النموذج يمثل تحديًا كبيرًا في حد ذاته، إلا أن هناك أيضًا تحديًا يتمثل في الاحتفاظ بالاستدلال/الانتباه السابق في إنشاء النص للنماذج القائمة على وحدة فك التشفير. إن إنشاء النص باستخدام هذه النماذج ليس بسيطًا مثل استنتاج نموذج ML التقليدي حيث يوجد فقط مدخلات ومخرجات. لحساب الكلمة التالية في إنشاء النص، يجب الاحتفاظ بحالة/انتباه الرموز المميزة التي تم إنشاؤها مسبقًا لتوفير مخرجات منطقية. يُعرف تخزين هذه القيم باسم KV Cache. تتيح لك ذاكرة التخزين المؤقت KV إمكانية التخزين المؤقت للموترات التي تم إنشاؤها مسبقًا في ذاكرة وحدة معالجة الرسومات لإنشاء الرموز المميزة التالية. تشغل ذاكرة التخزين المؤقت KV أيضًا قدرًا كبيرًا من الذاكرة التي يجب مراعاتها أثناء استنتاج النموذج.
ولمواجهة هذه التحديات، تم تقديم العديد من تقنيات تقديم النماذج المختلفة مثل vLLM، وDeepSpeed، وFasterTransformers، والمزيد. في هذه المقالة نلقي نظرة على Nvidia TensorRT-LLM على وجه التحديد وكيف يمكننا دمج حزمة الخدمة مع خدمة DJL على Amazon SageMaker Real-Time Inference لاستضافة نموذج Mistral 7B الشهير بكفاءة.
ملحوظة: تفترض هذه المقالة فهمًا متوسطًا لـ Python وLLMs وAmazon SageMaker Inference. أود…
رابط المصدر
اكتشاف المزيد من موقع علم
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.