النشر الأمثل لـ Mistral7B على Amazon SageMaker الاستدلال في الوقت الحقيقي | بواسطة رام فيجيراجو

eilm

0 7 دقيقة واحدة

النشرة الإخبارية

Sed ut perspiciatis unde.

يشترك

استخدم حاويات الاستدلال النموذجية الكبيرة المدعومة بـ DJL Serving وNvidia TensorRT

يستمر مجال الذكاء الاصطناعي التوليدي في التوسع بمعدل غير مسبوق، مع تقديم المزيد من عائلات نماذج اللغات الكبيرة (LLM) يومًا بعد يوم. يوجد داخل كل عائلة أيضًا أحجام مختلفة لكل طراز، على سبيل المثال هناك Llama7b وLlama13B وLlama70B. بغض النظر عن النموذج الذي تحدده، تنشأ نفس التحديات عند استضافة شهادات LLM هذه للاستدلال.

لا يزال حجم هذه LLMs يمثل التحدي الأكثر إلحاحًا، حيث أنه من الصعب/المستحيل جدًا احتواء العديد من هذه LLMs على وحدة معالجة رسومات واحدة. هناك عدة طرق مختلفة لمعالجة هذه المشكلة، مثل تقسيم النماذج. باستخدام تقسيم النموذج، يمكنك استخدام تقنيات مثل Pipeline أو Tensor Parallelism لتقسيم النموذج بشكل أساسي عبر وحدات معالجة الرسومات المتعددة. خارج نطاق تقسيم النموذج، تتضمن الأساليب الشائعة الأخرى تكميم أوزان النموذج بدقة أقل لتقليل حجم النموذج نفسه على حساب الدقة.

في حين أن حجم النموذج يمثل تحديًا كبيرًا في حد ذاته، إلا أن هناك أيضًا تحديًا يتمثل في الاحتفاظ بالاستدلال/الانتباه السابق في إنشاء النص للنماذج القائمة على وحدة فك التشفير. إن إنشاء النص باستخدام هذه النماذج ليس بسيطًا مثل استنتاج نموذج ML التقليدي حيث يوجد فقط مدخلات ومخرجات. لحساب الكلمة التالية في إنشاء النص، يجب الاحتفاظ بحالة/انتباه الرموز المميزة التي تم إنشاؤها مسبقًا لتوفير مخرجات منطقية. يُعرف تخزين هذه القيم باسم KV Cache. تتيح لك ذاكرة التخزين المؤقت KV إمكانية التخزين المؤقت للموترات التي تم إنشاؤها مسبقًا في ذاكرة وحدة معالجة الرسومات لإنشاء الرموز المميزة التالية. تشغل ذاكرة التخزين المؤقت KV أيضًا قدرًا كبيرًا من الذاكرة التي يجب مراعاتها أثناء استنتاج النموذج.

ولمواجهة هذه التحديات، تم تقديم العديد من تقنيات تقديم النماذج المختلفة مثل vLLM، وDeepSpeed، وFasterTransformers، والمزيد. في هذه المقالة نلقي نظرة على Nvidia TensorRT-LLM على وجه التحديد وكيف يمكننا دمج حزمة الخدمة مع خدمة DJL على Amazon SageMaker Real-Time Inference لاستضافة نموذج Mistral 7B الشهير بكفاءة.

ملحوظة: تفترض هذه المقالة فهمًا متوسطًا لـ Python وLLMs وAmazon SageMaker Inference. أود…

رابط المصدر

مرتبط

اكتشاف المزيد من موقع علم

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

الوسوم

eilm

0 7 دقيقة واحدة

النشر الأمثل لـ Mistral7B على Amazon SageMaker الاستدلال في الوقت الحقيقي | بواسطة رام فيجيراجو

النشرة الإخبارية

استخدم حاويات الاستدلال النموذجية الكبيرة المدعومة بـ DJL Serving وNvidia TensorRT

معجب بهذه:

مرتبط

اكتشاف المزيد من موقع علم

eilm

اترك تعليقاً إلغاء الرد

تقترب عملة البيتكوين من 100000 دولار حيث يراهن المستثمرون على سياسات ترامب الصديقة للعملات المشفرة | تشفير

مقتل 38 شخصا على الأقل في كمين مسلح لقوافل شيعية في باكستان

استفادت ابنة الكابتن توم من المؤسسة الخيرية باسمه

إسبانيا تتطلع إلى منح الإقامة لحوالي مليون مهاجر

روسيا تطلق صاروخا جديدا متوسط المدى على أوكرانيا

روابط نصية AA50

تقترب عملة البيتكوين من 100000 دولار حيث يراهن المستثمرون على سياسات ترامب الصديقة للعملات المشفرة | تشفير

مراجعة RIDGID 18V Hybrid 18 بوصة لمروحة الطبل

أدوات بوش الجديدة 2024 – صندوق الأدوات Buzz Tool Box Buzz

مراجعة منفاخ الثلج ديوالت 60 فولت

شرح تغييرات الضمان الممتد في ميلووكي – ما هو الموزع المعتمد؟

دليل المطارق – شرح أنواع المطارق.

تقترب عملة البيتكوين من 100000 دولار حيث يراهن المستثمرون على سياسات ترامب الصديقة للعملات المشفرة | تشفير

مقتل 38 شخصا على الأقل في كمين مسلح لقوافل شيعية في باكستان

استفادت ابنة الكابتن توم من المؤسسة الخيرية باسمه

إسبانيا تتطلع إلى منح الإقامة لحوالي مليون مهاجر

روسيا تطلق صاروخا جديدا متوسط المدى على أوكرانيا

المجلس العسكري في مالي يستبدل رئيس الوزراء المدني بواحد من أتباعه

النشرة الإخبارية

استخدم حاويات الاستدلال النموذجية الكبيرة المدعومة بـ DJL Serving وNvidia TensorRT

شارك هذا الموضوع:

معجب بهذه:

مرتبط

اكتشاف المزيد من موقع علم

مجلس الأمن التابع للأمم المتحدة يفرض عقوبات على المتمردين في جمهورية الكونغو الديمقراطية مع تصاعد العنف | أخبار الأمم المتحدة

كولومبيا وبوليفيا تدعمان الرئيس البرازيلي لولا في الخلاف الإسرائيلي بشأن تصريحاته بشأن حرب غزة | أخبار الحرب الإسرائيلية على غزة

مقالات ذات صلة

اترك تعليقاً إلغاء الرد

تقترب عملة البيتكوين من 100000 دولار حيث يراهن المستثمرون على سياسات ترامب الصديقة للعملات المشفرة | تشفير

مراجعة RIDGID 18V Hybrid 18 بوصة لمروحة الطبل

أدوات بوش الجديدة 2024 – صندوق الأدوات Buzz Tool Box Buzz

مراجعة منفاخ الثلج ديوالت 60 فولت

شرح تغييرات الضمان الممتد في ميلووكي – ما هو الموزع المعتمد؟

دليل المطارق – شرح أنواع المطارق.

تقترب عملة البيتكوين من 100000 دولار حيث يراهن المستثمرون على سياسات ترامب الصديقة للعملات المشفرة | تشفير

مقتل 38 شخصا على الأقل في كمين مسلح لقوافل شيعية في باكستان

استفادت ابنة الكابتن توم من المؤسسة الخيرية باسمه

إسبانيا تتطلع إلى منح الإقامة لحوالي مليون مهاجر

روسيا تطلق صاروخا جديدا متوسط ​​المدى على أوكرانيا

المجلس العسكري في مالي يستبدل رئيس الوزراء المدني بواحد من أتباعه

اكتشاف المزيد من موقع علم

روسيا تطلق صاروخا جديدا متوسط المدى على أوكرانيا