دراسة التعلم الآلي على المدى الطويل من خلال ELLA وVoyager: الجزء الثاني من لماذا تعد LLML هي التغيير التالي لقواعد اللعبة في مجال الذكاء الاصطناعي
فهم قوة التعلم مدى الحياة من خلال خوارزمية التعلم مدى الحياة الفعالة (ELLA) وVOYAGER
أنا أشجعك على قراءة الجزء الأول: أصول LLML إذا لم تكن قد قرأته بالفعل، حيث رأينا استخدام LLML في التعلم المعزز. الآن بعد أن قمنا بتغطية مصدر LLML، يمكننا تطبيقه على مجالات أخرى، على وجه التحديد التعلم متعدد المهام الخاضع للإشراف، لرؤية بعض القوة الحقيقية لـ LLML.
LLML الخاضع للإشراف: خوارزمية التعلم مدى الحياة الفعالة
تهدف خوارزمية التعلم مدى الحياة الفعالة إلى تدريب نموذج يتفوق في مهام متعددة في وقت واحد. تعمل ELLA في بيئة التعلم الخاضع للإشراف متعدد المهام، مع مهام متعددة T_1..T_n، مع الميزات X_1..X_n وy_1…y_n المتوافقة مع كل مهمة (من المحتمل أن تختلف أبعادها بين المهام). هدفنا هو تعلم الوظائف f_1,.., f_n حيث f_1: X_1 -> y_1. في الأساس، تحتوي كل مهمة على وظيفة تأخذ الميزات المقابلة للمهمة كمدخلات وتخرج قيم y الخاصة بها.
على مستوى عالٍ، تحتفظ ELLA بأساس مشترك لمتجهات “المعرفة” لجميع المهام، ومع مواجهة مهام جديدة، تستخدم ELLA المعرفة من الأساس المكرر باستخدام البيانات من المهمة الجديدة. علاوة على ذلك، عند تعلم هذه المهمة الجديدة، تتم إضافة المزيد من المعلومات إلى الأساس، مما يؤدي إلى تحسين التعلم لجميع المهام المستقبلية!
استخدم روفولو وإيتون برنامج ELLA في ثلاثة إعدادات: الكشف عن الألغام الأرضية، والتعرف على تعبيرات الوجه، والتنبؤات بنتيجة الامتحان! كقليل من الذوق لإثارة حماسك بشأن قوة ELLA، فقد حققت خوارزمية أكثر كفاءة من حيث الوقت بما يصل إلى 1000 مرة في مجموعات البيانات هذه، مما أدى إلى التضحية بقدرات الأداء تقريبًا!
الآن، دعونا نتعمق في التفاصيل الفنية لـ ELLA! السؤال الأول الذي قد يطرح عند محاولة استخلاص مثل هذه الخوارزمية هو
كيف يمكننا بالضبط العثور على المعلومات الموجودة في قاعدة معارفنا ذات الصلة بكل مهمة؟
تقوم ELLA بذلك عن طريق تعديل وظائف f الخاصة بنا لكل t. بدلاً من أن تكون دالة f(x) = y، لدينا الآن f(x, θ_t) = y حيث θ_t فريدة للمهمة t، ويمكن تمثيلها من خلال مجموعة خطية من متجهات قاعدة المعرفة. مع هذا النظام، لدينا الآن جميع المهام المحددة في نفس البعد الأساسي، ويمكن قياس التشابه باستخدام مسافة خطية بسيطة!
الآن، كيف نستنتج θ_t لكل مهمة؟
هذا السؤال هو الفكرة الأساسية لخوارزمية ELLA، لذلك دعونا نلقي نظرة مفصلة عليه. نحن نمثل ناقلات أساس المعرفة كمصفوفة L. وبالنظر إلى ناقلات الوزن s_t، فإننا نمثل كل θ_t كـ Ls_t، المجموعة الخطية من المتجهات الأساسية.
هدفنا هو تقليل الخسارة لكل مهمة مع زيادة المعلومات المشتركة المستخدمة بين المهام. نحن نفعل ذلك باستخدام الدالة الهدف e_T التي نحاول تقليلها:
حيث ℓ هي دالة الخسارة التي اخترناها.
بشكل أساسي، الجملة الأولى تفسر خسارتنا الخاصة بالمهمة، والثانية تحاول تقليل متجهات الوزن لدينا وجعلها متناثرة، والعبارة الأخيرة تحاول تقليل المتجهات الأساسية لدينا.
**تحمل هذه المعادلة نقائص اثنين (انظر ما إذا كان بإمكانك معرفة السبب)! أول ما لدينا هو أن معادلتنا تعتمد على جميع بيانات التدريب السابقة (وخاصة المجموع الداخلي)، والتي يمكننا أن نتصور أنها مرهقة بشكل لا يصدق. نحن نخفف من عدم الكفاءة الأول باستخدام مجموع تايلور التقريبي للمعادلة. عدم كفاءتنا الثانية هو أننا نحتاج إلى إعادة حساب كل s_t لتقييم مثيل واحد من L. نحن نتخلص من عدم الكفاءة هذا عن طريق إزالة التصغير الخاص بنا على z وبدلاً من ذلك نحسب s عندما تم التفاعل مع t آخر مرة. أنا أشجعك على قراءة الورقة الأصلية للحصول على شرح أكثر تفصيلاً!**
الآن بعد أن أصبح لدينا وظيفة الهدف، نريد إنشاء طريقة لتحسينها!
في التدريب، سنتعامل مع كل تكرار كوحدة حيث نتلقى مجموعة من بيانات التدريب من مهمة واحدة، ثم نحسب s_t، وأخيرًا نقوم بتحديث L. في بداية الخوارزمية، قمنا بتعيين T (رقمنا- عداد المهام)، A، b، وL إلى الأصفار. الآن، بالنسبة لكل دفعة من البيانات، نقوم بدراسة الحالة بناءً على البيانات الواردة من مهمة مرئية أو غير مرئية.
إذا واجهنا بيانات من مهمة جديدة، فسنضيف 1 إلى T، ونقوم بتهيئة X_t وy_t لهذه المهمة الجديدة، ونضعهما على قدم المساواة مع مجموعتنا الحالية من X وy.
إذا واجهنا البيانات التي رأيناها بالفعل، تصبح عمليتنا أكثر تعقيدًا. نضيف مرة أخرى X وy الجديدتين لإضافة X وy الجديدتين إلى ذاكرتنا الحالية لـ X_t وy_t (من خلال تشغيل جميع البيانات، سيكون لدينا مجموعة كاملة من X وy لكل مهمة!). نقوم أيضًا بتحديث قيمنا A وb بشكل سلبي (سأشرح ذلك لاحقًا، فقط تذكر هذا الآن!).
الآن نتحقق مما إذا كنا نريد إنهاء حلقة التدريب الخاصة بنا. لقد قمنا بتعيين (θ_t، D_t) مساوية لمخرجات المتعلم العادي لدينا لبياناتنا المجمعة.
نتحقق بعد ذلك من إنهاء الحلقة (إذا رأينا جميع بيانات التدريب). إذا لم ننتهي، ننتقل إلى حوسبة s وتحديث L.
لحساب s، نقوم أولاً بحساب النموذج الأمثل \theta_t باستخدام البيانات المجمعة فقط، والتي ستعتمد على مهمتنا المحددة ووظيفة الخسارة.
نقوم بعد ذلك بحساب D_t، ونقوم إما بشكل عشوائي أو إلى أحد θ_ts بتهيئة أي أعمدة ذات صفر كامل من L (والذي يحدث في حالة عدم استخدام ناقل أساس معين). في الانحدار الخطي،
وفي الانحدار اللوجستي
بعد ذلك، نقوم بحساب s_t باستخدام L عن طريق حل مشكلة الانحدار المنتظم L1:
بالنسبة لخطوتنا النهائية لتحديث L، فإننا نأخذ
، ابحث عن مكان التدرج 0، ثم قم بالحل من أجل L. وبذلك، فإننا نزيد من تناثر L! نقوم بعد ذلك بإخراج الاتجاه العمودي المحدث لـ L as
حتى لا نجمع كل المهام لحساب A وb، فإننا نقوم بإنشائها بشكل تدريجي مع وصول كل مهمة.
بمجرد تكرار جميع البيانات الدفعية، نكون قد تعلمنا جميع المهام بشكل صحيح وانتهينا!
تكمن قوة ELLA في العديد من تحسينات الكفاءة الخاصة بها، وأهمها طريقتها في استخدام وظائف θ لفهم الأساس الذي تعتبره المعرفة مفيدًا بالضبط! إذا كنت مهتمًا بفهم أكثر تعمقًا لـ ELLA، فأنا أشجعك بشدة على التحقق من الكود الكاذب والشرح في الورقة الأصلية.
باستخدام ELLA كقاعدة، يمكننا أن نتخيل إنشاء ذكاء اصطناعي قابل للتعميم، يمكنه تعلم أي مهمة تُعرض عليه. لدينا مرة أخرى خاصية أنه كلما زاد نمو أساس معرفتنا، زادت “المعلومات ذات الصلة” التي تحتوي عليها، مما سيزيد من سرعة تعلم المهام الجديدة! يبدو كما لو أن ELLA يمكن أن تكون جوهر أحد المتعلمين الاصطناعيين فائقي الذكاء في المستقبل!
فوييجر
ماذا يحدث عندما ندمج أحدث قفزة في الذكاء الاصطناعي، LLMs، مع Lifelong ML؟ لقد حصلنا على شيء يمكنه التغلب على لعبة Minecraft (هذا هو إعداد الورقة الفعلية)!
رأى Guanzhi Wang وYuqi Xie وآخرون الفرصة الجديدة التي توفرها قوة GPT-4، وقرروا دمجها مع أفكار من التعلم مدى الحياة الذي تعلمته حتى الآن لإنشاء Voyager.
عندما يتعلق الأمر بألعاب التعلم، يتم إعطاء الخوارزميات النموذجية أهدافًا نهائية ونقاط تفتيش محددة مسبقًا والتي توجد من أجل متابعتها فقط. ومع ذلك، في ألعاب العالم المفتوح مثل Minecraft، هناك العديد من الأهداف الممكنة لتحقيقها ومساحة لا حصر لها لاستكشافها. ماذا لو كان هدفنا هو تقريب التحفيز الذاتي الشبيه بالإنسان مع زيادة كفاءة الوقت في معايير لعبة Minecraft التقليدية، مثل الحصول على الماس؟ على وجه التحديد، لنفترض أننا نريد أن يكون وكيلنا قادرًا على اتخاذ قرار بشأن المهام الممكنة والمثيرة للاهتمام، وتعلم المهارات وتذكرها، ومواصلة الاستكشاف والبحث عن أهداف جديدة بطريقة “ذاتية الدوافع”.
ولتحقيق هذه الأهداف، قام وانغ وشيه وآخرون بإنشاء Voyager، والتي أطلقوا عليها اسم أول وكيل للتعلم مدى الحياة مدعوم من LLM!
كيف يعمل فوييجر؟
على نطاق واسع، تستخدم Voyager GPT-4 باعتبارها “وظيفة الذكاء” الرئيسية ويمكن تقسيم النموذج نفسه إلى ثلاثة أجزاء:
- المنهج التلقائي: وهذا ما يحدد الأهداف التي يجب تحقيقها، ويمكن اعتباره “الحافز” للنموذج. تم تنفيذه باستخدام GPT-4، وقد أوعزوا إليه بتحسين الأهداف الصعبة ولكن الممكنة و”اكتشاف أكبر عدد ممكن من الأشياء المتنوعة” (اقرأ الورقة الأصلية لمعرفة مطالباتهم الدقيقة). إذا مررنا أربع جولات من حلقة آلية التحفيز التكرارية دون تغيير بيئة الوكيل، فإننا ببساطة نختار مهمة جديدة!
- مكتبة المهارات: مجموعة من الإجراءات القابلة للتنفيذ مثل craftStoneSword() أو getWool() والتي تزداد صعوبتها مع استكشاف المتعلم. يتم تمثيل مكتبة المهارات هذه كقاعدة بيانات متجهة، حيث تقوم المفاتيح بدمج ناقلات لأوصاف المهارات التي تم إنشاؤها بواسطة GPT-3.5، والمهارات القابلة للتنفيذ في شكل كود. أنشأ GPT-4 رمزًا للمهارات، وتم تحسينه للتعميم وتم تحسينه من خلال التعليقات الناتجة عن استخدام المهارة في بيئة العميل!
- آلية المطالبة التكرارية: هذا هو العنصر الذي يتفاعل مع بيئة Minecraft. يقوم أولاً بتشغيل واجهة Minecraft الخاصة به للحصول على معلومات حول بيئته الحالية، على سبيل المثال، العناصر الموجودة في مخزونه والمخلوقات المحيطة التي يمكنه مراقبتها. ثم يقوم بعد ذلك بمطالبة GPT-4 وتنفيذ الإجراءات المحددة في الإخراج، كما يقدم أيضًا تعليقات حول ما إذا كانت الإجراءات المحددة مستحيلة. يتكرر هذا حتى تكتمل المهمة الحالية (حسب ما يقرره المنهج التلقائي). عند الانتهاء، نضيف المهارة المكتسبة إلى مكتبة المهارات. على سبيل المثال، إذا كانت مهمتنا هي إنشاء سيف حجري، فإننا الآن نضع مهارة CraftStoneSword() في مكتبة المهارات الخاصة بنا. وأخيراً نطلب من المنهج الآلي هدفاً جديداً.
والآن، أين يتناسب التعلم مدى الحياة مع كل هذا؟
عندما نواجه مهمة جديدة، فإننا نقوم بالاستعلام عن قاعدة بيانات المهارات الخاصة بنا للعثور على أفضل 5 مهارات ذات صلة بالمهمة الحالية (على سبيل المثال، المهارات ذات الصلة بالمهمة getDiamonds() ستكون craftIronPickaxe() وfindCave()).
وهكذا، استخدمنا المهام السابقة لتعلم مهمتنا الجديدة بكفاءة أكبر: جوهر التعلم مدى الحياة! من خلال هذه الطريقة، تستكشف فوييجر وتنمو باستمرار، وتتعلم مهارات جديدة تزيد من حدود إمكانياتها، وتزيد من حجم طموح أهدافها، وبالتالي تزيد من قوة مهاراتها المكتسبة حديثًا، بشكل مستمر!
بالمقارنة مع الطرز الأخرى مثل AutoGPT وReAct وReflexion، اكتشفت Voyager عددًا من العناصر الجديدة أكبر بـ 3.3 مرات من تلك النماذج الأخرى، وقطعت مسافات أطول بـ 2.3 مرة، وفتحت المستوى الخشبي بشكل أسرع 15.3 مرة لكل تكرار فوري، وكانت الوحيدة التي فتحت المستوى الماسي. من شجرة التكنولوجيا! علاوة على ذلك، بعد التدريب، عند سقوطها في بيئة جديدة تمامًا بدون أي عناصر، تمكنت Voyager من حل المهام غير المرئية باستمرار، بينما لم يتمكن الآخرون من حل أي منها خلال 50 مطالبة.
وكإظهار لأهمية التعلم مدى الحياة، بدون مكتبة المهارات، توقف تقدم النموذج في تعلم مهام جديدة بعد 125 تكرارًا، بينما مع مكتبة المهارات، استمر في الارتفاع بنفس المعدل المرتفع!
الآن تخيل أن هذا العامل مطبق على العالم الحقيقي! تخيل متعلمًا لديه وقت لا نهائي ودافع لا نهائي يمكنه الاستمرار في زيادة حدود إمكانياته، ويتعلم بشكل أسرع وأسرع كلما زادت المعرفة السابقة لديه! آمل الآن أن أكون قد أوضحت بشكل صحيح قوة التعلم الآلي مدى الحياة وقدرته على تحفيز التحول التالي للذكاء الاصطناعي!
إذا كنت مهتمًا بشكل أكبر بـ LLML، فأنا أشجعك على قراءة كتاب Zhiyuan Chen وBing Liu الذي يوضح المسارات المستقبلية المحتملة التي قد تتخذها LLML!
شكرا لك على جعله على طول الطريق هنا! إذا كنت مهتمًا، قم بزيارة موقع الويب الخاص بي anandmaj.com الذي يحتوي على كتاباتي ومشاريعي وفنوني الأخرى، وتابعني على Twitter @almondgod.
الأوراق الأصلية والمصادر الأخرى:
إيتون وروفولو: خوارزمية التعلم مدى الحياة الفعالة
وانغ، شيه، وآخرون: فوييجر
تشين وليو، التعلم الآلي مدى الحياة (ألهمني لكتابة هذا!): https://www.cs.uic.edu/~liub/lifelong-machine-learning-draft.pdf
LL غير خاضع للرقابة مع المناهج: https://par.nsf.gov/servlets/purl/10310051
ديب إل إل: https://towardsdatascience.com/deep-lifelong-learning-drawing-inspiration-from-the-human-brain-c4518a2f4fb9
الذكاء الاصطناعي المستوحى من الأعصاب: https://www.cell.com/neuron/pdf/S0896-6273(17)30509-3.pdf
المجسدة LL: https://lis.csail.mit.edu/embodied-lifelong-learning-for-decision-making/
LL لتصنيف المشاعر: https://arxiv.org/abs/1801.02808
تعلم الروبوت مدى الحياة: https://www.sciencedirect.com/science/article/abs/pii/092188909500004Y
فكرة أساس المعرفة: https://arxiv.org/ftp/arxiv/papers/1206/1206.6417.pdf
تعلم الأسئلة: https://link.springer.com/article/10.1007/BF00992698
AGI LLLM LLMs: https://towardsdatascience.com/towards-agi-llms-and-foundational-models-roles-in-the-lifelong-learning-revolution-f8e56c17fa66
ديبس: https://arxiv.org/pdf/2302.01560.pdf
المسافر: https://arxiv.org/pdf/2305.16291.pdf
التعلم التلوي: https://machine-learning-made-simple.medium.com/meta-learning-why-its-a-big-deal-it-s-future-for-foundation-models-and-how- لتحسين-c70b8be2931b
استبيان التعلم المعزز: https://arxiv.org/abs/2301.08028
اكتشاف المزيد من موقع علم
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.