الغوص العميق في المحولات باليد ✍︎ | بقلم سريجاني داي، دكتوراه
اكتشف التفاصيل الكامنة وراء قوة المحولات
لقد حدث تطور جديد في منطقتنا.
لقد اتخذت “الشاحنة الآلية”، كما يحب ابني أن يسميها، منزلها الجديد في شارعنا.
إنها Tesla Cyber Truck وقد حاولت أن أشرح هذا الاسم لابني عدة مرات لكنه أصر على تسميتها Robo-Truck. الآن في كل مرة أنظر فيها إلى Robo-Truck وأسمع هذا الاسم، فإنه يذكرني بفيلم Transformers حيث يمكن للروبوتات أن تتحول من وإلى السيارات.
أليس من الغريب أن المتحولون كما نعرفهم اليوم يمكن أن يكونوا في طريقهم إلى تشغيل هذه الشاحنات الآلية؟ إنها تقريبًا لحظة دائرة كاملة. ولكن إلى أين سأذهب بكل هذا؟
حسنًا، أنا متجه إلى الوجهة – المحولات. ليست تلك السيارات الروبوتية، بل تلك المتعلقة بالشبكة العصبية. وأنت مدعو!
ما هي المحولات؟
المحولات هي في الأساس شبكات عصبية. الشبكات العصبية المتخصصة في سياق التعلم من البيانات.
لكن ما يجعلها مميزة هو وجود آليات تلغي الحاجة إليها مجموعات البيانات المسمى و الالتفاف أو التكرار في الشبكة.
ما هي هذه الآليات الخاصة؟
هناك العديد من. لكن الآليتين اللتين تمثلان القوة الحقيقية وراء المحولات هما وزن الانتباه وشبكات التغذية الأمامية (FFN).
ما هو ترجيح الاهتمام؟
إن وزن الانتباه هو أسلوب يتعلم النموذج من خلاله أي جزء من التسلسل الوارد يحتاج إلى التركيز عليه. فكر في الأمر على أنه “عين Sauron” التي تقوم بمسح كل شيء في جميع الأوقات وإلقاء الضوء على الأجزاء ذات الصلة.
حقيقة ممتعة: على ما يبدو، أطلق الباحثون على نموذج المحولات اسم “شبكة الانتباه”، نظرًا لأن الانتباه جزء مهم منه.
ما هو FFN؟
في سياق المحولات، FFN هو في الأساس إدراك منتظم متعدد الطبقات يعمل على مجموعة من ناقلات البيانات المستقلة. وبدمجه مع الاهتمام، فإنه ينتج التركيبة الصحيحة “للموضع والبعد”.
لذلك، دون مزيد من اللغط، دعونا نتعمق في كيفية القيام بذلك ترجيح الاهتمام و FFN جعل المحولات قوية جدا.
تستند هذه المناقشة إلى سلسلة الذكاء الاصطناعي باليد الرائعة للبروفيسور توم يه حول المحولات. (جميع الصور أدناه، ما لم يُذكر خلاف ذلك، هي من تصميم البروفيسور توم يه من منشورات LinkedIn المذكورة أعلاه، والتي قمت بتحريرها بإذنه.)
حسنا هيا بنا:
الأفكار الرئيسية هنا: شبكة ترجيح الانتباه والتغذية الأمامية (FFN).
مع أخذ ذلك في الاعتبار، لنفترض أننا حصلنا على:
- 5 ميزات إدخال من كتلة سابقة (مصفوفة 3×5 هنا، حيث X1 وX2 وX3 وX4 وX5 هي الميزات ويشير كل صف من الصفوف الثلاثة إلى خصائصها على التوالي.)
[1] الحصول على مصفوفة وزن الاهتمام أ
الخطوة الأولى في العملية هي الحصول على مصفوفة وزن الانتباه أ. هذا هو الجزء الذي تلعب فيه آلية الاهتمام الذاتي. ما تحاول القيام به هو العثور على الأجزاء الأكثر صلة في تسلسل الإدخال هذا.
نقوم بذلك عن طريق تغذية ميزات الإدخال في وحدة مفتاح الاستعلام (QK). للتبسيط، لم يتم تضمين تفاصيل وحدة QK هنا.
[2] وزن الانتباه
بمجرد حصولنا على مصفوفة وزن الانتباه A (5×5)، نضرب ميزات الإدخال (3 × 5) بها للحصول على ميزات مرجحة الاهتمام Z.
الجزء المهم هنا هو أن الميزات هنا مجتمعة بناء على مواقفهم P1 وP2 وP3 أي أفقيا.
لتقسيمها بشكل أكبر، ضع في اعتبارك أن هذا الحساب تم إجراؤه على التوالي:
P1 X A1 = Z1 → الموضع [1,1] = 11
P1 X A2 = Z2 → الموضع [1,2] = 6
P1 X A3 = Z3 → الموضع [1,3] = 7
P1 X A4 = Z4 → الموضع [1,4] = 7
P1 X A5 = Z5 → الموضع [1,5] = 5
.
.
.
P2 X A4 = Z4 → الموضع [2,4] = 3
P3 X A5 = Z5 → الموضع [3,5] = 1
كمثال:
يبدو الأمر مملاً بعض الشيء في البداية، لكن اتبع صف الضرب ويجب أن تكون النتيجة واضحة ومباشرة.
الشيء الرائع هو طريقة مصفوفة وزن الانتباه لدينا أ تم ترتيب الميزات الجديدة ز تتحول إلى مجموعات من X على النحو التالي :
Z1 = X1 + X2
Z2 = X2 + X3
Z3 = X3 + X4
Z4 = X4 + X5
Z5 = X5 + X1
(تلميح: انظر إلى موضعي 0 و1 في المصفوفة أ).
[3] FFN: الطبقة الأولى
والخطوة التالية هي تغذية الميزات الموزونة في الشبكة العصبية ذات التغذية الأمامية.
ومع ذلك، فإن الفرق هنا يكمن في الجمع بين القيم عبر الأبعاد على عكس المواقف في الخطوة السابقة. ويتم ذلك على النحو التالي:
ما يفعله هذا هو أنه ينظر إلى البيانات من الاتجاه الآخر.
– في خطوة الاهتمام، قمنا بدمج مدخلاتنا على أساس الميزات الأصلية للحصول على ميزات جديدة.
– في خطوة FFN هذه، نأخذ في الاعتبار خصائصها، أي دمج الميزات عموديًا للحصول على المصفوفة الجديدة.
على سبيل المثال: P1(1,1) * Z1(1,1)
+ P2(1,2) * Z1 (2,1)
+ P3 (1,3) * Z1(3,1) + b(1) = 11، حيث b هو الانحياز.
مرة أخرى، عمليات صف العناصر الحكيمة للإنقاذ. لاحظ أنه هنا يتم زيادة عدد أبعاد المصفوفة الجديدة إلى 4 هنا.
[4] ReLU
خطوتنا المفضلة: ReLU، حيث يتم إرجاع القيم السالبة التي تم الحصول عليها في المصفوفة السابقة كصفر وتبقى القيمة الموجبة دون تغيير.
[5] FFN: الطبقة الثانية
أخيرًا نمررها عبر الطبقة الثانية حيث يتم تقليل أبعاد المصفوفة الناتجة من 4 إلى 3.
الناتج هنا جاهز ليتم تغذيته إلى الكتلة التالية (انظر تشابهه مع المصفوفة الأصلية) ويتم تكرار العملية بأكملها من البداية.
الأمران الرئيسيان اللذان يجب تذكرهما هنا هما:
- يتم دمج طبقة الانتباه عبر المواضع (أفقيًا).
- يتم دمج طبقة التغذية الأمامية عبر الأبعاد (عموديًا).
وهذه هي الخلطة السرية وراء قوة المحولات – القدرة على تحليل البيانات من اتجاهات مختلفة.
لتلخيص الأفكار المذكورة أعلاه، إليك النقاط الرئيسية:
- يمكن النظر إلى بنية المحولات على أنها مزيج من طبقة الانتباه وطبقة التغذية الأمامية.
- ال طبقة الاهتمام تجمع بين الميزات لإنتاج ميزة جديدة. على سبيل المثال، فكر في الجمع بين روبوتين Robo-Truck و Optimus Prime للحصول على روبوت جديد Robtimus Prime.
- ال تجمع طبقة التغذية الأمامية (FFN) بين الأجزاء أو الخصائص للميزة لإنتاج أجزاء/خصائص جديدة. على سبيل المثال، يمكن لعجلات Robo-Truck والليزر الأيوني من Optimus Prime إنتاج ليزر بعجلات.
الشبكات العصبية موجودة منذ بعض الوقت. كانت الشبكات العصبية التلافيفية (CNN) والشبكات العصبية المتكررة (RNN) هي المسيطرة، لكن الأمور أخذت منعطفًا حافلًا بالأحداث بمجرد ظهور المحولات في عام 2017. ومنذ ذلك الحين، نما مجال الذكاء الاصطناعي بمعدل هائل – مع ظهور تقنيات جديدة. نماذج ومعايير جديدة ودروس جديدة تأتي كل يوم. والوقت وحده هو الذي سيحدد ما إذا كانت هذه الفكرة الهائلة ستقود الطريق يومًا ما لشيء أكبر – “المحول” الحقيقي.
لكن في الوقت الحالي، لن يكون من الخطأ القول إن الفكرة يمكن فعلها بالفعل تحول كيف نعيش!
ملاحظة: إذا كنت ترغب في تنفيذ هذا التمرين بنفسك، فإليك القالب الفارغ الذي يمكنك استخدامه.
قالب فارغ لتمرين اليد
اذهب الآن واستمتع ببعض المرح واصنع بنفسك روبتيموس برايم!
اكتشاف المزيد من موقع علم
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.