يعزز الباحثون الرؤية المحيطية في نماذج الذكاء الاصطناعي

eilm

0 9 4 دقائق

يعزز الباحثون الرؤية المحيطية في نماذج الذكاء الاصطناعي

تمكن الرؤية المحيطية البشر من رؤية الأشكال التي لا تقع مباشرة في خط رؤيتنا، وإن كان ذلك بتفاصيل أقل. تعمل هذه القدرة على توسيع مجال رؤيتنا ويمكن أن تكون مفيدة في العديد من المواقف، مثل اكتشاف مركبة تقترب من سيارتنا من الجانب.

على عكس البشر، لا يمتلك الذكاء الاصطناعي رؤية محيطية. إن تجهيز نماذج الرؤية الحاسوبية بهذه القدرة يمكن أن يساعدهم على اكتشاف المخاطر التي تقترب بشكل أكثر فعالية أو التنبؤ بما إذا كان السائق البشري سيلاحظ جسمًا قادمًا.

وفي خطوة في هذا الاتجاه، طور باحثون من معهد ماساتشوستس للتكنولوجيا مجموعة بيانات صورية تسمح لهم بمحاكاة الرؤية المحيطية في نماذج التعلم الآلي. ووجدوا أن نماذج التدريب باستخدام مجموعة البيانات هذه حسنت قدرة النماذج على اكتشاف الأشياء في المحيط البصري، على الرغم من أن أداء النماذج لا يزال أسوأ من أداء البشر.

وكشفت نتائجهم أيضًا أنه، على عكس البشر، لم يكن لحجم الأشياء ولا مقدار الفوضى البصرية في المشهد تأثير قوي على أداء الذكاء الاصطناعي.

“هناك شيء أساسي يحدث هنا. لقد اختبرنا العديد من النماذج المختلفة، وحتى عندما ندربها، فإنها تتحسن قليلاً ولكنها ليست مثل البشر تمامًا. لذا فإن السؤال هو: ما الذي ينقص هذه النماذج؟ يقول فاشا دوتيل، باحث ما بعد الدكتوراه والمؤلف المشارك لورقة بحثية توضح تفاصيل هذه الدراسة.

قد تساعد الإجابة على هذا السؤال الباحثين على بناء نماذج للتعلم الآلي يمكنها رؤية العالم كما يفعل البشر. بالإضافة إلى تحسين سلامة السائق، يمكن استخدام هذه النماذج لتطوير شاشات العرض التي يسهل على الأشخاص مشاهدتها.

بالإضافة إلى ذلك، فإن الفهم الأعمق للرؤية المحيطية في نماذج الذكاء الاصطناعي يمكن أن يساعد الباحثين على التنبؤ بشكل أفضل بالسلوك البشري، كما تضيف المؤلفة الرئيسية Anne Harrington MEng ’23.

وتشرح قائلة: “إن نمذجة الرؤية المحيطية، إذا تمكنا حقًا من التقاط جوهر ما يتم تمثيله في المحيط، يمكن أن تساعدنا على فهم الميزات الموجودة في المشهد البصري التي تجعل أعيننا تتحرك لجمع المزيد من المعلومات”.

ومن بين المؤلفين المشاركين مارك هاميلتون، طالب دراسات عليا في الهندسة الكهربائية وعلوم الكمبيوتر؛ أيوش تيواري، باحث ما بعد الدكتوراه؛ وسيمون ستنت، مدير الأبحاث في معهد أبحاث تويوتا؛ وكبار المؤلفين ويليام ت. فريمان، أستاذ توماس وجيرد بيركنز للهندسة الكهربائية وعلوم الكمبيوتر وعضو في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL)؛ وروث روزنهولتز، عالمة الأبحاث الرئيسية في قسم علوم الدماغ والإدراك وعضو CSAIL. وسيقدم البحث في المؤتمر الدولي لتمثيلات التعلم.

“في أي وقت يتفاعل فيه الإنسان مع آلة – سيارة، أو روبوت، أو واجهة مستخدم – فمن المهم للغاية فهم ما يمكن لهذا الشخص رؤيته. يقول روزنهولتز: “تلعب الرؤية المحيطية دورًا حاسمًا في هذا الفهم”.

محاكاة الرؤية المحيطية

مد ذراعك أمامك وارفع إبهامك لأعلى — يمكن رؤية المنطقة الصغيرة حول إبهامك من خلال النقرة، وهو الانخفاض الصغير في منتصف شبكية العين الذي يوفر الرؤية الأكثر وضوحًا. كل شيء آخر يمكنك رؤيته موجود في محيطك البصري. تمثل قشرتك البصرية مشهدًا يتمتع بتفاصيل أقل وموثوقية أقل أثناء تحركه بعيدًا عن نقطة التركيز الحادة تلك.

تمثل العديد من الأساليب الحالية لنمذجة الرؤية المحيطية في الذكاء الاصطناعي هذه التفاصيل المتدهورة من خلال طمس حواف الصور، لكن فقدان المعلومات الذي يحدث في العصب البصري والقشرة البصرية أكثر تعقيدًا بكثير.

للحصول على نهج أكثر دقة، بدأ الباحثون في معهد ماساتشوستس للتكنولوجيا باستخدام تقنية تستخدم لنمذجة الرؤية المحيطية لدى البشر. تعمل هذه الطريقة، المعروفة باسم نموذج تبليط النسيج، على تحويل الصور لتمثيل فقدان المعلومات المرئية للإنسان.

لقد قاموا بتعديل هذا النموذج حتى يتمكن من تحويل الصور بشكل مماثل، ولكن بطريقة أكثر مرونة ولا تتطلب معرفة مسبقة إلى أين سيوجه الشخص أو الذكاء الاصطناعي عينيه.

يقول هارينجتون: “هذا يسمح لنا بصياغة الرؤية المحيطية بأمانة بنفس الطريقة التي يتم بها إجراء أبحاث الرؤية البشرية”.

استخدم الباحثون هذه التقنية المعدلة لإنشاء مجموعة بيانات ضخمة من الصور المحولة التي تبدو أكثر تركيبًا في مناطق معينة، لتمثيل فقدان التفاصيل الذي يحدث عندما ينظر الإنسان إلى أبعد من المحيط.

ثم استخدموا مجموعة البيانات لتدريب العديد من نماذج الرؤية الحاسوبية ومقارنة أدائها بأداء البشر في مهمة الكشف عن الأشياء.

“كان علينا أن نكون أذكياء للغاية في كيفية إعداد التجربة حتى نتمكن أيضًا من اختبارها في نماذج التعلم الآلي. وتقول: “لم نرغب في إعادة تدريب النماذج على مهمة لعبة لم يكن من المفترض أن يقوموا بها”.

أداء غريب

تم عرض أزواج من الصور المحولة على البشر والنماذج والتي كانت متطابقة، باستثناء أن إحدى الصور كانت تحتوي على كائن مستهدف يقع في المحيط. بعد ذلك، طُلب من كل مشارك اختيار الصورة التي تحتوي على الكائن المستهدف.

“الشيء الوحيد الذي أدهشنا حقًا هو مدى جودة الأشخاص في اكتشاف الأشياء الموجودة في محيطهم. لقد مررنا بما لا يقل عن 10 مجموعات مختلفة من الصور التي كانت سهلة للغاية. ويضيف هارينجتون: “لقد ظللنا بحاجة إلى استخدام أشياء أصغر فأصغر”.

ووجد الباحثون أن نماذج التدريب من الصفر باستخدام مجموعة البيانات الخاصة بها أدت إلى تعزيز الأداء بشكل كبير، مما أدى إلى تحسين قدرتها على اكتشاف الأشياء والتعرف عليها. إن ضبط النموذج باستخدام مجموعة البيانات الخاصة به، وهي عملية تتضمن تعديل نموذج تم تدريبه مسبقًا حتى يتمكن من أداء مهمة جديدة، أدى إلى مكاسب أقل في الأداء.

ولكن في كل حالة، لم تكن الآلات جيدة مثل البشر، وكانت سيئة بشكل خاص في اكتشاف الأشياء الموجودة في المحيط البعيد. كما أن أدائهم لم يتبع نفس أنماط البشر.

“قد يشير ذلك إلى أن النماذج لا تستخدم السياق بنفس الطريقة التي يستخدمها البشر للقيام بمهام الكشف هذه. يقول هارينجتون: “قد تكون استراتيجية النماذج مختلفة”.

ويخطط الباحثون لمواصلة استكشاف هذه الاختلافات، بهدف إيجاد نموذج يمكنه التنبؤ بأداء الإنسان في المحيط البصري. وقد يؤدي ذلك إلى تمكين أنظمة الذكاء الاصطناعي التي تنبه السائقين إلى المخاطر التي قد لا يرونها، على سبيل المثال. ويأملون أيضًا في إلهام الباحثين الآخرين لإجراء دراسات إضافية حول رؤية الكمبيوتر باستخدام مجموعة البيانات المتاحة للعامة.

“هذا العمل مهم لأنه يساهم في فهمنا أن الرؤية البشرية في المحيط لا ينبغي اعتبارها مجرد رؤية فقيرة بسبب محدودية عدد المستقبلات الضوئية لدينا، بل تمثيل تم تحسينه لنا لأداء مهام حقيقية يقول جوستين جاردنر، الأستاذ المشارك في قسم علم النفس بجامعة ستانفورد والذي لم يشارك في هذا العمل: “العواقب العالمية”. “علاوة على ذلك، يُظهر العمل أن نماذج الشبكات العصبية، على الرغم من تقدمها في السنوات الأخيرة، غير قادرة على مجاراة الأداء البشري في هذا الصدد، الأمر الذي ينبغي أن يؤدي إلى مزيد من أبحاث الذكاء الاصطناعي للتعلم من علم أعصاب الرؤية البشرية. سيتم مساعدة هذا البحث المستقبلي بشكل كبير من خلال قاعدة بيانات الصور المقدمة من المؤلفين لتقليد الرؤية البشرية المحيطية.

يتم دعم هذا العمل جزئيًا من قبل معهد أبحاث تويوتا وزمالة MIT CSAIL METEOR.