تفتح الخوارزمية الجديدة رؤى عالية الدقة لرؤية الكمبيوتر

eilm

0 9 5 دقائق

تفتح الخوارزمية الجديدة رؤى عالية الدقة لرؤية الكمبيوتر

تخيل نفسك تنظر إلى شارع مزدحم لبضع لحظات، ثم تحاول رسم المشهد الذي رأيته من الذاكرة. يمكن لمعظم الأشخاص رسم المواضع التقريبية للأشياء الرئيسية مثل السيارات والأشخاص وممرات المشاة، ولكن لا يمكن لأحد تقريبًا رسم كل التفاصيل بدقة بكسل مثالية. وينطبق الشيء نفسه على معظم خوارزميات رؤية الكمبيوتر الحديثة: فهي رائعة في التقاط تفاصيل عالية المستوى للمشهد، لكنها تفقد التفاصيل الدقيقة أثناء معالجة المعلومات.

الآن، أنشأ باحثون من معهد ماساتشوستس للتكنولوجيا نظامًا يسمى “FeatUp” يتيح للخوارزميات التقاط جميع التفاصيل العالية والمنخفضة المستوى للمشهد في نفس الوقت – تقريبًا مثل جراحة العيون بالليزك لرؤية الكمبيوتر.

عندما تتعلم أجهزة الكمبيوتر “الرؤية” من خلال النظر إلى الصور ومقاطع الفيديو، فإنها تقوم ببناء “أفكار” حول ما يوجد في المشهد من خلال ما يسمى “الميزات”. لإنشاء هذه الميزات، تقوم الشبكات العميقة ونماذج الأساس المرئي بتقسيم الصور إلى شبكة من المربعات الصغيرة ومعالجة هذه المربعات كمجموعة لتحديد ما يحدث في الصورة. يتكون كل مربع صغير عادةً من 16 إلى 32 بكسل، وبالتالي فإن دقة هذه الخوارزميات أصغر بشكل كبير من الصور التي تتعامل معها. في محاولة تلخيص الصور وفهمها، تفقد الخوارزميات قدرًا كبيرًا من وضوح البكسل.

يمكن لخوارزمية FeatUp إيقاف فقدان المعلومات هذا وتعزيز دقة أي شبكة عميقة دون المساس بالسرعة أو الجودة. يتيح ذلك للباحثين تحسين دقة أي خوارزمية جديدة أو موجودة بسرعة وسهولة. على سبيل المثال، تخيل أنك تحاول تفسير تنبؤات خوارزمية الكشف عن سرطان الرئة بهدف تحديد مكان الورم. يمكن أن يؤدي تطبيق FeatUp قبل تفسير الخوارزمية باستخدام طريقة مثل خرائط تنشيط الفئة (CAM) إلى عرض أكثر تفصيلاً بشكل كبير (16-32x) للمكان الذي قد يوجد فيه الورم وفقًا للنموذج.

لا يساعد FeatUp الممارسين على فهم نماذجهم فحسب، بل يمكنه أيضًا تحسين مجموعة كاملة من المهام المختلفة مثل الكشف عن الكائنات والتجزئة الدلالية (تعيين تسميات للبكسلات في صورة ذات تسميات كائنات) وتقدير العمق. ويحقق ذلك من خلال توفير ميزات أكثر دقة وعالية الدقة، والتي تعد ضرورية لبناء تطبيقات الرؤية التي تتراوح من القيادة الذاتية إلى التصوير الطبي.

“يكمن جوهر الرؤية الحاسوبية في هذه الميزات العميقة والذكية التي تنبثق من أعماق بنيات التعلم العميق. يقول مارك هاميلتون، طالب دكتوراه في معهد ماساتشوستس للتكنولوجيا في الهندسة الكهربائية وعلوم الكمبيوتر، وعلوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا: “إن التحدي الكبير الذي تواجهه الخوارزميات الحديثة هو أنها تقلل الصور الكبيرة إلى شبكات صغيرة جدًا من الميزات “الذكية”، وتكتسب رؤى ذكية ولكنها تفقد التفاصيل الدقيقة”. ومختبر الذكاء الاصطناعي (CSAIL)، ومؤلف مشارك في ورقة بحثية حول المشروع. “يساعد FeatUp على تمكين أفضل ما في العالمين: تمثيلات ذكية للغاية بدقة الصورة الأصلية. تعمل هذه الميزات عالية الدقة على تعزيز الأداء بشكل كبير عبر مجموعة من مهام رؤية الكمبيوتر، بدءًا من تعزيز اكتشاف الكائنات وتحسين التنبؤ بالعمق وحتى توفير فهم أعمق لعملية صنع القرار في شبكتك من خلال التحليل عالي الدقة.

نهضة القرار

مع تزايد انتشار نماذج الذكاء الاصطناعي الكبيرة هذه، هناك حاجة متزايدة لشرح ما يفعلونه، وما ينظرون إليه، وما يفكرون فيه.

ولكن كيف يمكن لـ FeatUp اكتشاف هذه التفاصيل الدقيقة؟ ومن الغريب أن السر يكمن في اهتزاز الصور واهتزازها.

على وجه الخصوص، يطبق FeatUp تعديلات طفيفة (مثل تحريك الصورة ببضعة بكسلات إلى اليسار أو اليمين) ويراقب كيفية استجابة الخوارزمية لهذه الحركات الطفيفة للصورة. وينتج عن ذلك مئات من خرائط الميزات العميقة التي تختلف جميعها قليلاً، والتي يمكن دمجها في مجموعة واحدة واضحة وعالية الدقة من الميزات العميقة. “نحن نتخيل أن بعض الميزات عالية الدقة موجودة، وأنه عندما نهزها ونطمسها، فإنها ستطابق جميع الميزات الأصلية ذات الدقة المنخفضة من الصور المهتزة. يقول هاملتون: “هدفنا هو معرفة كيفية تحسين الميزات منخفضة الدقة إلى ميزات عالية الدقة باستخدام هذه “اللعبة” التي تتيح لنا معرفة مدى جودة أدائنا”. تشبه هذه المنهجية كيف يمكن للخوارزميات إنشاء نموذج ثلاثي الأبعاد من صور ثنائية الأبعاد متعددة من خلال التأكد من أن الكائن ثلاثي الأبعاد المتوقع يطابق جميع الصور ثنائية الأبعاد المستخدمة في إنشائه. في حالة FeatUp، يتوقعون وجود خريطة ميزات عالية الدقة تتوافق مع جميع خرائط الميزات منخفضة الدقة التي تم تشكيلها عن طريق اهتزاز الصورة الأصلية.

لاحظ الفريق أن الأدوات القياسية المتوفرة في PyTorch لم تكن كافية لاحتياجاتهم، وقدم نوعًا جديدًا من طبقة الشبكة العميقة في سعيهم للحصول على حل سريع وفعال. كانت الطبقة المخصصة الخاصة بهم، وهي عملية خاصة ثنائية مشتركة لاختزال العينات، أكثر كفاءة بأكثر من 100 مرة من التنفيذ الساذج في PyTorch. أظهر الفريق أيضًا أن هذه الطبقة الجديدة يمكنها تحسين مجموعة واسعة من الخوارزميات المختلفة بما في ذلك التجزئة الدلالية والتنبؤ بالعمق. قامت هذه الطبقة بتحسين قدرة الشبكة على معالجة وفهم التفاصيل عالية الدقة، مما أعطى أي خوارزمية تستخدمها تعزيزًا كبيرًا في الأداء.

“هناك تطبيق آخر يسمى استرجاع الكائنات الصغيرة، حيث تسمح خوارزميتنا بتحديد موقع الكائنات بدقة. على سبيل المثال، حتى في مشاهد الطريق المزدحمة، يمكن للخوارزميات الغنية بـ FeatUp رؤية كائنات صغيرة مثل مخاريط المرور، والعاكسات، والأضواء، والحفر حيث يفشل أبناء عمومتهم ذوي الدقة المنخفضة. تقول ستيفاني فو ’22، MNG ’23، وهي طالبة دكتوراه في جامعة كاليفورنيا في بيركلي ومؤلفة مشاركة أخرى في ورقة FeatUp الجديدة: “هذا يدل على قدرتها على تحسين الميزات الخشنة إلى إشارات مفصلة بدقة”. “هذا أمر بالغ الأهمية بشكل خاص للمهام الحساسة للوقت، مثل تحديد إشارة مرور على طريق سريع مزدحم في سيارة ذاتية القيادة. وهذا لا يؤدي فقط إلى تحسين دقة مثل هذه المهام من خلال تحويل التخمينات العامة إلى توطين دقيق، بل قد يجعل هذه الأنظمة أكثر موثوقية وقابلية للتفسير وجديرة بالثقة.

ماذا بعد؟

وفيما يتعلق بالتطلعات المستقبلية، يؤكد الفريق على إمكانية اعتماد FeatUp على نطاق واسع داخل مجتمع البحث وخارجه، على غرار ممارسات زيادة البيانات. يقول فو: “الهدف هو جعل هذه الطريقة أداة أساسية في التعلم العميق، وإثراء النماذج لفهم العالم بمزيد من التفصيل دون عدم الكفاءة الحسابية للمعالجة التقليدية عالية الدقة”.

يقول نوح سنافيلي، أستاذ علوم الكمبيوتر بجامعة كورنيل، والذي لم يشارك في البحث: “يمثل FeatUp تقدمًا رائعًا نحو جعل التمثيلات المرئية مفيدة حقًا، من خلال إنتاجها بدقة الصورة الكاملة”. “لقد أصبحت التمثيلات المرئية التي تم تعلمها جيدة حقًا في السنوات القليلة الماضية، ولكن يتم إنتاجها دائمًا تقريبًا بدقة منخفضة جدًا – يمكنك وضع صورة جميلة كاملة الدقة، والحصول على شبكة صغيرة من الميزات بحجم طابع بريدي. وهذه مشكلة إذا كنت تريد استخدام هذه الميزات في التطبيقات التي تنتج مخرجات كاملة الدقة. يحل FeatUp هذه المشكلة بطريقة إبداعية من خلال الجمع بين الأفكار الكلاسيكية ذات الدقة الفائقة وأساليب التعلم الحديثة، مما يؤدي إلى خرائط مميزة جميلة وعالية الدقة.

“نأمل أن يكون لهذه الفكرة البسيطة تطبيق واسع النطاق. يقول المؤلف الرئيسي ويليام تي. فريمان، أستاذ الهندسة الكهربائية وعلوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا وعضو CSAIL: “إنها توفر إصدارات عالية الدقة من تحليلات الصور التي اعتقدنا من قبل أنها لا يمكن أن تكون إلا ذات دقة منخفضة”.

يرافق المؤلفين الرئيسيين فو وهاميلتون طلاب الدكتوراه من معهد ماساتشوستس للتكنولوجيا لورا براندت SM ’21 وأكسيل فيلدمان SM ’21، بالإضافة إلى Zhoutong Zhang SM ’21، دكتوراه ’22، وجميع المنتسبين الحاليين أو السابقين لمعهد ماساتشوستس للتكنولوجيا CSAIL. يتم دعم أبحاثهم جزئيًا من خلال زمالة أبحاث الدراسات العليا التابعة للمؤسسة الوطنية للعلوم, من قبل مؤسسة العلوم الوطنية ومكتب مدير الاستخبارات الوطنية، ومن قبل مختبر أبحاث القوات الجوية الأمريكية، ومن قبل مسرع الذكاء الاصطناعي للقوات الجوية الأمريكية. ستقدم المجموعة عملها في شهر مايو في المؤتمر الدولي لتمثيلات التعلم.