المعلوماتية > الذكاء الصنعي

الذكاء المكاني لدى الروبوتات

منذ الثورة الصناعية تستمر الآلات بالتطور وإنجاز أغلب المَهمّات الروتينية لتُريح الإنسان وتترك له الوقت اللازم للإبداع والتطوير؛ فقد استمر الإنسان بتطوير الآلة لتكون مساعدًا له في مختلف المجالات، وهذا ما فعلته الروبوتات.

لتحقيق هذه المَهمّات العالية المستوى بأعلى قدر من الموثوقية والاحترافية؛ يجب تزويد الروبوتات بإدراك تام لبيئتها المادية المحيطة، وهو ما يُعرف بالتصور المكاني (spatial perception) الذي يشابه تصوُّرَ الإنسان لما حوله. وإنّ هذا ما يهدف إليه الأنموذج الجديد الذي طوره فريق من الباحثين من معهد ماساتشوستس للتكنولوجيا MIT؛ يشمل لوكا كارلون Luca Carlone -أستاذ مساعد للملاحة الجوية والفضائية في معهد ماساتشوستس للتكنولوجيا- ومجموعة من طلابه منهم أنتوني روزينل Antoni Rosinol.

يقول Carlone: "من أجل اتخاذ أي قرار في العالم، يجب أن يكون لديك أنموذج عقلي للبيئة المحيطة بك، هذا شيء سهل للغاية بالنسبة إلى البشر، ولكن بالنسبة إلى الروبوتات إنها مشكلة صعبة للغاية، حيث تتعلق بتحويل قيم البكسل التي يرونها بواسطة الكاميرا إلى فهم للعالم" (1).

المكون الرئيسي لأنموذج الفريق الجديد هو Kimera، وهي مكتبة مفتوحة المصدر طورها الفريق سابقًا لبناء أنموذج هندسي ثلاثي الأبعاد للبيئة، تبني Kimera شبكة دلالية ثلاثية الأبعاد كثيفة للبيئة، ويمكنها تتبُّع البشر في البيئة المحيطة.

يُمكّن الأنموذج الجديد -الذي يسمّونه الرسوم البيانية الديناميكية الثلاثية الأبعاد 3D Dynamic Scene Graphs- الروبوت من إنشاء خريطة ثلاثية الأبعاد لمحيطه بسرعة والتي تتضمن الأشياء ودلالاتها أيضًا، على سبيل المثال؛ كرسي مقابل طاولة، والأشخاص، والغرف، والجدران، والهياكل الأخرى التي يراها الروبوت في بيئته.

كذلك يسمح الأنموذج للروبوت باستخراج المعلومات ذات الصلة من الخريطة الثلاثية الأبعاد، وذلك للاستعلام عن موقع الأشياء والغرف، أو عن حركة الأشخاص في مسارها (1).

يقول Carlone: "إن هذا التمثيل المضغوط للبيئة مفيدٌ لأنه يسمح للروبوت الآلي باتخاذ القرارات بسرعة وتخطيط مساره، وهذا ليس بعيدًا جدًّا عمّا نفعله نحن البشر؛ فإذا كنت بحاجة إلى تخطيط مسار للذهاب من منزلك إلى معهد ماساتشوستس للتكنولوجيا، فأنت لا تخطط لكل خطوة تريدها، أنت تفكر فقط على مستوى الشوارع والمعالم؛ مما يساعدك على تخطيط مسارك على نحو أسرع".

بعيدًا عن المساعدة المنزلية، يقول Carlone إنّ الروبوتات التي تتبنّى هذا الأنموذج الجديد للإدراك المكاني العقلي للبيئة المحيطة قد تكون مناسبة للوظائف العالية المستوى الأخرى أيضًا؛ مثل العمل جنبًا إلى جنب مع الناس في المصنع، أو استكشاف موقع الناجين في الكوارث.

في الوقت الحالي، تقدمت الرؤية والملاحة في الروبوت على نحو رئيسي على طريقين:

رسم الخرائط الثلاثية الأبعاد (3D mapping): تمكّن الروبوتات من إعادة تشكيل بيئتها في ثلاثة أبعاد في أثناء استكشافها للبيئة في الزمن الحقيقي.
التجزئة الدلالية (Semantic Segmentation): تساعد الروبوت على تصنيف الميزات في بيئته بوصفها كائناتٍ دلالية؛ مثل سيارة مقابل دراجة، والتي غالبًا ما تُنجَز -حتى الآن- على صور ثنائية الأبعاد.

إنّ أنموذج الباحثين "Carlone" و"Rosinol" الجديد للإدراك المكاني هو أول من رسم خريطة ثلاثية الأبعاد للبيئة في الزمن الحقيقي، إضافةً إلى تسمية الكائنات والأشخاص (الديناميكيين على عكس الكائنات)، والهياكل داخل تلك الخريطة الثلاثية الأبعاد.

يقول Carlone: "مثل المخلوق الأسطوري الذي هو مزيج من الحيوانات المختلفة، أردنا أن تكون Kimera مزيجًا من رسم الخرائط والفهم الدلالي في الفضاء الثلاثي الأبعاد".

تعمل Kimera عن طريق التقاط تسلسل صور من كاميرا الروبوت، إضافة إلى القياسات من أجهزة الاستشعار الموجودة على سطح الروبوت؛ لتقدير مسار الروبوت أو الكاميرا وإعادة بناء المشهد كشبكة ثلاثية الأبعاد، علمًا أنّ ذلك كلّه يُنجَز في الزمن الحقيقي.

لإنشاء شبكة دلالية ثلاثية الأبعاد (3D semantic mesh)؛ تستخدم Kimera شبكة عصبونية حاليّة مُدرَّبة على ملايين الصور الواقعية للتنبؤ بدلالة كل بكسل، ثم عرض هذه الدلالات الثلاثية الأبعاد باستخدام تقنية تُعرف باسم "الصب بالأشعة ray-casting" التي تُستخدَم عادةً في الرسوميات الحاسوبية لتقدم في الزمن الحقيقي، والنتيجة هي خريطة بيئة الروبوت التي تشبه شبكة كثيفة ثلاثية الأبعاد؛ إذ يُرمّز كل وجه بوصفه جزءًا من الأشياء والهياكل والأشخاص داخل البيئة (1).

إذا كان الروبوت يعتمد على هذه الشبكة فقط للتنقل عبر بيئته، فستكون مَهمةً مكلفة من الناحية الحسابية وتستغرق وقتًا طويلًا، ولذلك؛ بنى الباحثون Kimera وطوروا خوارزميات لإنشاء "رسوميات للمشهد" ديناميكية ثلاثية الأبعاد من شبكة Kimera الدلالية الكثيفة الأولية الثلاثية الأبعاد.

إنّ الرسوميات للمشهد هي نماذج رسوميات حاسوبية شائعة تتعامل مع المشاهد المعقدة وتعرضها، وعادةً ما تُستخدَم في محركات ألعاب الفيديو لتمثيل البيئات الثلاثية الأبعاد.

في حالة الرسوميات للمشهد الديناميكي الثلاثي الأبعاد، فإنّ شبكة Kimera الدلالية الثلاثية الأبعاد مفصلة إلى طبقات دلالية مميزة، بحيث يمكن للروبوت "رؤية" مشهد من خلال طبقة أو عدسة معينة. وتتقدم الطبقات في التسلسل الهرمي من الأشياء والأشخاص، إلى فتح المساحات والهياكل مثل الجدران والسقوف، إلى الغرف والممرات والقاعات، وأخيرًا المباني بالكامل.

يقول Carlone: "يجنّب هذا التمثيل الطبقي الروبوت فهم مليارات النقاط والوجوه في الشبكة الثلاثية الأبعاد الأصلية. كذلك تمكن الباحثون من تطوير خوارزميات تتعقب حركة البشر وشكلهم في البيئة في الزمن الحقيقي ضمن طبقة الأشخاص والأشياء".

اختبر الفريق أنموذجهم الجديد في محاكٍ واقعي للصور، طُوِّرَ بالتعاون مع مختبر MIT Lincoln، وهو يحاكي الروبوت الذي يتنقل في بيئة مكتبية ديناميكية مليئة بالأشخاص الذين يتنقلون.

يقول Carlone: "نحن نمكّن الروبوتات على نحو أساسي من الحصول على نماذج عقلية مشابهة لتلك التي يستخدمها البشر، يمكن أن يؤثر ذلك في العديد من التطبيقات؛ بما في ذلك السيارات الذاتية القيادة، والبحث، والإنقاذ، والتصنيع التعاوني، والروبوتات المحلية، والواقع الافتراضي (VR)، والواقع المعزز (AR).

تخيّل ارتداء نظارات الواقع المعزز التي تدير الخوارزمية لدينا، ستكون النظارات قادرة على مساعدتك في استفسارات مثل: "أين تركت كوبي الأحمر؟" و"ما هو أقرب مخرج؟"، فالنظارات تدرك البيئة من حولك وتفهم الأشياء والبشر وعلاقاتهم" (1).

وقد وفّر الفريق أيضًا أولَ تقنية إدراك مكانية تلقائية بالكامل Spaital Perceptlon eNgine (SPIN)، وذلك بهدف إنشاء رسوميات المشهد الديناميكي (Dynamic Scene Graphs (DSG، ومن ثم اختباره في محاكي صور واقعية.

يُبنَى DSG دون إشراف الإنسان؛ إذ يُقدَّم أنموذج بيئة مشروح يعتمد على إجراء شبه أوتوماتيكي لاستخراج رسوميات المشهد.

وُسِّعَت Kimera لتشمل العناصر الديناميكية في الشبكة، إضافة إلى استخدام متتبع الخصائص Intertial (Measurement Unit (IMU، وكلّ هذا بهدف زيادة القوة الإدراكية للروبوت في مشاهد البيئات المزدحمة.

يتنبّأ SPIN ويتتبع النماذج البشرية الكثيفة، ثم يبني مخططَ موقع من أجل التحسين المستقبلي، يكون دخل SPIN هو تسلسل بيانات من كاميرا ستيريو؛ وهي كاميرا لالتقاط صورتين للشيء نفسه في الوقت ذاته من مناظير متجاورة بحيث يشكّلان زوجًا مجسّمًا، والخرج عبارة عن رسوميات المشهد الديناميكي الثلاثية الأبعاد (2).

كذلك اعتُمِدَ على نماذج روبوت خاصة بالتطوير الإدراكي، والتي تهدف إلى تقديم فهم أعمق لكيفية تطور الوظائف الإدراكية العالية لدى الإنسان، والتي تتطور عن طريق نهج يبني الوظائف المعرفية ويدعى الأنموذج "الروبوتات التنموية المعرفية (Cognitive Developmental Robotics (CDR"، واعتُمِدَ فيه مبدأ الهرمية الموجودة في الجهاز العصبي لدى الإنسان ومحاكاتها لدى الروبوت، والتي تحسّن التصوّر والإدراك العالي، ومن ثم رسم الخرائط والحركة الاختيارية (3).

يقول Rosinol: "قد أصبح نهجنا ممكنًا للتو بفضل التطورات الحديثة في التعلم العميق (Deep Learning) وعقودٍ من البحث في الإدراك المكاني المتزامن (Simultaneous Localization) ورسم الخرائط (Mapping). نحقق من خلال هذا العمل قفزةً نحو حقبة جديدة من الإدراك الخاص بالروبوت يسمى الذكاء المكاني، وهو في مراحله الأولى؛ لكنّه يتمتع بإمكانيات كبيرة في مجال الروبوتات والواقع الافتراضي والواقع المعزز" (1).

المصادر:

1. “Alexa, go to the kitchen and fetch me a snack” [Internet]. MIT News. 2020 [cited 30 July 2020]. Available from: هنا

2. [Internet]. 2020 [cited 30 July 2020]. Available from: هنا

3. [Internet]. 2020 [cited 30 July 2020]. Available from: هنا