المعلوماتية > الذكاء الصنعي

اتحاد الفيزياء مع التعلم العميق لإنتاج روبوت قاذف جديد

أعلن باحثون في شركة Google بالتعاون مع جامعتَي Princeton و Columbia ومعهد MIT مؤخرًا عن روبوت أطلقوا عليه اسم TossingBot؛ أي البوت القاذف، وهو قادر على التقاط (حمل) الأجسام وقذفها ومن ثم التقاطها (مسكها) مرة أخرى.

وما يميز هذا الروبوت هو قدرته على التعلم والتكيف؛ أي التعامل مع أجسام بأحجام وأوزان مختلفة قد تكون جديدة عليه ولم يسبق له أن تعاملَ معها.

لكن؛ ما الذي يجعل رمي الأجسام أمرًا صعبًا؟

يعتمد هذا الأمر على عدة عوامل؛ أولها "كيف سيُلتَقط الجسم"، وذلك وفقًا لخصائص الجسم الفيزيائية مثل الكتلة والاحتكاك ومقاومة الهواء، وهذا ما يدعى بالشروط السابقة (pre-throw conditions)، فعلى سبيل المثال؛ إذا التقطنا مفك براغي من وسطه (بالقرب من مركز عطالته) ورميناه، فسوف يسقط عند مسافة أقرب فيما لو التقطناه من نهايته المعدنية ورميناه؛ إذ يمكنه هذا من التأرجح في الهواء ومن ثم الوصول إلى مسافة أبعد.

وإذا غضضنا النظر عن الطريقة التي سيُلتَقط المفك بها، فسنجد أنّ رمي المفك يختلف تمامًا عن رمي كرة صغيرة مثلًا، علمًا أنها ستسقط عند مسافة أقرب نظرًا لمقاومة الهواء، لذا؛ يُعدّ التفكير في آلية أو طريقة واحدة لهذه الأمور جميعها أمرًا معقدًا إن لم يكن مستحيلًا إن صح التعبير.

صورة توضح اختلاف الرميّ باختلاف شكل الجسم وطريقة الالتقاط

وعوضًا عن الطريقة التقليدية (اليدوية) التي تعتمد على معالجة كل حالة على حدة -مثل رمي الكرة بطريقة معينة، في حين يكون رمي المفك بطريقة أُخرى، وهكذا...- عمل الباحثون على إيجاد طريقة تعمل على تكامل (دمج) الفيزياء مع التعلم العميق (Unifying Physics and Deep Learning)؛ إذ كان القسم الأساسي في بناء هذا الروبوت بتعلُّمه -باستخدام التعلم العميق Deep Learning- التعامل مع حالات فيزيائية سهلة كالتعامل مع الأجسام المتناظرة التي تشبه الكرة والمكعب والأقلام والتي يمكن بسهولة التنبؤ بالارتفاع الذي يجب أن تكون عليه وقوة القذف وغيرها من العوامل اعتمادًا على الشبكات العصبونية. وقد ساعده هذا الأمر على التدريب ليصبح قادرًا على تعميم النتائج التي وصل إليها في التعامل مع سيناريوهات أصعب وأكثر تعقيدًا؛ مثل رمي الفواكه البلاستيكية (فواكه مزيفة)، والأجسام ذات الشكل الخارجي المعقد.

اعتُمِد لتحقيق هذه الغاية نهج التعلم بدون إِشراف (Unsupervised Learning)، ففي بداية التدريب تُولَّد قيم عشوائية لأوزان الشبكة العصبونية (يمكن عدّ الوزن بمثابة قيمة أحد المتغيرات في المعادلة الرياضية، والمطلوب الوصول إلى أفضل قيمة ممكنة للأوزان للحصول على حل "تقريبي" مقبول).

يبدأ الروبوت برمي الأجسام مرارًا وتكرارًا ويقع في كثير من الأخطاء في بداية الأمر، ومع مرور الوقت؛ يتعلم طريقة أفضل لالتقاط الجسم، وبدوره يرميها على نحو أفضل أيضًا، معدّلًا على الأوزان الخاصة به.

وبعد 10000 محاولة التقاط ورمي -أي ما يعادل 14 ساعة من التدريب المتواصل- تمكن الروبوت من تحقيق نتائج التقاط صحيحة بنسبة 87% ونتائج رمي صحيحة بنسبة 85%.

ومن أجل تلخيص الآلية السابقة لدينا الصورة الآتية، وترتيب العمليات فيها كما يأتي:

قراءة الصورة التي تحوي الأجسام.
تعرف محتوى السلة عن طريق شبكة عصبونية (Perception Network).
استخلاص مميزات كل جسم (Features).
تحديد سرعة رمي أولية تقديرية من قبل الروبوت نفسه بناءً على الموقع الهدف.
دمجها مع المميزات المستخلصة (Intermediate features).
تقديم نتيجة الدمج السابقة إلى شبكة عصبونية خاصة تحدد المكان الذي سيُلتَقط منه (Grasping Network).
إدخال (Intermediate features) إلى شبكة عصبونية خاصة بالرمي للتنبؤ بالسرعة.
دمج السرعة من المرحلة رقم 4 مع السرعة من المرحلة رقم 7.
محاكاة جودة هذا التنبؤ.
إعادة المراحل السابقة 16 مرة، وذلك بتدوير الصورة بـ 16 زاوية مختلفة.

ومن ثم تُختار أفضل نتيجة كي يعتمدها الروبوت بنفسه.

ملخص ألية عمل الروبوت

ولكي تتضح الصورة أكثر؛ يُوضَع عديد من الأجسام في السلة وتُلتَقَط الصور بكاميرا مثبتة في أعلى الروبوت وعدستها نحو الأسفل، ومن ثم تُقدَّم هذه الصور إلى الشبكة العصبونية المدرّبة لاستخراج ميزات عميقة من البكسلات (pixel-wise deep features) عن طريق عنقدة (clustering) هذه الميزات -أي فصلها إلى مجموعات- استنادًا إلى التشابه والتعرف إلى أقرب الجيران كما في الخريطة الحرارية (تشير المناطق الأكثر سخونة إلى مزيد من التشابه)؛ إذ يمكن تعرف الكرات الصغيرة (كرات الطاولة) جميعها في المشهد.

وعلى الرغم من وجود كتلة برتقالية تشترك في لون مشابه مع كرات الطاولة (كما في الصورة)؛ لكن تحتلف ميزاتها بقدر معين يساعد على الفصل فيما بينهم. وبالمثل، يمكننا أيضًا استخدام الميزات المُستخرَجة لتحديد الأقلام جميعها التي تشترك في شكل وكتلة متشابهين؛ لكنها لا تتشارك الألوان.

وتشير هذه الملاحظات إلى أن TossingBot يعتمد على المميزات الهندسية (مثل الشكل) لتعلُّم الإمساك والرمي على نحو واضح.

الصورة الملتقطة والتي يعتمد عليها الروبوت في التحليل

والجدير بالذكر أن ذلك تم دون إشراف مباشر، وعلى الرغم من أن نتائج TossingBot واعدة؛ لكنها محدودة نوعًا ما؛ إذ يُفترَض أن الأجسام قوية بما يكفي لمقاومة اصطدامها بعد إلقائها، لذا يجب توفير آلية تساعد على التعامل مع الأجسام الهشة، أو ربما تدريب روبوتات أخرى على التقاط الأجسام بطرائق تهدئ من حدة الهبوط وتخففه. إضافة إلى أن TossingBot يركّز على التحكم في المعاملات اعتمادًا على البيانات المرئية فقط، لذا قد تساعد إضافة حساسات أو مجسات لتعرف ملمس الجسم وعزم دورانه على تمكين النظام من التفاعل على نحو أفضل مع الأجسام الجديدة.

إن التكامل بين الفيزياء والتعلم العميق جعل من أحد الأمور التي كنا نعدّها صعبةً للغاية أمرًا واقعًا وممكنًا؛ مما يطرح سؤالًا مثيرًا للاهتمام: كيف يمكن تعميم الفكرة على أنواع أخرى من المَهمات والتفاعلات لتوسيع الآمال في إيجاد روبوتات تساعدنا في حياتنا اليومية؟