المعلوماتية > الذكاء الصنعي

روبوتُك الشخصيّ تُعلّمه لغتك وكأنه طفلُك الصغير!

يتعلّم الأطفالُ اللغةَ عن طريق مراقبة البيئة، والاستماع إلى الناس في محيطهم، وإنشاء روابط بين ما يسمعونه وما يرونه. ومن بين أشياء أخرى، يساعدُ ذلك الأطفالَ على ترتيبِ كلمات لغتهم؛ مواقع الأفعال والأسماء على سبيل المثال.

لكنْ عند الانتقال إلى عالم الحاسوب؛ يكون تعلّم اللغة من مهمة المحلّلات اللغوية النحوية والدلاليّة. وتزداد أهمية هذه المُحلّلات في عمليات البحث على الويب، واستعلام قواعد البيانات باللغات الطبيعية، وأنظمة التعرّف إلى الأصوات من مثل: Siri وAlexa، ويمكن استخدامها في الروبوتات المنزلية.

ولكن يُمكن أن يستغرق جمع بياناتِ الشروحاتِ وقتًا طويلاً، وربما يصعب بالنسبة إلى اللغات الأقلّ شيوعًا، بالإضافة إلى أنّ البشر لا يتّفقون دومًا مع الشروحات، وربما لا تكون الشروحات نفسها دقيقة كفاية في وصفها للطريقة الطبيعية التي يتحدث بها الناس.

ويصفُ باحثو معهد ماستشوستس للتقنية (MIT) مُحلِّلاً لغويًا يتعلّم عن طريق المُلاحظة بطريقة أشبه ما تكون مُحاكاة لعملية اكتساب صوتيات اللغة لدى الأطفال، وذلك في ورقة علمية قُدِّمت في مؤتمر الطرائق التجريبية في معالجة اللغات الطبيعية، والذي عُقد في تشرين الأول/ أكتوبر 2018.

وبُغية تعلّم بنية اللغة؛ يُدرَّب المُحلّل اللغوي على مقاطع فيديو مُرفقة بشروحاتٍ مَضبوطة التوقيت لتوضيح ارتباطِ الكلمات مع الأفعال والعناصر المُسجَّلة، وعند استخدام جُملة جديدة غير موجودة في مجموعة التدريب، يُطبّق المُحلل اللغوي ما تعلّمه مُسبقًا في تنبؤ ما تؤول إليه هذه الجملة.

ويدعى المنهج المُتّبع في تدريب هذه المنظومة باسم (التدريب بإشراف ضعيف- weakly supervised)؛ أي أنّه يتطلّب بيانات تدريب محدودة، وذلكَ مُحاكاةً لطريقة الأطفال في التعلّم عبر مراقبة البيئة المحيطة بهم، دون الحاجة إلى تبيان أي سياق مُحدد لهم. ووفقًا للباحثين؛ من شأن هذا المنهج أنّ يوسّع أنواع البيانات ويُقلِّص الجهد اللازم لتدريب المُحلّلات اللغوية.

المؤلفون المشاركون في هذه الورقة هم: (كاندس روس- Candace Ross)؛ طالب دراسات عُليا في قسم الهندسة الكهربائية وعلوم الحاسوب، ومختبر علوم الحاسوب والذكاء الصنعي (CSAIL)، ومركز الأدمغة والعقول والآلات (CBMM) في MIT، و(يفغيني بيرزاك- Yevgeni Berzak)؛ باحث ما بعد الدكتوراه في مجموعة اللغويات النفسية الحاسوبية ضمن قسم علوم الدماغ والعلوم المعرفية، و(باتوشيج مانغينباير- Battushig Myanganbayar)؛ طالب دراسات عُليا في مختبر علوم الحاسوب والذكاء الصنعي (CSAIL)، و(أندريه باربو- Andrei Barbu)؛ باحث في مختبر (CBMM)، ومركز (CBMM).

مُتعلِّم بصريّ (Visual learner)

ضمّ الباحثون إلى مشروعهم مُحلّلاً دلاليًا أيضًا مُرفقًا بعنصر يطبّق تقنيات الرؤية الحاسوبية، ويتدرب على تعرُّفِ الأغراض والأشخاص والنشاطات ضمن مشاهد الفيديو؛ في حين يُدرَّب المُحلّل الدلالي على الجمل المُذيّلة في الفيديو أجلَ ربط معنى كل جملة مع كل كلمة بواسطة شيفرة برمجية تحقق هذا الربط، وعلى العلاقات بين الكلمات.

ةوفقًا لما صرّحه (كاندس روس- Candace Ross) أحد المُشاركين في هذا البحث؛ دُرِّب المُحلل بواسطة مقاطع الفيديو، التي أصبحت موطئًا جيدًا لإزالة أي غموض في الاستدلالات، ولكنْ إن شكَّ في أمر أحد الأغراض أو الأفعال في الجملة؛ يمكنه الإشارة إلى الفيديو لاستيضاح اللَّبْس الحاصل، وقد فسّر ذلك في قوله: " هُنالك عناصرُ زمنيةٌ، وأغراضٌ تتفاعل مع بعضها أو مع الأشخاص، وخصائصُ عاليةُ المستوى لستَ قادرًا على رؤيتها في مُجرَّد صورةٍ ثابتة أو بضعِ عباراتٍ لغوية".

وقدجمّع القائمون على المشروع مجموعة بيانات تضمُّ نحو 400 مقطع فيديو، تحوي مشاهد لأشخاص يُنجزون أفعالًا من مثل: التقاط شيء ما أو رميه، والمشي نحو غرض ما، ثم إنّ المُشاركين في منصة (Mechanical Turk) الاجتماعية أنجزوا 1200 تسجيلاً مرئيًا لمقاطع الفيديو تلك، لِيَقسم الفريق هذه البيانات إلى 840 مقطع تُوظَّف في التدريب، و360 مقطع المتبقين في الاختبار بعد التدريب.

وفي سبيل إنجاز التدريب؛ زوّد الباحثون المُحلّلَ اللغوي بالخرج المرغوب، الذي يُمثَّلُ في تحديد ما إذا كانت الجملة تصف الفيديو المُعطى بدقّة؛ أي زوّدوه بمقاطع الفيديو والنصّ التوضيحي الخاص به، ليستخلصَ المعاني المُمكنة على هيئة تعابيرَ رياضيةٍ منطقية.

لكن كيف ذلك؟

- إليكَ بمثالٍ لتتضح الفكرة؛ بفرض وجود الجملة الآتية: "تلتقطُ المرأةُ التفاحةَ"، فيكون التعبير الرياضي الموافق لها، مثلاً، كالآتي: "λxy. woman x, pick_up x y, apple y".

ومن ثَمّ تُدخَل هذه التعابير الرياضية والمقاطع المرئية إلى خوارزمية رؤية حاسوبية طُوِّرت من قبل باربو وزُملائِه، تُدعى " Sentence Tracker"، وتتبع الخوارزمية أُطُر الفيديو كلها لتتحقق من صحّة توصيف الحركات والأفعال، وبهذه الطريقة؛ تُحدِّد ما إذا المعنى مُناسب للفيديو أم لا.

تتمثل إحدى الاستخدامات المستقبلية لهذا المحلل في تحسين التفاعُل الفطري بين البشر والروبوتات الشخصية؛ إذْ من شأنه تعزيز فهم الروبوت للأوامر المنطوقة الموجّهة إليه، وتكيّفه مع أسلوب التحدث الخاص بمالكه، وقد يساعد المحللُ الباحثين على تكوين فهمٍ أفضل لطريقة تعلّم الأطفال للغة.

هل سيأتي يومٌ يفهمك روبوتك الشخصي إن حدّثته بلهجتك الخاصة؟

فضلاً شاركنا رأيك في هذا الموضوع.

المصادر:

هنا