المعلوماتية > الذكاء الصنعي

تلفازك سيفهمك أكثر.. والفضل للذكاء الصنعي!

صُمِّمت منصّة الترفيه Xfinity X1 لمشاهدةِ الأفلام والمسلسلات من قِبل شركة Comcast.

ما يميِّزها هو أنَّ التحكُّم فيها يكون عن طريقِ الصوت بدلًا من جهازِ التحكُّم التقليدي Remote contro.

وقد نُشرت ورقةٌ بحثية تتمحور حول استخدام تقنيّات الذكاء الصنعي الجديدة لتحسينِ إمكانيات فهم نظام Xfinity X1 لعمليات البحث (الاستعلام) عن طريقِ الصوت.

كيف يعمل نظام Xfinity X1 ؟

يقول جيمي لين؛ وهو بروفيسور في جامعةِ وتورلو: " تأتي المنصّة مع تحكُّم صوتي؛ والذي يقبل طلباتِ البحث الصوتية كافةً من المستخدم، قُل لتلفازِك أن يغيِّر القناة.. اطلب أفلامًا للأطفال.. أو حتّى اسألْه عن نشرة الطقس..".

إذن؛ سيناريو العمل هو الآتي:

سيقول المستخدِم ما يريده، ومن ثمَّ يجب على النظام فهمُ مقصده ومعالجته، وفي النهاية يجب على النظام الاستجابةُ استجابةً مناسبة لتلبيةِ الطلب.

وتُظهِر سجلّات استخدام الاستعلامات الصوتية أنَّ خدمة الاستعلام والبحث الصوتي تتلقَّى استهلاكًا كبيرًا، وهي أيضًا بديلٌ محبَّب للمستخدِم مقارنةً بالكتابة على لوحةِ المفاتيح.

وتتعدَّد أنواع الاستعلامات الصوتية التي يلجأ إليها المستخدِم؛ من الانتقال بين الأفلام والمسلسلات إلى طلبات لا علاقة لها بمشاهدةِ البرامج، وتُعدُّ مثل هذه الطلبات غامضةً بالنسبة إلى النظام أو غير واضحة (تخفيض شدَّة الصوت مثلًا).

وأنشأ الباحثون معماريةً جديدةً لشبكة عصبونية لتحسينِ الاستعلام الصوتي على المنصّة؛ وقد ارتكز حلُّهم على فكرتين أساسيّتين:

- الأولى: عمدوا إلى استغلالِ سياق الجلسة الواحدة، وتخلَّصوا من الأخطاء الناتجة عن التعرُّف الأوتوماتيكي إلى الصوت (ASR (Automated speech recognition عن طريقِ الشبكات العصبونية المتكرِّرة الهرمية.

*نقصد بسياقِ الجلسة تسلسلَ استعلامات المستخدِم عن الموضوع نفسه لتوضيحِ طلبات البحث والاستعلام المستقبلية.

- الثانية: يتطلَّب فهم الاستعلام وجودَ تكاملٍ بين طلبات الاستعلام المختلفة، وقد استطاع الباحثون تحقيقَ هذا التكامل عن طريقِ استخدام شبكة عصبونية متعدِّدة المهام؛ وهذه المهام هي:

1- توقُّع البرنامج program prediction.

2- تصنيف الهدف من الاستعلام intent classification.

3- ترميز الاستعلام الواحد query tagging.

واقترح الباحثون نموذجَين لتحسينِ فهم الاستعلامات الصوتية، وقد فُعِّلَ ووُظِّفَ النموذج الأول في المنصّة؛ إذ إنَّه يُخدِّم ملايين الاستعلامات يوميًّا مع تحسينِ تجربة المستخدم.

يعالج النموذج الأول المفعَّل على المنصّة الاستعلاماتِ الصعبة فقط، والتي لولاه لكانت ستُتَجاهَل؛ فما من داعٍ مثلًا لتفعيلِ شبكة عصبونية للاستجابة لطلبِ بحثٍ يقول فيه المستخدم اسمَ القناة فقط مثل "CNN".

وأمَّا النموذج الجديد الثاني -وهو النموذج الذي يعتمد على الشبكات العصبونية متعدِّدة المهام- فقد وُصِّفَ في الورقة البحثية التي نُشرِت، ولم يُستخدَم عمليًّا في المنصّة بعد، ولكنَّه أظهر الكفاءةَ ضمن التجارب فقط.

ماذا يُقصد بـ Multi-task learning التعليم متعدِّد المهمات؟

يُعدُّ التعلُّم متعدِّد المهمّات (MTL) نموذجًا من نماذجِ تعلُّم الآلة؛ إذ تُحسَّن أهدافُ عدّة مهام متّصلة مع بعضِها.

يتمثَّل الهدف الرئيس من -التعلُّم متعدِّد المهمات- بأنه عندما تكون هذه المهمات المتعدِّدة غيرَ مستقلّة بعضها عن بعض (أي متّصلة)؛ فإنَّ التدريب المشترك للشبكة العصبونية يعزِّز من أداءِ المهمات الفردية، وبذلك يؤدِّي إلى تعميمٍ أفضل عن طريق المعامِلات المشتركة.

وأُخِذَ بعين النظر التفكير بالتعلُّم متعدِّد المهمات من أجلِ حلِّ العديد من المشكلات المختلفة في العديد من المجالات التقنية؛ مثل مجال الرؤية الحاسوبية وتطبيقات الويب.

النموذج الأول:

ركَّزت المحاولة الأولى للباحثين في معالجةِ مشكلات الاستعلام الصوتي على التحديد المباشر للبرنامج الذي ينوي المستخدِم مشاهدتَه، إذن؛ هذا النموذج قائمٌ على التنبُّؤ بالبرنامج المراد مشاهدتَه.

وقد عمد الباحثون إلى استغلالِ سياق الجلسة الواحدة لتوضيحِ طلبات البحث والاستعلام المستقبلية.

ويستطيع النظام مراكمةَ الإشارة في سياقٍ واحد ليتمكَّن من توضيحِ الاستعلامات المستقبلية عن طريقِ عدّة استعلامات للجلسة الواحدة.

ويستفيد النظام من سياقِ الجلسة الواحدة، وذلك باستخدامِ شبكة عصبونية متكرِّرة هرمية والتي سنطلق عليها اسم (N-HRNN) اختصارًا ل Navigational Hierarchical Recurrent Neural Network.

صورة توضِّح معمارية الشبكة الأولى المعتمِدة على سياقِ الجلسة

على سبيلِ المثال؛ قال المستخدِم العبارة الآتية “game of throw”؛ يمكن أن تشير هذه العبارة إمَّا إلى المسلسل التلفزيوني "Game of Thrones" (بسببِ خطأ في اللفظ)، وإمَّا إلى لعبة تلفزيونية تسمَّى "Fish Throw Game".

ولكن في حالِ قال المشاهد قبل لحظات قليلة عبارة "سلسلة HBO"؛ فمن الأرجح أنّه يبحث عن المسلسل التلفزيوني وليس عن اللعبة؛ لأنَّنا نعرف أنَّ هذا المسلسل يُعرَض على قناةِ HBO.

إيجابيات النموذج الأول:

تمكَّن النظام باستخدامِ N-HRNN من الاستجابة إلى ثلاثةِ أرباع طلبات البحث التي لم يكن بمقدورِه معالجتها مسبقًا، ونجح في تحسينِ تجربة المستخدم تحسينًا ملحوظًا بنسبةِ ثلثَي الوقت، ولم يكن له في الثلث الباقي تأثيرٌ سلبي مطلقًا.

سلبيات النموذج الأول:

لاحظ الباحثون سلبيَّتين رئيستين على الرغم من نجاح N-HRNN في تحسينِ أداء النظام، هما:

يعتمد النموذج منهجيةً تعتمد على التصنيف، وهذه المنهجية غير قادرة على التنبُّؤ بالبرامج التي لم يسبق لأحد مشاهدتَها (مثل المسلسلات التي أُضيفَت حديثًا)، أو حتّى البرامج غير المشهورة التي نادرًا ما يشاهدها أحد.

وجد الباحثون بعد تحليلهم للعديد من الاستعلامات أنَّ النظام لم يكن قادرًا على التفريق بين البحث عن برامج لمشاهدتِها، وبين طلبات المستخدم غير المحدَّدة (مثل طلب البحث عن برامجِ رسوم متحرّكة للأطفال عمومًا دون تحديد اسم البرنامج).

ولم يستطع النظام التفريقَ بين الأوامر المباشرة للنظام (مثل تشغيل الترجمة)، وبين الاستعلامات التي ليس لها علاقة بالمنصّة الترفيهية أساسًا (مثل طلب الاستعلام عن حالةِ الطقس).

وفي الواقع فإنَّ قرابة 40٪ من استعلاماتِ المستخدم إمَّا غير محدَّدة، وإمَّا لا تتعلّق بعرضِ برنامج على الإطلاق.

فمن الطبيعي إذن أنَّ النموذج القائم على التنبُّؤ بالبرنامج لن يتمكَّن من الاستجابة لمثلِ هذه الاستعلامات؛ وهو ما جعل الباحثون يلجؤون إلى دراسةِ نموذج ثان لتحسينِ البحث، وتوصَّلوا إلى النموذج الثاني..

النموذج الثاني:

اقترح الباحثون معماريةً جديدة للشبكة العصبونية مرتكِزة على تعدُّد المهمات في محاولةٍ لإيجادِ حلّ أفضل للمشكلة، والهدف من هذه المعمارية فهمُ طلب استعلام المستخدم عن طريقِ تنفيذ ثلاث مهمات مختلفة ولكنّها متّصلة ببعضِها، وهذه المهام هي:

التنبُّؤ بالبرنامج program prediction: للتعرُّف مباشرةً إلى البرنامج أو القناة التي قالها المشاهد من قائمة تضمُّ عشراتِ الآلاف من البرامج ومئاتٍ من القنوات.

تصنيف الهدف intent classification: وهو لفهمِ ما يودُّ المشاهد فعلَه؛ فقد يكون هدف المستخدم تسجيلَ برنامج معيَّن وليس مشاهدته، وقد يكون للمستخدم أهدافٌ أخرى؛ مثل البحث عن كيفيّةِ استكشاف أخطاء اتّصال Wi-Fi وإصلاحها.

ترميز الاستعلام query tagging: حدّد الباحثون علامةً أو رمزًا في كلِّ جزء من كلامِ المشاهد؛

ويوجد 12 نوعًا مختلفًا من الرموز مثل رمز "الشخص"؛ وهو من أجلِ السماح للنظام بتحديدِ أسماء الممثِّلين، أو رمز "الفئات" لتحديدِ ما إذا كان الاستعلام عن مسلسل أو فلم، ورمز "النوع" لتحديدِ نوع البرنامج؛ أكشن أو دراما أو كوميدي.. والعديد من الرموز الأخرى.

كيف تعمل هذه المهمات مع بعضِها؟

تعمل هذه المهمات الثلاث معًا بطريقة تكاملية في الحالات التي يتداخَل فيها القرار.

لنأخذ مثالًا لفهمِ حالات تداخل القرار: على سبيل المثال؛ يكتشف النظام أنَّ هدف المستخدم هو تبديل القنوات؛ وهو ما أكَّدته كلا مهمَّتَي التنبّؤ بالبرنامج وترميز الاستعلام.

فحينما تتّفق عدّة مهمات من النظام على اتِّخاذ القرار نفسه؛ يؤدّي هذا إلى زيادةِ وثوقية النظام بقرارِه.

وأمّا في حالاتِ فشل مهمّة التنبّؤ بالبرنامج؛ فيمكن استخدام العلامات المميّزة tagged tokens من مهمّة ترميز الاستعلام؛ إذ يستخدم النظام هذه العلامات بوصفِها كلمات رئيسة للبحث.

وغالبًا ستفشل مهمّة توقُّع البرنامج program prediction في حالِ قال المشاهد "مشاهدة أفلام توم هانكس على HBO"؛ نظرًا لكونِ المشاهد لم يبحث عن برنامج محدّد.

ولكن في النموذج الثاني سيتمكّن النظام من تحليلِ طلب البحث إلى نموذج منطقي؛ وذلك عن طريقِ ترميزات الاستعلام :

[الشخص= "توم هانكس"، والفئة= "أفلام"، والقناة= "HBO"].

ومن ثمَّ سيُظهِر النظام قائمةَ خيارات للمشاهد.

ما الحاجة إلى أن تعمل كلًّا من مهمّتَي التنبُّؤ بالبرنامج وتصنيف الهدف عملًا متكاملًا بعضها مع بعض؟

من المرجَّح أنَّه عندما تحدِّد مهمّة التنبُّؤ بالبرنامج برنامجًا أو قناةً يريدها المستخدم بثقة عالية؛ ستكون رغبةُ المستخدم هي مشاهدة هذا البرنامج، ولكن في بعضِ الحالات النادرة قد لا يكون قصد المستخدم مشاهدةَ البرنامج وإنَّما تسجيله، هنا يأتي دور تصنيف الهدف في التأكيد للنظام أنَّ ما ينويه المستخدم هو تسجيل العرض.

صورة توضِّح معماريةَ الشبكة العصبونية متعدِّدة المهام

إيجابيات النموذج الثاني:

إنَّ التعامل مع الطلبات غير المحدَّدة (مثل بحث عن "أفلام جوليا روبرتس") أمرٌ بالغ الأهمية لتحسينِ تجربة المستخدم عمومًا - على الرغم من أنَّ الغالبية العظمى من المستخدمين يبحثون عن برامج محدَّدة.

أنشأ الباحثون معماريةَ الشبكة متعدِّدة المهمات لتتعلَّم -على نحو مشترك- المهمات الثلاث التي تحدَّثنا عنها بالتفصيل لدعمِ إمكانية إيجاد النتائج المطلوبة المرغوبة من قِبل المستخدم.

ويجري الآن إعدادُ النموذج الثاني الجديد لتوظيفِه وتفعيله بمنصّة X1 كي يُخدِّم ملايينَ المستخدمين؛ موفِّرًا لهم تفاعلًا صوتيًّا طبيعيًّا في المجال الترفيهي.

المصادر:

هنا