المعلوماتية > الذكاء الصنعي

الذَكاء الصُنعي يُنتِج أصواتاً تَخْدَعُ البشر

استمع على ساوندكلاود 🎧

إذا ما أرادت الرُّوبوتاتُ التَّنقُّلَ في هذا العالَمِ، عليها أن تتمكَّنَ من تكوين افتراضاتٍ عن محيطِها وعمَّا من الممكنِ أن يحصلَ إذا مرَّت بسلسلةٍ من الأحداث.

واحدةٌ من الطُّرقِ الّتي يستخدمها الإنسانُ لتعلُّمِ هكذا أشياءَ هي الصَّوت. فبالنِّسبةِ للأطفالِ الرُّضَّعِ، لا يتمُّ نكزُ الأشياءِ فقط للمُتعةِ، حيث أشارت بعضُ الدّراساتِ إلى أنَّهم يتعلَّمونَ نظريّاتِ الفيزياءِ البديهيّةِ عن طريقِ هكذا أفعالٍ. فيا ترى، هل من المُمكنِ لنا أن نُعلِّمَ الآلاتِ بهذه الطّريقة؟

الإجابة هي نعم، حيث قامَ بعضُ الباحثون من مختبرِ MIT لعلومِ الكمبيوتر والذّكاءِ الصُّنعيِّ (CSAIL - Computer Science and Artificial Intelligence) بتجريبِ خوارزميّةٍ تعلَّمت كيف تتوقّعُ الصَّوتَ بشكلٍ فعَّالٍ، فعندما تمَّ عرضُ فيديو صامتٍ على الخوارزميّةِ لأشياءَ يتمُّ ضربَها، استطاعت عندها الخوارزميّةُ إنتاجَ صوتٍ حقيقيٍّ نسبيًّا لخداعِ البشرِ.

يمثِّلُ "اختبار تورينغ للصّوتِ" هذا أكثرُ من مُجرَّدِ خُدعةٍ يقومُ بها كمبيوترٌ ذكيٌّ، حيثُ قامَ الباحثونَ بتخَيُّلِ نسخٍ مستقبليّةٍ من خوارزميّاتٍ مُشابهةٍ يتمُّ استعمالُها أوتوماتيكيّاً لإنتاجِ مؤثِّراتٍ صوتيّةٍ للأفلامِ والبرامجِ التّلفزيونيّةِ، بالإضافةِ لمساعدةِ الرُّوبوتاتِ على فهمِ خصائصِ الأشياءِ.

"عندما تمرِّرُ إصبعكَ على كأسٍ منَ النَّبيذِ، يعكُسُ الصَّوتُ كميّةَ السَّائلِ الموجودةِ في الكأسِ"، قالَ طالبُ الدّكتوراه أندرو أوينز Andrew Owens، والّذي كانَ مؤلِّفاً أساسيَّاً في دراسةٍ صدرت في حزيران 2016. "يمكنُ لهذهِ الخوارزميّةِ أن تكشُفَ معلوماتٍ مُهمَّةً عن أشكالِ الأشياءِ والموادِ المصنوعةِ منها، بالإضافةِ لقوَّةِ وحركةِ تفاعلاتِهم مع العالَم."

استخدمَ الفريقُ تقنيّاتٍ من مجالِ "التَّعلُّمِ العميقِ"، والّتي تتضمَّنُ تعليمَ الكمبيوترِ كيفيّةِ التَّنقيبِ ضمنَ كميّاتٍ هائلةٍ من البياناتِ لإيجادِ الأنماطِ بنفسه. استخداماتُ التَّعلُّمِ العميقِ مُفيدةٌ جداً في هذا المجالِ كونُها تُخلِّصُ علماءَ الكمبيوترِ من ضرورةِ تصميمِ الخوارزميّاتِ يدويّاً والإشرافِ عليها.

تتضمَّنُ مجموعةُ المؤلفينَ المشاركينَ خريّجَ الدّكتوراه فيليب آيسولا Phillip Isola وبروفيسوراتٍ من جامعةِ MIT، مثل إدوارد أديلسون Edward Adelson، بيل فريمان Bill Freeman، جوش مكديرموت Josh McDermott، وأنتونيو تورالبا Antonio Torralba. حيثُ تمَّ تقديمُ هذا البحثِ في شهرِ حزيران 2016 في المؤتمرِ السَّنويِّ للرُّؤيةِ الحاسوبيّةِ والتَّعرُّفِ على الأنماطِ في لاس فيغاس.

كيفيّةُ عملِ الخوارزميّة:

أوَّلُ خطوةٍ لتدريبِ خوارزميّةِ إنتاجِ الأصواتِ هي تزويدها ببعض الأصواتِ لدراستها. وعلى عدَّةِ شهورٍ، سجَّلَ الباحثونَ تقريباً 1000 فيديو لـ 46000 صوتٍ يُمثِّلُ أشياءَ عديدةً يتمُّ نقرُها، أو خدشُها، أو نكزُها بعصا طبلٍ. (تمَّ استخدامُ عصا الطَّبلِ كونُها طريقةً ثابتةً لإنتاجِ الأصواتِ).

لاحقاً، استخدمَ الفريقُ مقاطعَ الفيديو كدخلٍ لخوارزميّةِ التَّعلُّمِ العميقِ والّتي فكَّكت الأصواتَ وحلَّلت النَّغمةَ، وارتفاعَ الصَّوتِ، وخصائصَ أخرى.

"ولتوقُّعِ صوتِ مقطعِ فيديو جديدٍ، تقومُ الخوارزميّةُ بالبحثِ في خصائصِ الصَّوتِ لكلِّ إطارٍ في مقطعِ الفيديو وتطابقُها مع الأصواتِ الأكثرِ تشابهاً في قاعدةِ البياناتِ"، قالَ أوينز: "حالما يجمعُ النِّظامُ أجزاءَ الصَّوتِ الصَّغيرةِ هذه، فإنَّه يقومُ بدمجِها معاً كمقطعٍ صوتيٍّ واحدٍ."

والنّتيجةُ النّهائيّةُ أثبتت أنَّ باستطاعةِ هذه الخوارزميّةِ أن تحاكي دِقَّةَ ضرباتٍ مُختلفةٍ، مثلَ تقطُّعاتِ صوتِ ارتطامِ حجرٍ بالمياهِ وحفيفِ الأعشابِ. نغمةُ الصَّوتِ ليست بمشكلةٍ أيضاً، حيثُ يمكنُ للخوارزميّةِ أن تُركِّبَ أصواتَ الضَّرباتِ الّتي تتراوحُ بينَ النَّغماتِ المُنخفضةِ كصوتٍ "هادئٍ" لأريكةٍ طريّةٍ إلى النَّغماتِ المرتفعةِ كصوتِ "النَّقراتِ" على سورٍ خشبيٍّ.

"تُركِّزُ المحاولاتُ الحاليّةُ في مجالِ الذَّكاءِ الصُّنعيِّ على واحدةٍ من أنماطِ الحواسِ الخَمسِ فقط، حيث يستخدِمُ باحثو البصريّاتِ الصُّورَ، ويستخدمُ باحثو النُّطقِ الصَّوتَ، وإلخ". قال أبهيناف غوبتا Abhinav Gupta، وهو بروفيسورٌ مساعدٌ في عِلِمِ الرُّوبوتيّاتِ في جامعةِ كارنيجي ميلون والّذي لم يكن من الفريقِ العاملِ على الدّراسةِ: "تُعتبرُ هذه الدّراسةُ خطوةً في الاتّجاهِ الصَّحيحِ لمُحاكاةِ طريقةِ تعلُّمِ البشرِ، وذلكَ عن طريقِ دمجِ الصَّوتِ والبصرِ".

ومن الميْزاتِ الإضافيّةِ لهذهِ الدّراسةِ هي توفُّرُ مكتبةِ الأصواتِ المؤلَّفةِ من 46000 صوتٍ بالمجَّانِ، بحيثُ يُمكنُ للباحثينَ الآخرينَ استخدامَها. واسمُ مجموعةِ البياناتِ: "GreatistHits."

خداعُ البشرِ:

لاختبارِ مدى واقعيّةِ الأصواتِ المُزيَّفةِ، قامَ الفريقُ بعملِ دراسةٍ عبرَ الإنترنت بحيثُ تُظهِرُ للمشاركينَ مقطعَي فيديو لاصطداماتٍ (Collisions) – الأوّل يحتوي على الصَّوتِ الحقيقيِّ، والثّاني يحتوي على الصَّوتِ المُنتَجِ من قِبَلِ الخوارزميّةِ – حيثُ تمَّ سؤالهم أيُّهما الحقيقيُّ.

والنّتيجةُ كانت بأنَّ المشاركينَ اختاروا الصَّوتَ المُزيَّفَ عِوضًا عن الحقيقيِّ بنسبةٍ تُقاربُ الضِّعفَ. حيثُ تمَّ خداعُهم بالتَّحديدِ بسببِ موادٍ مثلُ أوراقِ الأشجارِ والتُّرابِ والّتي تتميَّزُ عادةً بأصواتٍ أقلَّ وضوحًا من أصواتٍ مثلُ الخشبِ أو المعدنِ.

بالإضافةِ إلى ذلكَ، وجدَ الفريقُ بأنَّ هذهِ الأصواتِ كشفَت عن خصائصَ فيزيائيّةٍ أساسيّةٍ لهذهِ المواد. حيثُ قامت خوارزميّةٌ تمَّ تطويرُها من قِبَلِ الباحثينَ أنفسِهم بمعرفةِ الفرقِ بينَ الموادِ الصُّلْبَةِ والطَّريَّةِ بنسبة 67 بالمئةِ من المرَّاتِ.

من جهةٍ أخرى، يتماشى عملُ هذا الفريقِ مع بحثٍ حديثٍ لمُختَبَرِ CSAIL يُعنى بتضخيمِ الصَّوتِ والصّورةِ. حيثُ قامَ الباحثُ فريمان بالمساعدةِ بتطويرِ خوارزميّةٍ تُضخِّمُ الحركةَ المُلتَقَطَةَ من المقطعِ الصَّوتيِّ والّتي تبدو خَفيَّةً للعينِ المُجَرَّدَةِ، وهذا ما سمحَ لمجموعتِهِ بالقيامِ بأشياءٍ كجعلِ النَّبضِ البشريِّ مَرئيًّا للعينِ المُجَرَدَةِ، حيثُ تقومُ الخوارزميّةُ باِلتقاطِ التَّغيُّرِ في لونِ البَشَرةِ الحاصلِ بسببِ تدفُّقِ الدَّمِ من وإلى البشرةِ (لرؤية الصورة هنا). أو حتّى يمكنها التّعرُّفُ على الكلامِ المُرتَدِّ من على كيسٍ من البطاطا، حيثُ تقومُ الخوارزميّةُ باِلتقاطِ الاهتزازاتِ الدَّقيقةِ المُرتدَّةِ من على الكيسِ وتحويلِها إلى مقطعٍ صوتيٍّ مفهومٍ (لرؤية الصورة هنا).

التّطلُّعات:

يعتقدُ الباحثونَ بأنَّ هناكَ مجالاً لتطويرِ هذا النِّظام. على سبيلِ المثال، إذا تمَّ تحريكُ عصا الطَّبلِ بشكلٍ عشوائيٍّ في فيديو ما، فإنَّ الخوارزميّةَ سوفَ تُخطئُ أو تُنتجُ صوتًا لضربَةٍ وهميّةٍ على الأغلبِ. كما أنَّ هذا النَّظامَ محدودٌ بحقيقةِ أنَّه يُطَبَّقُ على الأصواتِ المُنتَجةِ بصريًّا - الأصواتُ الّتي تنتجُ بالتَّفاعُلِ الفيزيائيِّ المُلتَقَطِ على مقطعِ الفيديو.

"ابتداءً من نفحاتِ الرِّياحِ الخفيفةِ وانتهاءً بضجيجِ الحواسيبِ المَحمولَةِ، هنالِكَ العديدُ من الأصواتِ المُحيطةِ غيرِ المُرتبطةِ بسياقِ البحثِ"، قال أوينز: "ما سيكونُ مذهلاً حقًّا هو قُدرةُ الخوارزميَّةِ على إنتاجِ أصواتٍ غيرَ مُرتبطةٍ مباشرةً بالمرئيّاتِ."

يؤمنُ الفريقُ بأنَّ العملَ أكثرَ على هذهِ الدِّراسةِ سوفَ يَسمحُ للرُّوبوتاتِ بالتَّفاعلِ مع بيئتِها المُحيطةِ بشكلٍ أكبرَ.

"يمكنُ للرُّوبوتِ أن يُلقي نظرةً على الرَّصيفِ ويدركُ بشكلٍ حدسيٍّ بأنَّ الإسمنتَ قاسٍ وأنَّ العشبَ طريٌّ، وبالتّالي معرفةُ ما يمكنُ أن يحصلَ إذا ما داسَ على أحدِهِما"، قال أوينز: "المقدرةُ على توقُّعِ الصَّوتِ هي خطوةٌ أوليّةٌ مهمَّةٌ باتّجاهِ توقُّعِ نتائجِ التَّفاعلاتِ الفيزيائيّةِ مع العالَم."

تمَّ تمويلُ العملِ جزئيًّا من قِبَلِ منظَّمةِ العلمِ الوطنيِّ. وتمَّ دعمُ أوينز أيضًا من قِبَلِ زمالةِ مايكروسوفت للبحوث.

المصادر:

1- هنا

2- هنا

3- هنا