المعلوماتية > الذكاء الصنعي

الذكاء الصنعي يرسم تخيلًا للوجه عن طريق سماع صوت صاحبه فقط!

ينص بحثٌ هنا نشره مؤخرًا فريقٌ من الباحثين في معهد ماساتشوستس للتقنية MIT على إمكانية وجود طرائق تُمكن الآلة من وضع تخيلات أو أشكال مبدئية لوجه الشخص المُتحدِّث عن طريق الاستماع إلى تسجيلات صوتية له.

هدَفَ المشروع في البداية إلى استخلاص أكبر قدر من المعلومات التي تصف مظهر شخص ما، فاقترح الفريق بِنية جديدة من الشبكات العصبونية التي صُمّمت خصيصًا لهذا الهدف.

استُخدِم في هذا البحث مقاطع فيديو جُمِعت من اليوتيوب ومن مواقع أخرى لأشخاص حقيقيين يتحدثون بصوتهم الأصلي (دون استخدام مونتاج للصوت).

وتُنجَز هذه العملية عن طريق استخراج ثنائيات (speech-face) أو (كلام-وجه) يُغذَّى بها فرعان من الأنموذج المُقترح، كالآتي:

أولًا: تُشفَّر الصور باستخدام أنموذج مُسبَق التدريب (pre-trained model) لتعرُّف الوجوه، ثم -وعلى نحو متوازٍ مع عملية ترميز الصورة- يُحوَّل الصوت من الشكل الموجي (waveform) إلى الشكل الطيفي (spectrogram) الذي يشكّل الدخل لمُرمِّز الأصوات (Voice encoder) الذي هو شبكة عصبونية تلافيفية (Convolutional Neural Networks: CNN) تحول الشكل الطيفي للموجة الصوتية المُدخلة إلى سمات الوجه المُتخيَّل  (a pseudo face feature) ويُغذي وحدة فك ترميز الوجه بغرض إعادة بناء صورة الوجه.

وبعد الحصول على ترميز الصوت والصورة، تُجمَع هذه المعطيات معًا وتُحلَّل ويُفَك ترميزها عن طريق وحدة فك ترميز الوجه Face Decoder (هدفه إعادة بناء الوجه انطلاقًا من شكل مبدئي للوجه) الذي بدوره يعطي خرجه في شكل الوجه المتوقع، كما نرى في الصورة التوضيحية الآتية: 

الصورة (1): شكل توضيحي لعمل الأنموذج المُقترَح.

إنّ نهج التدريب المُقترَح نهجُ تدريبٍ ذاتي الإشراف (self-supervised)؛ إذ تتعلم الآلة بناء وجه الشخص المتحدث -ببساطة- عن طريق تحديث سمات الوجه المُتخيَّل في كل مرة يُدخَل فيها عددٌ من مقاطع الفيديو إلى الأنموذج، ليجري ذلك مباشرةً بالمزامنة مع صوت الشخص في أثناء حديثه. 

تُبيّن لنا التقييمات التي حصلت عليها هذه الطريقة بأنَّ التنبؤ بالوجوه ذات الميزات المتناسقة مع الصور الحقيقية ممكنٌ، وللآلة قدرة على هذه التنبؤ؛ كما نرى في الصورة أدناه.

الصور (2): بعض نتائج الأنموذج Speech2Face.

أُصدِرت هذه الورقة البحثية في مؤتمر IEEE عن الرؤية الحاسوبية وتعرُّف الأنماط (Computer Vision and Pattern Recognition: CVPR) في عام 2019م.

يمكنكم الاطلاع على مزيد من التفاصيل التقنية والعينات الإضافية بزيارة صفحة المشروع على موقع github:

هنا

وفي النهاية، نرى تطور قدرة الآلات لمواكبة القدرات البشرية!

برأيك؛ هل سنرى يومًا تتصارع فيه الكائنات الحية للوصول إلى قدرات الآلات؟!

المصادر:

1- هنا

2- هنا