إنستغرام > علوم هندسية

الذكاء الصُّنعي يرسم تخيلًا لوجهك بناء على سماع صوتك فقط!

ينص بحث من معهد ماساتشوستس للتقنية MIT على إمكانية وجود طرائق تمكِّن الآلة من وضع أشكالٍ مبدئية لوجه الشخص المُتحدِّث عن طريق الاستماع إلى تسجيلات صوتية له، فاستخدم في هذا البحث مقاطع فيديو جُمعت من عدَّة مواقع لأشخاص حقيقيين يتحدثون بصوتهم الحقيقي. تُنجز العملية عن طريق استخراج ثنائيات

speech- face

يُغذَّى بها فرعان من الأنموذج المقترح؛ إذ تُشفَّر الصور باستخدام أنموذج مسبق التدريب

pre- trained model

لتعرُّف الوجوه، ثم وبالموازاة مع عملية ترميز الصورة، يُحوَّل الصوت من الشكل الموجي إلى الطيفي، الذي يُشكِّل الدخل لمُرمِّز الأصوات

Voice Encoder

تُحوِّل الشكل الطيفي للموجة الصوتية إلى سمات الوجه المُتخيَّل، ويُغذِّي وحدة فك ترميز الوجه لإعادة بناء صورة الوجه. بعد الحصول على ترميز الصوت والصورة، تُجمع المعطيات وتُحلَّل ويُفَك ترميزها بواسطة وحدة فك ترميز الوجه

Face Decoder

لبناء الوجه من شكله المبدئي. إن نهج التدريب المقترح ذاتي الإشراف

self- supervised

إذ تتعلم الآلة بناء وجه المُتحدِّث عن طريق تحديث سمات الوجه المُتخيَّل في كل مرة يُدخل فيها مقاطع فيديو إلى الأنموذج، ليجري ذلك مزامنةً مع صوت الشخص في أثناء الحديث.

حرر من مقالنا: هنا