المعلوماتية > الذكاء الصنعي

توليد الكلام من إشارات الدماغ

لمساعدة الأشخاص فاقدي القدرة على الكلام؛ طوّر باحثون من جامعة كاليفورنيا في سان فرانسيسكو طريقة تعلم عميق يمكنها فك شيفرة إشارات الدماغ وتحويلها إلى كلام منطوق.

ويقول الباحثون: "إن الظروف العصبية التي تؤدي إلى فقدان التواصل مُدمِّرة، ستكون التقنية التي تترجم النشاط العصبي إلى كلام نقطة تحوُّل لمن لا يستطيعون التواصل نتيجة ضعف الأعصاب".

الأساليب الحالية لإعادة توليد الكلام مرهقة للغاية وغير فعَّالة. يسمح النهج الشائع لبعض المرضى بكتابة أفكارهم عن طريق رسالة، ومع ذلك؛ فإنه يمكن فقط إعادة إنتاج نحو 10 كلمات في الدقيقة. للمقارنة، يمكن للمتكلِّم العادي قراءة نحو 150 كلمة في الدقيقة.

التقط الفريق إشارات كهربائية قشرية عالية الكثافة من خمسة مشاركين خضعوا لمراقبة داخل الجمجمة لمرض الصرع.

درب الفريق بعد ذلك شبكة عصبونية تكرارية (Recurrent Neural Network RNN) مَبنية بواسطة مكتبة Keras (ومكتبة Tensorflow في الخلفية) المُسرَّعة باستخدام *cuDNN، ووحدات معالجة الرسوميات الخاصة بشركة إنفيديا NVIDIA Tesla GPUs على صوت المشاركين الذين يتحدثون عدَّة مئات من الجمل بصوت عالٍ، إلى جانب الإشارات القشرية.

ترتبط الخوارزمية بالأنماط التي التُقطت بالحركة الدقيقة لشفاه المريض واللسان والحنجرة والفك، وتُدرّب باستخدام محسن ADAM. في المرحلة الأولى من التدريب، يُستخدم حجم دُفعة 256 وفي المرحلة الثانية حجم دفعة 25.

وفقًا للباحثين، حُسّنت وحدة فك الترميز لفك ترميز الصوتيات مباشرة من الأقطاب الكهربائية. مع أقل من 25 دقيقة من الكلام، حقق الفريق أداءً مرضيًا واستمر الأداء في التحسّن مع مزيد من البيانات.

لتجميع الكلام من الخصائص الصوتية، استخدم الفريق تطبيقًا لخوارزمية التقريب الطيفي Mellog ضمن Festvox، وهي أداة يحتفظ بها الباحثون في مجموعة جامعة كارنيغي ميلون.

من أجل الاستدلال، طور الفريق أنموذجًا يستخدم وحدات معالجة الرسوميات لاستنتاج الحركية المفصلية من التسجيلات الصوتية. يتكون هذا الأنموذج من شبكة تعلم عميق للتشفير وفك التشفير، إذ يجمع التشفير بين التمثيل الصوتي والتمثيل السمعي في تمثيل مفصلي. وأوضح الباحثون أن هذه المعلومات تُستخدم بعد ذلك لإعادة بناء الحديث.

وقال إدوارد تشانغ، أستاذ جراحة الأعصاب وعضو معهد UCSF Weill للعلوم العصبية: "أول مرة توضح هذه الدراسة أنه يمكننا إنشاء جمل منطوقة كاملة بناءً على نشاط دماغ الفرد، وهذا دليل على أننا قادرون على بناء جهاز قابل للتطبيق عمليًّا في العيادات من أجل المرضى الذين فقدوا سمعهم من حيث المبدأ".

يقول العلماء إن هذه التقنية ليست دقيقة حتى الآن للاستخدام خارج المختبرات، ومع ذلك، يمكنها تجميع جمل كاملة. عند اختبار 101 شخص مختلف فَهمَ 70٪ منهم الكلمات المنطوقة.

نُشر البحث مؤخرًا في مجلة Nature، ممهدًا الطريق أمام الناجين من السكتة الدماغية ومرضى مرض باركنسون وغيرهم الكثير للتواصل بكفاءة أكثر.

* cuDNN هو اختصار لمكتبة شبكة Nvidia CUDA Deep Neural Network Library. وهي مكتبة إنفيديا للشبكات العصبونية التي تستخدم قوة وحدات معالجة الرسومات الحديثة للتعلم العميق.

المصدر:

هنا