الهندسة والآليات > التكنولوجيا

أول حاسوب يقترب من أداء الإنسان في تمييزِ الكلام

استمع على ساوندكلاود 🎧

تتساقطُ المهاراتُ التي تميزنا عن الآلات تحتَ تصاعدِ قدراتِها واحدةً تلو الأخرى. في البداية كان هناك الشطرنج، ثم (Jeopardy) وهو برنامج مسابقات أمريكي اخترعه ميرف غريفن لصالح قناة (SBS)، ويعرض منذ عام 1964 في الولايات المتحدة الأمريكية ، ثم لعبة "جو"، ثم التعرف على الأشياء، والتعرف على الوجه، وألعاب الفيديو بشكل عام.

تملك الحق عندما تفكر أنّ الإنسانَ أصبحَ أقلَّ قدرةً وتميزاً من الآلات، لكن حاول تجربةَ أيّ برنامجٍ للتعرفِ على الصوتِ وسوف تَستعيدُ ثقتكَ بالبشر بشكلٍ سريع، على الرغم من أنّ برامجَ التعرّفِ على الصوتِ جيدةٌ ومتقدمة، إلا أنّها غيرَ جيدةٍ على الإطلاق. هل أنت تطلب (ice cream) أم أنك تقول (I scream)؟ (يتشابه اللفظان في الإنكليزية ) على الغالب كلاهما، إذا كنت تتحدثُ مع آلة.

لذا من المطمئن معرفةُ أنّ القدرةَ على تمييز الكلام الخطابيّ العادي شيء ما زالت تعاني منه الآلات، وأنّ الإنسان ما زالَ سيّدُ لغتِه الخاصة.

هذه الرؤية ربما تحتاج أن تتغيرَ بشكلٍ سريع. اليوم جيوف زويغ وزملاؤه ضمنَ أبحاثِ مايكروسوفت في ريدموند، واشنطن، قالوا أنهم دخلوا ضمن هذا النوعِ من تمييزِ الكلامِ، وأنّ خوارزميات تعليمِ الآلات الخاصة بهم تتفوقُ حالياً على الإنسان لأول مرةٍ ضمن مجالِ تمييز الكلام الخطابي العادي.

يمتلكُ بحثُ تمييزِ الكلامِ تاريخاً طويلاً. في الخمسينيات، استطاعت الأجهزةُ الحاسوبية الأولى تمييزَ 10 كلماتٍ منطوقةٍ بشكل واضح من متحدث واحد.

في الثمانينات، بنى الباحثون آلاتٍ تستطيعُ نسخَ أو ترجمةَ خطابٍ بسيط من 1000 كلمة. في التسعينيات أحرزوا تقدماً في تسجيلات شخصٍ يقرأُ صحيفةَ (wall street) ثم في بثّ نشرة الأخبار.

جميعُ هذه السيناريوهات تُعتَبرُ طموحةً بشكلٍ كبير. لكنّها أيضاً أبسطُ من الكلام العادي بسبب القيود المختلفة.

مفرداتُ اللغةِ ضمنَ صحيفة (wall street) محدودةٌ للتجارةِ والتمويل، والجملُ مبنيةٌ بشكلٍ جيد ومصححةٌ قواعدياً، الذي يعتبر شيئاً غيرَ ضروري بالحديث العادي. نشرةُ الأخبارِ أقل رسميةً لكنها مع هذا مُصاغةً بشكلٍ عالٍ، ومقروءةً بوضوح. لكن في النهاية كل هذه الأمثلة تم الغزو عليها من قبل الآلات.

لكنّ المهمةَ الأكثرَ صعوبةً -تسجيل الحديث الخطابي العادي- قاومت الهجومَ بثبات.

الكلامُ العادي أصعبُ بشكل كبيرٍ بسبب حجمِ مفرداتِ اللغةِ، وأيضاً بسبب الأصوات -غير الكلمات- التي يصنعُها الناسُ أثناءَ الكلام. يستخدم الإنسان مجالاً من الأصوات لتنظيمِ المحادثة، نوع من التواصلِ الذي يُسمّيه اللغويون قناة خلفية، على سبيل المثال:آه-ها تستخدمُ لتتعرفَ على المتحدث و للإشارة إلى أن عليه أو عليها المتابعة في الكلام .لكن "آه" تشير أنّ المتحدث لديه المزيد للقول.

لتنظيمِ الأدوارِ في المحادثة، "آه" تلعبُ الدورَ المعاكس ل "آه-ها"،

يواجه الإنسانُ صعوبةً قليلةً في الإعراب عن هذه الأصوات و فهم دورها في المحادثة، لكن الآلات لطالما عانت من ذلك أيضاً، ففي عام 2000 أصدرت الجمعيةُ الوطنيّة للمعايير و التكنولوجيا مجموعةَ بياناتٍ لمساعدة الباحثين في معالجة هذه المشكلة، تألفت هذه البياناتُ من تسجيلاتٍ لمحادثاتٍ عاديةٍ عبر الهاتف، بعضٌ منها كان محادثات بين أفراد حول موضوع معين، أما الباقي فكان عبارة عن محادثات بين أصدقاء وأقارب حول أي موضوع.

أغلبُ البياناتِ كانت للمساعدة في التدريب على خوارزمية تعليمِ الآلةِ لتمييز الكلام، أما البقية فكان عبارة عن اختبار على الآلات أن تمليه. قياس الأداء كان عبرَ عددِ الكلماتِ التي أخطأت الآلةُ فيها، وكان الهدفُ الأقصى هو تأديةُ المهمةِ بشكلٍ أفضل من الإنسان.

إذاً لأيّ حدّ الإنسان جيد؟ الإجماعُ العام أنّه عندما يتعلقُ الأمر بالصياغة، فنجد أنّ معدلَ الخطأ عند الإنسان يقارب 4%، بكلمات أخرى يصيغُ الإنسان أربعَ كلمات بشكل خاطئ ضمن كل مائة كلمة، في الماضي لم تصل الآلات إلى ما يقارب هذه النقطة.

تقول مايكروسوفت الآن أنّه تمّت المطابقة مع الأداء البشري أخيراً، وإن كان مع العديد من الشروط أو الحدود. فقد بدأ باحثو مايكروسوفت عبرَ مراجعةِ الأداءِ البشريّ بصياغة المهام، لقد فعلوا هذا عن طريقِ إرسالِ تسجيلاتِ الهاتفِ ضمنَ مجموعةِ البيانات الموجودة بالجمعية الوطنيّة للمعايير والتكنولوجيا إلى قسمٍ احترافيّ لحساب معدل الخطأ لدهشتهم، فوجدوا أنّ هذا القسم كان لديه خطأ بمعدل 5.9 % للمحادثات بين الأفرادِ ضمنَ موضوعٍ معين و11.3 % للمحادثات بين الأصدقاء وأفراد العائلة، هذا أفضل بكثير مما كان متوقَع.

نتيجةً لذلك، قامَ زويغ وشركاؤه بتحسين أنظمةِ التعليمِ العميقة الخاصة بهم إلى أبعد ما يمكن بناءً على الشبكات العصبونية، كل منها يعالجُ جانباً من الكلام، ثم استخدموا بعد ذلك مجموعةَ البياناتِ التدريبيةِ لتعليم الآلة فهمَ الكلامِ العادي وإطلاقها على مجموعة البيانات الاختباريّة.

يمتلكُ نظامُ مايكروسوفت للإدراك معدلَ خطأ مماثلٍ للذي لدى الإنسان، لكنّ أنواعَ الأخطاءِ التي يرتكبها مختلفة إلى حدّ ما، فالخطأ الأكثر شيوعاً الذي تخطئه آلة مايكروسوفت هو الخلطُ ما بين أصواتِ القناةِ الخلفية آه و آه-ها. على نقيض ذلك، يرتكبُ الإنسانُ هذا الخطأ بشكلٍ نادرٍ وبدلاً عن ذلك يميلُ إلى خلطِ الكلمات مثل (a) و(the) أو الخلط بين (a) و(uh)، لا يوجد سبب بشكل مبدئيّ لعدم إمكانية الآلة بأن تكونَ مدرّبة على تمييزِ أصواتِ القناةِ الخلفية. يظن زويغ والطاقم أنّ سببَ الصعوبةِ التي تملكها الآلة مع هذه الأصوات على الأغلب في طريقةِ تصنيفِ هذه الأصوات ضمنَ مجموعةِ بياناتِ التدريب. كما يقولون أن "الأداء الضعيف نسبياً للنظام الأوتوماتيكي هنا قد يكون ببساطةٍ بسببِ الالتباس بملاحظات بيانات التدريب".

على كل حالٍ وبصورةٍ شاملة، الآلة تطابقُ معدلَ خطأ الإنسان وهو 5.9% في الحديث حول موضوع معين، لكن يتفوق عليها الإنسان بمهمةِ تسجيلِ محادثةِ صديقٍ أو محادثةٍ عائليةٍ مع معدل خطأ 11.1 %. "للمرة الأولى، نقوم بالإخبار عن أن أداءَ الإدراك الأوتوماتيكي في نفس المستوى مع أداء الإنسان" زويغ و الطاقم .

قد تكون مايكروسوفت هزت قائمي المرمى في تسجيلِ هذا النصرِ بالنسبة لآلاتها، لكن وبشكلٍ واضحٍ كالكتابة على الحائط. أصبحت الآلات أفضل من الإنسان في تمييز الكلام، هذا سيكون له آثارٌ مهمةٌ في الطريقة التي نتفاعل فيها مع الآلات، على الأقل عندما يأتي الأمر لطلب ال (ice cream).

في النهايةِ، لعّلنا لا ندري بعد لأي مدى يمكن أن تستمرَ الآلة و العلم بشكلٍ عام بالتقدم على الإنسان ليس فقط في هذا المجال بل في جميع ما يقوم به من مهارات و مهام إلا أن التسارع المُلاحظ في هذا الموضوع يمكن أن يعطي صورة لما يمكن أن تحمله الأيام القادمة لصالح العلم و التكنولوجيا.

المصدر:

هنا