المعلوماتية > الذكاء الصنعي

أنظمة التعرف إلى الكلام تتخلى عن الإشراف البشري!

تمتلك كلُّ لغة مجموعةً من المقاطع الصوتية الأساسية التي تتشكّلُ منها الكلمات؛ فعلى سبيل المثال، يقول المختصون أن هناك ما بين خمس وثلاثين وخمس وأربعين وحدةً صوتية (phonemes) في اللغة الإنكليزية، وذلك حسب معيار اعتماد الوحدات الصوتية، وهو ما ليس لنا به اهتمام هنا. وتعتمد أنظمةُ التعرف على الكلام بشكلٍ أساسي على هذه الوحدات الأساسية من أجل التعرف على الكلمات المنطوقة.

في العدد الأخير من المجلة المعنيّة بعلوم حوسبة اللسانيات وعلوم اللغات (المعروفة بـ"Transactions of the "Association for Computational Linguistics) لهذه السنة، صدرت إحدى المقالات لباحثين من جامعة "MIT"، والتي تتحدثُ عن نوع جديد من أنظمة التعلّم الآلي للكلام، حيث يقوم هذا النظامُ الجديد بوظيفةٍ مماثلة لسابقيه من حيث التعرف على الكلماتِ المنطوقة، ولكن يمكنه أيضاً أن يتعلمَ تمييزَ المقاطع الصوتية ووحدات الكلام الأساسية، ولذا يمكن لهذا النظام أن يفيدَ في بناء أنظمةِ معالجةِ اللغات غير المشهورة والتي لم تخضع لعقودٍ طويلة من البحث العلمي في مجال المقاطع الصوتية الخاصة بها. كما يمكن أيضاً لهذا النظام أن يجعلَ أنظمةَ معالجة الكلام قادرةً على التعرف إلى المقاطع الصوتية المكوّنة للكلمات، مما يساعدُ في تحييد أثرِ تغيير صوتِ المتكلم على الكلام المراد معالجته.

وعلى عكس أنظمةِ التعلّم الآلي السابقة التي أدّت إلى تطوير وتصميم خوارزمياتِ التعرف إلى الكلام، والتي نجدها اليوم في الهواتف الذكية، فإن هذا النظام لا يخضعُ إلى رقيب (unsupervised)؛ بمعنى أنه يمكن استخدامُه مباشرة على ملفات صوتية خام، إذ أنه لا يعتمدُ على الإضافات والتعديلات من قِبل الخبراء البشريين لتوصيف معطيات تدريب معينة، ولذا يمكن استخدامُه لطرقِ أبواب لغات جديدة بكل سهولة.

ومن جهة أخرى، يمكن النظرُ إلى هذا المشروع على أنه يفيدُ في فهم كيفية تعلم البشر للغة، حيث تقول "Chia-ying Lee"- الدكتورة الباحثة والمشاركة في هذا المشروع-: "عندما يتعلمُ الطفل لغةً معينة، فإنه لا يتعلم الكتابة أولاً بهذه اللغة، بل يتعلمها مباشرة من الكلام المنطوق. وبعد تحليل الأنماط اللغوية يمكن للطفل أن يستنتجَ تراكيبَ هذه اللغة، وهذا بالضبط ما يحاول هذا المشروع القيام به".

وبالغوص قليلاً في التفاصيل التقنية، وطالما أن هذا النظام لا يتطلّبُ تدخلًا بشرياً لتوضيح أو تعريف المعطيات التي يتم تدريبه عليها، فإنه بحاجة للقيام ببعض الافتراضات حول بنيةِ هذه المعطيات من أجل استخلاص نتائجً متوافقة. ومن أبرز الافتراضات النظرية نذكر مثلاً أن تردد تكرار الكلمات في حديث ما يتبع توزيعاً احتمالياً يُسمى توزيع القوة (power law distribution)، بمعنى أن هناك عددٌ قليلٌ من الكلمات يتم تكرارها بشكل كبير، بينما تبقى معظم كلمات اللغة قليلة التكرار، وهذه الظاهرة الإحصائية معروفة باسم ظاهرة الذيل الطويل، ومن غير المعلوم على وجه الدقة ما هي قيم المعاملات الأساسية في هذه الحالة (كالقيمة العظمى والقيمة المحددة لمرحلة الانخفاض)، ولكن يمكن الافتراض بأن الشكلَ العامَّ لهذا التوزيع محقق.

يكمنُ حجرُ الأساس في هذا المشروع فيما تسميه "Lee" بنموذج القناة ذاتِ الضجيج بالنسبة للمتغيرات الصوتية، حيث أنه في اللغة الإنكليزية يوجد أقل من خمسين وحدة صوتية أساسية، ولكن كلاً منها يتوافق مع مجموعة من الأصوات، أي يمكن للأشخاص نطقُ هذه المقاطع بأصوات متباينة حتى بالنسبة للشخص ذاته، فتقول "Lee": "يمكن أن يتغيرَ الصوتُ الناتج عن نطق الحرف t اعتماداً على ورود الحرف في أول الكلمة أو في آخرها".

استعان الباحثون بمفهومٍ من نظرية الاتصالات من أجل نمذجةِ هذه الظاهرة، حيث يتمُّ التعاملُ مع الإشارة الصوتية على أنها سلسلةً من المقاطع الصوتية النظامية، والتي وصلت عبر قناةٍ ذات ضجيج يقوم بتأثير مخرب لبعض المعلومات في تلك المقاطع، ويهدف نظامُ التعلم الآلي عندها إلى التعرف إلى الترابط الإحصائي بين الإشارة المستقبلة، والتي قد تكون تشوهت بعض معطياتها بفعل الضجيج، وبين المقطع الصوتي الذي تعبر عنه، حيث يمكن لمقطع صوتي ما مدروس أن يمتلك احتمالَ مطابقةٍ للحرف t بنسبة 85 بالمئة واحتمال مطابقة للحرف d بنسبة 15 بالمئة.

تقول "Lee" فيما يتعلق بهذه النقطة:" قمنا بدراسة نموذجين، يدرسُ أحدهما التغيراتِ الصوتية المذكورة ولا يقوم الآخر بذلك، وكان الفرق عظيماً". وهذا يعني أنه عند اختبار نظامين يعمل أحدهما على اعتبار الإشارات الصوتية متأثرة بعوامل الضجيج كما ذكر في الفقرة السابقة ويهمل النظام الآخر هذه الناحية فقد كان الفرق في الأداء كبيراً لمصلحة النظام الأول.

قام الباحثون حتى الآن باختبار نظامهم على ستة تسجيلات مختلفة لمحاضرات تم تقديمها في جامعة "MIT"، ووجدوا أن النظامَ كان قادراً على التعرف بنجاح ودقة آلى الكلمات الأكثر استعمالاً في كل منها، وكان هناك أيضاً بعض الانحرافات، وعند تحليل أحدها تبين أن النظامَ قد اعتبر الكلمتين "open university" كلمةً واحدة، وبعد دراسة هذه الحالة تبين أن المحاضرَ قام بذكر الكلمتين سوية بالطريقة نفسها عدةَ مرات، وبالمقابل لم يستخدم أيًّا من الكلمتين بشكل منفصل إلا نادراً، وتوضح "Lee" ذلك بقولها:" لو أن النظامَ لاحظ ورودَ أي من الكلمتين open وuniversity بشكل منفصل لربما استطاع استنتاج أنهما كلمتين منفصلتين".

وفي هذا المجال، يقول "Emmanuel Dupoux"- مدير مخبر العلوم المعرفية واللغوية النفسية المرتبط بمدرسة الدراسات العليا للعلوم الاجتماعية في باريس-:" تشير الدراساتُ الحديثة إلى أن الأطفال يتعلمون الكلمات والمقاطع الصوتية بشكل متزامن. حتى هذه اللحظة، قام عدد قليل فقط من الدارسين بنمذجة التفاعل بين هذين المستويين باستخدام أنظمة التعلم الآلي".

ويكمل "Dupoux" حول أهمية هذا البحث قائلاً:" تقوم الدراساتُ السابقة بالنظر إلى جانب واحد فقط من عملية التفاعل المذكورة، فإما الكلمات أو المقاطع الصوتية، وعندما حاولوا دراسةَ الجانبين معاً، كان ذلك أشبه بنسخة من المشكلة على مستوى لعبة وذلك بدراسة عدد قليل جداً من المقاطع والكلمات، بينما تقوم الدراسة المذكورة بالتصدي للمشكلة بشكل شامل ولأول مرة باستخدام كميةٍ كبيرة من المعطيات. توجد صعوبات تقنية هائلة تعترض طريق القيام بذلك ولذا فإن إنجازهم يعدُّ عملاً فذّاً بحق".

المصادر:

هنا