المعلوماتية > الذكاء الصنعي

الترجمة الآلية للغات القديمة؛ الأنموذج الإحصائي

فكّ البشر شيفرة عشرات اللغات المفقودة في القرنين الماضيين، ويُعدّ فك الشيفرة إنجازًا فكريًّا كبيرًا وتتويجًا لعقود من الجهود العلمية.

تتطلب ترجمة اللغات القديمة -وفق ما جاء في كتاب "اللغات المفقودة Lost Languages" لمؤلفه أندرو روبنسون Andrew Robinson- مزيجًا من المنطق والحدس.

إنّ الحواسيب لم تؤدِّ أي دور في تفكيك شيفرة اللغات القديمة سابقًا بسبب افتقارها للحدس، ولكن؛ لن يبقى الحال كما هو؛ إذ تمكن العلماء في معهد "ماساتشوستس للتكنولوجيا MIT" من نمذجة نظام يتمتع بالمنطق والحدس سامحًا باستخدام الحواسيب في عملية فك التشفير (1).

صياغة المشكلة:

تُوفَّر مقاطع من اللغة المشفرة ومقاطع غير مرتبطة بها (أي لا تمثل المقابل لها) باللغة المعروفة بشرط أن تكون اللغتان من *عائلة اللغات (Language Family) نفسها.

ويتمثل الهدف الرئيسي في ترجمة الكلمات في اللغة المشفرة عن طريق معرفة مقابلاتها في اللغة المعروفة، ولتحقيق ذلك نلجأ إلى إيجاد تقابل بين اللغتين على مستوى أخفض من مستوى الكلمات -وهو مستوى حروف الأبجدية- بغرض استخلاص الصوتيات المتشابهة المتكررة في كل منهما، ويكون ذلك جزءًا من عملية فك التشفير (2).

 وقد وُضِعت بعض الافتراضات بخصوص نظام الكتابة في اللغة المشفرة، وهي:

- نظام الكتابة في اللغة المشفرة أبجديٌّ بطبيعته، ويمكن التأكد من ذلك عن طريق حساب عدد الرموز الموجودة في السجل المراد ترجمته.

- نقل النص المشفر إلى صيغة إلكترونية؛ فقد تُعرِّف إلى أصغر الوحدات الصوتية ذات المعنى (graphemes) على نحو لا لبس فيه.

- نفترض أن الكلمات مفصولة على نحو واضح في النص، إما بمسافة بيضاء وإما برمز خاص.

- نفترض أن كل كلمة مُكوّنة من أساس (stem) وبادئة (prefix) ولاحقة (suffix)، وقد يُحذَف المكونان الأخيران.

يلتقط هذا الافتراض مجموعة واسعة من اللغات البشرية ومجموعة متنوعة من **النظم المورفولوجية Morphological Systems، فعلى سبيل المثال؛ تقابل كلمة surchargeant الفرنسية كلمة overloading الإنكليزية (1).

آلية العمل:

تتكون مدخلات الأنموذج من عنصرين: 

1-  قائمة بأنواع الكلمات التي لم تُحلَّل والمستمَّدة من اللغة المشفرة.

2- معجم تحليلي مورفولوجي للغة معروفة ذات صلة ومستمَدّ من نص منفصل.

ويتضمن فك التشفير بحد ذاته مَهمتين:

- إيجاد التقابل في حروف الأبجدية بين اللغتين المشفرة والمعروفة.

- ترجمة الكلمات في اللغة المشفرة إلى مرادفاتها المقابلة في اللغة المعروفة.

ووُظِّفَ ***إطار بايز غير البارامتري non-parametric Bayesian framework في كشف: 

- التقابل المنخفض المستوى للحروف بين اللغتين low-level character mapping.

- والتقابل المرتفع المستوى للترابط المورفولوجي high-level morphemic correspondences في وقت واحد. 

وقد مكنت هذه الصيغة من توليف ما يشبه الحدس البشري الذي قاد فك التشفير البشري قرونًا عدة (2).

النتائج:

قد تمكنا باستخدام هذه الصيغة من نمذجة أزواج مورفولوجية ثنائية اللغة تمامًا كما ينشأ عن طريق سلسلة من ****عمليات ديريشليه Dirichlet processes، ويسمح لنا هذا بتعيين احتمالات قائمة على كل من: التطابقات على مستوى الحرف character-level correspondences باستخدام توزيع أساسي لتعديل الأحرف character-edit base distribution، والتطابقات على مستوى الوحدات المورفولوجية morpheme correspondences ذات المستوى الأعلى (2).

فضلًا عن ذلك، يُجري الأنموذج تحليلًا مورفولوجيًّا ضمنيًّا للغة المشفرة باستخدام البنية المورفولوجية للغة المعروفة؛ مما يسمح لنا باكتشاف التفاعل على مستوى الحرف ومستوى الوحدات المورفولوجية الذي استخدمه البشر في عملية فك التشفير اليدوية (2).

وأخيرًا؛ عند تطبيق ما سبق على اللغة الأوغاريتية من عائلة اللغات السامية، تمكن الأنموذج من تحديد 29 حرفًا من أصل 30 حرفًا لنظرائهم الأحرف العبرية، ووصلت نسبة التشابه بين اللغتين -الأوغاريتية والعبرية- إلى 60% (2).

*عائلة اللغات (Language Family): هي مجموعة اللغات التي لها أصل مشترك كعائلة اللغات اللاتينية (7).

**النظام المورفولوجي (Morphological Systems): هو النظام الذي نفهم فيه العلاقات بين عناصر الكلمة وسماتها بمعنى غامض؛ أي يعتمد فقط على الكلمات، وهيكلها الداخلي، وكيفية تشكيلها، والارتباطات بينها. وبمعنى آخر، نحن نفهم الشكل أو التشكل الذي يعتمده النظام على العلاقات بين عناصره من دون فهم المعنى (3).

***إطار بايز غير البارامتري (non-parametric Bayesian framework): هو إطار بايز نفسه، ولكن مع فضاء بارامتري لا نهائي الأبعاد؛ إذ يُختار فضاء الحالة عادة بأنه مجموعة كل الحلول الممكنة لمشكلة تعليمية معينة (6).

****عمليات ديريشليه (Dirichlet processes): في نظرية الاحتمالات تُعرَف عمليات Dirichlet بأنها مجموعة من العمليات العشوائية التي تكون توزيعاتها هي توزيعات الاحتمالات. وبمعنى آخر، عملية Dirichlet هي توزيع الاحتمالات الذي يكون نطاقه هو مجموعة نفسها من توزيعات الاحتمالات. (4) (5)

المصادر:

(1) هنا

(2) هنا

(3) هنا

(4) هنا

(5) هنا

(6) هنا

(7) هنا