المعلوماتية > علم البيانات

خوارزمية ذكية تنافس البشر في تحليل البيانات الكبيرة

استمع على ساوندكلاود 🎧

يبدو أن الذكاء الصنعي قد أخذ على عاتقه مؤخراً مهمةَ اختصار عمل خبراء المعطيات الذين يقومون بالبحث عن نماذج مفيدة وأنماط قابلة للاستقراء ضمن أكوام هائلة من البيانات الخام، إذ أظهر تطبيقٌ برمجي مؤخراً من جامعة MIT الشهيرة قدرةً كبيرة على بناء وتصميم نماذج استقرائية أفضل من معظم الخبراء البشريين ممن نافسهم في عدد من مسابقات علم البيانات.

لا يزال خبراء علم البيانات حتى اليوم يعتمدون على حدسهم البشري لتصميم والتحقق من النماذج الحاسوبية التي يمكن لها التنبؤ بالمعطيات التي تتبع نموذجاً معيناً وتفسيرها، ولكن آلة علم المعطيات من جامعة MIT ما هي إلا تطبيق برمجي خالص يمكن له تصميم نماذج حاسوبية شبيهة بالتي ينتجها الخبراء البشريون من خلال تمييز بعض الخصائص والسمات التي تربط بين بعض المعطيات ضمن أكوام هائلة منها. ويتيح مثل هذا التطبيق للخبراء البشريين أداء دورهم بفعالية أكبر إذا يسرع عملية بناء النماذج وتجربتها، إضافة إلى أنه قد يتيح فرصة الاستفادة من عالم المعطيات الكبيرة للأفراد والشركات دون الحاجة لوجود خبراء بشريين مدّربين [1].

يقول الباحث المشارك في المشروع ماكس كانتر عن أهميته: "يبدو أن أعظم إمكانية يقدمها هذا المشروع هو إمكانية زيادة عدد الأشخاص القادرين على الخوض في علم المعطيات، فإذا نظرت إلى معدل نمو الطلب على خبراء علم المعطيات للاحظت أنه يتجاوز بسرعة كبيرة عدد الأشخاص الذين يمتلكون هذه المهارات فعلاً".

وللحديث عن تفاصيل أداء هذا التطبيق يكفي القول أنه يلزم هذا التطبيق من ساعتين إلى اثني عشرة ساعة لاستقراء نموذج توقعي دقيق انطلاقاً من مجموعة من البيانات الخام، وهو ما قد يتطلب أشهراً لإنجازه من قبل فريق من الخبراء البشر. وللاطلاع على الجانب النظري للخوارزمية المستخدمة في استقراء ميزات الترابط بين العينات والمسماة خوارزمية التركيب العميق للسمات، يمكن للمهتمين مراجعة الورقة العلمية [2] المنشورة في مؤتمر IEEE الدولي لعلم البيانات والتحليل المتقدم والذي عقد في تشرين الأول الماضي [3]، وتأتي كلمة عميق في وصف الخوارزمية من طريقة عملها التي تقوم على تتبع العلاقات بين المعطيات حتى الوصول إلى العلاقات الرئيسية بعد عدة مراحل، ويلي ذلك تطبيق سلسلة من العمليات الرياضية على المراحل السابقة حتى الوصول إلى السمة المنشودة، وعند نهاية كل مرحلة يمكن الوصول إلى سمة معينة وبتكديس تلك السمات تسلسلياً. يمكن القول أن كل سمة منها تمتلك عمقاً معيناً تبعاً للمرحلة التي ظهرت عندها[2].

وبالرغم من وصول رواتب خبراء البيانات إلى حوالي 100000 دولار في السنة إلا أنهم مصدر مرغوب ونادر بالنسبة للشركات ذات الاهتمامات المتنوعة مثل Facebook وWalmart، وتبعًا لتقديرات معهد ماكينزي [4] في عام 2011 فإن الولايات المتحدة قد تواجه نقصاً في خبراء المعطيات بحدود 140000 إلى 190000 خبيراً، كما أشار عدد من دورية هارفرد للأعمال إلى أن علم المعطيات قد يعتبر العمل الأكثر خذباً في القرن الحادي والعشرين.

ويأتي ارتفاع الطلب على خبراء المعطيات من الوعد الثوري الذي تظهره "البيانات الكبيرة" بالقدرة على استغلال الكمية الهائلة من المعطيات الخام المتوافرة مثل سلوك مستخدمي شبكات التواصل الاجتماعي، أو حركة أسواق المال المقدرة بتريليونات الدولارات، أو مئات ملايين الأجرام السماوية التي تظهر بالتلسكوبات، وذلك من أجل سبر أغوار هذه الأكوام من المعلومات واستغلالها وتفسيرها من خلال دراستها واستنباط نماذجها وعلاقاتها، وتتيح هذه النماذج للشركات المهتمة القدرة على توقع سلوك المستهلكين، أو مساعدة الفلكيين في التعرف التلقائي على الأجرام السماوية المختلفة.

وينطوي عمل خبراء المعطيات بشكل رئيسي على الغوص في ذلك البحر من المعطيات لتحديد المعاملات الرئيسية التي قد تساعد على توقع السلوك المرغوب دراسته عبر الزمن، ويقومون بعدها بسلسلة مستمرة من عمليات الاختبار والتقويم لتلك المعاملات عبر نماذج حاسوبية تستخدم تقنيات التعلم الآلي، وهو ما يتطلب أسابيع أو أشهر من العمل المتواصل.

كانت هذه الحقيقة المضنية والمكلفة زمنياً عاملاً في إلهام كانتر-والذي كان خريجاً حديثاً في ذلك الوقت- ومشرفه Kalyan Veeramachaneni -الباحث في مخبر الذكاء الصنعي وعلم الحاسوب في MIT- للعمل على تصميم تطبيق حاسوبي يقوم بأتمتة تلك العملية المضنية في علم المعطيات.

بينما كانت التطبيقات السابقة ذات الصلة وحيدة البعد، تركز على مسائل ذات صلة بمجال معين، كان تركيز Kanter و Veeramachaneni ينصبّ على أن يكون تطبيقهم عابراً للاختصاصات، وقد تنبه Veeramachaneni إلى ذلك من خلال خبرته الكبيرة خلال عمله في MIT، ويمكن تقسيم التطبيق وظيفياً إلى قسمين يقوم الأول على هندسة المواصفات أي البحث عن المواصفات واستخلاصها من قلب محيط البيانات المتوافرة، وأما القسم الثاني فيعتمد على تحديد المجموعة الأفضل من المعاملات لتوليد أفضل النماذج التنبؤية المناسبة.

قام الباحثان فور الانتهاء من تصميم وبناء التطبيق بتجربته على ثلاثة عينات من مجموعات البيانات من مسابقات مختلفة في علم المعطيات وهي: كأس KDD[5] لعامي 2014 و2015، و IJCAI[6].

كانت النتيجة تظهر تفوق واضح للتطبيق على معظم منافسيه البشريين حيث تغلب على 615 فريقاً من أصل 906 فريق مشارك، وقدم نتائج دقيقة بنسب 94 و96 و87 بالمئة بشكل مشابه للفرق الرابحة في كل من المسابقات المذكورة. مما يعني أن الذكاء الصنعي وراء التطبيق قد لا يكون متفوقاً على نخبة الخبراء البشريين بعد ولكنه حقيقة يستطيع التغلب بسهولة على الكثير من خبراء المعطيات وبوقت وجهد أقل بكثير.

ولا يبدو أنه من المرجح التخلي عن الخبراء البشريين بأي حال من الأحوال في المستقبل القريب، إذ يقول كانتر: "عادة ما تقدم تطبيقات الذكاء الصنعي في مجال علم البيانات نتائج جيدة وتتفوق على العديد من الخبراء البشريين ويتفوق عليها بعضهم بالمقابل، ولذا يبدو من السذاجة بمكان أن نقول أن الخبراء البشريين لا يقدمون أي قيمة مضافة".

وفي هذا الصدد يرى الباحثان أن ما يعملان على تطويره ليس من مهمته إخراج الخبراء البشريين من هذا المجال، بل تمكينهم من القيام بمهامهم بشكل أسرع وأسهل وأكثر فعالية بالتالي، وقد بدؤوا بالفعل بالعمل على تعديل التطبيق ليتيح إمكانية التدخل البشري بشكل أكبر.

يمكن للخبير البشري مثلاً الاستفادة من التطبيق من خلال الاعتماد على نتائجه كقاعدة لبناء نماذج تنبؤية أفضل، أو قد يركز الخبير جهده على مرحلة استخلاص السمات المشتركة ويترك مهمة ضبط المعاملات وتنقيتها لخوارزميات التعلم الآلي في التطبيق.

يجدر بنا التنبيه إلى أن هذا التطبيق يمكن أن يكون له بعض الجوانب السلبية، إذ يتيح إمكانية خوض المجال للشركات التي لا تمتلك فرقاً من الخبراء البشريين المدربين، مما قد يؤدي إلى نتائج غير موثوقة على عكس ما هو عليه الحال لدى الشركات الكبرى كغوغل وأمازون، ولكن يمكن أن تكون نتائج التطبيق على قدر كاف من الجودة بحيث يستفيد منها عالم فلك في مخبر جامعي أو يستفيد منها فسم التسويق في شركة مبيعات لا تمتلك بعد فريق خبراء المعطيات الخاص بها.

ويقول كانتر في هذا الصدد: "نتوجه إلى مستقبل تتخذ فيه الشركات قراراتها اعتماداً على المعطيات بشكل حصري، ولا يكفي أن تعمل على تطوير قدرات الخبراء الموجودين بل يجب العمل على دمج أكبر كمية ممكنة من العاملين في مجال علم المعطيات. ولا أعتقد أن ذلك قابل للتحقيق عن طريق تدريب الجميع ليصبحوا علماء في هذا المجال، وإنما عن طريق اختراع أدوات جديدة تترك للآلات مهمة القيام بما تجيد القيام به ويقوم البشر بالجزء الخاص بهم".

-----------------------------------------------------------------------------

المصادر:

1: هنا

2: هنا

3: هنا

4: هنا

5: هنا

6: هنا