المعلوماتية > الذكاء الصنعي

أشجار القرار

استمع على ساوندكلاود 🎧

تُعتبر قواعدُ البياناتِ اليومَ من المجالاتِ الهامّةِ والمُستخدَمةِ بشكلٍ واسعٍ في علوم المعلوماتية. ومع ازدياد قواعدِ البياناتِ وضخامةِ محتوياتِها كان لا بد من ظهورِ أدواتٍ وخوارزمياتٍ تُساعد في التنقيب عن البياناتِ وإعطاء المستخدِم المعلوماتِ المفيدةَ منها. ونتيجةً لذلك ظهر مجالٌ حديثٌ من مجالات الذكاء الصنعي يدعى "التنقيب عن البيانات (Data Mining)" كتقنيةٍ تهدُفُ إلى استخراجِ المعرفةِ من كمياتٍ هائلةٍ من البيانات، وهي تقنيةٌ حديثةٌ فرضتْ نفسَها بقوَّةٍ في عصرِ المعلوماتيَّة. ويُعرَّف بأنّهُ عمليةُ اكتشافِ الارتباطاتِ والأنماطِ والاتجاهاتِ الجديدةِ المفيدةِ من خلال التدقيق في كمياتِ البياناتِ الضخمة، باستخدامِ تقنياتِ تمييزِ النماذج Pattern Recognition، بالإضافة إلى التقنيات الرياضية والإحصائية. وقد أدى إدماجُ مزايا تكنولوجيا المعلومات مع الطرق الإحصائية والخوارزميات، إلى توفُّرِ الإمكاناتِ اللازمةِ للتنبؤِ بالسُّلوكِ المستقبليّ، ومن ثُمَّ وضعِ الحلولِ المناسبةِ للمشكلات قبلَ وقوعِها في حالِ إمكانِ حُدوثِها، أو من بابِ التنبؤِ بهدفِ التطوير والتحديث بشكلٍ عامٍّ في شتى المجالات، كلُّ ذلك باستخدام تقنيات التنقيب في البيانات، التي تُركِّزُ على بناء التنبؤات المستقبلية واستكشافِ السلوك والاتجاهات، مما يسمحُ باتخاذ القراراتِ الصحيحة في الوقت المناسب. تُعتَبرُ هذه التقنيات بدورِها مرحلةً من مراحلِ عمليةٍ أكثرَ تعقيداً هي استكشافُ المعرفة في قواعد البيانات. وتستخدِمُ الكثيرُ من الشركات والمنظمات الرائدة اليوم عمليةَ استكشافِ المعرفة في قواعد البيانات بشكلٍ منهجيٍّ ومنظَّمٍ بوصفِها تُشكِّلُ جوهرَ العمل الذي يُعتَمَدُ عليه في تفعيلِ النشاطِ وتحقيقِ الميّزةِ التنافسية.

وللتنقيب عن البيانات ثلاثُ تقنياتٍ أساسيةٍ وهي:

1- قواعد الارتباط Association rules: وتعني اكتشافَ العلاقات الارتباطية بين مجموعةٍ من العناصر.

2- التصنيف Classification: تحليلُ مجموعةٍ من بيانات التدريب وبناءُ نموذجٍ من أجل كل صنف اعتماداً على الخصائص الموجودة في البيانات.

3- العنقدة Clustering: تعريفُ تجمعاتٍ مُضْمَنَةٍ (عناقيد) في البيانات، حيث أنّ التجمعَ (العنقود) عبارةٌ عن مجموعةٍ من البيانات المتشابهة مع بعضها البعض.

إنَّ الأساليبَ السابقة تُمكِّنُ من استنتاجِ المعرفة الكامنة في كمياتٍ هائلةٍ من البيانات، والوصولِ الى حالاتٍ معرفيّةٍ تدعمُ اتِّخاذَ القرار.

بعد هذه النظرة السريعة والعامة لننتقل الى موضوعِ مقال اليوم وهو أشجار القرار.

أشجارُ القرار هي طريقةُ تعلُّمٍ غيرِ خاضعٍ للإشراف، تُستَخدَمُ للتصنيف والانحدار (Regression). الهدفُ منها خَلْقُ نموذجٍ لتنبُّؤِ قيمةِ متغيرِ الهدف، عن طريق تعلُّمِ قواعدِ قرارٍ بسيطةٍ مُستنتجةٍ من ميزات البيانات (Features). تُطبَّقُ عمليةُ التصنيفِ عن طريقِ مجموعةٍ من القواعدِ أو الشُّروطِ التي تُحدِّدُ المسار الذي سيُتَّبعُ ابتداءً من عقدة الجذر وانتهاءً بإحدى العقد النهائية التي تمثل الرمزَ للشيء المصنّف، وينبغي عندَ كلِّ العقد غير النهائية اتخاذُ قرارٍ حول مسارِ العقد التالية. هناك مثالٌ وهميٌّ استُخدِمَ من أجلِ توضيحِ أشجارِ القرار من قِبَل العديد من الكُتَّاب، وسنبدأ به شرحَنا لتوضيح ما سبق، ينصُّ المثال على أنَّ لاعبَ غولفٍ يُريد أن يُقرِّرَ ما إذا كان سيلعبُ الغولف أم لا كلَّ يومٍ على أساس الطقس.

يُبيّنُ الجدولُ نتائجَ أسبوعين (14 يوماً) من الملاحظاتِ عن الظروفِ الجوية والقرارِ المُتَّخذِ بشأن اللعب أو لا. على افتراضِ أنَّ لاعبَ الغولف يتصرّفُ على الدّوام بنفس الطريقة، ما هي القواعد التي تُحدِّدُ قرارَ اللعب أو عدمَه كل يوم؟

إذا كانت قيمةُ درجةِ الحرارة غداً 74 فهرنهايت، والرطوبةُ 77 % والرياحُ غيرُ موجودةٍ ("لا" في الجدول)، والطقسُ مشمسٌ، ماذا سيكون القرار؟

إحدى الطرق للإجابة على هذا السؤال هي ببناء شجرة القرار مثلَ المبينة في الشكل:

من أجلِ تحديدِ القرار (تصنيف) لمجموعةٍ مُعيَّنةٍ من الظروف الجوية في شجرة القرار، ننظر أولاً إلى قيمة (الطقس). هناك ثلاثة احتمالات:

1.إذا كانت قيمةُ الطقس "مشمس"، فالخطوةُ التاليةُ هي النظرُ إلى قيمةِ الرطوبة. إذا كانتِ القيمةُ أقلَّ أو تساوي 75 فالقرار هو اللعب. وإلا فإن القرار هو عدم اللعب.

2. إذا كانت قيمةُ الطقس "غائم"، فالقرار هو اللعب.

3. إذا كانت قيمةُ الطقس "ماطر"، فالخطوة التالية هي النظر إلى قيمة الرياح، إذا كانت القيمة هي نعم فالقرار هو عدم اللعب، وإلا فإنَّ القرار هو اللعب. لاحظ أن قيمة درجةِ الحرارة لم تستخدم أبداً.

يعتبرُ هذا المثالُ نموذجياً لشجرة القرار. في الواقع العملي إذا تمَّ اتخاذُ قرارٍ يُمكن أن تتفرعَ منهُ قراراتٌ أُخرى ثانوية، و ُمكن أن تتفرع من هذه القراراتِ الثانويةِ قراراتٌ ثانويةٌ أكثرُ خصوصيةً، وذلك بالاعتمادِ على نِسَبٍ احتماليةٍ مُعيَّنة، حيثُ تُؤخذُ في هذه الحالةِ كافَّةُ البدائلِ المُمكنةِ للقرارِ وِفقَ احتمالِ تحقُّقٍ مُعيَّن. إنَّ القرارَ الأساسيَّ والقراراتِ الثانوية وما يرتبطُ بها من قراراتٍ فرعيةٍ أُخرى تُشكِّلُ في مجموعِها ما يشبه الشجرةَ وفروعَها.

والقرارُ في حدِّ ذاتِه هو اختيارُ حلٍّ من بين عدةِ حلولٍ لمُشكلةٍ مُعيَّنة. وعليهِ فإنَّ اتِّخاذَ القرارِ هو اختيارُ أحدِ البدائل المُتاحة، لذلك فعمليةُ اتخاذِ القرارِ هي مجموعةٌ متتاليةٌ من الخطواتِ والإجراءاتِ التي تؤدِّي في نهايتِها إلى اختيارِ أفضلِ الحلول البديلة، يتميَّزُ هذا الأسلوبُ من تمكينِ مُتَّخِذِ القرارِ من رؤيةِ البدائلِ المُتاحةِ والأخطارِ والنتائجِ المتوقَّعةِ لكلٍّ منها بوضوح. ويُستَعملُ أسلوبُ شجرةِ القرار في حلِّ المشكلاتِ ذاتِ البدائلِ المتعددة، وكذلك الحالاتِ المتعددةِ المُحتَملُ مواجهتُها، خاصةً عندما تكونُ المشكلةُ متعلقةً بعنصرِ المخاطرةِ وعدمِ التأكد.

تُعرَّفُ شجرة القرار بأنها رسمٌ يعرِض الشروطَ والأفعالَ المرتبطةَ بـالقرارِ بطريقـةٍ تتابعية، ويُسهم ذلك في توضيحِ الشروطِ التي يجب أن تُؤخذَ في الاعتبار أولاً، والشروطِ التي تليها ثانياً وهكذا، وتوضِّحُ شجرة القرار العلاقةَ بين كلِّ شرطٍ والأفعالِ أو التصرفاتِ التي ترتبط به، تُعرَّف شجرة القرار أيضاً بأنها: مجموعةٌ محدَّدةٌ من العُقَد بحيث أنَّ: هنالك عقدةٌ مميزةٌ تقعُ في أعلى الشجرة تُدعى بجذر الشجرة Root Node، بقيَّةُ العُقد تُقسم على م (أكبر من الصفر) من المجاميع وكلُّ واحدةٍ من هذه المجاميعِ بدورِها عبارةٌ عن شجرةٍ تُدعى الأشجار الفرعية (Subtree) للجذر. القاعدةُ الأساسيَّةُ في بناء شجرة القرار هي إيجادُ أفضلِ سؤالٍ عندَ كلِّ فرعٍ من فروع الشجرة بحيث يقسم هذا السؤال البيانات إلى قسمين، القسم الأول منها ينطبق عليهم السؤال والقسم الثاني لا ينطبق، وهكذا يتمُّ من خلالِ سلسلةٍ من الأسئلة بناءُ شجرةِ القرار بفروعها المتسلسلة.

بالرغم من أن شجرة القرار تُستخدَم في الاستكشاف وتحضيرِ البيانات للعملياتِ الإحصائية إلا أنها أيضاً تُستَخدَم وبشكلٍ أكثر للتنبؤ بقيمِ حالاتٍ أخرى غيرِ موجودة في مجموعة التدريب، على سبيل المثال لحلِّ السؤال الذي طُرِحَ قبل قليل: إذا كانت قيمة درجة الحرارة غداً 74 فهرنهايت، والرطوبة 77 % والرياح غير موجودة ("لا" في الجدول)، والطقس مشمس، ماذا سيكون القرار؟ من السهل أن نرى من شجرة القرار أنَّ القرار في هذه الحالة سيكون عدم اللعب. من المهمِّ التأكيدُ على أنَّ هذا "القرار" ليس سوى تنبؤ، والذي قد يكون صحيحاً أو لا. لا توجدُ وسيلة مؤكَّدةٌ للتنبؤ بالمستقبل! وبالتالي لا تُعتَبرُ شجرة القرار مكافئةً لمجموعة التدريب تماماً، وإنّما هي تعميمٌ لها، لذلك يُمكن استخدامُها للتنبؤ بتصنيفِ حالاتٍ أخرى. وغالباً ما يُطلق على هذه الحالاتِ مجموعةَ الاختبار غير المرئية. ومن المهمِّ جداً عند بناء خوارزمية شجرة القرار أن يُؤخذَ بعين الاعتبار أن تكونَ قابلةً للتطبيق قَدَرَ الإمكان وبشكلٍ مثاليٍّ على كلِّ البيانات المتوفرة.

------------------------------------------------------------

المصدر:

Principles of Data Mining- Max Bramer