المعلوماتية > الذكاء الصنعي

كيف تساعد خوارزميات تعلم الآلة في كشف الأمراض؟

في شهر نيسان من عام 2014، وبعد اشتباهِ منظمة الصحةِ العالمية ببعض حالات الوفاة في غينيا الناتجة عن انتشار فيروسِ الإبولا، قام علماءُ بيئة وأطباء بيطريون وعالِم أنثروبولوجيا بالسفر إلى قرية في غينيا تُدعى ميلياندو للتحقيق في كيفية انتشارِ الوباء وكيف انتقل الفيروس إلى المريض 0، و هو طفل في الثانية من العمر يُدعىى إيميل.

منذ زمن بعيد، اعتمدت منظماتُ الصحة وعلماءُ البيئة على البحث على ما يدعى «خزانات» الكائنات المسؤولة عن انتشار الأوبئة الحيوانية المنشأ (Zoonotic) مثل الإبولا بعد أن يحدثَ الانتشار في محاولة للحد منه. ففي حالة القرية الصغيرة في غينيا، قام الباحثون بنشر بحث افترضوا فيه أن الطفلَ إيميل حصل على الفيروس من مجموعة من الخفافيش الآكلة للحشرات.

و كما في أبحاث سابقة عن هذا المرض، فقد كان التركيز على الخفافيش يوجهُ العلماءَ لدراسة هذا النوع من الكائنات ومن ثم تقوم الجهاتُ الصحية بالتحذير من المناطق التي تتواجد فيها الخفافيش المعنية. ولكن هذه الطريقة الدفاعية في طبيعتها لم تمنع حصولَ أكثر من 11،200 حالةِ وفاة في غرب إفريقيا إلى يومنا هذا. إذًا، يكمنُ الحل في استخدام طرق هجومية أكثر لمعرفة أي من الأنواع الحيوانية تحمل أمراضًا معدية للإنسان، و بالتالي التحذير من إمكانية حدوث الانتشار قبل حدوثه، خاصة أن الطرقَ الحالية تواجه العديد من الصعوبات، على سبيل العد وليس الحصر:

عدم وجود المصادر الكافية لدراسة جميع الأنواع، هذه المصادر قد تكون عدد العلماء والباحثين والمؤسسات المعنية واللاتمويل وغيرها.

الحالة البيئية ليست ثابتة؛ فالحيوانات تنتقل من مكان إلى آخر لعدة أسباب كالهجرة الموسمية وتغير المناخ وغيرها.

التحيُز: هذا يعني أن البحوثَ تكون عادة أكثر عمقًا في الدول المتقدمة حيث توجد ميزانية أكبر. نرى التحيز أيضًا عندما يجد الباحثون نوعًا من القوارض يحمل المرض X مثلًا، فهم سيبحثون عن المرض Y وZ في النوع نفسه.

تستخدم باربارا في بحثها خوارزمياتِ تعلم الآلة، خوارزميات التصنيف و التراجع، التي تستقبل أعدادًا هائلة من البيانات المتعلقة بالحياة البرية والتي ليس لها هيكلية، ومن ثم تتعرف على الصفات الأساسية التي من شأنها أن تساعدَ في التنبؤ بإمكانية أن يكونَ نوعٌ ما خازنًا للأمراض المعدية للإنسان.

أجرت باربارا دراستَها الحديثة مع زملاء لها في جامعة جورجيا على فئة القوارض التي تتكون من أكثر من 2،200 نوع (أكثر من أي نوع آخر من الثديات). ومن المعروف عن القوارض أنها تحملُ عادةً العديدَ من الأمراض ذات الخطورة على الإنسان.

لتدريب الخوارزمية، تم استخدام 80% من فئة القوارض، وتم ترك الباقي لاختبار الخوارزمية لاحقًا. ومن ثم أُسندت القيمة الثنائية 1 للفئات الحاملة للأمراض المعدية وأُسندت القيمة الثنائية 0 للفئات غير المعروفة. بالإضافة إلى ذلك، اُستخدمت مصادر خارجية عديدة لتوفير بيانات إضافية متعلقة بهذه القوارض (بيانات فيزيولوجية و جغرافية وسلوكية و غيرها).

( كيف تتعلم الآلة:

يبين هذا المخطط المبسط كيف تقوم الخوارزمية بإنشاء أشجار التصنيف، التي يمكن استخدامها لاحقًا للتنبؤ بأنواع القوارض التي تحمل الأمراض الحيوانية المنشأ. تتعلم الخوارزمية كيفية تصنيف الأنواع بأنها حاملة للأمراض ممثلة هنا بـحرف "Y"، أو غير حاملة للأمراض المعدية ممثلة بحرف "N" باستخدام مجموعة بيانات التدريب. لإنشاء شجرة تصنيف أولية، يتم تقسيم مجموعة البيانات من أنواع القوارض إلى مجموعتين مرارًا وتكرارًا، وذلك باستخدام ميزة تم اختيارها عشوائيًا لكل حالة انقسام (مثل وزن الجسم إن كان أكثر أو أقل من 1 كيلوغرام)، هدفها هو فصل الـY عن الـN في «أوراق» الشجرة. قد تنتج هذه الشجرة الأولى الكثيرَ من الأخطاء في التصنيف، وبالتالي فإن الخوارزمية تقوم ببناء شجرة ثانية تعطي الأولوية للأنواع التي لم يتم تصنيفها جيدًا بهدف فرزها بشكل صحيح. ثم تستخدم الأنواع التي لم يتم تصنيفها بشكل صحيح في الشجرة الثانية لبناء الشجرة الثالثة، و هكذا...

تقوم الخوارزمية بإنشاء آلاف الأشجار، وعند تصنيف هذه البيانات من خلال كل هذه الأشجار باعتبارها مجموعة، تزداد دقة التصنيف بشكل كبير. وبمجرد أن يصبح أداء الخوارزمية جيدًا باستخدام بيانات التدريب، يتم استخدامها للحصول على التوقعات من مجموعات البيانات الأخرى).

تقوم الخوارزمية بإنشاء شجرة التصنيف باستخدام معطيات التدريب، إذ يتم تصنيف المتغيرات إلى حد الوصول إلى نقطة فاصلة، وهي عندما تؤدي قيم المعطيات إلى صنفين مختلفين تمامًا عن بعضهما. تتكرر هذه العملية مرة بعد مرة حتى يتم ترتيب جميع البيانات في أفرع أشجار التصنيف. ولكن، هناك ثغرة كبيرة في هذه الطريقة، وهي أن عملية التصنيف حساسة جدًا لتغيير الصفة الأولى المختارة لعملية التصنيف. على سبيل المثال، لو كانت الصفة الأولى في التصنيف هي كتلة الجسم بدلًا من معدل الأيض، فإن الشجرة الناتجة ستكون مختلفة كليًا، وهذا سيُنتج خللًا في معرفة ما إذا كان هذا النوع المدروس حاملًا للأمراض أم لا. ولتصحيح هذه الثغرة، تمت إضافية عملية تكرارية تدعى "Boosting"، حيث تقوم الخوارزمية بإعطاء الأولوية للبيانات التي أنتجت أخطاء واستخدامها عند إنشاء أشجار جديدة. النتيجة هي إنشاء مئات أو آلاف أشجار التصنيف «الضعيفة»، والتي تُنتج نموذجًا قويًا للتوقع عند استخدامها كمجموعة واحدة. ولتأكيد ذلك، تم اختبارها من خلال البيانات الـ20% التي كانت متبقية سابقًا، وكانت الدقة الناتجة حوالي الـ90%.

إن استخدام خوارزميات تعلم الآلة لها العديد من الفوائد في مجال مثل مجال علم البيئة، من هذه الفوائد:

خوارزميات تعلم الآلة قادرة على التعامل مع التعقيد، فمجال البيئة يتضمن أعدادًا هائلة من المتغيرات غير المعروف مدى ترابطها أو طبيعة هذا الترابط. لكن خوارزميات تعلم الآلة بإمكانها التعامل مع هذه المتغيرات.

يتم استخدام هذه الخوارزميات حاليًا لدراسة أمراض أخرى و أنواع أخرى غير القوارض.

ليس السؤال "أي من الأنواع حاملة للأمراض المعدية" هو السؤال الوحيد ذو الأهمية، هناك سؤال آخر: "ما الذي يجعل نوعًا ما مميزًا عن آخر و قادرًا على حمل أمراض كهذه؟". إن لهذه الخوارزميات القدرة على المساعدة للإجابة على هذا السؤال.

ذكرنا سابقًا أن إحدى الصعوبات الحالية هي التحيًز: هذه المشكلة تم حلها تمامًا من خلال الخوارزمية.

نجد في هذا البحث وغيره استخدامات تعلم الآلة الواسعة و فوائدها على العديد من الأصعدة. أين ترى استخدامًا جديدًا لها؟ و ما ستكون فوائده لو تم تطبيقها؟

المصدر:

هنا