المعلوماتية > عام

كيف تعملُ خوارزمياتُ الحاسب للتّعرف على الأجساد العارية؟

استمع على ساوندكلاود 🎧

قامت شركة Clarifai مؤخراً بالإعلان عن النموذج الخوارزميِّ المُسمّى Not Safe for Work أو اختصاراً NSFW، للتّعرُّف على الصورِ ذاتِ المحتوى المخصّصِ للبالغين. في هذا المقال، يشرح أحدُ علماء المُعطيات في هذه الشركة، تقنيّةَ تعليمِ الحاسوب على كيفيةِ التعرُّفِ على الصّور التي تحتوي أجساداً عارية.

منذُ أكثرّ من عقدين، تُمثّلُ أتمتةُ التعرفِ على الصورِ العاريةِ أحدَ أهمِّ التحدياتِ في مجالِ الرّؤية الحاسوبيّة. هدفُ العمليةِ واضحٌ وصريح، وهو حمايةُ المستخدمين القُصَّر أو أولئك الذين لا يرغبون في معاينةِ صور العري. يشكّلُ التّعرفُ الأوتوماتيكي على الصور العاريةِ مثالاً هامّاً لتبيان كيفيةِ تطوّر مجال الرؤية الحاسوبية. سنقدّم هنا شرحاً مبسّطاً لآليةِ عمل الشبكاتِ العصبونية الالتفافية أو Convolutional Neural Networks للتّعرف على الأشكال في الصور، تعتمدُ هذهِ الآليةُ على التّعلّمِ العميق، وتختلفُ جذرياً عن التقنياتِ المُتَّبعةِ في الأبحاث السابقة.

نعود إلى العام 1996:

في الورقةِ البحثيةِ التالية المطروحة من قِبَل باحثِين في جامعتَي أيوا وبيركلي في الولايات المتحدة، يشرحُ الباحثون منهجيّتَهم المطروحةَ بأنّها تعتمدُ على استخلاصِ الخصائصِ اللّونيّة والشكليّة في الصورة لبناءِ قناعٍ يُغطِّي بشكلٍ فعّالٍ المساحاتِ الممثّلةَ لجلدِ الإنسان. ومن ثم يتمُّ تجميعُ وتوصيلُ تلكَ المساحاتِ بالاعتماد على شكلِ وتموضعِ أعضاءِ الجنس البشريّ، وذلك بهدفِ تشخيصِ الصّورة إذا كانت تحتوي على أجسادٍ عارية.

في القسم الثاني من الورقة البحثية، تم تلخيصُ خوارزمية المعالجة كالتالي:

1- تحديدُ الصور التي تتضمنُ مساحاتٍ واسعةً لها ألوانٌ مشابهةٌ لألوان الجلد البشري.

2- تجميعُ وتوصيلُ تلك المساحاتِ ضمنَ أشكالٍ شبيهةٍ بالأعضاءِ البشريّة المرئيّة (أَيدٍ، أرجلٌ، بطنٌ، … إلخ)، تستندُ هذه العمليةُ على قاعدةِ بياناتٍ جيومتريةٍ تُوصِّفُ أشكالَ الأعضاءِ البشريةِ وكيفيةَ تموضُعِها مع بعضها البعض. تمّ بناءُ قاعدة البيانات هذه بشكلٍ يدويٍّ من قِبَل باحثِين.

يتمُّ التعرّفُ على الجلد عن طريقِ تصفيةِ أو ترشيحِ (filtering) الألوان، أمّا تجميعُ المساحات الجلديةِ فيتمُّ عن طريقِ نمذجةِ الجسمِ البشريِّ على شكلِ أجسامٍ ذاتِ علاقاتٍ تموضعيةٍ (جيومتريةٍ) معرّفةٍ يدوياً، ومستندةٍ على شكلِ الهيكلِ العظميِّ البشري.

لشرح هذه الخوارزمية؛ دعونا نُعاينِ الشكلَ التالي المأخوذَ من نفس الورقة البحثية:

إلى اليسارِ من الرسم التوضيحي: تُحدّدُ قواعدُ التجميع (الأسهم) كيفيةَ تجميعِ أشكالٍ بدائيةٍ صغيرةٍ وبسيطةٍ، ضمنَ أشكالٍ أكثرَ تعقيداً يُمكن أن تُمثِّلَ أعضاءاً بشريّة. تقترحُ هذه القواعدُ العديدَ من الأشكال المُرشَّحة، ثم تقومُ خوارزميةٌ تاليةٌ بقبولِ أو رفضِ الأشكال (منتصف ويسار الرسم) حسْبَ قواعدَ متعلقةٍ بوضوحِ تلك الأشكالِ أو تناظرِها أو تراكبِها فوق بعضها البعض.

استطاعتْ هذه الخوارزميةُ التعرُّفَ بدقَّة 60% على الصّورِ العارية، وبطبيعة الحالِ فقد أخطأتْ في بعض الحالات وصَنَّفتْ بعضَ الصورِ على أنها تحتوي أجساداً عاريةً، دون أن يكون ذلك صحيحاً.

أحدُ أهمِّ المشاكلِ في هذه الخوارزمية ومثيلاتِها في أبحاثٍ سابقة، هو الاعتمادُ على التّصميمِ اليدويِّ الصريحِ للخصائصِ البصريّةِ للأجساد البشرية، إذ يقومُ الباحثون بتوصيفِ ألوانِ وأشكالِ الأعضاء البشرية والعلاقاتِ التموضعيةِ فيما بينها، وهذه العمليةُ معقّدةٌ للغاية، ومن الصّعب جداً تغطيةُ جميع الحالات الممكنة.

دعونا الآن ننتقل إلى العام 2014:

عوضاً عن التصميم والتوصيف اليدويِّ الصريحِ للأجسامِ المطلوبِ التعرُّف عليها، وبدلاً من وضعِ قواعدٍ للتعرُّفِ على الأشكالِ والألوانِ والتموضعات، تقترحُ أبحاثُ التعلُّمِ العميق (deep learning) شبكاتٍ عصبونيةً تقومُ تلقائيّاً بتعلُّمِ التمثيلِ الصَّحيحِ للأجسام، مباشرةً من البيانات (الصور في حالتنا هنا*). لكنَّ المشكلةَ هُنا أنّه من الصعبِ معرفةُ كيفيّةِ عملِ الشبكةِ العصبونية، فالسؤالُ المطروحُ هنا هو: كيف يمكننا فهمُ ماهيّة الخصائصِ التي استخلصتْها شبكةُ العصبونيةِ بالتعلّم، والتي لم يستطِعِ العلماءُ في الماضي تصميمَها؟

للإجابة على هذا السؤال، تمَّ تطبيقُ تقنيّة الالتفافِ العكسيِّ على نموذج NSFW المذكور سابقاً.

الالتفافُ العكسيُّ لمعاينةِ الخصائصِ البصريَّةِ الأقدرِ على وصفِ الصورة:

بعدَ تعليمِ الشَّبكةِ العصبونيَّةِ العميقةِ على مجموعةٍ كبيرةٍ من صورٍ تحتوي على أجسادٍ عارية، تمَّ استخدامُ تقنيةِ الشَّبكاتِ العصبونيّةِ الالتفافيّةِ العكسيّةِ (deconvolutional network - deconvnet) المطروحةِ من قِبَل Zeiler وFergus عام 2014.

تسمحُ لنا هذه التقنيةُ برؤيةِ الخصائصِ الشّكليّةِ واللّونيةِ التي استخلصتْها الشبكةُ العصبونيّةُ واستخدمَتْها للتَّعرُّفِ على الأجزاءِ العاريةِ من الجسم البشريِّ في الصُّورِ ثُنائِيَّة الأبعاد.

تنبيه: يحتوي الرابط التالي على صورٍ عارية، يمكنك تجاوزُه في حالِ عدمِ رغبتكَ في معاينة الصورة (هنا).

بمعاينةِ الصورةِ في الرابط السّابق نستطيعُ ملاحظةَ أنَّ الشّبكة العصبونية نجحتْ في تعلُّمِ الخصائصِ البصريَّةِ الأساسيَّةِ للجسدِ العاري، دونَ أيِّ تدخُّلٍ بشريٍّ في توصيفِ ماهيّةِ ألوانِ وأشكالِ وتموضُعاتِ أعضاءِ الجسد، نلاحظُ أيضاً أنّ الأشكالَ المُكتَشَفةَ معقَّدةٌ ومتنوعةٌ بشكلٍ أكبرَ بكثيرٍ من الأشكالِ المُقترحةِ في الأبحاث السابقة، وهذا ما يُميّزُ أبحاثَ التّعلّمِ العميقِ في الرُّؤيةِ الحاسوبيّة.

بعد هذا العرضِ السَّريعِ لمقدرةِ التّعلمِ العميقِ على تحليلِ الصّور، نستطيعُ القولَ أنَّ التقنياتِ المُعتَمِدةَ على التعلّم العميقِ تستطيعُ التعرُّفَ على الأجسام بدقَّةٍ أعلى من التقنياتِ السَّابقة، واستخداماتُها لا تنحصرُ فقط في حمايةِ المُستخدِمين من معاينةِ صورٍ عنيفةٍ أو فاضحة، بل تشمُلُ العديدَ من المجالات الصّناعية والطبية.

لقد أصبحَ التعلُّم العميقُ الآنَ المحرِّكَ الأساسيَّ للذّكاء الصنعيّ، وأحدَ الفاعِلَيْنِ الأساسِيَّيْنِ في تحديدِ شكلِ المستقبلِ لحياتنا.

*ملاحظة من المترجم: الشبكاتُ العصبونيّةُ العميقةُ مؤلَّفةٌ من طبقاتٍ عديدة، تستخلصُ الطبقاتُ الأولى خصائصَ بسيطةً (لونية وشكلية)، وتقوم الطبقاتُ العميقةُ ببناءِ خصائصَ أكثرَ تعقيداً، مبنيةٍ على الخصائص المُستخلصةِ في الطّبقات السابقة، وهكذا حتى الوصولِ إلى خصائصَ معقّدةٍ ومتقدِّمةٍ تسمحُ بالتّعرفِ على الأجسامِ بشكلٍ دقيق.

المصدر:

هنا

هنا

هنا