المعلوماتية > برمجيات

خوارزمية جديدة قد تحدث ثورة في عالم البحث عن الصور

إمكانية اكتشاف الوجوه من أي زاوية وحتى في حال ظهور الوجه بشكل جزئي تعد من التحديات بالنسبة للحاسوب ولكن ليس بعد الآن.

في عام 2001، قام الباحثان في مجال الحاسوب بول فيولا ومايكل جونز بإطلاق ثورة في مجال اكتشاف الوجوه عن طريق الحاسوب، فبعد سنوات من البحث استطاعوا التوصل إلى خوارزمية تقوم باكتشاف الوجوه الموجودة في صورة ما بشكل فوري.

اعتبرت هذه الخوارزمية -التي أطلق عليها اسم "فيولا-جونز"- من الخوارزميات السريعة والبسيطة واستخدمت فيما بعد ضمن العديد من الكاميرات.

جزء من الخدعة التي استخدمها فيولا وجونز أنهم قاموا بتجاهل المسألة ذات الحجم الأكبر بكثير وهي التعرف على الوجوه ”Recognition” ووجهوا اهتمامهم فقط على مسألة الكشف عنها “Detection” وأيضا ركزوا على الوجوه من ناحية الجبين فقط متجاهلين أن ينظر إليها من أي زاوية أخرى.

باستخدام هذه الحدود استطاعوا تحديد أن الأنف يشكل عادة خط عامودي أكثر بروزاً من تجويف العين الذي بقربه ولاحظوا أيضاً أن العينين تكون في غالب الأحيان في الظل فتشكل نطاق أفقي مظلم.

وبالتالي فيولا وجونز قاموا ببناء خوارزمية تقوم بالبحث أولاً في الصورة عن نطاق عامودي بارز والذي قد يدل على الأنف ثم تبحث عن النطاق الأفقي المظلم الذي قد يدل على العينين وبعد ذلك تقوم بالبحث عن الأشكال العامة الأخرى المرتبطة بالوجوه.

يتم الكشف عن هذه المؤشرات واحداً تلو الآخر بشكل سلسلة وتعد هذه السلسلة مؤشراً قوياً على وجود وجه في الصورة. بسبب بساطة تنفيذ هذه الاختبارات تستطيع هذه الخوارزمية العمل بشكل سريع في الزمن الحقيقي Real-time.

خوارزمية فيولا-جونز حدت بشكل كبير من عمل محركات البحث الخاصة بالوجوه وذلك بسبب أنها تعمل فقط على الوجوه الذي ينظر إليها من ناحية الجبين وليس من أي زاوية أخرى، وهو السبب الذي جعل شركة ياهو تهتم بهذه المسألة.

قام اليوم ساشين فارفيد ومحمد سابرين من مختبرات ياهو في كاليفورنيا ولي جيا من جامعة ستانفورد بالكشف عن منهج جديد للمسألة يستطيع تحديد الوجوه من الزوايا حتى لو كان الوجه ظاهراً بشكل جزئي، وأضافوا بأن هذا المنهج الجديد يعتبر أبسط من غيره.

فارفيد وشركاؤه استخدموا أسلوباً مختلف جذرياً لبناء نموذجهم حيث استغلّوا التقدم الكبير الذي تحقق في السنوات الأخيرة في أحد مجالات التعلم التلقائي Machine Learning يعرف بالشبكات العصبونية الالتفافية العميقة، حيث يتم تدريب شبكات عصبونية متعددة الطبقات باستخدام قاعدة بيانات ضخمة تحوي عدد كبير من الأمثلة وهنا تكون هذه الأمثلة هي عبارة عن صور لوجوه من مختلف الزوايا.

تم إنشاء قاعدة بيانات مؤلفة من مئتي ألف صورة تحتوي وجوهاً من مختلف الزوايا ثم قاموا بتدريب الشبكة العصبونية على دفعات تتألف من 128 صورة على 50 ألف حلقة تكرارية.

النتيجة هي خوارزمية واحدة تستطيع تحديد الوجه من مجال كبير من الزوايا وتستطيع تحديد عدة وجوه في نفس الصورة بدقة ملحوظة.

أطلق الفريق على هذا المنهج أو الطريقة Deep Dense Face Detector أي كاشف الوجه عميق الكثافة وأضافوا بأنه تمت مقارنة هذه الطريقة مع عدة طرق تعتمد على التعلم العميق أو Deep Learning ولوحظ تفوقها في إعطاء نتائج أسرع ودقة أعلى.

وأضافوا أن الخوارزمية الخاصة بهم أفضل بكثير في اكتشاف الوجوه التي تكون مقلوبة رأساً على عقب، وهو الشيء الذي لم تستطع باقي الخوارزميات تحقيقه، وقال الفريق أنه يتم العمل على استخدام عينات أفضل وتقنيات أكثر تطوراً لزيادة البيانات وذلك لتحسين أداء الطريقة المقترحة للكشف عن الوجوه التي تظهر بشكل جزئي أو التي تم تدويرها رأساً على عقب.

إن هذا العمل المثير للاهتمام يبيّن سرعة تطور مجال اكتشاف الوجوه، وعلى رغم من أن تقنية الشبكات العصبونية الالتفافية العميقة لم تظهر إلا منذ بضعة سنوات إلى أنها قد أدت إلى تقدم كبير في مجال الكشف والتعرف على الوجوه.

الشيء الكبير المنتظر من هذه الخوارزمية سيكون في مجال البحث عن الصور، ففي الوقت الحالي يمكن البحث عن صور تم التقاطها في مكان ما وفي وقت محدد بسهولة ولكن من الصعب أن نجد الصور التي تم التقاطها لأشخاص معينين، ولكن من المؤكد أن هذه الإمكانية ستكون متوفرة في المستقبل القريب، وعندما تصبح متوفرة فإن العالم سيصبح مكاناً أصغر بكثير حيث لن تقتصر قابلية البحث على الصور المستقبلية وإنما التاريخ الكامل المؤلف من الصور الرقمية والفيديوهات و CCTV فبطريقة أو بأخرى ستكون هذه الوسيلة ذات قوة وأهمية كبيرتين في المستقبل.

المصادر:

هنا

هنا