المعلوماتية > الذكاء الصنعي

المُخيّلة الحاسوبية!

تُعدُّ القدرة على قراءة توصيف لمشهد ما ومن ثم تخيل هذا المشهد ميزةً فريدة للإنسان، لكنْ ليس بعد الآن!

تخيل شجرة بلوط في حقل من القمح، وقد بدت السماء خلفها زرقاء مع قليل من الغيوم بعد ظهر يومٍ مشمس، هناك احتمال كبير أنه يُمكن لمعظم الناس الذين سيقرؤون هذه الجملة تصور مشهد يتضمن هذه التفاصيل في مخيلاتهم. هذه القدرة على قراءة توصيف مشهد ومن ثم تخيله كانت دائماً صفة فريدة للإنسان، لكن هذه المهارات الفريدة ربما لم تعد ملكنا وحدنا!

شكل 1: الصور الأصلية والصور المُولدة منها

كل من يعتقد أن هذه الأنواع من التخيلات هي أبعد من قدرة حواسيب هذه الأيام سوف يتفاجأ من عمل الباحثَين "Tatsuya Harada” و“Hiroharu Kato and” في جامعة طوكيو في اليابان. إذ كشف هذان الباحثان عن حاسوبٍ يُمكنه ترجمة توصيف غرض ما إلى صورة، وبكلمات أخرى، يستطيع هذا الحاسوب بناء صورة لغرض ما (هذه الصورة جديدة غير مخزنة من قبل). يُعَـدُّ هذا تعريفاً جيداً للتخيل في حالتنا هذه حالة البناء الحاسوبي.

بالتأكيد، إن هذه التخيلات بسيطة ومحيرة في بعض الأحيان وغالباً لا معنى لها. لكن الحقيقة أنها تشكل خطوةً مهمة على طريق الإبداع الحاسوبي.

كافح علماء الحاسب لفترة طويلة للتعامل مع الصور بقدر من السهولة والقوة لإدارتها باستخدام الكلمات. على سبيل المثال، عند إدخال كلمة أو سلسلة كلمات في محرك البحث، سنعثر على نتائج ملائمة جداً لما نريد، ولكن هذا ليس بسبب قدرة حوسبية خاصة تساعد على فهم هذه الكلمات، وإنما يعود إلى المعالجة الإحصائية، كاستخدام تقنيات (Bag of words) التي أصبحت تقنيات فعالة وقوية. ولكن لا توجد قدراتٍ مماثلة للصور!

لذلك ومنذ بضع سنوات، بدأ علماء الحاسب بمعالجة الصور بالطريقة عينها، بأن ينظروا إلى الصورة على أنها مجموعة من البكسلات التي يُمكن أن تُقسم إلى سلاسل قصيرة تتوافق مع جزء محدد من الصورة. على سبيل المثال، ربما تتوافق سلسلة قصيرة مع حافة كوب أو منطقة من الجلد أو جزء من السماء وما إلى ذلك.

تعني هذه السلاسل القصيرة القليلَ للبشر، أما بالنسبة للحاسوب فهي تعني الكثير، إذ يُمكن أن تُعالَج إحصائياً كالكلمات آنفة الذكر. يُمكن للحاسب أن يحلل الصورة عن طريق حساب عدد السلاسل ومعرفة كيفية حدوثها، تماماً كحالة معالجته لوثيقة ما بحساب عدد مرات ظهور الكلمات فيها.

قد تحتوي صورة للسماء على الكثير من السلاسل التي تتوافق مع أجزاء منها. كما أن صورة كوب من الشاي قد تحتوي على العديد من السلاسل التي تتوافق مع حافة الفنجان وما إلى ذلك.

تسمح هذه الطريقة بإجراء مقارنة بين الصور بشكل فوريّ، إذ يُمكن للحاسب باستخدام هذه الطريقة أن يبحثَ في قاعدة معطيات صور محللة مسبقاً عن أنماط مشابهة لسلاسل في صور أخرى. تتلخص الفكرة في أنه ينبغي لصورتين أن تكونا متشابهتين إذا تشابهت توزيعات سلاسلهما، حيث حقق الباحثون بالفعل نجاحأ لإيجاد التشابه باستخدام هذه التقنية.

كما في طريقة معالجة النص، أطلق علماء الحاسب على هذه السلاسل اسم «الكلمات البصرية»، وعُرف هذا النهج الجديد في تحليل الصور باسم تقنية "bag-of-visual-word". تقوم هذه التقنية بتحليل الصورة عن طريق حساب التوزيع الإحصائي للكلمات البصرية التي تحتويها.

السؤال الذي طرحه كل من Kato وHarada كان عكس ذلك، فبالنظر إلى توزيع مُعطى لكلمات بصرية، ما هي الصورة الأصلية؟

تُعتبر هذه المشكلة صعبة جداً، فعلى الرغم من أن الكلمات البصرية هذه تُوصف جزءاً من الصورة، إلا أنها لا تشرح من أين تم استخلاصها من الصورة أو ما الكلمات البصرية الأخرى القريبة لها.

يقول الباحثون أن هذه المشكلة شبيهة جداً بحل لغز البانوراما (jigsaw puzzle)، فالكلمات البصرية تُمثل القطع، وتكمن المشكلة في كيفية تحقيق تناسب بينهم بحيث يُمكن تجميعهم معاً لتشكيل صورة.

بدأ كل من Kato وHarada بمعالجة هذه المشكلة بطريقتين مختلفتين. اعتمدت الأولى على تقييم مدى تناسب كلمات بصرية مع بعضها البعض بسلاسة إلى جانب كلمات بصرية أخرى. على سبيل المثال، يمكن أن يتم جمع كل الكلمات البصرية التي تُوصف حافة كوب لإظهار حافة مستمرة.

ولكن هذه الطريقة غير واضحة تماماً، لأنه يمكن أن توجد كلمات بصرية ليس لها شكل واضح، وبالتالي لا تتوافق مع بعضها البعض كقطع البانورما. فبدلاً من ذلك قام Kato وHarada بقياس العلاقة بين الكلمات البصرية في قاعدة بيانات ضخمة من الصور عن طريق عدّ كل الأزواج التي تحدث بجانب بعضها البعض، مما أعطى احتمالَ تواجد زوج من الكلمات البصرية بجانب بعضهما البعض.

أما الطريقة الثانية فكانت تقييم احتمالية أن تظهر كلمات بصرية مُعطاة في جزء محدد من الصورة. على سبيل المثال، تقع الكلمات البصرية التي تُظهر منطقة السماء على الأرجح في أعلى الصورة.

ولأن الكلمات البصرية نفسها لا تتحوي على هذه المعلومات، قام Kato وHarada مرة أخرى بقياسها في قاعدة بيانات كبيرة من الصور، ويفترضان أن لكلِّ كلمة بصرية تفضيلاً للموقع المطلق الذي ستوضع به. هذا التفضيل هو قيمة مُقاسة مأخوذة من كامل قاعدة المعطيات.

من المؤكد أن هذه القياسات مكلفة حسابياً، فهي تعتمد على حجم قاعدة المعطيات وعلى حجم الكلمات البصرية، ومع ذلك فقد أظهر Kato وHarada نجاحاً كبيراً باستخدام هذا المنهج لحل المشكلة. حيث قاما بإنشاء قاعدة معطيات من 101 صورة، تُظهر كل صورة نوعاً مختلفاً من الأغراض. كما قاما بتغيير أبعاد كل صورة إلى 128x128 بكسل، وافترضا أن أبعاد كل صورة تُبنى من كلمات بصرية 13 13x بكسل، وأن ثلاثة أرباع كل كلمة بصرية تتداخل مع كلمة أخرى مجاورة لها.

وبعد أن أنشأ هذان الباحثان قاعدةَ المعطيات التي تبين التوزيع الإحصائي للكلمات البصرية، تم استخدام هذه المعلومات لإعادة بناء صورة باستخدام الكلمات البصرية التي تظهرها فقط.

كانت النتائج بشكلٍ عام مثيرة للإعجاب، ففي حين لم تحمل بعض الصور المُولدة أي معنى، أُعيد بناء مجموعة واسعة من صور أُخرى بنجاح. على سبيل المثال، مظلة ومفتاح وبرميل وسمكة وحتى وجه إنسان. (انظر إلى الصور الأصلية أعلاه والصور التي تمت إعادة بنائها، شكل 1)

تُعدُّ هذه النتائج مثيرة للإعجاب لأنها تقود إلى العديد من التطبيقات المهمة. فعلى سبيل المثال، قام Kato وHarada باستخدامها للتحول من صورة إلى أخرى، وذلك بأخذ حُزم الكلمات البصرية الممثلة لصورتين ومن ثم توليد حُزم وسيطة لبناء صور وسيطة في تسلسل التحول هذا.

ما يثير الاهتمام أيضاً هو عملهم في مجال الرؤية الحاسوبية، هذا المجال الذي طور فيه علماء الحاسب مؤخراً العديد من خوارزميات القوية للتعرف على الأغراض.

تُعرف هذه الخوارزميات بـ«المصنفات» التي تعمل بدقة عالية، لكن في بعض الأحيان يُمكن لها أن تنخدع من قبل أغراض تظهر واضحة للعين البشرية ولكن لا تظهر واضحة لها تماماً، وهذا ما يعمل Kato وHarada على تغييره، حيث استخدما المنهجية المعتمدة على حزم الكلمات البصرية لإظهار هذه الأغراض للمصنفات.

لإنجاز ذلك، تم استخدام المصنفات لدراسة 10000 صورة منتقاة بشكل عشوائي، وقاما بإحصاء الكلمات البصرية التي غالباً ستُحفّز كل مصنف. وبعد ذلك، قاما باستخدام تقنيتهما لتجميع هذه الكلمات البصرية في صورة.

كانت النتائج باهرة، إذ كانت بعض المصنفات المصورة مشابهة وبشكل ملحوظ للأغراض نفسها. في حين أظهرت مصنفات أخرى تشوهاً على نحو غريب مثل الأعمال الفنية الحديثة. كما أظهر بعضها كيف يمكن لعناصر إضافية أن تكون مهمة، على سبيل المثال، كيف للأفق أن يكون مهماً في تعريف الأشجار.

وأخيراً استخدم Kato وHarada منهجهما لتوليد صور من جمل عادية، وذلك عن طريق تحويل كل كلمة في الجملة إلى حزمة من الكلمات البصرية ومن ثم بناء الصورة باستخدام هذه الحزم.

يُعدُّ تحويل الكلمات العادية إلى حزم من الكلمات البصرية مهمة صعبة، وقد استطاع الباحثون تحقيق ذلك من خلال البحث في قاعدة بيانات تضم صوراً مُعنونة، وفي كل مرة تظهر كلمة ما ضمن عنوان صورة يُضيفون الكلمات البصرية في الصورة إلى الحزمة المستخرجة، مما يؤدي إلى إنشاء حزمة كبيرة من الكلمات البصرية التي من الممكن أن تُولد صورة.

على الرغم من أن العديد من الصور المُولدة لا تحمل معنى كما يقول Kato وHarada، وذلك أنه بسبب أن طريقة تحويل الكلمة إلى حزمة من الكلمات البصرية بسيطة جداً، إلا أن جملاً أخرى أنتجت صوراً شبيهة بالأحلام ترتبط بشكل وثيق بالفكرة الأساسية. (انظر الصورة أدناه، شكل 2).

شكل 2: صور مُولدة من جمل عادية

يقول Kato وHarada أن هذا يشكل بدايةً واعدة تفتح الطريق لجيل جديد من أنظمة خلق الصور. وبالفعل يعدُّ العمل الذي قاما به هو أول مخيلة حاسوبية في العالم، وهي خطوة مهمة على طريق الإبداع الحاسوبي!

---------------------------------

المصادر:

البحث: هنا

المقالة: هنا