المعلوماتية > الذكاء الصنعي

"بوت مايكروسوفت" الرسام

مقدمة المقال

إذا قرأتَ ملاحظةً صغيرةً طُلبَ منك فيها رسمُ صورةِ طائرٍ ذي صفاتٍ معينة فعلَى الأرجح ستبدأُ برسمِ خطوطٍ مبدئيةٍ تُحدِّدُ الشكلَ الخارجيَّ للطائر، ثمَّ تتابعُ الرسمَ خطوةً بخطوةٍ حتَّى تُنجزَ المطلوب. ولزيادةِ جماليةِ رسمتِك؛ ربَّما تضيفُ عنصراً آخرَ إليها؛ كغصن شجرةٍ مثلاً.

حسناً؛ إنَّ هذا هو ما يفعلُه "الـبوت" الذي سنتحدثُ عنه في مقالنا.

المقال

إنَّ تقنيةَ الذكاءِ الصنعيّ التي تخضع للتطوير حالياً في مراكز أبحاثِ شركة "مايكروسوفت" مُصمَّمةٌ للتركيزِ على الكلماتِ المُفرَدةِ عندَ توليد الصور من العناوين والنصوص.

ويُنتِجُ هذا الأسلوبُ المعتمَدُ صوراً ذاتَ دقةٍ أعلى بثلاثةِ أضعافٍ تقريباً مقارنةً بتقاريرَ سابقة لاختباراتٍ في هذا الموضوع.

ويُطلِقُ الباحثون على هذه التقنيّةِ اسمَ "البوت الرسّام" (drawing bot)، وهي قادرةٌ على توليدِ صورٍ عن كلِّ شيء من المشاهدِ البسيطة - مثل مشهدٍ طبيعيّ - إلى المعقَّدةِ منها كحافلةٍ عائمةٍ ذاتِ طابقَين؛ أي إنَّه سيقتضي ذلك من البرنامج التعديلَ على شكلِ الحافلةِ ذات الطابقَين لِتظهر بشكلٍ يطفوُ على الماء، فكلُّ صورةٍ تحتويَ تفاصيلَ لا تُذكَرُ في النص، لذا يُطلَبُ من الذكاءِ الصنعيّ أن يتمتَّعَ بمخيّلةٍ صنعيّةٍ أيضاً.

يقول الباحثُ في مراكزِ مايكروسوفت "زايدونغ هِيْ" Xiaodong He: "إذا ذهبتَ إلى مُحرِّكِ البحثِ Bing؛ وبحثتَ عن كلمةِ “bird”؛ فسوف تجدُ صورةَ طائرٍ، لكنَّ هذه الصورةَ مصنوعةٌ من قِبَل الحاسوب على نحوٍ كاملٍ - بِكْسِلاً وراءَ بِكسِل بَدءاً من الصفر - وسوف تجدُ أنَّ هذه الطيور قد لا توجَدُ في العالِم الحقيقيّ، وإنَّما هي نتاجٌ لمخيلة الحاسوب."

"البوت الرسّامُ" هو نِتاجُ حلقة بحثٍ عن التَّفاعُلِ بين رؤية الحاسوب ولغةِ المُعالَجةِ الطبيعية التي اكتشفها He وزملاؤه في منتصف العقدِ الماضي، وقد ابتدأ عملهم بتقنيّةٍ تكتبُ عناوينَ الصُّوَر (The Caption Bot)، ثم انتقلوا إلى تقنيةٍ تجيبُ عن أسئلةِ البشرِ عن الصُّوَر؛ مثلَ موقعِها وخصائصِ الكائنات فيها، والَّتي تساعِدُ فاقديّ البصر مساعدةً كبيرةً.

وإنَّ الجهودَ المبذولةَ تتطلَّبُ تدريبَ نماذج من الـ Machine learning، وتُعَلَّم النماذجُ كيفيَّةَ تحديدِ الكائنات، وتُفسِّر الأفعالَ وتتعاملُ بلغةِ المُعالَجةِ الطبيعيةِ وهي اللُّغةُ التي تجعل الحاسوبَ يفهمُ لغاتِنا العادية.

وأضاف بينغشوان تشانغ Pengchuan Zhang - باحثٌ مشاركٌ -: "إنَّ توليدَ الصُّوَر هو مَهمَّةٌ أكثرُ تحدِّياً من عنونتِها؛ لأنَّ العمليةَ تتطلَّبُ من "البوت" تخيُّلَ التفاصيل التي غابت عن النص، وهذا يعني أنَّه يجبُ على الخوارزمية المستخدَمةِ في هذا الذكاءِ الصُّنعيّ أن تُنتِجَ بعضَ أجزاءِ الصورةِ من مُخيِّلتِها".

ولكن؛ كيف تُولَّدُ هذه الصورةُ؟

إنَّ النواةَ الخاصَّةَ بهذا البوت هي تقنيةٌ معروفةٌ باسمِ شبكةِ توليدِ الضِّدِّ (Generative Adversarial Network) أو اختصاراً (GAN)، وهذه الشبكةُ مؤلَّفةٌ من نموذجَين من الـ Machine learning المُدرَّبةِ مسبقاً؛ تولِّدُ الأولى منهما الصورةَ من النص؛ في حين تُعرَفُ الأُخرى كمُحكِّم أو مُقيّم (discriminator)؛ وتَستخدِمُ النَّصَّ لتتحقَّقَ من صحةِ الصُّوَرِ المولَّدة، ويحاول المولِّدُ (الشبكة الأولى) التحايُلَ على المحكِّم (الشبكة الثانية) بتوليدِ صورٍ مزيفة، لكنَّ المُحكِّمَ لا يمكنُ التحايلُ عليه، ونتيجة لذلك يَدفعُ المحكِّمُ المولِّدَ إلى توليدِ صورة ذاتِ جودةٍ أفضل.

لقد دُرِّبَ "البوت" باستخدامِ بياناتٍ تتضمَّنُ أزواجاً من الصور والعناوين، والتي تسمح للنموذج أن يتعلَّمَ كيفيةَ الربطِ بين الكلمات والتمثيلَ المرئيَّ لها؛ إذ تتعلَّمُ الـ(GAN) - مثلاً - توليدَ صورةِ طائرٍ عندما يحتوي العنوانُ على كلمةِ طائر، وهكذا فيما يخصُّ بقيةَ العناصر.

تعملُ (GAN) جيّداً عندَ توليدِ صورةٍ من نصٍّ بسيط؛ كطائرٍ أزرقَ أو شجرةِ صنوبر، لكنّ جودةَ الصورةِ تتناقصُ تدريجياً مع النصوصِ الأكثرِ تعقيداً؛ كطائرٍ أصفرِ اللون ذي أجنحةٍ زرقاء ومنقار قصيرٍ غامقِ اللون، والسببُ في ذلك أنَّ تعامل البرنامج مع الصور يكون كلمةً كلمةً، ونتيجةً لذلك؛ تكون الصورةُ ضبابيّةً نوعاً ما وغيرَ واضحةٍ تماماً كما حدَّدَها النص.

ونحنُ - البشرَ - عندما نحاولُ رسمَ شيءٍ ما فإنّنا نأخذ بالحُسبانِ الكلماتِ التي تصفُ المنطقةَ الحالية التي نرسمُها من الصورة.

ولمحاكاةِ هذا الأسلوبِ؛ ابتكر الباحثون ما يُسمَّى بشبكةِ توليد الضد المُتنبِّهة (attentional GAN)؛ وتُعرف اختصاراً (AttnGAN)، وهي تمثِّلُ رياضيّاً مفهومَ الانتباهِ البشريّ، إذ تفعلُ ذلك عن طريقِ تقسيمِ النصّ إلى كلماتٍ مفردة، ثمَّ تربطُ كلَّ كلمةٍ مع المنطقةِ المحدَّدةِ الموافِقة في الصورة.

يقول He: "الانتباهُ هو مفهومٌ بشريٌّ؛ لكنَّنا نستخدمُ الرياضيّاتِ لنبتكرَ انتباهاً حاسوبيّاً".

ويتعلَّمُ النموذجُ من بياناتِ التدريب ما نُسمّيهِ نحن - البشرَ - الفطرةَ السليمة (commonsense)، وذلك ما يُمَكِّن النموذجَ من مَلءِ الفراغاتِ والتفاصيلِ غير المذكورةِ في النصّ من مخيّلته. وعلى سبيل المثال؛ نجدُ في العديدِ من صور الطيور الموجودة في نماذج التدريب أنَّ الطائرَ يستندُ إلى غُصن شجرةٍ، ولذلك فعندما ترسمُ الـ (AttnGAN) طائراً فقد ترسمُه مستنداً إلى غُصن شجرةٍ، حتَّى وإن لم يذكُرِ النصُّ ذلك صراحةً.

ولاختبارِ الفِطرةِ السليمةِ لدى خوارزميّة التعلُّمِ العميق المُستخدَمةِ؛ يطلبُ الفريقُ منها رسمَ صورةٍ مُعقَّدةٍ؛ كحافلةٍ ذاتِ طابقَين تطفو على سطحِ بحيرة، ويُمكِنُ أن تكونَ النتيجةُ قارباً ذا مقعدَين وحافلةً ذاتَ طابقين يطفوان معاً على سطح بحيرة مُحاطَةٍ بالجبال، وما التفسيرُ الكامنُ وراء هذه النتيجة إلّا أنَّ الخوارزميّةَ قد اختلطَ عليها الأمرُ بين الحافلةِ التي تسير على البرّ والبحيرة، لذلكَ فقد تكونُ النتائجُ سخيفةً وغيرَ منطقيةٍ بعضَ الشيء أحياناً.

ولا تزالُ هذه التقنيةُ قيدَ التجريبِ والتطويرِ حاليّاً؛ وهي ليست مؤهَّلةً بأيّ شكلٍ لاستخدامها عمليّاً، ولكن؛ قد تُستَخدَمُ مستقبلاً في برامجِ الرَّسمِ والتصميم، وفي إنتاجِ أفلام الأنيميشن أيضاً، والتي ستسهِّلُ عملَ المصمِّمين وتخفِّفُ العبءَ عنهم في الأمور التي ينجزونها يدويّاً، ممَّا يَفسَحُ المجالَ أمامَهم للإبداع والتميُّز.

المصادر:

هنا