المعلوماتية > الذكاء الصنعي

الزيف العميق Deep Fake

الزيف العميق (deep fake) تقنية جديدة يمكن باستخدامها التلاعب بمقاطع الفيديو وتغيير محتواها، حتى إن كان المستخدم من المبتدئين.

ففي أحدث تقنية لمعالجة الفيديو، توصّل باحثون إلى كيفية تحويل النص المكتوب إلى فيديو واقعي لأي شخص يقول كلمات محددة. وقد رأينا هذا النوع من الزيف العميق؛ إذ تُعرَض مقاطع فيديو لأشخاص مشهورين لجعلهم يتحدثون عن أي شيء باستخدام خوارزميات الذكاء الصنعي، ولا زالت هذه التقنية تتقدم وتتحسن، حتى إنه أصبح من الصعب جدًّا اكتشافها.

يتيح هذا النظام الجديد للمستخدمين إجراء تعديلات على النصوص المكتوبة لمقطع فيديو، ثم تُنجَز هذه التعديلات مرة أخرى عن طريق طبقات من المعالجة الرقمية، وكأنه حرفيًّا توضع هذه الكلمات في أفواه الناس.

ووفقًا للباحثين، يمكن استخدام هذه التقنية لحل المشكلات الصغيرة في الأداء التمثيلي في مرحلة ما بعد الإنتاج، كما حدث في فيلم (Furious 7) بعد وفاة بطله "بول ووكر Paul Walker" حين لجؤوا إليها لإكمال مشاهد هذا البطل. ولكن؛ ستكون تداعيات كل تطور في هذه التقنية أكبر ويمكن أن يُستخدَم لأغراض شريرة.

يقول عالم الحاسوب "أوهاد فريد Ohad Fried" من جامعة ستانفورد: "تدور هذه التقنية حول تحسين سرد القصص، ومن الناحية البصرية فإن هذه التقنية سلسة لدرجة أننا لسنا بحاجة إلى إعادة تصوير أو تسجيل أي شيء".

تستخدم الخوارزمية التي أُنشئت حديثًا تقنيات تعلم الآلة لمطابقة النص المكتوب مع حركات رأس المتكلم. وقد اختُبرت هذه التقنية في وقتنا الحالي على مقاطع فيديو للجزء العلوي من الجسم فقط، وتبيّن أنها تحتاج إلى ما لا يقل عن 40 دقيقة من لقطات عينة لشخص مُعيَّن لإنشاء فيديو مزيف للشخص نفسه بحيث يبدو كأنه حقيقي.

وتُطبَّق آلية تجانس ذكية لجعل الكلام يبدو طبيعيًّا، ثم يمر الأنموذج الثلاثي الأبعاد النهائي بعملية تعرف باسم التقديم العصبوني (Neural Rendering)، ويستخدم هذا الشبكات العصبونية لسد الفجوة بين الأنموذج الثلاثي الأبعاد والوجه الفعلي.

عندما أُجري استبيان لـ 138 متطوع وطُلِب منهم تصنيف هذه النتائج، قال 60% منهم عن مقاطع الفيديو النهائية التي ينتجها الذكاء الصنعي إنها "حقيقية".

وفي أكثر أشكال هذه التقنية تقدمًا، من الممكن تعديل هذه المقاطع وتحريرها ببساطة شديدة وكأننا نعدّل مستندًا من مستندات محرر النصوص (Word). ويتوقع أن تزداد دقة هذه التقنية مع مرور الوقت، وأن تُستخدَم مع الأصوات المركبة وترجمة الخطابات بين اللغات أيضًا.

وكما رأينا على مدار العامين الماضيين، أصبحت كثيرٌ من المشاريع المختلفة الآن قادرة على تطوير رؤوس تتكلم وكأنها حقيقية وتقرأ النصوص المكتوبة، ومن المتوقع قريبًا ألّا يُشترَط وجود الأشخاص لظهورهم في الفيديو؛ إذ يمكن للذكاء الصنعي أن ينشِئَهم، ولكنّ هذا يحتاج حجمَ بيانات كبير لتدريب الآلة عليه.

طريقة العمل:

يأخذ هذا النظام مقطع فيديو مسجل للمتكلم من الجهة العليا للجسم، كذلك يأخذ النص وعدد التعديلات المطلوبة.

يدعم هذا النظام ثلاثة أنواع من عمليات التعديل:

- إضافة كلمات جديدة لمقطع الفيديو: يمكن إضافة كلمة أو أكثر في لحظة معينة من الفيديو.

- إعادة ترتيب الكلمات في مقطع فيديو: يمكن إعادة ترتيب كلمة أو أكثر في مقطع الفيديو المراد ترتيبه.

- حذف الكلمات من مقطع فيديو: يمكن إزالة أو حذف كلمة أو أكثر من مقطع الفيديو أيضًا.

النتائج:

اختُبِر النظام على عدة عبارات مركبة ومختارة عشوائيًّا، وقد لوحظ أنّ طول العبارة لا يؤثر في النتائج إطلاقًا، ولكن؛ يمكن أن تؤثر نبرة الصوت مثلًا في دقة نتائج هذا النظام.

ماذا عن الاستخدام السيئ لهذه التقنية؟

يقول الباحثون إنهم درسوا هذا، وعلى الرغم من أن حلولهم قد لا تبدو مقنعة للأشخاص جميعهم؛ هم يقترحون أنّ أنظمة وضع العلامات المائية ورفع التوعية عن التلاعب بالفيديو يمكن أن يساعد المشاهدين على تطوير وجهة نظر صحية عن صحة مقاطع الفيديو.

ولتعزيز طرحهم، لاحظوا أننا تعلمنا بالفعل التعايش مع هذا عندما يرتبط الأمر بتعديل الصور، مع العلم إنه يمكن التلاعب بالصور وتزويرها بمستوى عالٍ للغاية.

يقول Fried: "لسوء الحظ، سوف تجذب تقنيات كهذه مستخدميها بطريقة سيئة دائمًا، ولكن؛ تطبيقات تحرير الفيديو وإنشاء المحتوى التي تتيحها هذه التقنية تستحق".

ختامًا؛ في هذه النسخة الأولى من النظام وُصِل إلى نتائج جيدة؛ إذ يمكن عن طريقها تحرير النص وتعديله في فيديو مُسجَّل اعتمادًا على نص مكتوب، ويتيح لنا أيضًا إضافة الكلمات وحذفها وترجمتها، وهذه خطوة أولى للوصول إلى نظام يعدّل ويحرر محتوى كاملًا سمعيًّا وبصريًّا.

المصادر:

1- هنا

2- هنا

3- هنا

4- هنا