المعلوماتية > علم البيانات

تجميع بيانات الهاتف المحمول ومخاطر الخصوصية

إنَّ أيَّ سلوك نفعله على وسائل التواصل، عند السفر أو عند شراء الأغراض باستعمال البطاقة المصرفية ينتج عنه بيانات عديدة، وتتميز هذه البيانات باحتوائها على المكان المُستخدِم الجغرافي، إضافة إلى الزمن الذي كان فيه موجودًا في هذا المكان.

تكون هذه البيانات بطبيعتها مجهولة الهوية لمن يجمعها وجَرَت العادة أن تكون ذات قيمة إحصائية للمراكز البحثية والشركات العالمية، ولكنَّ أظْهَرَتْ الدراسات أنَّه يمكن دراسة سلوك الأفراد في عدد من مجموعات البيانات المختلفة والناتجة عن مصادر مختلفة، ومن ثَمَّ إجراء مطابقات مكانية وزمانية بغية كشف هوية البيانات.

كَشَفَتْ دراسةٌ جديدة أجراها باحثون في معهد "ماساتشوستس" للتقنية (MIT) بأن التزايد في عمليات المعالجة لكميات ضخمة من البيانات حول أنماط حركة الأشخاص هي سلاح ذو حدين، فعندما تُقَدَّمُ لنا نظرة عميقة على السلوك الإنساني وتُقَدَّمُ لنا إحصائيات وتحليلات مُهِمَّة في التجارِب والأبحاث لكنَّها تتعدى على خصوصية الأشخاص.

بدأ الباحثون والشركات وبعض الكيانات بجمع وتخزين ومعالجة بيانات تحتوي ما يسمى طوابع الموقع (Location Stamps) التي تعني المكان الجغرافي للمستخدمين وأختام رسائلهم الزمنية التي تعطي زمن وجودهم في مكان ما؛ إذ يُمْكِنُ الحصول على هذه المعلومات عن طريق سجلات المكالمات، والتعاملات المالية باستخدام البطاقات المصرفية (credit card)، وبطاقات النقل العام، وحسابات التواصل الاجتماعي مثل "تويتر"، إضافة إلى بعض تطبيقات الهاتف المحمول، وإنَّ إجراء تحليل لمثل هذه البيانات يمكن أن يُوَفِّرَ إحصائيات عن سفر الأشخاص ومواعيد سفرهم ومن ثَمَّ يمكن أنْ يُوَفِّر معلومات تفيد في تحسين عملية النقل مثلًا، ولكنْ كلما جُمِعَتْ معلومات أكثر كان التعدي على حياة وخصوصية الأشخاص أكبر.

تُعَدُّ طوابع الموقع أمرًا بالغ الأهمية إذ يُمْكِنُ استغلاله لأهداف غير مشروعة، فقد أظهرت الدراسات أن بعضَ العينات العشوائية لبيانات حركة الأشخاص يمكن أنْ يستَغِلَّها أيُّ شخص ليعرف معلومات مُهمَّة وتفاصيل حياتهم، وبدمج عديد من بيانات التنقل المختلفة يصبح الأمر أكثر سهولة، فمثلًا يمكن أنْ تُطابَقُ مسارات الأشخاص وحركتهم اعتمادًا على طوابع موقع تابعة لتطبيق ما ومطابقتها مع مسارات وتحركات أشخاص في مجموعة بيانات أخرى منفصلة وذلك بهدف كشف هوية البيانات.

ويوضح الباحثون في معهد "ماساتشوستس" للتقنية في ورقة بحثية نشرتها "IEEE" حول البيانات الكبيرة وعن كيفية إمكانية لما ذكرناه سابقًا أن يحدث، وذلك عن طريق أول تحليل من نوعه الذي يُسَمَّى "قابلية التطابق" (Matchability) للمستخدم في مجموعتين كبيرتين من البيانات في سنغافورة إحداها من مشغل شبكة الهاتف المحمول، والمجموعة الثانية من البيانات من نظام النقل العام. يستخدم الباحثون أنموذجًا إحصائيًّا يُلاحق طوابع الموقع للمستخدمين في كِلَا المجموعتين المنفصلتين من البيانات ويزّودنا باحتمالية كون نقاط البيانات في كل من المجموعتين تابعة للمستخدم نفسه، فوَجَدَ الباحثون عن طريق التجرِبة أنَّ الأنموذج قادر على مطابقة قرابة 17% من الأفراد اعتمادًا على بيانات أسبوع واحد، ونسبة تفوق 55% من الأفراد اعتمادًا على بيانات جُمِعَتْ في شهر كامل.

قَدَّم هذا البحث طريقة فعَّالة وقابلة للتطوير لمطابقة مسارات التنقل في عدة مجموعات، لكنْ حَذَّرَ الباحثون من أنَّ هذه العملية تزيد من احتمالية القدرة على كشف المعلومات التّفصيلية للأشخاص كلما زاد عدد مجموعات البيانات التي تجري معالجتها وزادت الفترة الزمنية التي جمعت فيها هذه البيانات لنصل إلى مرحلة متقدمة يمكن بها معرفة إحصائيات دقيقة للغاية عن كل شخص وهذا ما يُعَدُّ انتهاكًا كبيرًا لخصوصية الأفراد.

يقول "دانييل كوندور Daniel Kondor" -وهو طالب دراسات عليا في مجموعة Future Urban Mobility Group في Singapore-MIT للبحوث والتقنية-: "يُسْمَح العمل مع مجموعات البيانات الكبيرة باكتشاف رؤى غير مسبوقة حول المجتمع البشري وتحركات الأشخاص، مما يسمح لنا بتخطيط المدن تخطيطًا أفضلَ، ولكنْ من المهم إظهار ما إذا كان تحديد الهوية أمرًا ممكنًا، بحيث يمكن للناس أن يدركوا المخاطر المحتملة لمشاركة بيانات تنقلهم."

ويضيف "كارلو راتي Carlo Ratti" -وهو أستاذ مشارك في قسم الدراسات الحضارية والتخطيط بمعهد ماساتشوستس للتقنية ومدير مختبر Senseable City-: "شعرنا عند نشر النتائج -وبصفة خاصة عواقب إعادة تحديد الهوية للبيانات- وكأننا مثل القراصنة الأخلاقيين قليلًا أو ما يُطلَق عليهم القراصنة ذوي القبعات البيضاء، وشعرنا أنَّه من المُهِم تحذير الناس من هذه الإمكانيات الجديدة لدمج البيانات ولنضع بالحسبان كيف يمكننا استخدامها استخدامًا قانونيًّا."

الحدّ من التطابقات المزيفة:

لفهم كيفية عمل مطابقة طوابع الموقع وعملية اكتشاف الهوية المحتمل سندرس السيناريو الآتي بحسب السيد Carlo Ratti:

"لنفرض أني كنت في جزيرة سنتوسا في سنغافورة قبل يومين، وقد وصلت إلى مطار دبي أمس، وأنا في شاطئ الجميرا في دبي اليوم، من المستبعد أن يكون مسار شخص آخر هو هذا المسار نفسه الذي اتبعته تمامًا. فإذا كان لدى شخص ما معلومات بطاقتي الائتمانية دون أن يعرف أنها تخصني، وربما بيانات موقعي من Twitter، فيمكنه حينئذٍ تحديد هوية بيانات بطاقتي الائتمانية."

توجد نماذج مشابهة تُقَيِّم قابلية تحديد هوية البيانات، ولكن هذا النوع من النماذج يستخدم أساليبَ معقدةً حسابيًّا لكشف الهوية؛ إذ تدمج بيانات مجهولة الهوية مع بيانات عامة وتجري عليها عمليات لاستخلاص بيانات أشخاص محددين. وقد عمل هذا النوع من النماذج على مجموعات محدودة من البيانات فقط.

في حين استخدم الباحثون في معهد ماساتشوستس للتقنية منهجيّةً إحصائية تعتمد على قياس احتمالية التطابقات المزيفة للتنبؤ بفعالية القدرة على المطابقة بين المستخدمين في مجموعات البيانات الكبيرة، فجَمَع الباحثون في عملهم مجموعتَين قليلتَي الكثافة من البيانات مجهولة الهوية فكانوا يجمعون بضعة سجلات في كل يوم حول الهواتف المحمولة والتنقلات الشخصية في سنغافورة، وسُجِّلَتْ هذه البيانات لمدة أسبوع واحد في عام 2011م. حُصِلَ على بيانات الهاتف المحمول من مشغل شبكة كبير إذ عُولِجَتْ الطوابع الزمنية والإحداثيات الجغرافية لقرابة 485 مليون سجل ناتجة عن أكثر من مليوني مستخدم، في حين تضمنت بيانات التنقل قرابة 70 مليون سجل مع طوابع زمنية لتنقلات الأشخاص في المدينة، ومن المعلوم أنَّ احتمالية امتلاك مستخدم معين لسجلات في مجموعتي البيانات السابقتين ستزداد مع ازدياد حجم البيانات المدمجة مع بعضها، ولكن في الوقت نفسه تزداد نسبة حصول التطابق المزيف التي تعني حدوث حالة تطابق ولكنها غير صحيحة على أرض الواقع.

يختار أنموذج الباحثين أحد المستخدمين من مجموعة بيانات واحدة ويحاول إيجاد مستخدم من مجموعة البيانات الأخرى مع عدد كبير من طوابع الموقع المطابقة، وببساطة كلما زاد عدد نقاط المطابقة تقل احتمالية حدوث التطابق المزيف، وبعد حصول التطابق في عدد معين من النقاط على طول المسار يستبعد الأنموذج أن تكون هذه الحالة هي حالة مطابقة زائفة.

مع التركيز على المستخدمين العاديين، قدَّر الباحثون نسبة النجاح في الوصول إلى مطابقة صحيحة 17% اعتمادًا على بيانات جُمِعَتْ في أسبوع واحد، وقرابة 55% من أجل بيانات جُمِعَت في أربعة أسابيع، وبهذا التقدير ستصل النسبة إلى 95% من أجل بيانات جُمِعَتْ على مدى 11 أسبوع.

وقَدَّر الباحثون كمية النشاط المطلوب من المستخدمين فعله في أسبوع واحد للحصول على مطابقة صحيحة مع معظم هؤلاء المستخدمين، كأن يكون للمستخدم ما بين 30 إلى 49 سجل نقل شخصي وقرابة 1000 سجل هاتفي في الأسبوع، ووجدوا أن نسبة صحة المطابقة في أسبوع واحد مع هكذا نسب من النشاطات تصل إلى 90%، وإذا دُمِجَت مجموعتا البيانات السابقتان مع بيانات الموقع الناتجة عن نظام تحديد المواقع العالمي (GPS) التي تُجْمَع من تطبيقات الهواتف المحمولة سترتفع النسبة إلى قرابة 95% في أقل من أسبوع واحد.

الحفاظ على أعلى مستوى من الخصوصية:

يأمل الباحثون في زيادة الوعي العام ووضع قوانين صارمة بخصوص مشاركة بيانات المستخدمين. يقول Carlo Ratti: "جميع البيانات التي تحتوي على طوابع الموقع (التي تمثل معظم البيانات التي تُجمَع) قد تكون حساسة للغاية ويجب علينا جميعًا اتخاذ القرار بشأن مع من نشاركها. نحتاج إلى مواصلة التفكير في التحديات التي تواجه معالجة البيانات الكبيرة بطريقة صحيحة توفر ضمانات كافية للحفاظ على الخصوصية."

تحقيقًا لهذه الغاية، يعمل Carlo Ratti و Daniel Kondor وغيرهما من الباحثين على نحو مكثف على القضايا القانونية والأخلاقية بما يخص البيانات الكبيرة.

أطلق مختبر Senseable City Lab في معهد ماساتشوستس للتقنية مبادرة إشراك البيانات Engaging Data عام 2013 م.

ضمت المبادرة قادة حكوميين ومجموعات مدافعة عن الخصوصية والأوساط الأكاديمية وقطاع الأعمال لدراسة إمكانية وكيفية استخدام شركات جمع البيانات الحالية بيانات التنقل.

يقول Daniel Kondor: "العالم اليوم مليء بالبيانات الكبيرة. أنتجت البشرية في عام 2015م وحده مقدار البيانات نفسه التي أُنتجت في جميع سنوات الحضارة الإنسانية السابقة. وعلى الرغم من أن البيانات تعني معرفة أفضل بالبيئة المتحضرة، لكنَّ معظم المعلومات الموجودة في الوقت الحالي يحتفظ بها عدد قليل من الشركات والمؤسسات العامة التي تعرف الكثير عنا، في حين لا نعرف عنها إلا ما ندر. لذلك نحن بحاجة إلى الحرص على تجنب احتكار هذه البيانات وإساءة استخدامها."

المصدر:

هنا