المعلوماتية > علم البيانات

البيانات الكبيرة: الحكاية من البداية (الجزء السّادس)

استمع على ساوندكلاود 🎧

إنّ شركاتٍ مثلَ Google وَ Amazon هي الرّائدةُ في تحليلِ البياناتِ الكبيرةِ وتستخدم أبحاثها النّاتجةِ عن هذا المجالِ لربحِ الميّزاتِ التّنافسيّةِ. فكّر بمحركِ ترشيحاتِ / توصياتِ Amazon. تأخذ الشّركةُ تاريخَ مشترياتِكَ مع كلِّ ما تعرفُه عنكَ، نمطُ شرائكَ وشراءِ أشخاصٍ مثلِكَ لتأتي لكَ باقتراحاتٍ جيدةٍ بالفعلِ. إنّها شركةُ تسويقٍ في النّهايةِ وإمكانيّاتُ تحليلِ البياناتِ الكبيرةِ لديها ناجحةٌ بشكلٍ ساحقٍ.

وأنت أيضاً يمكنُ أن تقدِّمَ إمكانيّاتِ تحليلِ البياناتِ الكبيرةِ لمنظّمتِكَ فرصاً مهمّةً، ستكونُ قادراً على توسيعِ نوعِ التّحليلاتِ الّتي يمكنكَ القيامُ بها حيثُ يمكنُكَ الآنَ استعمالُ بياناتٍ مفصّلَةٍ وكاملةٍ في تحليلاتِكَ بدلاً من أن تكونَ مقيّداً بأخذِ عيّناتٍ فقط من مجموعاتِ البياناتِ الكبيرةِ.

السّؤالُ الأوّلُ الّذي يجبُ أن تطرحَهُ على نفسِكَ قَبل أن تغوصَ في تحليلِ البياناتِ الكبيرةِ هو: ماهي المُشكلةُ الّتي أحاولُ حلَّها؟ ربَّما لا تكونُ متأكّداً ممّا تبحثُ عنه. لديك الكثيرُ منَ البياناتِ الّتي ستعطي باعتقادِكَ رؤيةً ذاتُ قيمةٍ وَبالتّأكيدِ ستظهرُ أنماطٌ من هذه البياناتِ قبل أن تفهمَ لِمَ هي هُنا أصلاً. مثلاً هل أنتَ مهتمٌّ بتوقُّعِ سلوكُ الزَّبونِ؟ هل تريدُ أن تفهمَ أنماطَ قيادةِ الزَّبائنِ لأغراضِ شركةِ تأمينٍ؟ إنَّ نوعَ المشكلةِ عاليةِ المستوى هو ما سيقودُ التَّحليلَ الّذي قرّرتَ استخدامَهُ.

تحليلُ البياناتِ ليسَ نوعاً واحداً، فهناك عدَّةُ أنواعٍ:

التّحليلُ الأساسيُّ Basic Analytics

يمكن أن تُستخدَمُ التّحليلاتُ الأساسيّةُ لاستكشافِ البياناتِ، إن لم تكنْ واثقاً ممّا لديكَ من بياناتٍ لكنّكَ تعتقدُ أنّ هناكَ ما يمكن أن يكونَ له قيمة. يمكن أن يتضمّنَ إحصاءاتٍ أو رؤىً بسيطةً ، يُستخدَمُ التّحليلُ الأساسيُّ عندما يكونُ لديكَ كميّاتٍ ضخمةً من بياناتٍ مختلفةٍ وهذه بعضُ الأمثلةِ:

التّقطيعُ والتّشكيلُ Slicing & Dicing

تُشيرُ هذه العمليّةُ إلى تقطيعِ بياناتِكَ لمجموعاتٍ أصغرَ من السّهلِ استكشافُها، مثلاً لديكَ مجموعةُ بياناتٍ علميّةٍ عن مياهٍ من مواقِعَ مختلفةٍ، تتضمّنُ هذه البياناتُ متغيّراتٍ عديدةً أُخِذَت من عدَّةِ حسّاساتٍ. تتضمّنُ هذه الخصائصَ مثلاً: الحرارةُ والضّغطُ والشّفافيّةُ ونسبةُ الأملاحِ .. إلخ. ربّما تحتاجِ لبيانٍ Graph بسيطٍ يُمكّنُكَ من استكشافِ البياناتِ الّتي لديكَ وفق أكثرَ من بُعدٍ كعلاقةِ الشّفافيّةِ بنسبةِ الأملاحِ مثلاً. تريدُ بعض إحصاءاتٍ أساسيّةٍ كالمتوسّطِ الحسابيِّ أو مجالِ قيمِ كلِّ خاصيّةٍ. الفكرةُ في أنَّكَ تستخدمُ هذا النّوعَ الأساسيَّ من استكشافِ المتغيراتِ لطرحِ أسئلةٍ مُحدَّدَةٍ في فضاءِ مشكلتِكَ.

الفرقُ الأساسيُّ بينَ ما يقومُ به هذا النَّمطُ من التّحليلِ وما يحدثُ في نظامِ ذكاءِ الأعمالِ الأساسيِّ (المُمَثَّلِ بمجموعةٍ من المنهجيّاتِ والإجرائيّاتِ والتّقنيّاتِ الّتي تحوِّلُ البياناتِ الخام إلى معلوماتٍ مفيدةٍ وذاتِ معنىً تُستَخدَمُ لتفعيلِ استراتيجيّاتِ اتّخاذِ قرارٍ أكثرَ فعاليّةً) أنّكَ تتعاملُ مع أحجامِ بياناتٍ هائلةٍ حيثُ من الممكنِ أن لا تستطيعَ تحديدَ فضاءِ المشكلةِ (مصطلحٌ يُشيرُ إلى مجالِ المتغيّراتِ الكليِّ الّذي يظهرُ في إجرائيّةٍ ما بُغيةَ إيجادِ حلٍّ لمشكلةٍ ما) الّذي تحتاجُ اختباره، إضافةً إلى حاجتِكَ لإجراءِ الحساباتِ في الزّمنِ الحقيقيِّ.

المُراقبةُ الأساسيّةُ Basic Monitoring

ربّما تريدُ أن تراقبَ أحجاماً كبيرةً من البياناتِ في الزّمنِ الحقيقيِّ، بالعودةِ لمثالِ المياهِ السّابقِ ربّما تريدُ مراقبةَ المتغيّراتِ الّتي تحدّثنا عنها كلَّ ثانيةٍ لفترةٍ من الزّمنِ ولا تنسى أنّ المياهَ من مصادرَ مختلفةٍ تصلُ إلى حدودِ المئاتِ، هذا يُنتِجُ مجموعةَ بياناتٍ هائلةٍ، أو ربّما ترغبُ بمراقبةِ الأثرِ الّذي تُحدِثُهُ منتجاتُكَ كلَّ دقيقةٍ عندَ إطلاقِ الإعلانِ. لكن تبقى البياناتُ من مثالِ المياهِ من الأنواعِ المتعلّقةِ والمرتبطةِ ببعضها على عكس البياناتِ الّتي تُنتجُها وسائلُ التّواصلِ الاجتماعيَِّ الّتي تتضمّنُ أنماطاً مُختلفةً تماماً بأحجامٍ كبيرةٍ ومن مواقعَ مستخدمينَ مختلفةٍ.

كشفُ الهويّةِ العشوائيِّ Anomaly Identication

ربّما يودُّ صاحبُ مؤسّسةٍ ما تحديدَ العواملِ الخفيّةِ الّتي تجعلُ مخرجَ عمليّةٍ ما ليسَ كما هو متوقَّعٌ من خلالِ تحليله لتقاريرِالإنتاجِ حيث تكشفُ أنّ هناك ما ليس على مايُرام في عملِ المنظّمةِ ككلّ، أو في إجرائيّةٍ مُحدّدَةٍ من هذه المنظّمة.

على سبيلِ المثالِ، تحليلُ التّقاريرِ لعمليّةِ التّصنيعِ لتحديدِ فيما إذا كانت هناك آلةٌ ما لديها احتمالُ حدوثِ عطلٍ، أو أنّ أحدَ العمّالِ المُشغِّلين لها لا يُجيدُ التّعاملَ معها ممّا يسبّبُ مشاكلَ في خطِّ إنتاجِكَ. هذا التّحليلُ الّذي تريدُ القيامَ به يحتاجُ بعضَ الإحصاءاتِ البسيطةِ والّتي مصدرُهَا الآلةُ صاحبةُ المشكلةِ المُحتَمَلَةِ.

التّحليلُ المُتقدِّمُ Advanced Analytics

يُؤمِّنُ التّحليلُ المُتقدِّمُ خوارزميّاتٍ للتّحليلِ المُعقَّدِ لكلٍّ من البياناتِ المُنظَّمَةِ Structured Data والبياناتِ غيرِ المُنظّمَةِ Unstructured Data. يتضمّنُ هذا النَّمطُ من التّحليلِ نماذِجَ إحصائيّةٍ مُعقّدَةٍ وتعليمُ الآلةِ والشّبكاتِ العصبونيّةِ وتحليلُ النّصوصِ وتقنيّاتُ استنباطِ بياناتٍ متقدّمةٍ أخرى. يعملُ التّحليلُ المتقدِّمُ على إيجادِ أنماطٍ في البياناتِ والتّوقع والتّنبّؤ ومعالجةِ أحداثٍ مُعقّدةٍ.

من عشرينَ سنةٍ مضت كان من الممكنِ للشّركاتِ أن تتوقّعَ من سيطلُبُ خدمَةً مُعيّنَةً من زبائِنها عن طريقِ الإحصاءاتِ أو تقنيّاتِ تعلُّمِ الآلةِ. لكن من ناحيةٍ أُخرى كانَ من الصّعبِ إقناعُ أشخاصٍ آخرينَ في المنظّمّةِ ما يعنيهِ هذا بالضّبطِ وكيفَ يمكن استخدَامُهُ ليقدِّمَ ميزةً تنافسيّةً. كانَ منَ الصّعبِ الحصولُ على القُدرَةِ الحسابيّةِ اللّازمةِ لتفسيرِ البياناتِ المستمرّةِ بالتّغير مع مرورِ الوقتِ.

أمّا اليوم فقد أصبح التّحليلُ المتقدِّمُ مساراً رئيسيّاً أكثرَ فأكثرَ مع زيادةِ القدراتِ الحسابيّةِ والبنيةِ التّحتيّةِ المُحسَّنَةِ للبياناتِ وتطويرِِ خوارزميّاتٍ جديدةٍ والحاجةِ للحصولِ على رؤيةٍ أفضلَ من كميّاتٍ كبيرةٍ ومتزايدةٍ من البياناتِ تدفعُ بالشّركاتِ باتّجاهِ استخدامِ التّحليلِ المُتقدِّمِ كجزءٍ من إجرائيّةِ اتّخاذِ القرارِ. تُدركُ الأعمالُ أنَّ الرّؤى الأفضلَ يمكنُ أن تؤمّنَ موقعاً تنافسيّاً متفوّقاً.

وهذه بضعةُ أمثلةٍ عن التّحليلِ المُتقدِّمِ للبياناتِ الكبيرةِ:

النّمذجةُ التّنبّؤيّةُ Predictive Modeling

تُعدُّ من أشهرِ حالاتِ الاستخدامِ المُتعلِّقَةِ بالبياناتِ الكبيرةِ. النّموذَجُ التّنبّؤيُّ بالتّعريفِ هوَ حلٌّ إحصائيٌّ أو تنجيمٌ عن البياناتِ مؤلَّفٌ من خوارزميّاتٍ وتقنيّاتٍ يًمكنُ استخدامُها مع البياناتِ المُنظَّمَةِ وغيرِ المُنَظَّمَةِ (معاً أو بشكلٍ منفصلٍ) لتحديدِ مُخرجاتٍ مُستقبليّةٍ، مثلاُ يمكن أن تستخدمَ شركةُ اتصالاتٍ نموذجاً تنبّؤيّاً لتتوقّعَ مَن مِنَ المستخدمِينَ سيطلُبُ خدماتِها.

في عالمِ البياناتِ الكبيرةِ من الممكنِ أن تتعاملَ مع عددٍ كبيرٍ من الخصائصِ المتوقّعَةِ Predictive Attributes بناءً على كميّاتٍ هائلةٍ من المشاهداتِ Observations لتشغيلِ النّموذجِ التّنبّؤيِّ.

تحليلُ النّصوصِ Text Analysis

تُمثّل البياناتُ غيرُ المُنظَّمَةِ Unstructured Data جزءاً كبيراً من البياناتِ الكبيرةِ، لذلكَ فإنّ تحليلَ النّصوصِ –عمليّةُ تحليلِ النّصوصِ غيرِ المُنظَّمةِ واستخراجِ المعلوماتِ المُرتبطةِ وتحويلِها إلى بياناتٍ مُنظَّمةٍ- أصبحَ مكوّناً من نظامِ البياناتِ الكبيرةِ. إنّ عمليّاتِ التّحليلِ والاستخراجِ المُستخدَمَةِ في هذا الصّدَدِ تأخذُ ميزاتِ تقنيّاتِ اللّغويّاتِ الحاسوبيّةِ Computational Linguistics والإحصاءِ ومجالاتِ علومِ حاسبٍ أخرى. أصبحَ تحليلُ النّصوصِ مُستخدَمَاً في كلِّ أنواعِ التّحليلِ كتوقّعِ التّزوير وتحليلِ مواقعِ التّواصلِ الاجتماعيِّ.

خوارزميّاتٌ إحصائيّةٌ وتنقيبٌ عن البياناتِ

تتضمّنُ توقّعاً متقدّماً كتوقّعِ الطّقسِ، وتحليلِ العناقيدِ بتقطيعِها لتجزئةِ البياناتِ ضمنها إلى فئاتٍ (حسبَ المصدرِ أو النّوعِ … إلخ) لتسهيلِ عمليّةِ التّحليلِ.

التّحليلُ العمليّاتيّ Operational Analytics

عندما تُفعِّلُ التّحليلاتِ فإنّكَ تجعلُها جزءاً من إجرائيّةِ الأعمالِ. مثلاً ربّما تبني الإحصاءاتُ في شركةِ تأمينٍ نموذجاً يتوقّعُ أرجحيّةُ حدوثِ مُطالَبَةٍ مزوّرَةٍ. يمكنُ تضمينُ هذا النّموذَجِ مع بضعةِ قواعدِ قرارٍ ضمنَ نظامِ توقّعِ المُطالَبَةِ الخاصِ بالشّرِكَةِ لوضعِ علامةِ flag على المُطالبَاتِ الّتي تنطَوي على احتيالٍ. يمكنُ إرسالُ هذه المُطالباتِ إلى وحدةِ تحقيقٍ بغرضِ إجراءِ مراجَعَةٍ إضافيّةِ. في حالاتٍ أُخرى منَ المُمكنِ أن لا يكونَ النّموذَجُ واضحاً للمستخدِمِ النّهائيِّ، مثلاً يُمكِنُ بناءَ نموذجٍ لتوقّعِ المستخدِمِينَ الّذينَ يُمثّلونَ هدفاً جيّداً للبيعِ عندَ اتصالِهم بمركزِ الاتّصال. يقومُ مركزُ الاتّصالِ خلالَ اتصالِ العميلِ باستقبالِ رسائلَ على مُنتجاتٍ مُحدّدةٍ إضافيّةٍ لتسويقِها لنفسِ الزّبونِ على الخطِّ. من المُمكنِ أن لا يعرفَ مركزُ الاتّصالِ أنّ نظامَ توقّعٍ كانَ يعملُ خلفَ الكواليسِ لاقتراحِ ما وَرَدَ إليه في الرّسائلِ من منتجاتٍ.

التّحليلُ المُحقِّقُ للدّخل Monetizing Analytics

تَستخدِمُ التّحليلاتِ لتجعلَ أعمالَك في صورتِها المُثلى عن طريقِ اتّخاذِ قراراتٍ أفضلَ ودفعِ الأرباحِ نحو الأفضلِِ. من ناحيّةٍ أُخرى يمكنُ استخدامُ تحليلِ البياناتِ الكبيرةِ لزيادةِ الأرباحِ لكن عن طريقِ الرّؤى الواضحةِ الّتي تُؤمَّنُ خصّيصاً لقسمِكَ أو شركَتِكَ. مثلاً مزوّدي بطاقاتِ الائتمانِ يأخذون البياناتِ الّتي يجمعونَها لتقديمِ منتجاتِ تحليلِ قيمةٍ مُضافَةٍ Added-value Analytics معَ المعاهِدِ العُليا للتّأمين. شركاتُ الاتّصالاتِ أيضاً بدأت ببيعِ رؤىً مُعتمِدَةً على الموقعِ location-based insights لبائعي التّجزئَةِ.

الفكرةُ تكمُنُ في أنّ مصادرَ مختلفةً من البياناتِ كبياناتِ تصفُّحٍ الويب وبياناتِ الرّسائلِ النّصيّةِ ..إلخ، يُمكِنُ استخدامُها معاً أو بشكلٍ مُنفَصِلٍ للوصولِ إلى استنتاجاتٍ عن أنماطِ سلوكِ الزّبائِنِ والّتي ستجدُها الشّركاتُ المُنفصلةُ مفيدةً جدّاً.

-------------------------------------------

المصدر:

هنا