المعلوماتية > علم البيانات

البيانات الكبيرة: الحكاية من البداية (الجزء الثاني)

استمع على ساوندكلاود 🎧

أنشأت شركاتٌ مثل فيسبوك وجوجل ولينكد-إن خلال العقد الماضي مؤسساتٍ تقوم على مهاراتِ علماء البيانات الجدد الذين يكسرون الحواجز عن طريق الاستفادة من التقنيات الجديدة لجمع وتحليل البيانات التي تقود أعمالهم.

يقول بيتر دراكر الذي يعمل مستشاراً إدارياً: "إنَّ أفضل طريق للتنبؤ بالمستقبل هو صنعُه"، يُذكّرنا هذا الكلام بأنَّ المستقبل بين أيدينا وكما نصنعه اليوم سنراه غداً، وينطبق هذا القول تماماً على البيانات الكبيرة التي وصلت على عتبات أبوابنا.

لتكون حكايتنا من البداية حقاً لا بد من تعريفٍ يوضّح لنا المفهوم، يُعرِّف مؤتمر أوريلي مفتوحُ المصدر البياناتِ الكبيرة بأنها: "البيانات التي تصبح كبيرةً بشكلٍ كافٍ لعدم القدرة على معالجتها باستخدام الوسائل المتاحة".

وللتوضيح أكثر سنستعرض تعريفَ دراسة ماكينسي: "تُشير البيانات الكبيرة إلى مجموعات البيانات التي يكون حجمهُا أكبرَ من إمكانية أدوات برمجيات قواعد البيانات لجمعِها وتخزينها وإدارتها وتحليلها".

نجد من التعريفين أنَّ التقنية تتطور مع مرور الوقت، ما يعني أنَّ حجم قواعد البيانات التي تلائم تعريف البيانات الكبيرة يزداد، ويجبُ أن لا نغفل أنَّ التعريف يختلف باختلاف القطاع اعتماداً على أنواعِ أدواتِ البرمجيات المتاحة وحجمِ مجموعات البيانات الشائعة في كلِّ مجال، بأخذ هذين العاملين بعين الاعتبار نجدُ أنَّ حجم ما يُمكن أن يسمى البيانات الكبيرة في قطاعاتٍ عديدةٍ اليوم؛ يتراوح بين بضعة دزينات من التيرابايت terabytes إلى عدة بيتابايت petabytes (petabyte = 250 bytes; 1024 terabytes، or a million gigabytes).

إذاً وكما نلاحظ، فإنّ مصطلح البيانات الكبيرة مصطلحٌ نسبي، وبرغم أن العديد من الناس يعرِّفونها بحجمها، فإنَّ تعاريفَ البياناتِ الكبيرةِ المستندةَ على حجمها تُعتبر مزعجةً لأن الناس يتعاملون مع الحجم على أنه عددُ مرات الظهور (في مصطلحات قواعد البيانات؛ عدد مرات الظهور هو عدد الأسطر في جدول، ووفق مصطلحات تحليل البيانات هو عدد المشاهدات، أي عدد نتائج البحث عن كلمةٍ ما مثلاً).

وهناك من الناس من يُعرّف الحجم بأنه عدد قطع البيانات المثيرة للاهتمام لكلّ تكرار (في مصطلحات قواعد البيانات هو عدد الأعمدة في الجدول وفي مصطلحات التحليل هو عدد السمات أو الأبعاد).

وهناك أيضاً من يُعرِّف الحجم بأنه خليطٌ من العُمق والعرض معاً (أي عدد الأسطر مع عدد الأعمدة وفق مصطلحات قواعد البيانات).

إنّ البيانات الكبيرة ليست صيحةً مؤقتةً وتمضي، إنها هنا كي تبقى وتغيّرَ العالم بشكلٍ كامل، ولكنْ حتى نفهم البيانات الكبيرة ونفرّقَ بينها وبين البيانات العادية، لا بد من فهم أربعة عوامل هي: الحجم، التنوع، السرعة والمصداقية. بفهمك لهذه العوامل الأربعة ستعرف أيَّ ثورةٍ ستحصل في عالم الأعمال بوجود البيانات الكبيرة.

الحجم Volume

يشير حجم البيانات إلى الكميات الهائلة من البيانات المولَّدة كلَّ ثانية، فكِّر بكلِّ الإيميلات، كل الصور، كل الفيديوهات، كل مخرَجات الحساسات التي يُمكن أن تُرسل في كل ثانية حول العالم، وهذا فقط للمبتدئين لأنه لو أخذنا الفسيبوك لوحده فإن عشرة بلايين رسالة ترسل، يُضغط زر الإعجاب 4.5 بليون مرة، ويتم رفع 350 مليون صورة كل يوم.

وحتى يكون موضع حجم البيانات التي من المطلوب أن نكون قادرين على التعامل معها اليوم واضحاً أكثر، يجب أن نعرف أنّ حجم البيانات التي نولّدها اليوم في كل دقيقة يماثل حجم البيانات من بداية الزمن حتى العام 2000 .

إنّ بياناتٍ بهذا الحجم لا يُمكن تخزينها ولا التعامل معها بالطرق التقليدية كالأقراص أو الحواسيب المركزية، ولذلك فإن الحوسبة الموزعة والسحابية تأخذ دورها بفعالية، إذ تُجزّأ البيانات إلى حزمٍ تُخزَّنُ في مواقعَ مختلفة، تتم إدارةُ هذه البيانات وجلبُها جميعاً باستخدام برنامجٍ شامل مثل Hadoop، إذ يقوم برنامجٌ من هذا النّوع باستخدامٍ قليلٍ لقدرةِ كلّ حاسوب من تلك التي خُزِّنتْ عليها حزمُ البيانات لمعالجة البيانات ذات الأحجام الكبيرة والتي لا يُمكن بحالٍ معالجتُها باستخدام حاسوبٍ واحدٍ مهما كان خارقاً، وتُعدُّ هذه الطريقةُ أسرعَ وأكثرَ فعاليةً من الاعتماد على آلةٍ واحدة –إن وُجِدَتْ- لمعالجة نفس الحجم من البيانات.

التنوع Variety

يشير التنوع إلى أنماط البيانات المختلفة التي من الممكن أن نتعامل معها في وقتنا الحاضر؛ بيانات نصية، صوتية، صور...إلخ، ولكنَّ التصنيف هنا يشير إلى بياناتٍ مُنظَّمة Structured Data وغيرِ منظَّمة Unstructured Data. كان التركيز في الماضي على البيانات المنظَّمة كالبيانات المالية مثلاً التي تلائم تماماً الجداول أو قواعد البيانات. ولكن في الواقع، فإنّ أكثرَ البيانات الحالية هي بياناتٌ غيرُ منظّمة، ولذلك فإنه ليس من السهل وضعُها في جداول (فكّر في الصور وتسجيلات الصوت على سبيل المثال).

أما مع استخدام تقنيات البيانات الكبيرة يُمكن تسخير أنماطِ بياناتٍ مختلفةٍ متضمنةً الرسائل وتحديثات الإعلام الاجتماعي… إلخ، وتقديمها مع بياناتٍ أكثرَ تنظيماً وتقليدية.

إنّ هذه القدرة على تحليل واستخدام بياناتٍ متنوعةٍ بشكلٍ كبير، فعالةٌ حقاً؛ فقد أصبح بإمكاننا الآن استخلاصُ رؤىً للأعمال أكثرَ من ذي قبل.

السرعة Velocity

يُقصد بها السرعة في توليد بياناتٍ جديدة، وسرعةُ تحرّكِ هذه البيانات والقدرةُ على معالجتها دون تخزينها. بالعودة مجدداً لمثالِ مواقع التواصل الاجتماعي، فكّر بالرسائل التي تتناقلها خلال الدردشة مع أحدهم، تولّدها بسرعة (بمعنى آخر تكتبها) وترسلها لتجد نفسك قد أرسلتَ ما يقارب 400 رسالة في ساعة دون أن تشعر.

أو السرعة في توليد البيانات في سوق الأوراق المالية؛ إذ يجب على المجموعات التجارية أن تحلل وتتخذ القرار بشراء الأسهم أو عدم الشراء خلال ثوان، ويتم عرض البيانات هنا في الزمن الحقيقي. هذه الأمثلة وغيرُها تجعل من تخزين بعض أنواع البيانات غيرَ مجدٍ لأنها تصبح غيرَ مفيدةٍ بعد ثوانٍ، ولذلك فإنه من النموذجي بالنسبة للشركات التي تستخدم البيانات اليوم أن تتم معالجة هذه البيانات في زمنِ توليدها دون حتى المرور بمرحلة تخزينها ضمن قاعدة بيانات.

المصداقية Veracity

شكلت المفاهيم الثلاثة السابقة تعريف البيانات الكبيرة من وجهة نظر تكنولوجيا المعلومات لكن قام الخبراء بإضافة عواملَ جديدةٍ بعضُها مهمٌ والآخرُ أقلَّ أهمية، لكنَّ الثلاثة السابقة بقيت الجوهرية. وقد اعتُبِر عامل المصداقية من العوامل المفيدة وتمّ قُبوله على نطاق واسع كعاملٍ مفتاحيٍّ في البيانات الكبيرة.

يشير هذا العامل إلى الثقة في البيانات، فنحن عادةً نحلّل البيانات المنظمة والموثوقة، لكننا اليوم مضطرون للتأقلم مع البيانات غير المنظمة والتعامل معها.

تُعتبر الدقة والجودة في البيانات الكبيرة وفقَ صيغٍ متعدِّدة؛ غيرَ محكومة، فعلى سبيل المثال فكّر بالوسوم (الهاشتاغ) غير الصحيحة المستخدَمة في وسائل التواصل الاجتماعي، لكنّ البيانات الكبيرة وتقنية التحليل تمكننا من التعامل مع هذه البيانات غير الصحيحة باعتبارها غيرَ منظمة لوجود الكثير منها ما يعني عدم إمكانية السيطرة على هذه الفوضى، لكن لا بد من المعالجة لإيجاد معنىً ولأن البيانات الكبيرة تتعامل مع أحجام بيانات هائلة فإن الحجم هنا يكون على حساب الجودة.

نحو تضمين عاملٍ مهم جديد

بعد استعراضنا للعوامل الهامة والأساسية التي يعتمدها الخبراء في مجال البيانات الكبيرة بدأ بعضهم اليوم يفكر بالطوفان الذي غرقنا به من ناحيةٍ أُخرى. فوصولنا لكمياتٍ خياليةٍ من البيانات ذات التنوع الكبير مدهشٌ حقاً لكن عندما نأتي لنحولها إلى قيمةٍ، تكون بلا فائدة، إذ يرى الخبراء أنه على البيانات إعطاء مخرَجاتٍ إيجابيةٍ في مجال أعمالك، لذلك وبينما يتحمس الناس تجاه الحجم والتنوع والسرعة لدرجةٍ تصيبهم بالدوار فعندما يصل الأمر إلى الأعمال يصبح مختلفاً تماماً ويصبح الأهم أن تكون هذه البيانات ذاتَ قيمة ولذلك أيضاً يقترح الخبراء إضافة العامل الخامس وهو القيمة Value أي ما هي الفوائد التي ستجلبها معالجة هذه البيانات لشركةٍ ما؟ هل ستساعد في فهم متطلبات زبائنها بشكلٍ أفضل؟ أو جعل خط الإنتاج أكثر فعالية؟ هل ستساعدها في زيادة مبيعاتها مثلاً؟ في فهم السوق بشكل أفضل؟ باتخاذ قرار بيع جزء من أسهمها في الوقت المناسب؟ إنّ كل هذه الضجة التي تحوم حول البيانات الكبيرة وكلَّ هذه الجهود نحو إيجادِ طرقٍ فعَّالةٍ لمعالجتها وتحليلها هي موجهةٌ في النهاية نحو اتخاذ قرارٍ سليمٍ في الوقت المناسب بالنسبة للشركات، ولذلك يَعتبر الخبراء أن عامل القيمة هو الأكثر أهمية بينهم جميعاً.

-------------------------------------------------

المصادر:

هنا

هنا