المعلوماتية > علم البيانات

البيانات الكبيرة: خمسة من أكبر المعتقدات الخاطئة!

البيانات الكبيرة هي حزم البيانات المعقدة والضخمة جداً والتي يصعب التعامل معها بواسطة نظم إدارة قواعد البيانات أو تطبيقات معالجة البيانات التقليدية من ناحية التخزين والبحث والتمثيل والتحليل، ولها ثلاثة أبعاد هي حجم البيانات الضخم، وتنوع مصادر وأنواع هذه البيانات، وسرعة الوصول إلى هذه البيانات وتحليلها.

تعتقد «غارتنر»- وهي شركة أمريكية لتكنولوجيا المعلومات والخدمات الاستشارية- أن الدعاية يمكن أن تجعل من الصعب اختيار المسار الصحيح للعمل في هذا المجال لأن الدعاية تُـغـيّـب بعض المفاهيم الخاطئة التي لا تزال قائمة.

تشمل هذه المغالطات أفكار ما يعادل 80% في المئة من البيانات غير المهيكَلة، وأن عمليات التحليل المتقدمة للبيانات ليست سوى شكلاً أكثر تعقيداً من عملية التحليل العادي- مرة أخرى- هذا ليس صحيحاً، وفقاً لشركات تحليل البيانات.

في محاولة لإيجاد المزيد من الحقائق المتعلقة بالبيانات الكبيرة، نشرت «غارتنر» تقريرين يغطيان معظم المغالطات حول تأثير البيانات الكبيرة على عمليات التحليل وعلى بنية المعلومات أيضاً. وفيما يلي أهم خمسة معتقدات خاطئة حول البيانات الكبيرة:

:المغالطة الأولى: الجميع يدفع بنا إلى البيانات الكبيرة

على الرغم من الاهتمام بتقنيات البيانات الكبيرة وخدماتها التي تعمل بمستوى عالٍ، تعتقد «غارتنر» أن 73 % من الشركات التي تستثمر أو تخطط لا تزال في المراحل الأولى من تبنّي تقنيات البيانات الكبيرة.

لذلك فإن الناس مخطئون للقلق من أن منافسيهم يسيرون بخطى كبيرة مع تقنيات البيانات الكبيرة، في الحقيقة، كان 13% فقط من الذين شملهم الاستطلاع على اطلاع على تكنولوجيا ذات الصلة بالبيانات الكبيرة.

"إن أكبر التحديات التي تواجهها المؤسسات هي تحديد كيفية الحصول على قيمة من البيانات الكبيرة، وأيضاً تحديد كيفية من أين تبدأ"، قالت «غارتنر».

."تتعثر العديد من المنظمات في المرحلة التجريبية لأنها لا تربط التكنولوجيا بإجراءات العمل المعتمدة في المنظمة”

وتختتم : أنت لم تتأخر كثيراً! لازال بإمكانك بناء استراتيجية على المهام الحقيقية لشركتك وذلك بإشراك تكنولوجيا المعلومات والأعمال".

المغالطة الثانية :عند وجود بيانات كثيرة، فإن القليل من الأخطاء غير مهم:

"يظن البعض أنه بسبب الكميات الكبيرة من البيانات، لا تؤثر بعض القيم الخاطئة على نتائج التحليل. صحيح أ الأخطاء الفردية قد يكون لها تأثير أقل بكثير على مجموعة البيانات بأكملها فيما لو كان هناك بيانات أقل، ولكن هذه القيم الخاطئة ستزداد بازدياد كمية البيانات، لهذا فإن التأثير الإجمالي للبيانات ذات النوعية الرديئة على كامل مجموعة البيانات لا يزال هو نفسه. وبالإضافة إلى ذلك، فإن غالبية البيانات التي تستخدمها المؤسسات في مجال البيانات الكبيرة تأتي من جهات خارجية ذات هيكلية ومصدر غير معروف غالباً"، قالت «غارتنر» "وهذا يعني أن مسألة جودة البيانات أكثر اهمية من ذي قبل، لذلك جودة البيانات هي في الواقع مهمة جداً في عالم البيانات الكبيرة".

وتختم «غارتنر» بقول: "إن استحداث منهجيات جديدة لجودة البيانات واختيار مستويات لجودة البيانات يتبع المبادئ الأساسية في التحليل لضمان جودة البيانات".

المغالطة الثالثة: البيانات الكبيرة سوف تزيح تكامل البيانات.

يتأمل الكثيرون بمعالجة المعلومات عن طريق القراءة من مخططات ممنهجة على أساسٍ يتيح للشركات قراءة المصادر نفسها باستخدام نماذج البيانات المتعددة. ستمكن المرونة المستخدمين النهائيين من اتخاذ قرار بشأن كيفية تفسير أي أصول البيانات حسب الطلب، وتوفير طريقة مصممة خصيصاً للمستخدمين الفرديين للوصول إلى البيانات.

ومع ذلك، يعتمدُ معظم المستخدمين على المخططات عند الكتابة، حيث يتم توصيف البيانات وتحديد المحتويات، بالإضافة لوجود اتفاقية حول سلامة البيانات.

المغالطة الرابعة : لا جدوى من استخدام مستودع البيانات في عمليات التحليل المتقدمة.

يظن البعض أن بناء مستودع البيانات هو مضيعة للوقت عند القيام بعمليات التحليل المتقدمة واستخدام أنواع جديدة من البيانات، في الواقع، العديد من عمليات التحليل المتقدمة تستخدم مستودع البيانات للإنجاز التحليل. أيضاً، قد تحتاج أنواع جديدة من البيانات إلى فلترة وتنقيح لجعلها مناسبة لعملية التحليل، وعلاوة على ذلك، يجبُ أن تأخذ القرارات بعين الاعتبار ماهي البيانات ذات الصلة، وكيف تم تجميعها، وما هو مستوى جودة البيانات اللازمة لذلك.

تخلص «غارتنر»: "يمكن استخدام مستودعات البيانات قدر المستطاع في تنسيق وتنظيف مجموعة من البيانات للقيام بتحليلات متقدمة".

المغالطة الخامسة :مصطلح «بحيرات البيانات» سوف يحل محل مستودع البيانات.

تقول «غارتنر»: "غالبا ما تُـباع بحيرات البيانات كبرمجيات على مستوى المؤسسة لتحليل مصادر متباينة من البيانات في النماذج الأصلية، لكن من الخطأ أن نعتبر هذه البرمجيات كبديلٍ أو حتى بأهمية مستودعات البيانات اعتباراً من الهيكلية الاساسية التحليلية للبيانات.

تفتقرُ تكنولوجيا بحيرات البيانات إلى النضج مقارنةً مع اتساع الميزات الموجودة في تقنيات مستودعات البيانات، "مستودعات البيانات لديها بالفعل إمكانيات كبيرة لدعم مجموعة واسعة من المستخدمين ." لهذا فإن الشركات لا تضطر إلى انتظار تقنيات بحيرات البيانات إلى اللحاق بالركب.

وتخلص «غارتنر» أيضاً: "استخدام تقنيات بحيرات البيانات مثل Hadoop إلى جانب مستودعات البيانات الموجودة لن تمنحَ أي قيمة للأعمال من دون الاستثمارات في المهارات الإدارية و البيانات الوصفية والأدوات والتدريب".

يُـسمى تقريرا «غارتنر»: أهم المغالطات حول تأثير البيانات الكبيرة على تحليلات المعتقدات الخاطئة الرئيسية حول تأثير البيانات الكبيرة على البنية التحتية للمعلومات.

المصادر

هنا