المعلوماتية > علم البيانات

SciDB؛ نظام علائقي يسرّع الدراسات القائمة على البيانات

يُجري الباحثون في أنحاء العالم العديد من الأبحاث يوميًّا، وعادةً ما تستدعي هذه الأبحاث التعامل مع كميات هائلة من البيانات، ولكن؛ مع ازدياد تنوع الحقول العلمية لهذه البيانات وتشعُّبها، أمسى استخلاص نتائج ذات معنى مشكلةً حقيقية؛ إذ إنها تنطوي على تجميع أنواع مختلفة من هذه البيانات، ثم معالجتها على عدة مستويات، فعلى سبيل المثال؛ تقسّم الأقمار الصناعية سطحَ الأرض إلى مربعات كبيرة افتراضية، ثم يتتبع نظام تحديد المواقع العالمي GPS) Global Positioning System) حركة الشخص عبر هذه المربعات مع الزمن، وتتضمن هذه العملية قياسات رأسية وأفقية وزمنية لا يمكن تجميعها وتحليلها بسهولة في أنظمة قواعد البيانات العلائقية (القائمة على العلاقات بين الكيانات الممثّلة بالجداول)، إضافة إلى أنها تستغرق زمنًا لا بأس به عند المعالجة، ومن ثم تسبب تأخر الأبحاث المجراة، لكنّ شركة Paradigm 4 قد حلت هذه المشكلة.

تعريف نظام SciDB

هو نظام إدارة قواعد بيانات ACID

(Atomicity، Consistency، Isolation، Durability) طوّرته شركة Paradigm 

(4-1) بالتعاون مع العالم "ستونبريكر Stonebraker" الحائز جائزة "Turing" 

(1،2)، ويسمح هذا النظام بإدارة المعطيات المتعددة الأبعاد بهدف تسريع عمليات البحث والتحليل في التطبيقات العلمية والجغرافية والمالية والصناعية (5-1).

النشأة والتطوير

يعود الفضل إلى العالم Stonebraker الذي كان رائدًا في مجال أنظمة إدارة قواعد البيانات على مدى عقود (1،2)، فقد تلقى Stonebraker عديدًا من الشكاوى من زملائه العلماء فيما يخص بطء عمليات البحث في نظم إدارة قواعد البيانات العلائقية، وذلك عند التعامل مع مجموعات من البيانات العلمية المعقدة (1).

طوّر Stonebraker في عام 2008 نظامًا جديدًا لإدارة قواعد البيانات في معهد ماساتشوستس MIT للتكنولوجيا؛ إذ ابتكر فكرة تخزين البيانات في مصفوفات متعددة الأبعاد؛ مما سمح بتطبيق عمليات الجبر الخطي التحليلية، بما في ذلك العديد من أشكال التعلم الآلي ومعالجة البيانات الإحصائية، وذلك على مجموعات من البيانات الضخمة بطرائق جديدة (1).

وفي عام 2010، قرر Stonebraker تحويل المشروع إلى شركة، فأسس مع رجل الأعمال الناجح "ماريلين ماتز Marilyn Matz" شركةَ Paradigm 4

(1،3)، وقد وضع المؤسسون نظامَ إدارة قاعدة البيانات بوصفه محركًا حاسوبيًّا للبيانات العلمية، وأطلقوا عليه اسم SciDB، كذلك طوروا نظامًا أساسيًّا للتحليل سمّوه محرك اكتشاف REVEAL 

(1،2،4).

بنية النظام 

يخزّن نظام SciDB البيانات ببنية تسمى (MAC (Multidimensional Array Clustering، وهي عبارة عن تجمُّع من المصفوفات المتعددة الأبعاد، ذات خصائص (attributes) تصف على نحو فعّال كلَّ حقل من الحقول (aka fields)، وتُعدّ بنية MAC السببَ الرئيس وراء السرعة الفائقة التي يوفّرها نظام SciDB في عمليات الانتقاء والربط والتجميع، وهي تستند إلى مبدأين (1،5):

 

يضيف Stonebraker: "تجري أنظمة قواعد المعطيات العلائقية عملياتِ مسح أفقية أو شاقولية على البيانات، ولذلك نحن بحاجة إلى نظام ينجز كلا النوعين معًا، ويتطلب هذا وجودَ مدير تخزين أسفل النظام  قادر على التحرك أفقيًّا وشاقوليًّا ضمن تجمُّع هائل من البيانات في آن واحد، وهذا بالضبط ما يفعله نظام Paradigm4".

(5) نظام إدارة قواعد بيانات المصفوفة SciDB

ميزات النظام

1- بنية معالجة موزّعة تعمل على التوازي MPP (Massively Parallel Processing).

2- إمكانية تخزين عدد هائل من البيانات وتحليلها دون التقيد بقيود الذاكرة، وذلك عن طريق إضافة عقد من الـ Commodity Hardware

    2،5)).

3- سرعة في عمليات البحث والتحليل (5).

4- دعم الاستخدام المتزامن وعمليات القراءة والكتابة باستخدام تقنية ACID؛ إذ تضمن هذه التقنية ذرية (وحدة) المناقلات (Atomicity)، واتساقية المعطيات للمستخدمين جميعهم، وكذلك عزلتها (Isolation)             ومصونيتها (Durability)

     (5).

5- إمكانية استخدام لغات برمجة عالية المستوى مثل Python وR؛ مما يسرّع عمليات المعالجة بأقل تكلفة في قاعدة البيانات (5).

الرؤية المستقبلية

يقول Matz: "إذا استطاع الباحثون إجراء تحليلات معقدة -تحتاج عادةً إلى عدة أيام لتنفيذها- في غضون دقائق فقط، فسيؤثر ذلك على نحو كبير في عدد الأسئلة الصعبة التي يمكن طرحها والإجابة عنها، وهذا هو عامل القوة الذي سيغير سرعة الأبحاث اليومية" (1).

المصادر:

1- Accelerating data-driven discoveries [Internet]. MIT News Office. [cited 21 April 2020]. Available from: هنا

2- REVEAL Single Cell Analysis Force Multiplier Transforming Research Daily [Internet]. Paradigm4. [cited 21 April 2020]. Available from: هنا

3- SciDB [Internet]. Paradigm4. 2020 [cited 21 April 2020]. Available from: هنا

4- REVEAL/GENOMICS API for SciDB [Internet]. paradigm4.github.io. [cited 21 April 2020]. Available from: هنا

5- SciDB—the array database management system [Internet]. Paradigm4. [cited 25 April 2020]. Available from: هنا