طوفان من البيانات(*)في العديد من الحقول العلمية وغيرها تتراكم البيانات بكثافة. ويعتبر
تسييرها واستغلالها تحديا مطروحا على معلوماتية «البيانات الضخمة»(1).
<S. أبيتبول> – <P. سينيلارت>
في المركز الأوروبي للأبحاث النووية (CERN) الواقع قرب مدينة جينيف جُهِّز المصادم الهادروني الكبير (LHC)ا(2) بكواشف ضخمة قادرة على تسجيل آثار عشرات، بل مئات ملايين التصادمات پروتون-پروتون في الثانية. لنقدّر بصفة تقريبية حجم البيانات التي يمثلها ذلك اعتمادا على أقل الفرضيات. فالمعلومة المتعلقة بنتائج كل تصادم تُمَثَّل بـ4.3 بليون إمكانية(3)، وأما المسرّع، فيشتغل عشر ساعات يوميا، وهناك 100 مليون تصادم يجري تسجيلها كل ثانية. ومن ثمَّ يتضح بسهولة أن المصادم LHC ينتج خلال عام واحد 5×1510 ثُمانيّ، (أي خمسة پيتاثُماني) معلومة. ويتطلب تخزين مثل هذا الكمّ الهائل من البيانات خمسة آلاف قرص صلب من الأقراص التجارية.
ومع ذلك، فأبرز الصعوبات لا تظهر في التخزين بل في الاستغلال: استخراج المعلومات – المعارف – المفيدة من هذا الكمّ الهائل من البيانات يتجاوز كثيرا القدرات البشرية. وحتى نرفع التحديات من هذا القبيل ظهر علم جديد، هو علم البيانات. وهو يتعلق باستخراج مضامين مفيدة انطلاقا من كميات بيانات ضخمة ومتغيرة وغير متجانسة وغير أكيدة، على أن يتم ذلك من خلال خوارزميات فعّالة. وتهدف هذه المقالة إلى وصف الرهانات الرئيسة لعلم البيانات هذا، وتوضيح الصعوبات التي يواجهها.
ويعتبر مثال المصادم LHC الذي أشرنا إليه في بداية حديثنا حالةً استثنائية فيما يتعلق بكمّ الثُمانيات، غير أن هناك العديد من الحقول العلمية والصناعية التي عليها مواجهة سيْل مماثل من البيانات. فعلى سبيل المثال، نجد في البحث الطبي أن إحدى المشكلات التي ظلت مطروحة خلال فترة طويلة كانت النقص في كمية المعلومات المتوفرة. أما اليوم، فقد انعكس الوضع، حيث يواجه الباحثون صعوبات جمّة في استخلاص معارف مفيدة اعتمادا على عدد لا حصر له من البيانات المتراكمة نتيجة مختلف الاختبارات السريرية وما يتوفر لدى المستشفيات، وغيرها. لنُشرْ إلى قاعدة بيانات «الرصد الذكي المتعدد الوسيطات في العناية المركزة» (MIMIC-II)ا(4) التي كوّنها في الولايات المتحدة فريق باحثين من معهد ماساتشوستس للتقانة (.M.I.T) وفيليپس Philips ومركز بيث إسرائيل ديكونيس الطبي(5). وتَجمع هذه القاعدة بيانات طبية تخص 32 ألف مريض في وحدات العناية المركزة، أي أكثر من 40 ألف إقامة في تلك الوحدات. والواقع أن حجم البيانات متواضع جدا مقارنة بذلك الذي ينتجه المصادم LHC، غير أن تحليل هذا الحجم يتطلب عددا من الكفاءات الخاصة والخوارزميات المعقدة يضاهي ما تستدعيه حالة المصادمLHC.
إن أمثلة الحقول العلمية التي تتطلب تجميع البيانات وإدارتها بأحجام هائلة، ليست قليلة على الإطلاق. ويمكننا الإشارة إلى بعض هذه الحقول: علم الجينوم(6) (أو: الجينوميات) genomics، والمدوَّنات الفلكية، وإحصاء مجمل النباتات والحيوانات، والبحث في مجال الصيدلة، والدراسات الديموغرافية… إلخ.
ونحن ندرك هذا الوضع، فخوارزميات تحليل البيانات الضخمة أمر ضروري للبحث العلمي اليوم. ولكننا في حاجة أيضا إلى خوارزميات تفيدنا أكثر في التطبيقات اليومية. وإليكم مثالا على ذلك.
فعندما ترغبون في اختيار فيلم لسهرتكم، فقد تلجؤون إلى موقع على شبكة الإنترنت يعرض بالتفصيل وتتصفحون موقعا يعرض تفاصيل الحالات الممكنة. وهكذا يعرض عليكم نظامه اقتراحات وتوصيات. ويمكنه أن يقوم بذلك بشكل بسيط، كأن يقترح عليكم أحدث فيلم هو الأكثر مشاهدة خلال الأسبوع، أو ذلك الذي كان موضع أفضل الآراء النقدية. بينما يمكن أن تكون التوصية منبثقة من خوارزمية معقدة تراعي الأفلام التي تحبونها ومزاجكم، وربما أيضا ذوق الشخص الذي سيشارككم السهرة. فحتى تساعدكم الخوارزمية على الإجابة عن السؤال البسيط: «أي فيلم يمكنني مشاهدته؟» فهي قد تأخذ بالحسبان بحرا من البيانات: آراء مئات ملايين الأشخاص حول آلاف الأفلام.
بيد أن البرامج التي تسمح بإنجاز التحاليل الإحصائية – حتى البسيطة منها – حول مثل هذا الكم الهائل من البيانات، هي برامج بالغة التعقيد. ففي هذا الخضم سيحدد البرنامج الذي سيرشدكم أفلامَ أشخاصٍ يتمتعون بأذواق قريبة من ذوقكم، وسيكشف عن تقاربات بين مستخدمي الشبكة العنكبوتية(7) لا تعرفونهم. وسيتمكن من اكتشاف ذوقكم في مجال السينما وسيقترح عليكم في أقل من ثانية بعض الأفلام!
[تحليل البيانات:]
المهام المعهودة(**)
- البحث عن البيانات واكتسابها.
- جعل البيانات العديدة المصادر متجانسة.
- الكشف عن التكرارات والأخطاء وإزالتها.
- التفاعل مع الناس للحصول على المزيد من البيانات، والتغلب على التناقضات وسد الفراغات («التعهيد الجماعي» «crowdsourcing»).
- تسهيل عمل محللي البيانات بتزويدهم بوسائل تعينهم على النظر.
- إنجاز تحاليل إحصائية آلية للبيانات.
- تطوير تطبيقات وخدمات جديدة.
|
وفي هذه الساحة المليئة بالقنوات التلفزيونية التي يتزايد عددها يوما بعد يوم، وهذه الڤيديوهات «تحت الطلب» VoD، وتلك «بالاشتراك» SVoD، وهذه الأفلام المتعددة المتوفرة بصفة قانونية أو غير قانونية على الشبكة العنكبوتية، نجد المستخدِم تائها؛ مع أن الهدف من الأنظمة المرشدة هو توجيهه إلى ضالته.
والعنصر الأساسي الذي يغذي تلك الأنظمة يتكوّن بطبيعة الحال من المعطيات الرقمية التي تحتل أكثر فأكثر مكانة مهمة في عالم اليوم. فمنذ الستينات من القرن الماضي، فَرضت برامجُ قواعد البيانات نفسها ليجري تقاسم تلك البيانات ضمن مؤسسة أو منظمة معينة. وكانت هذه البيانات معزولة في مراكز حساب، وبعد ذلك أصبحت متوفرة في كل مكان في العالم بظهور شبكة الإنترنت (شبكة شبكات الآلات)، ثم في الشبكة العنكبوتية العالمية (شبكة المحتويات)، وأخيرا، في الشبكة العنكبوتية Web 2.0، بإسهام جميع شبكات تواصل الأفراد.
ولا يتعلق الأمر بالبيانات المخزنة فحسب، بل أيضا بالبيانات المتبادلة. فنحن محاطون ببلايين الكائنات المتواصلة فيما بينها. ففي عام 2008، كانت الشبكة العنكبوتية تضم أكثر من ألف بليون صفحة يقوم فيها مستخدمو الشبكة في كل شهر بعشرات بلايين من عمليات البحث. وتظهر التقديرات أن العالم الرقمي يتضاعف حجمه كل 18 شهرا، وأن التصفح على الإنترنت يفوق الآن سنويا كل ما يمكن تخزينه في كافة الأقراص والأوعية الأخرى المتوفرة.
تحليل البيانات بهدف تثمينها(***)
تشكل مجموعة البيانات المتوفرة على الشبكة العالمية منجما ضخما من المعارف ينبغي اكتشافها وتثمينها. لقد كان تحليل البيانات حقلا بالغ النشاط منذ بدايات المعلوماتية تقريبــا، وعُرِف بأسماء مختلفـة كالتنقيب عن البيانات أو معلوماتية الأعمال business intelligence . ونظرا لتزايد قدرات الأقراص والذاكرة الحاسوبية، وكذا تزايد القدرة على إجراء الحسابات باستخدام عناقيد من الحواسيب بإمكانها وصل آلاف الآلات فيما بينها، ونظرا أيضا للتزايد المنقطع النظير لحجم البيانات المتوفرة، أصبح تحليل هذه البيانات – بهدف استخلاص معلومات ذات شأن – صناعةً مزدهرة. واليوم تتطور هذه الصناعة تحت اسم «بيانات ضخمة».
ونقطة الانطلاق لهذه الصناعة هي تثمين واستغلال الكمّ الهائل من البيانات. وتشمل البيانات الضخمة عموما جانبين. فمن جهة، تتضمن فكرةُ دمج ومقارنة بيانات مهيكلة بإحكام، مثل مقارنة تلك المتعلقة بمؤسسة لديها حجوم كبيرة من البيانات على الشبكة العنكبوتية، أقلَّ هيكلة ودقة. ومن جهة أخرى، فهي تتطلب وضع آليات للقيام بحسابات مكثفة بالتوازي وذلك باستخدام تقنيات برمجية، مثل تقنيات هادوپ Hadoop، المنبثقة من محركات البحث المستخدمة في الشبكة العنكبوتية [انظر الإطار هادوپ Hadoop].
صعوبات مضاعفة(****)
والهدف هو إبراز معارف جديدة انطلاقا من بيانات ومهام كانت معروفة من قبل في تحليل البيانات: من اكتساب البيانات إلى استغلالها [انظر الإطار في هذه الصفحة]. فالصعوبات متعددة وتتمحور حول أربع نواحٍ تعتمد عليها البيانات الضخمة، وهي: أولا، حجم البيانات (يُعَدُّ بالتيراثُمانيات أو الپيتاثُمانيات، أي 1012 أو 1015 ثُماني). ثانياً، تنوعها أو عدم تجانسها (على مستوى البنية واللغة والشكل… إلخ). ثالثاً، سرعتها (أي وتيرة التعديلات التي تُدْخل عليها). رابعا، صحتها (أخطاء، نقصان، ثقة، مصدر، حداثة… إلخ).
وهناك صعوبات أخرى مصدرها توزّع البيانات في الفضاء، والحمايات المحتملة (حقوق الولوج، قيود على المستخدِم)… إلخ. ومن جهة أخرى، تكتسي طبيعة المعالجة التي تخضع لها هذه البيانات أهمية بالغة. مثال ذلك: إذا كانت المدة اللازمة لتنفيذ خوارزمية متناسبة مع مكعب عدد البيانات، فإنها تكون غير صالحة للاستعمال في قاعدة تشمل بليون تسجيل، حتى باستخدام آلاف الحواسيب خلال مئات الساعات. أما برامج هادوپ التي طُورت خصيصا لمعالجة كميات البيانات الضخمة، فلاتزال حديثة العهد نسبيا ومعقدة الاستعمال ويرجع ذلك بالدرجة الأولى إلى كونها تشغّل معًا عددا كبيرا من الحواسيب.
هادوپ Hadoop صُمِّم
من أجل تسيير البيانات المكثفة(*****)
صُمّم هادوپ، البرنامج الحر لمؤسسة أپاشApache، عام 2004 من قبل الأمريكي <D. كوتينگ>. وهو موجّه إلى تحليل الكميات الضخمة للبيانات، ويعتمد على التقنية المسماة «ماپ-ريديوس» MapReduce التي استخدمها گوگل في محرك بحثه.
وعند القيام بحسابات باستخدام ماپ-ريديوس نبدأ بتقسيم المسألة إلى مسائل فرعية مستقلة (المرحلة «ماپ») تتولاها حواسيب مختلفة. وتحلّ هذه الآلات المسائل الفرعية وترسل نتائجها إلى حواسيب أخرى مهمتها دمج تلك النتائج (المرحلة «ريديوس»). والهدف هو التمكن من العمل على أحجام كبيرة من البيانات، وذلك بجعل عناقيد من الحواسيب تعمل بالتوازي. ولا يسمح برنامج ماپ-ريديوس إلا بمعالجة مسائل نستطيع تجزئتها إلى مهام متعددة متوازية.
والبرنامج الأكثر شعبية التابع لـ ماپ-ريديوس هو هادوپ الذي تعتمد عليه مراكز البيانات العملاقة في الشبكة العنكبوتية، مثل أمازون وفيسبوك. كما نجده أكثر فأكثر في عروض «Cloud computing». وعلى الرغم من مآثر هادوپ الكثيرة، فإنه لايزال حديث العهد وفيه بعض النقائص: إنه لا يستعمل مثلا لغة معيارية، ولذا فتسييره معقد إلى حد ما ولا ينجز معالجة بيانات بشكل آني بل تظهر نتائجها متأخرة. |
ويُستخدم تحليل الأحجام الضخمة للمعطيات(8) في عديد المجالات وذلك للحصول على توقعات تكون دقيقة أكثر فأكثر ولاستباق الأوبئة ولتحسين فهمنا لتطور المناخ ولتقديم يد المساعدة في علاج السرطان… إلخ. أما على مستوى الجمهور العريض، فما يظهر للعيان في الوقت الراهن من البيانات الضخمة هو استخدام البيانات الشخصية من قبل مؤسسات تجارية كبرى بغية استهداف هؤلاء بالإشهار التجاري. تلك حال گوگل Google الذي يحلل طلبات مستخدمي الإنترنت وبريدهم الإلكتروني ليحسّن توجيه إشهاراته، وكذا حال أمازون Amazon الذي يقترح على المستخدمين كتبا لشرائها.
أسلحة جديدة في أيدي الدكتاتوريات… والمواطنين(******)
منذ فترة قريبة، لا سيما في قضية <E. سنودن>(9) بالولايات المتحدة، أشارت وسائل الإعلام إلى أن هناك بعض الحكومات تستخدم تحليل البيانات الخاصة على مستويات مدهشة. وكان السبب الرئيس الذي يتذرع به هؤلاء في هذا النوع من الاستخدامات هو مكافحة الإرهاب. بيد أن نظام «بريزم» PRISMلوكالة الأمن القومي الأمريكي (NSA) والأنظمة المماثلة في الدول الأخرى تُستخدم أيضا للتجسس، لا سيما في المجال الصناعي. ويمكن أيضا استغلالها لمراقبة المعارضين السياسيين لتلك الدول. وهكذا، فمراقبة البيانات وتحليلها صارت تمثل من دون شك الأسلحةَ الجديدة المقلقة في أيدي الدكتاتوريات والحكومات الشمولية.
والعكس بالعكس، فتعميم البيانات المفتوحة open data (أي النفوذ الحر إلى بيانات القطاع العام) في الدول الديموقراطية ينبغي أن يسمح «للصحفيين طالبي البيانات»، وكذا للمواطنين المعنيين بمراقبة أعمال حُكّامهم وأعمال المؤسسات الكبرى. ذلك أن التقانات نفسها تتيح للدولة مراقبة الأشخاص كما تتيح للأشخاص مراقبة الدولة. والملاحظ أن حكومات بعض الدول، مثل الولايات المتحدة الأمريكية أو بريطانيا، وأيضا فرنسا في الفترة الأخيرة، قد مضت قدما في حركة فتح البيانات. وهذا ما يفتح الباب لخدمات جديدة من شأنها أن تسمح بتحسين مراقبة أعمال الحكومات والمؤسسات الكبرى. ومن حقنا أن نأمل بأن يؤدي ذلك إلى تدعيم مسؤولية المواطن وإعادة تأسيس الديموقراطية.
ويبدو أن هناك تكيّفًا كبيرا للبيانات الضخمة مع موضوع توقعات الأزمات الصحية، ومشكلات المحيط، والكوارث الطبيعية والتفاعل معها. وينبغي أن تساعد تلك البيانات على حل مشكلات الصحة والنقل والبيئة وعلى مكافحة الفقر. ففي كثير من الحالات يستدعي الأمر دمج تحاليل كميات ضخمة من البيانات المخزنة في تحاليل على الخط(10) مبنية على تدفق بيانات محصل عليها في تلك اللحظات. وهكذا، نجد هذا النوع من الدمج، مثلا في المتابعة المُشَخْصنة لأفراد يواجهون صعوبات جمة، أو أفراد مُسنِّين أو تلاميذ يعانون فشلا مدرسيا أو … إلخ. ولا بد أن نكون قادرين على تحليل التطورات التي تحدث خلال فترات طويلة، والتنبؤ بالمشكلات قدر المستطاع، والأهم من ذلك معرفة كيف نتذكر الأمور المستعجلة والتفاعل معها في الوقت المناسب عند حدوث أزمات.
لنأخذ مثال الصحة. إن البيانات ذات الصلة بصحة الفرد تتزايد بصورة دائمة. ونواتها مكوّنة من معلومات كالفحوصات الطبية وتشخيصات الأمراض والعلاجات وكيفية تناول الأدوية. لكننا نلاحظ أيضا تنامي البيانات ذات الصلة بعلم الجينوم – وهكذا تقترح شركة كاليفورنيا للتقانة الحيوية(11)23andMe على الأفراد سَلْسَلة(12) قسم مهم من جينومهم مقابل 999 دولارا – وينبغي أيضا الأخذ في الاعتبار البيانات ذات الصلة بالحياة اليومية للفرد وتغذيته ونشاطه البدني وتعرضه لتلوثات معينة… إلخ. وقد أصبحت تلك المعلومات متوفرة أكثر فأكثر عبر تجهيزات من نوع الهاتف الذكي أو عبر شبكات التواصل الاجتماعي.
وبالموازاة مع ذلك، فإن الباحثين في المجال الطبي يستخدمون تحليل البيانات بشكل متزايد. فهم على سبيل المثال، يطمحون إلى اكتشاف روابط بين تناول بعض الأدوية مجتمعةً وبين حالات مَرَضِية معينة. ويمكن أن يستفيد المرضى من هذه الروابط بشكل خاص. وفي البداية، ينبغي شَخْصَنة العلاجات بتكييف الأدوية حسب حالة كل مريض وذلك بمراقبة الكميات التي يتناولها. ونستطيع تصوّر إجراء العمل بصورة وقائية وذلك باقتراح نمط حياة صحي لكل شخص يتناسب مع المخاطر التي يتعرض لها، مع متابعة غذائه ونشاطاته البدنية وحياته اليومية. إلا أننا نستطيع كذلك تعرف أزماته ومساعدته على تجاوزها، بتنظيم جرعات أدويته، على سبيل المثال.
مشكلة: الولوج إلى البيانات الشخصية(*******)
عندما تتوفر جميع البيانات المتعلقة بشخص يُفتح الباب أمام كافة الاحتمالات. فذلك يطرح مسألة الولوج إلى البيانات الشخصية للأفراد. فهل ينبغي أن يكون لشركة التأمين أو هيئة التوظيف الحقُّ في الوصول إلى مجمل أو جزء من المعلومات التي تشكلت من البيانات الطبية للزبون أو من جينومه، أو هل يمكن الوصول إلى بياناته الضريبية ومشترياته وموقعه الجغرافي وبريده ومبادلاته عبر شبكات التواصل الاجتماعي؟
إن الأمر يتعلق هنا بالبيانات الخاصة بالزبون. فهي من هذا المنطلق، ملكه الخاص، وعليه يجب أن يكون هو المتصرف الوحيد فيها وهو الذي يبتّ فيمن له الحق في الوصول إليها وكيفية استغلالها. غير أن الأمر ليس بهذه البساطة. فعلى سبيل المثال، لكي يتقدم الطب لا بد أن نتمكن من إجراء تحاليل للبيانات الطبية لكل الأفراد. ومن هذا المنظور يبدو من المعقول أن تكون نتائج هذه الإحصائيات متاحة للجميع. إلا أنه من الواضح أيضا أن البيانات في شكلها الخام، كالبيانات الصادرة عن المستشفيات، لا ينبغي أن تكون من بين البيانات المفتوحة، حتى ولو أُغفلت أسماء أصحابها، إذ إنه من المستحيل ضمان سريتها. وهكذا نرى أن الطريق لايزال طويلا للتوفيق بين هذه الاختلافات في الرؤى.
المؤلفان
مراجع للاستزادة
S.Abiteboul, Sciences des données: de la logique du premier ordre à la Toile, Leçon inaugurale au Collège de France, Fayard, 2012: www.college-de-france.fr/site/serge-abiteboul
S.Abiteboul et al., Web Data Management, Cambridge University Press, 2011: http://webdam.inria.fr/Jorge
D.Agrawal et al., Big data and cloud computing: current state and future opportunities, EDBT/ICDT 2011, www.edbt.org/Proceedings/2011-Uppsala/papers/edbt/a50-agrawal.pdf
C.Lynch, Big data: How do your data grow?, Nature, vol.455, pp. 28-29, 2008.
G.Linden et al., Amazon.com recommendations: Item-to-item collaborative filtering, IEEE internet Computing, vol. [1], pp. 76-80, 2003
(*)هذه ترجمة للمقالة بعنوان: Un déluge de données وقد صدرت في عدد الشهر 4/2013 من مجلة Pour la Science الفرنسية، وهي إحدى أخوات السبع عشرة التي تترجم مجلة Scientific American.
(**)ANALYSE DES DONNÉES: LES TÂCHES CLASSIQUES
(***)Analyser les données pour les valoriser
(****)Des difficultés multiples
(*****)Des armes nouvelles aux mains des dictatures… et des citoyens
(******)Hadoop pour gérer les données massives
(*******)Un probléme: l’accés aux données personnelles
(1) L’informatique du Big Data؛ وتعني مجموعات كبيرة من البيانات حجمها لا يسمح بالتعامل معها بالوسائل التقليدية، وتسمى عند البعض بالفرنسية datamasse.
(2) Large Hadron Collider
(3) أربعة ثُمَانيات octets (أي 4256 = 4(82) بليون إمكانية).
(4) Multiparameter Intelligent Monitoring in Intensive Care
(5) centre medical Beth Israel Deaconess
(6) فرع من علم الأحياء الحديث يُعنى بدراسة الأعضاء بالتركيز على الجينوم genome بدلا من التركيز على الجين gene كل واحد على حدة.
(7) netsurfers
(8) L analyse de grands volumes de données
(9) Edward Snowden
(10) analyses en ligne
(11) la société californienne de biotechnologie 23andMe propose ainsi
(12) le séquencage
|