الحفاظ على الخصوصية في أثناء مشاركة البيانات
يمكن أن تحمي الخصوصية التفاضلية المعلومات الشخصية عند مشاركة البيانات، لكنها تتطلب مستوى عالياً من الخبرة.
وحدة العامل الهجين معضلة حسِّنوا العصف
برمجيات
الفدية
الذهني الإبداعي
بالنقد البناء
مع سعي المؤسسات بنحوٍ متزايد إلى استغلال البيانات، سواء للاستخدام الداخلي أو للمشاركة مع الشركاء في المنظومات الإيكولوجية الرقمية Digital ecosystems، تواجه مزيداً من القوانين التي تنص على حماية خصوصية المستهلك بنمط أقوى. لكن من المؤسف أن الأساليب التقليدية لحماية المعلومات السرية قد تفشل فشلاً ذريعاً، وهو ما قد يعرض المؤسسات للدعاوى القضائية، والعقوبات التنظيمية، والمخاطر على السمعة.
منذ عشرينات القرن العشرين، وضع الإحصائيون مجموعة متنوعة من الأساليب لحماية هويات الأشخاص الذين تُجمَع معلوماتهم وتفاصيلهم الحساسة. لكن التجربة الأخيرة أظهرت أن متسللاً ماهراً، حتى عند إزالة الأسماء وأرقام الضمان الاجتماعي وغيرها من المحدِّدات Identifiers، يستطيع أخذ السجلات المحررة، وجمعها بالمعلومات المتاحة علناً، وإعادة تحديد السجلات الفردية أو الكشف عن معلومات حساسة، مثل أنماط سفر المشاهير أو المسؤولين الحكوميين.
اكتشف علماء الحاسوب أن المشكلة تتمثل في أنه كلما ازدادت المعلومات التي تصدرها المؤسسة، ازداد احتمال الكشف عن معلومات شخصية قابلة للتحديد، بصرف النظر عن مدى جودة حماية هذه التفاصيل. وتبين أن حمايةَ الخصوصية ونشرَ البيانات الدقيقة والمفيدة متعارضان بطبيعتيهما.
وفي محاولة لمعالجة هذه المعضلة، طور علماء الحاسوب نهجاً رياضياً يسمى الخصوصية التفاضلية Differential privacy (اختصاراً: الخصوصية DP)، والتي تقوم على التصريح بالمقايضة: لضمان حماية الخصوصية، يجب التضحية ببعض الدقة في البيانات. فضلاً عن ذلك تعطي الخصوصية التفاضلية DP المؤسساتِ وسيلةً لقياس المقايضة والتحكم فيها. ويَعتبر عديد من الباحثين الآن الخصوصية التفاضلية هي المعيارَ الذهبي لحماية الخصوصية، ما يسمح للمستخدمين بإصدار إحصائيات أو إنشاء مجموعات بيانات جديدة، مع التحكم في درجة تعرُّض الخصوصية للخطر.
كيف تعمل الخصوصية التفاضلية
تعمل الخصوصية التفاضلية، التي اختُرعت في العام 2006، بإضافة أخطاء صغيرة، تسمى الضوضاء الإحصائية Statistical noise، إلى البيانات الأساسية أو عند حساب النتائج الإحصائية. وبوجه عام تَنتُج عن مزيد من الضوضاء حمايةٌ أكبر للخصوصية، ونتائجُ أقل دقة. وعلى الرغم من استخدام الضوضاء الإحصائية لعقود لحماية الخصوصية، فإن ما يجعل من الخصوصية التفاضلية تكنولوجيا خارقة هو الطريقة التي تعطي بها قيمة رقمية لفقدان الخصوصية الذي يحدث كل مرة تنشر فيها المعلومات. وتستطيع المؤسسات التحكم في مقدار الضوضاء الإحصائية التي يمكن إضافتها إلى البيانات، ونتيجة لذلك مدى الدقة التي ترغب في تبادلها لضمان مزيد من الخصوصية.((While we will not explore the mathematics of DP here, readers who wish to know more are directed to C.M. Bowen and S. Garfinkel, “The Philosophy of Differential Privacy,” Notices of the American Mathematical Society 68, no. 10 (November 2021): 1727-1739; and A. Wood, M. Altman, A. Bembenek, et al., “Differential Privacy: A Primer for a Non-Technical Audience,” Vanderbilt Journal of Entertainment and Technology Law 21, no. 1 (fall 2018): 209-276.))
وطور مكتب الإحصاء الأمريكي U.S. Census Bureau أول منتج بيانات يستخدم الخصوصية التفاضلية في العام 2008. والمنتج المسمى أون ذا ماب OnTheMap يقدم إحصائيات تفصيلية عن الرواتب والتنقل في مختلف المناطق الجغرافية. ومن الممكن استخدامه، مثلاً، لتحديد عدد الأشخاص الذين يعيشون في مونتكلير بولاية نيوجيرسي، مثلاً، ويتنقلون للعمل في مانهاتن السفلى، إلى جانب متوسط أعمارهم ورواتبهم وعرقهم والصناعة التي يعملون فيها. ولمنع استخدام المعلومات لتحديد هوية متنقل واحد، ومكان عمله، ومكاسبه، تضيف الخصوصية التفاضلية ضوضاء إلى البيانات الأصلية بتغيير عدد الأشخاص الذين يعيشون ويعملون في كل كتلة إحصائية Census block.
ومنذ تقديم الخصوصية التفاضلية، استخدمها مكتب الإحصاء في إصدار إحصاء العام 2020، والآن تَستخدم خدمةُ الإيرادات الداخلية ووزارة التعليم في الولايات المتحدة الخصوصيةَ التفاضلية لنشر الإحصائيات عن مداخيل خريجي الجامعات. قالت أكثر من 20 شركة إنها نشرت الخصوصية التفاضلية أو تفكر في استخدامها، بما في ذلك أبل Apple وغوغل Google وميتا Meta ومايكروسوفت Microsoft وأوبر Uber.
ونشأ جدل العام الماضي عندما استخدم مكتب الإحصاء الخصوصية التفاضلية لحماية بيانات الإحصاء التي تستخدمها الولايات لرسم الدوائر التشريعية ودوائر الكونغرس. كانت السجلات كلها في الملف تخليقية Synthetic، ولَّدها نموذج إحصائي أُنشِئ وحُمِي باستخدام الخصوصية التفاضلية. واعترض علماء الديموغرافيا وعلماء الاجتماع على استخدام الخصوصية التفاضلية، محذرين من أن قدراً كبيراً من الضوضاء قد يُضَاف إليها، ما قد يجعل النتائج عديمة الجدوى. ورفعت ألاباما و16 ولاية أخرى دعاوى قضائية في أبريل 2021 لمنع هذه الخطوة، قائلةً إن الخصوصية التفاضلية ”ستجعل إعادة تقسيم الدوائر على المستوى المحلي أمراً مستحيلاً“. لكن في يونيو 2021، نفت لجنة مؤلَّفة من ثلاثة قضاة الطلبات الرئيسة في الدعوى، وأسقطت ألاباما الدعوى القضائية في سبتمبر 2021.((For a discussion of the controversy involving the deployment of DP and the 2020 U.S. Census, see S. Garfinkel, “Differential Privacy and the 2020 U.S. Census,” MIT Case Studies in Social and Ethical Responsibilities of Computing (winter 2022), mit-serc.pubpub.org.))
تُشكل قدرة الخصوصية التفاضلية على ضبط مستوى حماية الخصوصية أو خسارته قوتَها وضعفَها. للمرة الأولى يملك ممارسو الخصوصية وسيلة لتحديد حجم المخاطر التي تأتي مع الكشف عن البيانات السرية. ومن ناحية أخرى من شأن ذلك أن يجبر أصحاب البيانات على مواجهة الحقيقة المزعجة التي تؤكد أن خطر الخصوصية يمكن تعديله لكن لا يمكن إزالته.
وكثيراً ما كان المشرعون على جانبي المحيط الأطلسي يتجاهلون هذه الحقيقة. فتنظيمات الخصوصية تهدف بوجه عام إلى حماية المعلومات التي يمكن التعرف عليها شخصياً– أي شيء يجعل من الممكن عزل التفاصيل المتعلقة بفرد ما– ويكتب صناع السياسات هذه القواعدَ عادة بعبارات حاسمة: إما أن تكون المعلومات محمية وإما لا تكون محمية. وتوضح الخصوصية التفاضلية أن خصوصية البيانات أكثر تعقيداً بكثير.
تُكتَب تنظيمات الخصوصية عادة بمصطلحات حاسمة: إما أن تكون المعلومات محمية وإما لا تكون محمية. وتوضح الخصوصية التفاضلية أن خصوصية البيانات أكثر تعقيداً بكثير: يمكن تعديل مخاطر الخصوصية لكن لا يمكن إزالتها.
أظهرت التجربة أن أي بيانات عن الأفراد يمكن التعرف عليها إذا دُمجت مع معلومات إضافية ضرورية كافية. مثلاً حدد الباحثون في جامعة تكساس University of Texas مشتركي نتفليكس Netflix بالجمع بين تصنيفات الأفلام على الموقع آي إم دي بي IMDB وقائمة ”مجهّلة المصدر“ Anonymized أصدرتها نتفليكس من الأفلام التي شاهدها المشتركون وصنفوها. وبين الباحثون أن السجلات الفردية يمكن إعادة تحديدها وربطها بالمشترك. ورفعت دعوى ضد الشركة بموجب قانون حماية خصوصية الفيديوهات وسوَّت الشركة دعوى جماعية Class-action lawsuit بمبلغ 9 ملايين دولار.
يجب تطبيق الخصوصية التفاضلية على كل المعلومات المرتبطة بأي شكل من الأشكال بفرد، وليس فقط المعلومات التي يمكن تحديدها شخصياً. وهذا يجعل من الممكن التحكمَ في كمية البيانات التي تصدر– ومقدار الخصوصية الذي يضيع– استناداً إلى الاحتياجات الفريدة للمؤسسة، وما تعتبره عتبة الخصوصية لديها.
ثلاثة نُهُج مختلفة للخصوصية التفاضلية
طور الباحثون في مجال الخصوصية ثلاثة نماذج متميزة لاستخدام الخصوصية التفاضلية.
نموذج المنسق الموثوق به The trusted curator model. تطبق المؤسسة التي تستخدم بيانات سرية ضوضاء على النتائج الإحصائية التي تنشرها من أجل الاستهلاك الأوسع. هذا هو النهج الذي يستخدمه مكتب الإحصاء لنشر المعلومات المحمية الخصوصية، مثل منتجه أون ذا ماب.
ويمكن أن يحمي نموذج المنسق الموثوق به كلاً من البيانات المنشورة والبيانات المستخدمة داخل المؤسسة. في العام 2018، أنشأت أوبر Uber نظام خصوصية تفاضلية للأبحاث الداخلية، تضمن بيانات عن الراكبين والسائقين، وسجلات الرحلات، والمعلومات التي تجمعها الشركة لتحسين تجربة العملاء. ومكنت الخصوصية التفاضلية محللي أوبر من تقييم أداء أنظمتهم من دون الاطلاع على تفاصيل عن الراكبين الأفراد ورحلاتهم.
بيانات مجهرية تخليقية محمية بالخصوصية التفاضلية DP-protected synthetic microdata. هذا نهج إضافي يمكن للمؤسسات التي تطبق نموذج المنسق الموثوق به استخدامه. في هذه الحالة تُنشِئ المؤسسة نموذجاً إحصائياً للبيانات الأصلية، ثم تطبق الخصوصية التفاضلية على النموذج لإنشاء نموذج جديد محمي الخصوصية. يستخدم بعد ذلك هذا النموذج لإنشاء سجلات فردية. وقد تحتوي سجلات البيانات الميكروية Microdata هذه على معلومات عن عمر الشخص ومستوى تعليمه ودخله، فتُنتِج نتائج إحصائية مماثلة عند تحليلها لكنها لا تتطابق تماماً مع تلك الخاصة بفرد فعلي.
وميزة البيانات الميكروية هي أنه يمكن توزيعها أو إعادة تحليلها بنمطٍ متكرر من دون فقدان إضافي للخصوصية. لكن من الصعب إنشاء سجلات بيانات ميكروية دقيقة تحتوي على أكثر من بضعة أعمدة من البيانات، لا يمكن ربطها بسهولة بمجموعات بيانات أخرى على مستوى السجلات، لأن البيانات المحمية تفتقر إلى محددات مثل الأسماء أو أرقام الضمان الاجتماعي.
النموذج المحلي The local model. تضاف الضوضاء الإحصائية إلى كل سجل بيانات في أثناء جمعه وقبل إرساله إلى المحللين (سواء داخلياً أو خارجياً). استخدمت غوغل Google هذه الطريقة لإنتاج إحصائيات حول مستخدمي المتصفح كروم Chrome– بما في ذلك معلومات حول الصفحات الرئيسة للمستخدمين والمواقع التي جرت استُهدفت بالزيارة والعمليات المختلفة التي تشغلها حواسيبهم– كطريقة لتحسين قدرتها على حظر البرمجيات الضارة من دون جمع معلومات حساسة. لكن غوغل تخلت في نهاية المطاف عن الأداة، لأن ”هناك أكثر مما يجب من الضوضاء“، كما قال أحد الباحثين السابقين في غوغل في ذلك الوقت. وبدلاً من ذلك انتقلت الشركة إلى نهج أكثر تعقيداً يجمع بين الخلط المجهل ونموذج المنسق الموثوق به.
وبوجهٍ عام يعمل نموذج المنسق الموثوق به بنحو أفضل لمصلحة مؤسسات مثل مكتب الإحصاء تعمل مع بيانات لديها بالفعل. ويعد النموذج المحلي جذاباً للمؤسسات التي سبق لها التوقف عن جمع البيانات بسبب مخاوف الخصوصية.
مثلاً أرادت أبل التعرف على النص الذي يكتبه الأشخاص عندما يستخدمون الرموز التعبيرية Emoji– مثل ما إذا كان الأشخاص قد أدخلوا ”قلب“ أو ”حب“ للرموز التعبيرية للقلب– واستخدمت النموذج المحلي لحماية خصوصية المستخدمين. وباستخدام هذه الطريقة، يمكن للمؤسسة أن تقول إنها تطبق تقنية حماية الخصوصية على البيانات قبل جمعها.
في هذه المرحلة لا تزال الخصوصية التفاضلية تكنولوجيا حديثة ويمكن استخدامها في ظروف محدودة فقط، وبنحو رئيس في الإحصائيات الرقمية التي تعتمد على البيانات السرية. لا تنجح الخصوصية التفاضلية بنحو جيد (حتى الآن) في حماية النص أو الصور أو الصوت أو الفيديو.
هل أصبحت الخصوصية التفاضلية جاهزة للأعمال؟
في هذه المرحلة لا تزال الخصوصية التفاضلية تكنولوجيا حديثة، ويمكن استخدامها في ظروف محدودة فقط، وبنحو رئيس في الإحصائيات الرقمية التي تعتمد على البيانات السرية، مثل الإحصائيات الجغرافية المستخدمة في تطبيق أون ذا ماب. لا تنجح الخصوصية التفاضلية بنحو جيد (حتى الآن) في حماية النص أو الصور أو الصوت أو الفيديو.
ولأن الخصوصية التفاضلية لها منحنى تعلم شديد الانحدار، يجب أن يبدأ هؤلاء المهتمون بالتكنولوجيا بمشروعات تجريبية Pilot projects جيدة التحديد. مثلاً يمكن لشركة طاقة محلية طُلب إليها تقاسمُ سجلات العملاء المتأخرين في سداد الفواتير أن تقدم مجموعة بيانات محمية بالخصوصية التفاضلية تشير إلى عدد الأشخاص الذين يحتمل أن يكونوا متأخرين عن السداد في كل مجموعة، من دون تحديد الأسر الفردية. ومن ثم يمكن لبرنامج للمساعدة Emergency assistance program أن يستخدم البيانات لاستهداف الوصول الضيق إلى الكتل التي تنطوي على أكبر مخاطر التأخر في السداد بدلاً من تغطية المنطقة بأسرها.
ويمكن أيضاً استخدام الخصوصية التفاضلية لإنشاء بيانات ميكروية محمية الخصوصية، على الرغم من أن هذا النهج يقتصر على البيانات التي تحتوي على عدد صغير من المتغيرات Variables فقط. مثلاً استجابت غوغل للجائحة عن طريق نشر ”تقارير تنقُّل مجتمعية محلية“ في مجال كوفيد-19، أظهرت عدد الأشخاص الذين ينتقلون يومياً بين المنازل والمكاتب ومتاجر البقالة ومحطات العبور وغيرها من المواقع. وحوَّلت البيانات الميكروية– كل موقع فردي– على شكل إحداثيات الموقع على شكل خطوط العرض Latitude والطول Longitude (أي السجلات التي تحتوي على عمودين) إلى فئات المواقع الستة العامة، واستخدمت الخصوصية التفاضلية لطمس عدد الأشخاص في كل فئة.
ينبغي للشركات التي تفكر في الخصوصية التفاضلية أن تبدأ بالتشاور مع خبير ذي مؤهلات أكاديمية متقدمة، أو بتوظيف خبير في علوم الحاسوب أو في مجال مماثل. (وظفت لينكد إن LinkedIn خبراء في الخصوصية من الحاصلين على الدكتوراه لتطوير إحصائيات مشاركة الجمهور). ويمكن العثور على أكثر المعلومات موثوقية عن هذه التكنولوجيا في ورقات أكاديمية عالية التقنية، وتعكس بعض إعلانات الوظائف ذلك باشتراط أن يكون مقدمو الطلبات قد نشروا أوراقاً بحثية، أو وضعوا كوداً في الخصوصية التفاضلية متاحاً للجمهور. فمحاولة استخدام الخصوصية التفاضلية الآن من دون هذا النوع من الخبرة من المرجح أن تؤدي إلى أخطاء.
وبالاستعانة بخبير في الخصوصية التفاضلية تكون المؤسسة في وضع أفضل لتقييم أدوات الخصوصية التفاضلية المتاحة حالياً، سواء من المصادر التجارية أو المفتوحة Open source، ولتحديد ما سيلبي احتياجات حالة الاستخدام المطلوبة على أفضل وجه. ينبغي للشركات أن تسأل: هل صُممت التكنولوجيا لحماية البيانات الموجودة بالفعل، أو المعلومات التي جمعت حديثاً؟ إذا كان الأمر يتعلق بالبيانات الموجودة، هل تحتاج الشركة إلى حماية النتائج الإحصائية، أو البيانات الميكروية على مستوى السجلات؟ وما التدريب أو المواد التعليمية أو الدعم الذي يقدمه مزوِّد الخدمات؟
على المدى القريب قد تظل الخصوصية التفاضلية معقدة جداً بالنسبة إلى معظم المؤسسات. ومع ذلك يمكنها تحسين حماية الخصوصية لديها حاليا بتبني بعض المبادئ التي تقوم عليها التكنولوجيا، مثل إضافة ضوضاء إحصائية إلى منتجات البيانات الخاصة بها، حتى لو كانت تفتقر إلى القدرة على قياس المفاضلة الفعلية بدقة بين الخصوصية والدقة.