أحد صفحات التقدم العلمي للنشر
غير مصنف

مع تزايد المخاوف المتعلقة بالخصوصية، هل يمكننا تعليم بوتات الدردشة التي تعمل بالذكاء الاصطناعي أن تنسى؟

الطريقة التي تعمل بها أنظمة الذكاء الاصطناعي تعني أننا لا نستطيع بسهولة حذف ما تعلمته. والآن، يبحث الباحثون عن طرق لإزالة المعلومات الحساسة دون الحاجة إلى إعادة تدريبها من الصفر

بقلم شوبهام أغروال

أنا أكتب على شبكة الإنترنت منذ أكثر من عقدين من الزمن. عندما كنت مراهقاً، تركت سلسلة من المدونات ومنشورات وسائل التواصل الاجتماعي في أعقابي، تتراوح من العادية إلى المحرجة. في الآونة الأخيرة، كصاحفي، نشرت العديد من المقالات حول وسائل التواصل الاجتماعي والخصوصية والذكاء الاصطناعي، من بين جملة من الأمور الأخرى. لذلك عندما أخبرني الذكاء الاصطناعي ChatGPT بأن كتاباتي ربما أثرت في أجوبته على طلبات الآخرين، سارعت لمسح بياناتي من ذاكرته.

ولكن كما اكتشفت بسرعة، لا يوجد زر حذف. إن بوتات الدردشة التي تعمل بالذكاء الاصطناعي، والتي يتم تدريبها على مجموعات البيانات بما في ذلك أعداد هائلة من مواقع الويب والمقالات عبر الإنترنت، لا تنسى أبداً ما تعلمته.

وهذا يعني أن بوتات من أمثال الذكاء الاصطناعي ChatGPT عرضة للكشف عن معلومات شخصية حساسة، إذا وجدتها على الإنترنت، وأن الشركات التي تقف وراء أنظمة الذكاء الاصطناعي هذه ستكافح من أجل تطبيق لوائح «الحق في النسيان» Right-to-be-forgotten، التي تجبر المؤسسات على إزالة المعلومات الشخصية، بإدخال معلومات مُظلِّلة Misinformation أو تعليمات خبيثة Malicious في بيانات التدريب.

كل هذا يفسر سبب سعي العديد من علماء الحاسوب إلى تعليم الذكاء الاصطناعي كيفية النسيان. وبينما يجدون أن الأمر صعب جداً، بدأت حلول «محو تعلم الآلة» Machine unlearning بالظهور. وأهمية هذا العمل تتجاوز مجرد معالجة المخاوف المتعلقة بالخصوصية والمعلومات المضللة. إذا كنا جادين في بناء أنظمة ذكاء اصطناعي تتعلم وتفكر مثل البشر، فقد نحتاج إلى هندستها بحيث تنسى.

إن الجيل الجديد منبوتات الدردشة التي تعمل بالذكاء الاصطناعي، مثل ChatGPT وGoogle’s Bard، والتي تنتج نصاً استجابة حسب طلبنا، مدعومة بنمذجات اللغة الكبيرة (اختصاراً: النمذجات LLM). ويتم تدريب هذه على جبال من البيانات، التي يتم جمع معظمها من الإنترنت – بدءاً من منشورات وسائل التواصل الاجتماعي إلى نحو 250 ألف كتاب وجميع المعلومات المتاحة للجمهور تقريباً، بما في ذلك المواقع الإخبارية وصفحات ويكيبيديا.

ومن هذا، يتعلم الذكاء الاصطناعي اكتشاف الأنماط الإحصائية، مما يعني أنه يمكنها التنبؤ بالكلمة التالية الأكثر احتمالا في الجملة. إنها تعمل بشكل جيد جداً، وتنتج إجابات سلسة على كل استفساراتنا.

المشكلة هي أن الطريقة التي تعمل بها بوتات الدردشة المدعمة بالذكاء الاصطناعي تعني أنه عندما تتعلم شيئاً ما، لا يمكنها نسيانه. فالنمذجات LLM تُنشئ استجاباتها بناءً على بيانات مجمعة، لذلك لا توجد طريقة سهلة لها لنسيان أو «حذف» Delist أجزاء معينة من المعلومات، كما تفعل محركات البحث مثل Google، أو تمكّن الأفراد من تتبع ما يعرفه تطبيق الذكاء الاصطناعي عنهم بالضبط، كما يقول ديفيد تشانغ David Zhang، الباحث والمهندس في مجال الذكاء الاصطناعي في وكالة العلوم الوطنية الأسترالية سيسرو CSIRO.

الخصوصية واللائحة العامة لحماية البيانات وهذا يخلق مشكلة كبيرة عندما يتعلق الأمر بالخصوصية، كما أوضح تشانغ وزملاؤه في الأبحاث الحديثة. وسلطوا الضوء على مدى صعوبة امتثال شركات الذكاء الاصطناعي لـ«الحق في النسيان»، الذي أعلنه الاتحاد الأوروبي كحق من حقوق الإنسان في عام 2014.

بموجب اللائحة العامة لحماية البيانات General Data Protection Regulation (اختصاراً: اللائحة GDPR) للاتحاد الأوروبي، يحق للأشخاص طلب إزالة معلوماتهم الشخصية من السجلات. عادة، على الإنترنت، يتم فرض الحق عبر مجموعة متنوعة من السيناريوهات: ليس فقط أن يكون لديك زر تراجع Undo button للمحتوى الشخصي الخاص بك على الإنترنت، مثل منشورات وسائل التواصل الاجتماعي أو صفحات المذكرات، ولكن أن يتاح للأشخاص أيضاً خيار مطالبة شركات مثل ميتا Meta مسح البيانات التي جمعوها عنهم. ولكن مثل هذه الحلول غير متوافقة مع بوتات الدردشة المدعومة بالذكاء الاصطناعي، فكما يقول تشانغ: «إن عدم توفير طريقة لحذف أو نسيان البيانات من ذكريات نمذجاتها لا يدعم حق الفرد في المحو».

ومع ذلك، سيتعين على الشركات التي تطور بوتات الدردشة المدعومة بالذكاء الاصطناعي إيجاد طريقة للتعامل مع هذه المشكلة، خاصة مع بدء تدريب النمذجات LLM على معلومات أكثر حساسية، مثل البيانات الطبية وصناديق البريد الإلكتروني وغير ذلك، كما يقول فلوريان ترامير Florian Tramèr، عالم الحاسوب من الجامعة ETH في زيوريخ.

لكن الأمر يزداد سوءاً، لأن بوتات الدردشة التي تعمل بالذكاء الاصطناعي معرضة أيضاً للهجمات التي يتم فيها إخفاء المعلومات في بيانات التدريب لخداع النمذجة ودفعها إلى التصرف بطرق غير مقصودة. وقد أظهر الباحثون الأمنيون أن هذه التقنية، المعروفة بــ«الحقن الفوري غير المباشر» Indirect prompt injection يمكن استخدامها لجعل بوتات الدردشة تقوم بتشغيل التعليمات البرمجية عن بعد على أجهزة المستخدمين، مثلا، أو مطالبتهم بالكشف عن تفاصيل حساباتهم المصرفية. وقد لفتت وكالة الاستخبارات البريطانية GCHQ الانتباه إلى هذه المشكلة. ومن المتوقع أن تتزايد المخاطر الناجمة عن الحقن الفوري الخبيث.

والخبر السار، نظرا للمخاطر، هو أن العمل على اكتشاف كيفية حذف المعلومات بشكل انتقائي من قاعدة معلومات الذكاء الاصطناعي قد بدأ. والخبر السيئ هو أن الأمر أبعد ما يكون عن الوضوح.

تعتمد شركات الذكاء الاصطناعي حالياً على إصلاحات مؤقتة مثل «إسكات الآلة» Machine silencing، حيث تبرمج خدماتها لمنع الوصول إلى معلومات معينة وحجب الاستجابات. «أنا آسف جداً، لكن لا يمكنني المساعدة على هذا الطلب»، مثلا، يقول موقع ChatGPT، عندما أطلب إليه إنشاء ملف شخصي عني. يقول لوتشيانو فلوريدي Luciano Floridi، مدير مركز الأخلاقيات الرقمية بجامعة ييل Yale University’s Digital Ethics Center، إن هذا النهج يمكن أن ينجح إلى حد ما. ويؤكد أن البيانات المستهدفة لا تزال موجودة، مما يعني أن هناك دائماً خطر ظهورها في الاستجابات نتيجة لوجود مواطن خلل أو بفعل تدخلات خبيثة.

نماذج لغوية كبيرة
تكمن الصعوبة في أن الطريقة الأكثر وضوحاً للتسبب في فقدان الذاكرة في النمذجات LLM، أي إعادة تدريب النمذجات مع إزالة نقاط بيانات محددة، هي طرق غير عملية إلى حد كبير. إذ يستغرق الأمر أسابيع من العمليات الحوسبية. ما نحتاج حقاً إلى اكتشافه هو كيفية إزالة، أو على الأقل إخفاء، أجزاء معينة من المعلومات دون الحاجة إلى إعادة تدريب النمذجات من الصفر، كما يقول ياسين جيرنيت Yacine Jernite من شركة Hugging Face للذكاء الاصطناعي. ويتابع قائلا: «إنها مسألة بحثية رائعة».

بدأ العمل على إيجاد حلول في عام 2014، عندما توصل ينزي كاو Yinzhi Cao، الذي كان يعمل آنذاك في جامعة كولومبيا Columbia University في نيويورك، إلى حل بسيط: بدلاً من تدريب الخوارزمية على مجمل البيانات المتاحة، يمكنك تقسيم ما تعلمته الخوارزمية منها إلى سلسلة من القطع الصغيرة المعروفة بالجمع Summations. وبهذه الطريقة، عندما يطلب شخص ما إزالة بعض المعلومات، ما عليك سوى تعديل المجموع الذي يحتوي على البيانات المعنية، مما يقلل بشكل كبير من تكلفة الحوسبة.

المبدأ سليم. لكن الطريقة الخاصة التي اتبعها كاو لم تنجح إلا مع النمذجات التي كانت أبسط بكثير من النمذجات LLM المشغلة لبوتات الدردشة المعتمدة على الذكاء الاصطناعي حالياً. يقول كاو، الذي يعمل الآن في جامعة جونز هوبكنز Johns Hopkins University – بالتيمور، إن أجزاء من البيانات، في هذه المواد الجديدة، تتشابك تشابكا عميق، حتى أن عزلها وصولاً إلى مجموع غير ممكن.

في عام 2019 طرح نيكولاس بابيرنوت Nicolas Papernot من جامعة تورنتو Toronto University في كندا وزملاؤه طريقة أخرى. يُعرف هذا النظام باسم نظام «مجزئة ومعزولة ومجمعة» Sharded isolated sliced aggregated (اختصاراً: النظام SISA)، وهو يعمل مع الشبكات العصبية الاصطناعية Artificial neural networks الأكثر تعقيداً التي هي أساس العديد من النمذجات LLM، بهذا النظام يصبح من السهل تحديد نقاط بيانات محددة وحذفها. إذ يقسم النظامُ مجموعاتِ البيانات إلى أجزاء أصغر، ويتم تدريب النمذجة على كل منها على حدة قبل دمج النتائج. ويحفظ النظام تقدمه عبر كل خطوة، مثل نقاط التفتيش في لعبة فيديو أثناء الانتقال من مرحلة إلى أخرى. عندما يستلم النظام طلبا بإلغاء التعلم، يمكنه العودة إلى نقطة التفتيش هذه، وقطع الجزء الذي يضم البيانات المعنية، ويباشر إعادة التدريب من هذه النقطة.

عندما اختبر بابيرنوت وفريقه تدريب النظام SISA على مجموعتين كبيرتين من البيانات – إحداهما تحتوي على تفاصيل نحو 600 ألف عنوان منزل، والأخرى تحتوي على 300 ألف سجل شراء – وجدوا أنها سرّعت عملية إعادة التدريب بشكل كبير مقارنة بالقيام بذلك من الصفر.

لا يخلو النظام SISA من المشكلات، ليس أقلها حقيقة أنه يمكن أن يكون له تأثير سلبي كبير على أداء الذكاء الاصطناعي. لكن المبدأ في جوهره ألهم منذ ذلك الحين العديد من الأنظمة التي حاولت تكرار التوصل إلى مثل هذه النتيجة. في عام 2021، قسّم مين تشين Min Chen – من تامركز CISPA Helmholtz لأمن المعلومات في ساربروكن بألمانيا- البيانات ودمجها بشكل منهجي – بدلاً من القيام بذلك بشكل عشوائي، كما هي الحال في تدريب النظام SISA – للتخلص من البيانات بشكل أكثر فعالية دون التأثيرا كثيراً في جودة أداء الذكاء الاصطناعي. 

في مواقع أخرى، تتخذ مجموعات أخرى طريقة مختلفة قليلا. نظراً لأن حذف البيانات يمكن أن يكون ضاراً جداً بأداء نمذجة التعلم الآلي، فقد اختار البعض بدلاً من ذلك إخفاء البيانات ذات الصلة أو حجبها بحيث لا يمكن استخراجها. مثلا، أدخل الباحثون في شركة ميكروسوفت Microsoft وجامعة ولاية أوهايو Ohio State University الضوضاء في المعلومات المستخدمة لتدريب النمذجة بحيث تتشكل مخرجاته اللاحقة من خلال أنماط أوسع في البيانات بدلا من أمثلة محددة يمكن التعرف عليها. ويقول عضو الفريق شيانغ يو Xiang Yue من جامعة ولاية أوهايو Ohio State University: «يوفر هذا ضماناً نظرياً بأن النمذجة لن تكشف عن تفاصيل خاصة ومحددة حول الأفراد في بيانات التدريب».

يميل مثل هذا التعميم إلى تقويض بعض مهارات التعلم الإحصائي التي تجعل بوتات الدردشة المدعومة بالذكاء الاصطناعي قوية جداً. وللتحايل على هذه المشكلة، اختار مينجون سيو Minjoon Seo – من المعهد الكوري المتقدم للعلوم والتكنولوجيا Korea Advanced Institute of Science and Technology في كوريا الجنوبية – وزملاؤه نهجاً لاحقاً. من خلال طريقتهم، التي يطلقون عليها اسم «لاتعلم المعرفة» Knowledge unlearning، تتمثل الفكرة بعكس تأثير جزء من البيانات على الخوارزمية بدلاً من حذفها تماماً، بحيث لا يشير إليها برنامج الدردشة الآلي أبداً. فقد برز لاتعلم المعرفة كواحد من أكثر الحلول الواعدة في هذا المجال، لأنه يقوم بالمهمة باستخدام موارد حوسبة أقل بكثير وفي وقت أقصر بكثير، ويعمل على نظير أقدم قليلاً من التصميم الأساسي الذي يشغِّل ChatGPT.

الحقيقة هي أنه لا يوجد متسابق متقدمين في سباق تعلم الآلة. نظمت شركة غوغل Google مسابقة لمكافأة أولئك الذين يمكنهم التوصل إلى حلول فعالة، الأمر الذي لا يوضح أهمية التحدي فحسب، بل يشير أيضاً إلى أنه قد تكون لدينا قريباً فكرة أفضل عن الأساليب التي يمكن أن تضمن أن يكون لدينا جيل جديد من النمذجات LLM التي يمكنها نسيان ما تعلمته.

ذاكرة انتقائية
تقول آلي بويل Ali Boyle، الفيلسوفة في كلية لندن للاقتصاد London School of Economics والتي يعمل في مجال الذكاء الاصطناعي، إن هذا هدف يستحق السعي إليه لأنه يمكن أن تكون له آثار أوسع من المخاوف المتعلقة بحماية البيانات والاستخدام الخبيث لبوتات الدردشة المستندة إلى الذكاء الاصطناعي. على الرغم من أن ميل الإنسان إلى النسيان غالباً ما يُنظر إليه على أنه خلل إدراكي، إلا أنه قد يكون مفيداً في بعض الأحيان، لأننا لا نحتاج إلى الاحتفاظ بكل شذرة من المعلومات التي نتعلمها. وبنسيان أشياء معينة، فإننا نجعل عملية استرجاع الذكريات المفيدة أكثر كفاءة. وتقول بويل إن الأمر نفسه قد ينطبق على أنظمة الذكاء الاصطناعي.

وقالت إن هذا المبدأ قد تم توضيحه في عام 2017، عندما طور الباحثون في غوغل ديب مايند Google DeepMind ذكاءً اصطناعياً يمكنه تشغيل ألعاب فيديو متعددة من نوع أتاري Atari. فقد كان فعالاً في تعميم معرفته لأنه بدلاً من التعلم في الوقت الفعلي من تدفق خبراته، خزّن ذكريات لعبه التي يمكنه تذكرها والتعلم منها لاحقاً. وهذا يعادل الذاكرة بالطبع. لكن الباحثين بعد ذلك حسّنوا النمذجة بحيث خزّنت وتذكرت – بشكل تفضيلي – الأحداث «المفاجئة» Surprising التي انحرفت عن توقعاتها متناسية بقية البيانات، وقد شهدوا بذلك تحسناً في أداء النظام ككل.

والمعنى الضمني هو أنه بالنسبة إلى الذكاء الاصطناعي، فإن النسيان الانتقائي يمكن أن يحسن الأداء. الحيلة هي إيجاد التوازن الصحيح بين التذكر الزائد والقليل جداً. ولكن إذا كان الهدف النهائي لباحثي الذكاء الاصطناعي هو بناء أنظمة تتعلم وتفكر مثل البشر، وهو ما كان بالتأكيد أحد الأهداف الأصلية لهذا المجال، فنحن بحاجة إلى تصميمها بحيث تنسى بشكل انتقائي. تقول بويل: «النسيان ليس عيباً في التصميم… إنها ميزة تصميمية لنظام ذاكرة فعال وجيد الأداء».

© 2023, New Scientist, Distributed by Tribune Content Agency LLC.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

For security, use of Google's reCAPTCHA service is required which is subject to the Google Privacy Policy and Terms of Use.

زر الذهاب إلى الأعلى