الذكاء الاصطناعي ينشئ صوراً لما يراه الناس باستخدام تحليل فحوصات الدماغ
إن الذكاء الاصطناعي الذي يمكنه إنشاء صور لما ينظر إليه الأشخاص بناءً على فحوصات الدماغ هو تطور مثير للإعجاب، ولكنه غير جاهز للاستخدام على نطاق واسع بعد
بقلم كاريسا وونغ
عند تعديل الذكاء الاصطناعي Artificial Intelligence (اختصاراً: الذكاء الاصطناعي AI) الشهير الذي يُحول النص إلى صورة يتيح لنا إمكانية تحويل إشارات الدماغ مباشرة إلى صور. ويتطلب مثل هذا النظام تدريباً مكثفاً باستخدام معدات تصوير ضخمة ومكلفة. لكن قراءة العقل اليومية لا تزال بعيدة كل البعد عن الواقع.
تمكنت العديد من المجموعات البحثية سابقاً من توليد صور من إشارات الدماغ باستخدام نمذجات الذكاء الاصطناعي AI شديدة الاستهلاك للطاقة والتي تتطلب ضبطاً دقيقاً لملايين إلى بلايين من المُعاملات Parameters.
الآن، طور شينجي نيشيموتو Shinji Nishimoto ويو تاكاجي Yu Takagi من جامعة أوساكا Osaka University في اليابان نهجاً أبسط بكثير باستخدام خوارزمية (الانتشار الثابت) Stable Diffusion، وهو مولد تحويل النص إلى صورة طوّرته مبادرة ستابيليتي آيه آي Stability AI في أغسطس 2022. وتتضمن طريقتهم الجديدة استخدام الآلاف فقط، وليس الملايين، من العوامل.
عند استخدامه اعتياديا، تحول النمذجة Stable Diffusion موجه النص إلى صورة عن طريق البدء بـ«ضجيج مرئي عشوائي» وتعديله لإنتاج صور تشبه تلك الموجودة في بيانات التدريب المُفسَّرة بشروح نصية مماثلة.
طوّر نيشيموتو وتاكاجي نموذجين إضافيين Add-on models لجعل الذكاء الاصطناعي AI يعمل مع إشارات الدماغ. واستخدم العالمان بيانات من أربعة أشخاص شاركوا في دراسة سابقة استخدمت التصوير بالرنين المغناطيسي الوظيفي (اختصاراً: التصوير بتقنية fMRI) لمسح أدمغتهم أثناء مشاهدتهم 10 آلاف صورة مميزة للمناظر الطبيعية والأشياء والأشخاص.
وباستخدام نحو 90% من بيانات تصوير الدماغ، درب العالمان نمذجةً Model لإنشاء روابط بين بيانات التصوير بتقنية fMRI من منطقة الدماغ التي تعالج الإشارات البصرية، والتي تسمى القشرة البصرية المبكرة Early visual cortex، والصور التي كان المشاركون في التجربة يشاهدونها.
وبعد ذلك، استخدما مجموعة البيانات أنفسهما لتدريب نمذجة ثانية لتكوين روابط بين أوصاف نصية للصور – أعدّها خمسة مُعلِّقين في الدراسة السابقة – وبيانات التصوير بتقنية fMRI من منطقة الدماغ التي تعالج معنى الصور، تسمى القشرة المخية البطنية Ventral visual cortex.
بعد التدريب، يمكن لهاتين النمذجتين – اللتين يجب تخصيصهما Customised لكل فرد – ترجمة بيانات تصوير الدماغ إلى أشكال تم إدخالها مباشرة في النمذجة Stable Diffusion. وبعد ذلك، يمكن إعادة رسم نحو 1000 من الصور التي شاهدها الأشخاص بدقة تصل إلى 80%، دون أن يتم تدريب النمذجة مجددا على الصور الأصلية، ويشبه هذا المستوى من الدقة المستوى الذي تم تحقيقه سابقاً في دراسة حللت البيانات نفسها باستخدام نهج آخر يتطلب إعدادات وتدريبا أكثف بكثير.
يقول تاكاجي: «لم أصدق عيني، ذهبت إلى دورة المياه وألقيت نظرة في المرآة، ثم عدت إلى مكتبي لإلقاء نظرة مرة أخرى».
الذكاء الاصطناعي AI الذي يقرأ الأفكار يعمل بشكل أفضل على بعض الأشخاص أكثر من غيرهم
ولكن الدراسة اختبرت النهج هذا على أربعة أشخاص فقط، كما أن الذكاء الاصطناعي AI الذي يقرأ الأفكار يعمل بشكل أفضل على بعض الأشخاص أكثر من غيرهم، كما يقول نيشيموتو.
إضافة إلى ذلك، نظراً لأنه يجب تخصيص النمذجات لتناسب دماغ كل فرد، فإن هذا النهج يتطلب جلسات مسح طويلة للدماغ وأجهزة ضخمة للتصوير بتقنية fMRI، كما تقول سيكون لين Sikun Lin من جامعة كاليفورنيا University of California في سانتا باربرا. وتستطرد قائلة: «ومثل هذا ليس عملياً للاستخدام اليومي على الإطلاق.
أما لين، فتقول إن النسخ العملية المستقبلية من هذه النهج قد تسمح للناس برسم صور فنية شفهية باستخدام خيالهم، أو إضافة عناصر جديدة إلى الحبكة.
© 2023, New Scientist, Distributed by Tribune Content Agency LLC