برمجية تتبع العين تجعل مكالمات الفيديو أكثر واقعية
بقلم: كريس ستوكل-واكر
ترجمة: مي بورسلي
أصيب شلومو دوبنوف Shlomo Dubnov، من جامعة كاليفورنيا University of California في سان دييغو (اختصارا: الجامعة UCSD) بالإحباط بسبب عدم قدرته على تدريس مقرر الموسيقى عبر الإنترنت بسلاسة أثناء جائحة الفيروس التاجي. إذ يقول: “بسبب إعدادات الإنترنت نفقد الكثير من التواصل من خلال إيماءات الجسم غير اللفظية”.
لذا طوّر بالتعاون مع روس غرير Ross Greer ، زميل في الجامعة UCSD، نظامًا لتعلم الآلة Machine learning system يراقب حركات عين مقدم العرض لتتبع الشخص الذي ينظر إليه عبر الشاشة، ثم يتيح للمشاركين معرفة متى يود مُقدِّم العرض أن يلفت انتباههم.
تستخدم البرمجية Software العديد من الشبكات العصبيةNeural networks . أحدها يلتقط صورة شاشة نظام مؤتمرات الفيديو ويلاحظ موقع نافذة الفيديو لكل مشاركٍ واسمِهِ، بينما يتابع آخرُ بثَّ الكاميرا الرئيسة ويحدد موقع الوجه والعين. وعندما تتحرك العيون، تحاول الشبكة العصبية الثانية تقدير المكان الذي تبحث فيه على الشاشة – ومن ثم، من الشخص الذي ينظرون إليه.
بعد ذلك، يتحقق النظام من ذلك باستخدام الشبكة العصبية الأولى لمعرفة من هو في ذلك الموضع ويعرض أسماءهم لجميع المشاركين.
وقد درب دوبنوف وغرير خوارزمية تقدير النظرة Gaze-estimating من خلال تقسيم الشاشة إلى 91 مترًا مربعًا والطلب إلى الناس أن ينظروا إليها. بعد ذلك، يمكن للخوارزمية استخدام بيانات التدريب هذه لتقدير المكان الذي كانوا يبحثون فيه أثناء مكالمات الفيديو، وتمكنوا من الوصول مستوى من الصواب لا يزيد على مسافة 2 سم من النقطة الصحيحة على شاشة مساحتها 70 × 39 سم. ويقول غرير: “من حيث المبدأ، يجب أن يعمل النظام جيدًا على الشاشات الصغيرة، عند توفير بيانات كافية عالية الجودة”.
غير أن النظام يكون أقل دقة كلما ابتعد مقدم العرض عن الشاشة، إذ تبدو العيون أصغر. ويأمل دوبنوف بتحسين هذا كي يتمكن قائدو الفرق الموسيقية من الوقوف أمام أوركستراهم، حتى عند التمرين عن بُعد.
المرجع العلمي:
Reference: arxiv.org/abs/2105.10047
© 2021, New Scientist, Distributed by Tribune Content Agency LLC