مُحدِّد الأخطاء الأوتوماتيكي يكتسب شعبية
الخوارزمية التي تتحقق من الحسابات الإحصائية في الأوراق دقيقة للغاية، وفقا لمطوريها
عندما طوّر باحثون هولنديون Dutch خوارزميةً مفتوحة المصدر Open-Source Algorithm مُصمّمة للعثور على أخطاء إحصائية في أوراق علم النفس، جاءتهم ردود فعل مختلطة من مجتمع البحث – خاصة بعد تطبيق الأداة المجانية على عشرات الآلاف من الأوراق ونشر النتائج على الإنترنت. وقد تساءل العديد عن دقة الخوارزمية، التي سُمِّيت ستاتشيك Statcheck، أو قالوا إنّ التطبيق قد بلغ حدَّ التشهير العام.
ولكن خوارزمية ستاتشيك تُصيب فعلا فيما يزيد على 95% من الحالات، كما يزعم مطوروها في دراسة نُشرت على الموقع PsyArXiv Preprint Server في 16 نوفمبر. ويتفق البعض -من خارج مجموعة- البحث مع النتائج، كما يدعون إلى الاستخدام الروتيني. ويقول كاسبر ألبرز Casper Albers، وهو قائد العمليات النفسية Psychometrician من جامعة غرونينغن University of Groningen بهولندا: “تُظهر الورقة الجديدة بشكل مقنع أن ستاتشيك قوية حقا.” حتى وإن كان هناك أخرون لا يزالون غير مقتنعين.
وقد قام كل من ميشيل نويجتن Michèle Nuijten، عالمة المنهج العلمي Methodologist من جامعة تيلبورغ Tilburg University في هولندا Netherlands، وساشا إبسكامب Sacha Epskamp، قائد العمليات النفسية Psychometrician من جامعة أمستردام University of Amsterdam بتطوير ستاتشيك في عام 2015. إنها تُصحح أوراقا للبيانات المُبلّغ عنها وفق نموذج قياسي مُقرّر من قِبل الجمعية الأمريكية لعلم النفس American Psychological Association (اختصارا: الجمعية APA) وتُستخدم لحساب قيمة الاحتمال الإحصائي P-value، وهو قياس مثير للجدل ولكنه مُستخدم على نطاق واسع ذو أهمية إحصائية. فإذا كانت القيمة p المحسوبة تختلف عن القيمة التي أبلغ عنها الباحثون، فإنّ الأداة تصف النتائج بـ ‘عدم الاتّساق’ Inconsistency؛ وإذا كانت قيمة p المُبلغ عنها أقل من العتبة المستخدمة وهي عادة 0.05، ورقم ستاتشيك ليس كذلك، أو العكس بالعكس، فإنها تصفها بـ ‘عدم اتساق كلي’ Gross Inconsistency مما قد يشكك في الاستنتاجات. (لقد صار يُنظر –وبشكل متزايد- إلى قيم p الخاطئة باعتبارها مشكلة كبيرة في علم النفس؛ وتعتقد نويجتن أنّ معظمها ينبع من الخطأ البشري، ولكن ستاتشيك لا يمكنها تمييز سوء السلوك من الأخطاء غير المتعمّدة.)
وفي دراسة أُجريت في عام 2015، طبقت نويجتن وزملاؤها ستاتشيك على أكثر من 30 ألف ورقة في علم النفس ووجدت أنّ نصفها يحتوي على عدم اتساق إحصائي واحد على الأقل، وأن واحداً من ثمانية تحتوي على عدم الاتساق الإجمالي.
وفي العام الماضي، قام زميل لنويجتن من جامعة تيلبورغ Tilburg University، كريس هارتغيرينك Chris Hartgerink، بتحليل ما يزيد قليلا على 700 ألف نتيجة أُبلِغَ عنها في أكثر من 50 ألف دراسة في علم النفس باستخدام ستاتشيك، ونُشرت النتائج تلقائيا على المواقع PubPeer،Peer-Review Site PubPeer، مع إرسال إخطارات بالبريد الإلكتروني إلى المؤلفين. وقد رحّب بعض الباحثين بالتغذية الراجعة Feedback، ولكن جمعية علم النفس الألمانية German Psychological Society (اختصارا: الجمعية DGPs) صرّحت بأنّ إعلانات النشر تُسبب ضررا لا داعي له للسمعة. وقد وصفت سوزان فيسكه Susan Fiske، وهي اختصاصية في علم النفس Psychologist من جامعة برينستون Princeton University والرئيسة السابقة لرابطة علم النفس Association for Psychological Science، هذا الجهد بأنّه: “شكل من أشكال المضايقة. (طُبِّقت الدراسة لمرة واحدة، ولم يعرض الباحثون الأوراق علانية لمراجعة ستاتشيك منذ ذلك الحين).
ويعتمد ما إذا كانت خوارزمية ستاتشيك عادلةً جزئيا على دقتها. وقد صرّحت دوروثي بيشوب Dorothy Bishop من جامعة أكسفورد University of Oxford في المملكة المتحدة لرياكشن ووتش Retraction Watch حينها: “إذا كان من المعروف أنّ التدقيق الآلي صحيح 99% من المرات، إذن لا بأس. وإذا كانت الدقة 90% فقط، سأكون مستاءة حقا من العملية الحالية”.
وبالنسبة إلى الورقة الجديدة، طبّق الفريق ستاتشيك على 49 ورقة سبق وأن دققها يدويا زملاء نويجتن لبحث التناقضات الإحصائية، ونشرت نتائجها في ورقة بحثية في عام 2011. فقد وجدوا أنّ ‘المعدل الإيجابي الحقيقي’ True Positive Rate للخوارزمية يتراوح ما بين 85.3% و 100%، و ‘المعدل السلبي الحقيقي’ True Negative Rate يتراوح ما بين 96% و 100%. (اعتمدت الأرقام الدقيقة على إعدادات مختلفة الخوارزمية ستاتشيك). وعنت هذه الأرقام مجتمعة أنّ ستاتشيك تحصلت على الجواب الصحيح من النتائج المستخرجة ما بين 96.2% و 99.9% من الوقت.
كما حاول الباحثون أيضا معالجة انتقاد آخر: إنّ ستاتشيك غالبا ما تتعثر عندما يكون الباحثون قد طبقّوا تصحيحات إحصائية صحيحة على بياناتهم. ومن خلال البحث عن كلمات رئيسية محددة، وجد الباحثون أنّ هذه التصحيحات هي أكثر شيوعا بكثير مما قدّروا في ورقتهم السابقة. وتقول نويجتن: “حدث خطأ ما هناك.” ولكنها وزملاءها وجدوا أنّ الإحصاءات المُصحّحة ليست مصدرا رئيسيا لعدم الاتساق.
أما توماس شميت Thomas Schmidt، عالم نفسي تجريبي Experimental Psychologist من جامعة كايزرسلاوترن University of Kaiserslautern في ألمانيا Germany، فلا يزال حَذِرا. وعندما كانت الخوارزمية تعمل فقط مع التقارير المُعدّة على غرار طريقة الجمعية APA لإيراد النتائج، فلا يُمكن لستاتشيك سوى حساب قيم P بنسبة 61% فقط من الاختبارات الإحصائية، وذلك كما أشار في تعليق له نُشر على الموقع PsyArXiv في 22 نوفمبر.
وبناء على حسابات شميت، فإنّ لدى ستاتشيك “حساسية ضعيفة”Poor Sensitivity تصل إلى 52% فقط.
“إنه أمر غير مقبول كأداة بحثية بصفة عامة، وبالتأكيد أنه من غير المقبول تطبيق الخوارزمية لإجراء مسح تلقائي بحت للعديد من الأوراق.” وتقول نويجتن إنّ الفريق لم يدّعِ أنّ ستاتشيك يمكنها التعامل مع جميع الإحصائيات الُمبلّغ عنها؛ وكان هدف الدراسة الجديدة التحقق من مدى فعاليتها مع الإحصائيات التي تتعرف عليها.
أما الأمين العام للجمعية DGPs ماريو غولويتزر Mario Gollwitzer، عالم نفس Psychologist من جامعة فيليبس Philipps University في ماربورغ Marburg بألمانيا Germany، فقد اقتنع الآن. فعلى الرغم من أنّه لا ينبغي مطلقا رفض الأوراق البحثية على أساس ستاتشيك وحدها، “إلاّ أننا نعتقد أنّه ينبغي على المؤلفين أن يستخدموا [ذلك] لمراجعة ورقتهم” قبل تقديمها إلى المجلة، كما يقول.
والبعض يفعل ذلك. فمنذ إطلاق مطوري ستاتشيك التطبيقَ على شبكة الإنترنت في سبتمبر 2016، فقد استخدمها أكثر من 18 ألف زائر، كما تقول نويجتن.
ويقول براين نوسيك Brian Nosek، المدير التنفيذي Executive Director لمركز العلوم المفتوحة Center for Open Science في شارلوتسفيل Charlottesville بولاية فرجينيا Virginia: “يمكن لستاتشيك أن تفحص العديد من الإحصائيات بسرعة كبيرة، وأن تحدد لي مجموعة فرعية قد تكون ذات مشكلات. هذا مكسب ضخم من حيث الفاعلية.”
وقد جعلت بعض مجلات علم النفس ستاتشيك جزءا من عملية استعراض الأقران، وتتصور نويجتن التوسع في تطبيق الخوارزمية مستقبلا في التخصصات الأخرى، مثل العلوم الطبية الحيوية Biomedical Sciences.”ستاتشيك ليست مثالية،” كما تقول مطوّرتها الفخورة، “لكنها قريبة جدا من الكمال.”