اصطياد كنز جزيئي(*)
أداة برامجية تستنبط مسالك جينية أو
پروتينية لم تكن مكتشفة، وذلك بالبحث
عبر مئات الآلاف من مقالات الدوريات العلمية.
<G .ستِكْس>
عندما قَدِم < A.رزيتسكي> عام 1996 إلى جامعة كولومبيا كعالم باحث، كان أول مشروع شارك فيه هو إجراء تقصٍّ في الأدبيات (المؤلفات المنشورة في مجال معين) في محاولة لفهم سبب عدم موت خلايا الدم البيضاء المسماة الخلايا اللمفاوية lymphocytes أثناء مرض ابيضاض الدم اللمفاوي المزمن. لقد وجد هذا المختص بالبيولوجيا والرياضيات بضع مئات من المقالات حول الاستموات apoptosis (موت الخلايا المبرمج) والسرطان. حتى لو خَصص كل لحظة من وقته لهذا العمل لكان من المستحيل أن يجري مسحا شاملا لكل ما وصل إلى المجلات (الدوريات العلمية). ويعلق <رزيتسكي> في أسى: إن هذا الكم من المعلومات «لا يعدو أن يكون رأس الجبل الجليدي العائم، وهو لا يكفي بحال لفهم كامل السيرورة.»
قادته الخبرة إلى فكرة كان يمكن لها أن تجعل عمله في هذا المشروع الأول أسهل بكثير، وهي إيجاد أداة تقصٍّ مؤتمتة يمكن أن تحل محل العمل المرهق للذهن في العثور على الأدبيات وقراءتها؛ بل قد يمكنها أيضا أن تقوم بأكثر من ذلك بكثير، إذ يمكنها حتى أن تَدَعَ آلة تجري بحثا من تلقاء نفسها وأن تكتشف الأنماط فيما بين البيانات بمثل ما يفعله الإنسان.
إن هذه المقاربة الضخمة التي اقترحها <رزيتسكي> كان قد قام بصياغتها مرشده في مرحلة ما بعد الدكتوراه <M .ناي> [وهو عالم معروف في مجال النشوء والتطور، يعمل في جامعة ولاية پنسلڤانيا، واختصاصي بارز في علم وراثة الجماعات[. كان <ناي> قد استقدم <رزيتسكي> إلى جامعة ولاية پنسلڤانيا عام 1991 من معهد علم الخلية والوراثة، وهو مركز رياضيات البيولوجيا في نوڤوسيبيرسك بسيبيريا. عندما تلقى <رزيتسكي> هذا العرض كان الاتحاد السوڤييتي في مرحلة تفكك وسقوط سريع، وكانت القيود على التبادل الأكاديمي قد خفَّت، بحيث أتاحت للناس من خارج الاتحاد السوڤييتي (السابق) إمكانية الوصول إلى ثروة المواهب الغنية في مجال الرياضيات الموجودة هناك. كان <رزيتسكي> قد برز من خلال جهاز النجم السوڤييتي، بطريقة لا تختلف عن تلك الخاصة بالألعاب الرياضية، وذلك بفوزه في العديد من أولمبيادات الرياضيات في بلده الأصلي كازاخستان.
كان <ناي> على علم بمهارات اختصاصيي الرياضيات الروس، لكنه بدأ بسرعة بتعليم <رزيتسكي> أن أي مسألة في الإحصاء يجب أن تعمق التبصر في البيولوجيا، وألا تكتفي بمجرد إظهار أن تلميذه كان ولدا عظيم البراعة في الرياضيات. ويتذكر <رزيتسكي> أن <ناي> قال له «من السهل إيجاد بعض اللعب في الرياضيات التي تكون عديمة الفائدة كليا في البيولوجيا.»
عندما غادر <رزيتسكي> نوڤوسيبيرسك كان يخطط للعودة بعد عام، لكن مع انهيار الدولة غرق المعهد السيبيري في الفوضى. فساعده <ناي> على الحصول على الإقامة الدائمة في الولايات المتحدة الأمريكية، وفي عام 1996 انتقل إلى جامعة كولومبيا. وإضافة إلى إغراقه بالكد في تقصي الأدبيات ذات الصلة، فإن مشروع ابيضاض الدم جعله يدرك أن موضوع الشبكات الجزيئية وأنماط كيفية ارتباط الجينات أو الپروتينات ببعضها كان فعلاً غير مدروس، جاعلاً منه مساحة مهمة تتلاقى مع فكر <ناي> بأن الرياضيات يمكن أن تعمل في خدمة البيولوجيا.
في عام 1997 حصل <رزيتسكي> على منحة قدرها 100000 دولار من مركز التقانة المتقدمة التابع للجامعة للبدء بتطوير أداة التقصي المؤتمتة. قلة من الباحثين في اللغة الطبيعية ـ التي تندرج تحت حقل الذكاء الصنعي الذي يتعامل مع اللغات التي يستعملها البشر وليس الحواسيب ـ كانوا يبتكرون أدوات للتقصي البيولوجي واستخلاص البيانات، لكنها كانت موجهة للملخصات غالبا وليس لكامل نصوص المقالات. بدأ <رزيتسكي> بتصميم نظام لن يتقصى فقط كامل المقالات لكن أيضا يتعرف شبكات من العلاقات المهملة فيما بين الجينات والپروتينات. وبصفة أساسية، يستنبط هذا النظام معارف ونظريات جديدة بفحص كمٍّ كبير من المعلومات القديمة. وحول الأساس المنطقي لبناء النظام الذي أصبح معروفا باسم جين ويز GeneWays ، يقول <رزيتسكي> «إن العلماء يرون فقط جزءا صغيرا مما هو معروف.» إن الطاقة الكلية للتنقيب في النص يمكن حتى أن تشجع على اكتشاف سبل جديدة يمكن أن تُختبر لاحقا في المختبر.
ولكي يصبح أكثر من مجرد گوگل(1) Google مبجل، كان على النظام GeneWaysأن يدمج وحدات برامجية متعددة، تقوم كل وحدة بمهمة محددة مثل: تحميل المقالات من الوِب وتتبُّع مختلف المسالك وإصدار مخططات تصور بدقة كل جينة أو پروتين وكيف ترتبط ببعضها. بعد تحميل مقالة وتحويلها إلى نص عاديplain text بتجريدها من لغة تأشير النصوص الفائقة(2) hypertext markuplanguage HTML ، فإن ترميز الوثيقة نفسه يمكن أن يشكل تحديا ـ فالبرامجيات يجب أن «تفهم» الاصطلاحات التي يذكرها العلماء. إن الاسم «p53» يمكن أن يشير إلى جينة أو پروتين أو رنا مرسال (رسول) m-RNA حسب استعماله في الجملة. أكثر من ذلك، بالنسبة إلى بعض الجينات، مثل جينة الشباب الدائم في نبات أرابيدوپسس ثالياناArabidopsis thaliana أو جينة أمهات ضد ديكاپنتاپليجيك(3) mothers against decapentaplegic في ذبابة الفاكهة، فإن وظيفتها كدنا DNA نافع تختفي خلف قناع تصنعه نزوات مكتشفيها.
وُجهت أفضل أدوات الإحصاء والذكاء الصنعي لحل هذه المسألة. إن الجزء الأكثر فهمًا من هذا الطور المتعلق بالتعريف وإزالة الإبهام، هو عبارة عن محرك يضع عُلاَّمات على أجزاء من الكلام يساعد بدوره وحدات أخرى على إدراك جمل اسمية مثل «كابت الورم p53». والجزء المتبقي من معالج المعلومات هذا هو عبارة عن مَيْزَم miasma من الرياضيات وعلم الحاسوب المكون من مشابهات أجهزة دعم الناقل support-vector machines ونماذج ماركوڤ المخبَّأة hiddenMarkov models ومصنِّفات ناييڤ بايز Naive Bayes classifiers وخوارزميات شجرة القرار(4) decision-tree algorithms.
متى تم تعرّف شيء على أنه جينة أو پروتين أو رنا أو جزيء عضوي صغير، يقوم النظام الحاسوبيGeneWays بهيكلة المعلومات باستخدام وحدة إعرابتسمىGENIES تمكن الحاسوب من «قراءة» كل جملة من المقالة. لذا توجه <رزيتسكي> وفريقه إلى موارد جامعة كولومبيا الغنية في مجال اللغة الطبيعية.
في عام 1995 قادت الباحثة <C .فريدمان> فريقا [في جامعة كولومبيا] أتم نظام لغة طبيعية عرف باسم MedLEE. مكن هذا النظام من استخلاص المعلومات النصية من السجلات الطبية لصور الأشعة السينية للصدر فيما يعرف الآن بمستشفى بريسپيتيريان نيويورك (وسجلات أخرى لاحقا) واستخدامها في نظم المعلومات المؤتمتة المتعددة في المستشفى. أخذ كل من <فريدمان> (هي الآن أستاذة) و<رزيتسكي> أجزاء من النظام MedLEE واستعملوها كأساس لتطوير قواعد متخصصة بالبيولوجيا الجزيئية. إن هذه القواعد توصِّف العلاقات بين كينونات جزيئية متميزة.
يمكن أن يبدأ النظامGENIES هذه السيرورة برفع الجملة التالية من مقالة في البيولوجيا الجزيئية:
أفادت دراسات حديثة أن الپروتين mdm2 يحرض التدرك (التقوض) السريعللپروتينp53 عبر سبيل اليوبيكويتين الحالّ للپروتين.
ثم يمكن أن يأخذ وصف أحد الپروتينات، mdm2، المحرض على تدرّك پروتين آخر هوp53 عبر سبيل إنزيمي يشمل پروتينا هو اليوبيكويتين ويترجم ذلك كالتالي:[فعل محرض،
[جينة أو پروتين mdm2]،
[فعل تدريك (تقويض)،
[سيرورة سبيل اليوبيكويتين الحال للپروتين]،
[جينة أو پروتين،p53 ]]] .
ثم يمكن لقاعدة بيانات ـ هي قاعدة تآثر المعارف ـ أن تخزن وتسمح بالدخول لما يسمى شجرة دلالية semantic tree. يمكن استعمال أكثر من مليوني عبارة وحيدة، مثل «mdm2 يحرض تدرّك p53»، في البحث في قاعدة البيانات وإيجاد العلاقات بين الجزيئات أو بناء شبكات جديدة لتآثرات جزيئية. تأتي هذه العبارات من نحو 250000 مقالة كاملة النص من 80 مجلة في البيولوجيا الجزيئية؛ ثم تقوم وحدات أخرى من النظامGeneWays بتحديد مدى وثوقيةreliability عبارة ما وتبحث عن علاقات إضافية وتُظهر مختلف السبل بيانيا.
نالت فكرة نمذجة التآثرات الجزيئية بدءا من الأدبيات الموجودة قبول المجتمع العلمي الواسع ببطء. فقد استمر لسنوات رفض طلبات المنح المقدمة من <رزيتسكي> إلى المعاهد الوطنية للصحة (NIH) ومؤسسة العلوم الوطنية (NSF). إن محكِّمي المعاهد الوطنية للصحة الذين نظروا في طلبات المنح ـ وحتى علماء كبار ـ أعربوا عن اعتقادهم بأن النظامGeneWays إما مستحيل التنفيذ أو أنه فقط سيعيد اكتشاف الواضح أصلا، كاشفا عن سبل كان يجب على العالم الخبير أن يحفظها عن ظهر قلب خلال دراساته العليا. بدأ دفق المنح المالية ينشط منذ نحو خمس سنوات بدون سبب واضح، ولو أنه بحلول ذلك الوقت كان حقل المعلوماتية الحيوية قد نال مكانته.
في عام 2001، بدأ <رزيتسكي> بالتعاون مع <K.وايت> [وهو اختصاصي في علم الوراثة من جامعة ييل]. ساعد <وايت> على توسيع إطار قاعدة تآثر المعارف بإدخاله البيانات الأولية للجينوميات(5) والپروتيوميات(6) الخاصة بذبابة الفاكهة دروسوفيلا ميلانوگاستر Drosophila melanogaster. بينت رسوم بيانية مشتقة من بيانات نصية وتجريبية وجود إمكانيات جديدة مختلفة لجينات مسؤولة عن النمو المبكر لذبابة الفاكهة، وهي جينات يمكن إجراء البحوث عليها لاحقا في المختبر. يقول <وايت> «يسمح لنا هذا بالنظر إلى العديد من زمر البيانات الضخمة المختلفة بطريقة منهجية وفي وقت واحد. إنه مثل برامجيةPubMed حول الستيرويدات» التي تُعتبر مرجعا لقاعدة بيانات الطب الحيوي كلية الوجود(7) ubiquitous.
في مشروع آخر، ذُكر في مقالة نشرت بتاريخ 19/10/2004 في سجلات وقائع الأكاديمية الوطنية للعلوم بالولايات المتحدة Proceedings of the National Academyof Sciences USA، عمل <رزيتسكي> مع باحثين من جامعة كولومبيا لإيجاد جينات جديدة قد تسبب مرض ألزايمر Alzheimer’s disease. بدأ النظام GeneWaysبأربع جينات (بمثابة «بذرة») لها دور مؤكد في مرض ألزايمر؛ ثم بناء على تحليل الأدبيات، أنشأ نموذجا لجينات وپروتينات تتآثر مع هذه الجينات الأربع. وقد افُترِض أن الجينات ذات العدد الأدنى من الروابط الوسيطة مع الجينات البذرة تكون الأكثر احتمالا كمرشحات للألزايمر. إن الجينات التي تم تعرّفها ماثلت إلى حد بعيد تلك التي حددها خبير باستخدام الطرق اليدوية.
تقصٍّ معمق: التنقيب عن معارف جديدة بدءا من معلومات قديمة(**)
تقرأ برامجية النظام GeneWays عشرات آلاف الأوراق العلمية وتضع ملفات المعلومات بشكل آلي في قاعدة بيانات. كإجابة عن سؤال حول جزيء ما أو سبيل (مسلك) ما، تستطيع قاعدة البيانات معرفة كيفية اتصال ذلك الجزيء بجزيئات أخرى، إنها سيرورة تسمح باكتشاف تآثرات جزيئية جديدة وسبل جديدة. إن التنقيب في النص يسمح بإجراء تقصٍّ في الأدبيات أكثر اتساعا مما يمكن أن يقوم به البشر باستخدام الطرق اليدوية.
1 تحميل النص الكامل لأوراق علمية إلى الحاسوب بدءا من خدمات مباشرة Online. 2 يقوم برنامج بفك رموز الشكل المحمل، مثل شفرة HTML. 3 يخضع النص لمراحل معالجة أخرى مثل تحديد إن كان اصطلاح تقاني خاص يشير إلى جينة أو پروتين أو جزيء صغير أو نوع إحيائي. 4 يترجَم النص المرشَّح بوساطة وحدات الإعراب GENIES إلى شكلٍ قابل للقراءة الآلية قبل إيجاد العلاقات بين مختلف الكينونات الجزيئية. 5 تعبأ المعلومات في قاعدة بيانات. 6 تستطيع قاعدة البيانات، عند الطلب، أن تحدد علاقات جزيء معين مثل IL-2 (الإنترلوكين2 ) مع پروتينات أخرى مثل Rap1. 7 يمكن لهذه التآثرات أن تظهر بيانيا، إما ببيان صلة جزيء بجزيئات أخرى كما هو مبين هنا أو برسم سبل جزيئية معقدة. |
إن دقة التنقيب المؤتمت لنصٍّ ما لا تعادل ـ وربما لن تعادل أبداـ عمل المخلصين من البشر الذين يمحصون الأدبيات الوثيقة تلو الوثيقة. يقول<P. كارپ> [وهو باحث اختصاصي بالمعلوماتية الحيوية فيSRI International ] «إنالنظامGeneWays قَيِّم لأننا لا نملك العدد الكافي من البشر لمسح الأدبيات، إلا أنه ليس قيما إلى الدرجة التي يمكن فيها أن يحل محل البشر.» لكن تطور البرنامج قد تقدم بشكل سمح لجامعة كولومبيا بترخيصه لشركة مبتدئة صغيرة في مدينة نيويورك اسمها ExerGen Biosciences.
حتى مع هذا الاتفاق، مازال بإمكان <رزيتسكي> [الذي صار الآن أستاذامثبتاtenured ] متابعة تطوير النظامGeneWays في جامعة كولومبيا على أساس غير تجاري. لو كان لـ <رزيتسكي> ما يريد، فإن النظام GeneWays سينمو حتى تغطي قاعدة معرفته كل البيولوجيا والكيمياء. إنه يقول «من الناحية التقانية، يمكن القيام بذلك تماما». وفي الوقت الحالي يعمل <رزيتسكي> و <وايت> ومساعدوهما على توسيع إطار النظامGeneWays باستعمال تحاليل الأدبيات لبيان مقدار التوافق القائم بين المختصين بالبيولوجيا.
لقد وجدوا، على المستوى الأكثر أساسية، أن غريزة القطيع (الميل إلى التجمع مع الأقران سعيا وراء الدعم) هي التي تسود. إن عبارة بسيطة ـ مثل «الپروتينAينشط الجينةB » ـ تؤخذ عادة كحقيقة لا ريب فيها، و«كنموذج ميكروي» يجعل من الصعب مخالفة المعارف السائدة حتى لو ووجهت ببرهان جديد. إن توثيق سيرورة التفكير الجماعي يبين كيف يسمح النظام GeneWays بقراءة أعمق لما نشر في هذا المضمار كما يظهر القدرة الكامنة لعملية تنقيب النص في توسيع التحليل البيبليوغرافي لتوحيد المجال الكامل للمعرفة البشرية.
مراجع للاستزادة
Mining the Biomedical Literature in the Genomic Era: An Overview. H. Shatkay and R. Feldman in Journal of Computational Biology, Vol. 10, No. 6, pages 821-855; December 2003.
Gene Ways: A System for Extracting, Analyzing, Visualizing, and Integrating Molecular Pathway Data. Andrey Rzhetsky et al. in Journal of Biomedical Informatics, Vol. 37, No. 1, pages 43-53; February 2004.
Scientific American, May 2005
(*) MOLECULAR TREASURE HUNT
(**) Deep Search: Mining New Knowledge from Old Information
(1) من أشهر محركات البحث المعروفة على الوب.
(2) هي اللغة المستخدمة في إنشاء وعرض صفحات من الوب والوصلات فيما بينها.
(3) اسم ترميزي لجينة عند ذبابة الفاكهة تتحكم في نمو الأعضاء القرصية اليافعة، وطفورها مسؤول عن تشوهات الجنين وعدم اكتمال نموه، ومن ثم عدم إنتاج أجيال تالية من الذبابة. الاسم يشير إلى تشوه يافعي شديد اتخذت منه بعض الأمهات في أمريكا اسما لجمعية خاصة.
(4) العناصر الأربعة المذكورة عبارة عن أدوات وبرامجيات وخوارزميات إحصائية تفيد في التتقيب عن النصوص والوثائق وصفحات الوب وتصنيفها.
(5) المجموعة الكاملة للمعلومات الوراثية عند كائن حي ما.
(6) منظومة الپروتينات التي ينتجها كائن حي ما. (التحرير)
(7)موجود في كل مكان وكل وقت. (التحرير)