الحاجة إلى بحث فائق في الوِب
الحاجة إلى بحث فائق في الوِب(*)
مع التضخم الهائل في حجم المعلومات المتوفرة آنيا في الفضاء
السيْبَري cyberspace، ثمة حاجة ماسة إلى أدوات بحث أكثر فاعلية.
هناك تقنية جديدة تحلل كيفية ارتباط بعض صفحات الوِب ببعضها.
<أعضاء مشروع كليڤر> (1)
إن حجم الشبكة العنكبوتية العالمية «الوب» يزداد يوميا بأكثر من مليون صفحة إلكترونية، إضافة إلى مئات الملايين من الصفحات المتوفرة آنيا على الوب. ويترابط هذا الكم الهائل من المعلومات بأكثر من بليون رابطة مفسَّرةannotated، تسمى واصلات فائقة hyperlinks. وللمرة الأولى في التاريخ يستطيع ملايين الأشخاص الولوج الفوري في الواقع، من منازلهم ومكاتبهم، إلى النتاج الخلاّق لجزء مهم ومتنام من سكان المعمورة.
ولكن بسبب النمو السريع والشواشي للوب، فإن شبكة المعلومات الناتجة تفتقر إلى التنظيم والهيكلية. وبالفعل فقد تطورت الوب لتصبح فوضى عالمية وبمعدلات لم يسبق تصورها. إذ يمكن كتابة صفحات الوب بأي لغة أو لهجة أو أسلوب من قبل أشخاص متبايني الخلفية والتعليم والثقافة والاهتمام والحافز. ويمكن أن تضم كل صفحة بضعة أحرف أو مئات الآلاف من الحروف، وقد تحوي حقائق أو أكاذيب أو حكمًا أو دعايات أو أمورا لا معنى لها. وبالتالي كيف يمكن، من هذا المستنقع الرقمي، استخراج صفحات عالية الجودة تلبي حاجة محددة لمعلومات معينة؟
في الماضي كان الناس يعتمدون على محركات بحث تتصيد كلمات أو عبارات محددة. ولكن مثل عمليات البحث هذه، التي تعتمد على الكلمات الواردة في النص، كثيرا ما تجلب آلاف الصفحات، معظمها عديم الفائدة. فكيف يمكننا إيجاد المعلومات التي نحتاج إليها فقط مع التأكد من أنها صحيحة وموثوقة؟
لقد قمنا بتطوير محرك بحث من نوع جديد يستغل واحدا من أثمن الموارد على الوب، وهو الحجم الهائل من واصلاته الفائقة. وبتحليل هذه الواصلات، تستطيع منظومتنا أن تحدد، بصورة آلية، نوعين من الصفحات: المرجعياتauthorities ومجامع الواصلات hubs. تعتبر الأولى أفضل مصادر المعلومات عن موضوع معين، في حين تشكل الثانية تجمعات الواصلات إلى تلك المواقع. إن هذه المنهجية ينبغي أن تمكِّن المستخدمين من تحديد مكان معظم المعلومات المطلوبة بسرعة وفعالية كبيرتين.
تحديات محركات البحث
لقد هبط سعر الأقراص الحاسوبية بصورة متزايدة جعلت تخزين أجزاء كبيرة من الوب في موقع واحد أمرا ممكنا. وفي أبسط مستوى لها، يحتفظ محرك البحث، لكل كلمة، بقائمة لجميع صفحات الوب التي تحوي هذه الكلمة. وتسمى مجموعة هذه القوائم بالفهرس index. فإذا كان بعض الأشخاص يهتمون بتعرّف «الوخز بالإبر» فإنهم يستطيعون الوصول إلى كلمةacupuncture في الفهرس لإيجاد جميع صفحات الوب التي تحوي هذه الكلمة.
إن إنشاء هذا الفهرس وصيانته يعتبران تحديا كبيرا [انظر: «البحث عن المعلومات على الإنترنت»، مجلة العلوم، العدد 3(1998)، ص 38]، كما يبقى تحديد المعلومات التي يجب إعادتها كإجابة عن استفسارات المستخدمين أمرا محبطا. لنأخذ مثلا الاستعلام المحدد عن معلومات عن شركة الخطوط الجوية النيپالية Nepal Airways. عند لحظة كتابة هذه المقالة يوجد أكثر من 100 صفحة على الوب تحوي هذا التعبير. فكيف يستطيع محرك البحث أن يقرر أي 20 منها هي الأفضل؟ إن إحدى الصعوبات هي أنه لا يوجد مقياس دقيق ومعرِّف رياضياتيا لما هو «أفضل»؛ فهو يتعلق فعلا بالشخص المستفسر.
إن محركات البحث، مثل آلتاڤيستا AltaVista وإنفوسيك Infoseek وهوت بوتHotBot وليكوس Lycos وإكسايت Excite، تستخدم أساليب تعتمد على الخبرة تساعد على تحديد طرق الطلب وبالتالي وضع أفضليات للصفحات. وتُعرف مجموعة هذه الأحكام المبنية على التجربة العملية بدوال الترتيب، ويجب أن تنطبق هذه الأحكام ليس فقط على استفسارات محددة ومباشرة (مثل NepalAirways) بل يجب أن تنطبق أيضا على استفسارات أكثر عمومية مثل aircraft(طائرة) التي توجد في أكثر من مليون صفحة على الوب. فكيف يمكن لمحرك البحث أن يختار 20 فقط من هذا العدد الهائل؟
قد تستطيع أساليب الخبرة البسيطة أن ترتِّب الصفحات حسب عدد المرات التي تحوي هذه الصفحات التعبيرَ محلَّ الاستفسار، أو أن ترتبها حسب سبق ظهور التعبير محل الاستفسار في هذه الصفحات. ولكن يمكن لمثل هذه المقاربات أن تفشل فشلا ذريعا. نجد مثلا أن كتاب <T. وُلف> بعنوان: TheKandy-Kolored Tangerine-Flake Streamline Baby لو جرى ترتيبه وفقا لهذه الأساليب لأعطى أهمية كبيرة جدا لتعبير الاستفسار hernia «فتق»؛ لأنه يبدأ بتكرار هذه الكلمة عشرات المرات. وهناك امتدادات عديدة لهذه القواعد بما فيها مقاربات تعطي وزنا أكبر للكلمات التي ترد في العناوين أو رؤوس الفقرات أو تظهر بالبنط الأكبر حجما.
إن صفحات الوب (النقاط البيضاء) مبعثرة ضمن الإنترنت من دون أي هيكلية تذكر، جاعلة من الصعب على أي شخص في وسط هذه الفوضى الإلكترونية أن يجد المعلومات المطلوبة فقط. ومع أن هذا المخطط يبين مئات الصفحات، فإن الوِب تحوي حاليا أكثر من 300 مليون صفحة. وعلى الرغم من ذلك فإن تحليل كيفية ترابط صفحات محددة بعضها ببعض يمكن أن يكشف عن ترتيب خفي. |
ويتم إحباط مثل هذه الاستراتيجيات بصورة روتينية من قبل مواقع تجارية عديدة على الوب تصمم صفحاتها بطرق معينة بهدف الحصول على تراتيب مواتية. نجد مثلا صفحات عناوينها «أسعار طيران منخفضة أسعار طيران منخفضة أسعار طيران منخفضة». كما تصوغ مواقع أخرى تعابير مختارة بعناية وتكتبها مرارا وتكرارا وبالألوان وباستخدام أبناط غير مرئية لمتصفحي الوِب. وهذه الممارسة المسماة سپام (spam (2، أصبحت أحد الأسباب الرئيسية التي تجعل المحافظة على محرك بحث فعال أمرا صعبا جدا.
حتى لو نحينا السپام جانبا، فإن الفرضيات الأساسية لعمليات البحث التقليدية، التي تعتمد على الكلمات الواردة في النصوص، ستظل محل شبهة، أي إن الصفحات ذات الأهمية الكبرى لا تحوي دائما المصطلح المستفسر عنه، في حين يمكن أن تكون تلك التي تحويه عديمة الفائدة. وأحد الأسباب الرئيسية لهذه المشكلة هو أن لغة البشر، على الرغم من غناها الكبير، مليئة بالمرادفات وتعدد المعاني. وفي الحالة الأولى نجد أن استفسارا عن المصطلح automobile(سيارة) سيهمل عددًا هائلا من الصفحات التي لا تحوي هذه الكلمة ولكنها تحوي كلمة car (سيارة أيضا). أما الحالة الثانية فإنها تنطبق على استفسار بسيط عن كلمة jaguar الذي سينتج آلاف الصفحات عن السيارات، وعن النمر الأمريكي، وعن رابطة كرة القدم الوطنية وربما غيرها.
إن إحدى الاستراتيجيات التصحيحية هي إثراء تقنيات البحث بمعلومات مخزنة عن العلاقات الدلالية semantic بين الكلمات. تُعرف مثل هذه المعلومات المنسقة، والتي يعدها عادة فريق من اللغويين، بالشبكات الدلالية semanticnetworks، وذلك على غرار العمل الأساسي الذي قام به <A .G. ميلر> وزملاؤه في جامعة پرنستون على مشروع «شبكة الكلمات» Word-Net. ويستطيع محرك بحث معتمِد على الفهرس ومتصل بشبكة دلالية، أن يحدد تكافؤ كلمتيautomobile وcar، ومن ثم إيجاد جميع صفحات الوب التي تحوي أيا من الكلمتين. ولكن مثل هذه السيرورة سيف ذو حدين: إذ إنه يساعد على حل مشكلة الترادف ولكنه يزيد مشكلة تعدد المعاني.
إن المرجعيات ومجامع الواصلات تساعد على تنظيم المعلومات على الوب، ولكن بشكل غير رسمي وغير مقصود. المرجعيات (.) هي المواقع التي يتصادف أن تتصل بها صفحات الوب الأخرى في موضوع معين. مثلا بالنسبة إلى موضوع حقوق الإنسان قد تكون منظمة العفو الدولية أحد هذه المواقع. أما مجامع الواصلات (.) فإنها مواقع تستشهد بالعديد من هذه المرجعيات، وذلك إما بإعطاء قائمة موارد أو في فقرة «واصلاتي المفضلة» في صفحة المستخدم الشخصية. |
إن هذا الحل كعلاج للترادف له إشكالاته؛ إذ إن إنشاء شبكة دلالية شاملة تتداخل فيها الثقافات (الوب لا تعرف حدودا جغرافية) والمحافظة على هذه الشبكة يمثلان جهدا هائلا. وهذا الحل صعب بشكل خاص على الإنترنت، حيث تتطور لغة جديدة كاملة ـ فقد ظهرت كلمات مثل “FAQs” و”Zines” و”bots”، في حين أخذت كلمات مثل “surf”و “browse” معاني جديدة إضافية.
لقد نشأ عملنا في مشروع كليڤر لدى IBM في خضم هذه المسائل المحيّرة. وكنا قد لاحظنا سابقا أن الأسلوب الحالي لفهرسة واسترجاع صفحة ما بالاعتماد فقط على النص الذي تحويه، يهمل أكثر من بليون واصلة فائقة وضعت بعناية في مكانها، تكشف العلاقات بين الصفحات. ولكن كيف ينبغي لنا استخدام هذه المعلومات.
عندما يبحث الناس عن “Harvard” يودّ العديد منهم معرفة المزيد عن كلية IvyLeague. ولكن أكثر من مليون موقع على الوب يحوي كلمة Harvard، ولا تستخدم صفحة الجامعة نفسها هذه الكلمة أكثر من غيرها، كما أنها ليست الأولى التي استخدمتها، ولا يمكن ـ وفقا للأساليب التقليدية للترتيب ـ أن تعتبر هذه الصفحة ذات أهمية خاصة. ولا يبدو أن هناك سمة داخلية يمكن أن تُبرز فعلا أهمية الصفحة.
وبالفعل يتم تصميم صفحات الوِب بأهداف متعددة. فالشركات الكبيرة مثلا تريد من موقعها أن يعطي إحساسا ما وأن يعكس صورة معينة ـ وهي أهداف قد تختلف تماما عن توصيف ما تقوم به الشركة. وهكذا نجد أن صفحة شركةIBM لا تحوي الكلمة computer إطلاقا. ولمثل هذه الحالات فإنه يُحكم بالفشل، منذ البدء، على تقنيات البحث التقليدية.
لقد دفعت مثل هذه الهموم مهندسي محركات البحث للتدخل؛ إذ إنهم يعتقدون أنهم يعرفون ما الذي ينبغي أن تكون عليه الإجابات المناسبة لبعض الاستفسارات، وأن إنشاء دالة ترتيب تولد آليا هذه النتائج مهمة شاقة. وبالتالي فبإمكانهم الاحتفاظ بلائحة استفسارات مثل “Harvard” يستطيعون من خلالها تخطي محرك البحث بإعطاء أجوبة «صحيحة» محددة مسبقا.
إن إيجاد المرجعيات ومجامع الواصلات يمكن أن يكون مخادعا، وذلك بسبب الطريقة الحلقية التي عرِّفت بها: فالمرجعية هي صفحة يؤشر إليها من قبل عدد كبير من مجامع الواصلات؛ ومجمع الواصلات هو موقع يتصل بعدد كبير من المرجعيات. ولكن العملية يمكن إجراؤها رياضياتيا. ينسب كليڤر، وهو نموذج أولي لمحرك بحث، قيما بدئية لصفحات الوب المرشحة لموضوع معين. ومن ثم يراجع كليڤر هذه الأعداد في سلسلة من الحسابات المتكررة، يعتمد فيها كل تكرار على قيم الجولة السابقة. وتستمر هذه الحسابات حتى تستقر القيم الناتجة على قيم نهائية، والتي يمكن أن تستخدم حينذاك لتحديد أفضل المرجعيات ومجامع الواصلات. |
ويتبنى عدد من محركات البحث هذه المقاربة. وفي الحقيقة، فإن خدمة البحث Yahoo! لا تحوي سوى صفحات منتقاة مسبقا من قبل أناس، في حين أن هناك عددا غير محدود من الاستفسارات الممكنة. فكيف يمكن المحافظة على هذه القوائم من الأجوبة، المحددة مسبقا، بشكل شبه كامل مع استمرار تحديثها، علما بأن الوب تزداد يوميا بنحو مليون صفحة وأن عدد الخبراء محدود؟
البحث مع الواصلات الفائقة
إننا ـ في عملنا ـ نواجه المسألة بأسلوب مختلف. لقد طورنا تقنية آلية لإيجاد المواقع الأكثر مركزية ومرجعية في مواضيع بحث عريضة، وذلك باستخدام الواصلات الفائقة، وهي من أثمن الموارد على الوب. فهذه الواصلات الفائقة هي التي تقوم، أولا وأخيرا، بربط مئات الملايين من الصفحات بعضها ببعض لتجعل منها شبكة مَعْرفة. ومن خلالها يقوم المستخدمون بعملية التصفح واكتشاف المعلومات القيمة عن طريق المؤشرات وعن طريق توصيات من أشخاص لم يلتقوهم إطلاقا.
إن الفرضية الأساسية لمقاربتنا تنظر إلى كل واصلة على أنها تصديق ضمني على الموقع الذي تؤشر إليه. لنأخذ على سبيل المثال موقعا للوب خاصا بأحد ناشطي قضايا حقوق الإنسان والذي يوجه الأشخاص إلى صفحة منظمة العفو الدولية. من الواضح في هذه الحال أن هذا التوجيه يعني الموافقة.
بالطبع هناك إمكانية لأن تكون الواصلة موجودة لأهداف التجوالnavigational purpose (مثل «اضغط هنا للعودة إلى القائمة الرئيسية»)، أو لإعلان مدفوع الأجر (مثل «عطلة أحلامك على بعد نقرة click واحدة»)، أو كعلامة على عدم الرضا (مثل «اذهب إلى هذا الموقع لمعرفة ماذا يقول هذا الغبي»). ولكننا نعتقد أنه، وبشكل إجمالي، عندما ننظر إلى عدد كبير من الحالات ـ فإن واصلات الوب تعطي المرجعية.
وإضافة إلى المواقع الخبيرة التي حصلت على توصيات عديدة، فإن الوب ممتلئة بنوع آخر من الصفحات: مجامع الواصلات التي ترتبط بهذه المواقع المرموقة. وتأخذ هذه المجامع أشكالا مختلفة بدءا بالقوائم التي جمّعها محترفون على المواقع التجارية، وانتهاء بقوائم «واصلاتي المفضَّلة» MyFavorite Links على صفحات الوب الشخصية. وبالتالي يمكننا تأكيد ما يلي، وإن كنا سنجد صعوبة في تعريف «المرجعيات» و«مجامع الواصلات» بشكل منفرد: إن المرجعية المحترمة هي الصفحة التي يؤشر إليها العديد من المجامع الجيدة؛ والمجمع المفيد هو الموقع الذي يؤشر إلى العديد من المرجعيات القيِّمة.
تبدو هذه التعريفات كحلقة مفرغة. فكيف يمكنها أن تؤدي إلى طريقة حاسوبية لتحديد المرجعيات ومجامع الواصلات؟ بالتفكير في هذه المسألة باستعمال الحدس أوجدنا الخوارزمية التالية. في البداية نطلع على مجموعة صفحات مرشَّحة في موضوع معين، ونحدد قدر الإمكان مدى جودة كل صفحة كمجمع واصلات وكمرجعية. ومن ثم نستخدم هذه التقديرات البدئية للقيام بإجراء تكراري ذي خطوتين.
أولا، نستخدم التخمينات الحالية عن المرجعيات لتحسين تقديرات مجامع الواصلات ـ أي نحدد جميع المرجعيات الفضلى، ثم نحدد أي صفحات تؤشر إليها ونسمي هذه المواقع مجامع واصلات جيدة. ثانيا، نعتمد على المعلومات المحدَّثة عن المجامع لتحسين تخميناتنا عن المرجعيات ـ أي نحدد الأمكنة التي تؤشر إليها أفضل المجامع بكثافة ونسميها المرجعيات الجيدة. وبتكرار هاتين الخطوتين عدة مرات نجعل النتائج أكثر دقة.
مجتمعات سَيبرية (تظهر بألوان مختلفة) تقطن الوب. لقد أظهر التنقيب عن هذه الظاهرة مجموعات متعددة ومواضيع اهتمام غريبة ومتخصصة، مثل البقع النفطية على ساحل اليابان، وفرق الإطفاء في أستراليا، والموارد الخاصة بالأتراك القاطنين في الولايات المتحدة. وتعج الوب بمئات الآلاف من هذه المجتمعات ذات الاهتمامات الخاصة والدقيقة. |
لقد نفذنا هذه الخوارزمية في مشروع كليڤر، وهو نموذج تجريبي لمحرك بحث. ولأي استعلام عن موضوع ما ـ مثل «العلاج بالوخز بالإبر» ـ يحصل كليڤر أولا على 200 صفحة من فهرس لمحرك نَصّي معياري مثل آلتاڤيستاAltaVista. يضيف النظام إليها بعد ذلك جميع الصفحات التي ترتبط بالمئتي صفحة هذه إما بواصلة منها أو إليها. وحسب خبرتنا فإن المجموعة الناتجة ـ التي تسمى المجموعة الجِذرية ـ تحوي عادة ما بين 1000 و5000 صفحة.
لكل واحدة من هذه الصفحات، يقوم كليڤر بوضع علامة عددية (درجة) scoreكقيمة ابتدائية باعتبارها صفحة مجمع واصلات، وعلامة أخرى باعتبارها صفحة مرجعية. ومن ثم يحسِّن النظام هذه القيم: تُحدَّث علامة المرجعية لكل صفحة بحيث تصبح هي مجموع علامات مجامع الواصلات العائدة للمواقع الأخرى التي تؤشر إليها، وتعدل علامة المجمع بحيث تصبح هي مجموع العلامات المرجعية للمواقع التي تؤشر إليها هذه الصفحة. بتعبير آخر، تحصل صفحة ما على علامة تقييم مرجعية عالية إذا كان الكثير من صفحات المجمع ذات العلامات العالية تؤشر إليها؛ كما أن أي موقع يؤشر إلى مرجعيات ذات علامات تقييم عالية تحصل على علامة مجمع عالية. يكرر كليڤر هذه الحسابات حتى تكاد تستقر هذه العلامات على قيمها النهائية، والتي يمكن من خلالها تحديد أفضل المرجعيات والمجامع. (تجدر الملاحظة إلى أن هذه الحسابات لا تمنع صفحة معينة من الحصول على أعلى مرتبة في كلا الصنفين كما يحدث أحيانا).
إن أفضل طريقة لفهم الخوارزمية هي استخدام الأساليب التصويرية. تصوّر الوب كشبكة واسعة تتكون من مواقع غير محدودة العدد، مترابطة بصورة تبدو عشوائية. وإذا أخذنا الصفحات التي تحوي كلمة أو تعبيرا معينا، فإن كليڤر يركِّز على المنطقة ذات الكثافة الأعلى من الواصلات بين هذه الصفحات.
وكما تبين لاحقا، فإن الجمع التكراري لعلامات مجامع الواصلات والمرجعيات قابل للتحليل باستخدام رياضيات متينة. فباستخدام الجبر الخطي يمكننا تمثيل هذه العملية على أنها تكرار ضرب (جُداء) مُتَّجه (تحديدا صف مكون من أعداد تمثل علامات المجمع أو المرجعية) في مصفوفة matrix (صفيف array ذو بعدين يمثل بنية الواصلات الفائقة للمجموعة الجذرية). والنتائج النهائية للعملية هي مُتَجهات مجامع الواصلات والمرجعيات التي استقرت على أرقام معينة ـ وهي قيم تبين أي الصفحات هي أفضل المجامع وأي الصفحات هي أفضل المرجعيات. (في عالم الجبر الخطي، يسمى مثل هذا الصف المستقر من الأعداد متجها ذاتيا eigenvector، ويمكن اعتباره حلا لمنظومة معادلات معرفة بوساطة مصفوفة).
وبمتابعة التحليل في الجبر الخطي، برهنا على أن هذا الإجراء التكراري سيستقر بسرعة على مجموعة ثابتة نسبيا من علامات (درجات) تقييم للمجامع والمرجعيات. وفي تطبيقاتنا، وبافتراض أن المجموعة الجذرية تضم نحو 3000 صفحة، فإن الوصول إلى القيم المستقرة يتطلب نحو خمس جولات من التكرار. يضاف إلى ذلك أن النتائج مستقلة بصفة عامة عن التقديرات البدئية للعلامات التي تستخدم في بداية الإجراء. كما أن هذه الطريقة تنجح في الوصول إلى النتائج المطلوبة حتى إذا كانت المجموعة البدئية من العلامات جميعها واحدات. وبالتالي فإن العلامات النهائية للمجامع والمرجعيات تعتمد فقط على مجموعة الصفحات التي تم وضعها في المجموعة الجذرية.
ومن النتائج الثانوية للمعالجة التكرارية في كليڤر، أن الخوارزمية تفصل مواقع الويب بشكل طبيعي إلى زمر (عناقيد) clusters. فالبحث مثلا عن معلومات تتعلق بالإجهاض ينتج منه نوعان من المواقع، تلك التي تدافع عن حق الحياة وتلك التي تدافع عن حق الاختيار؛ لأن احتمال ارتباط صفحات إحدى الزمرتين ببعضها أكبر بكثير من احتمال ارتباطها بصفحات الزمرة الأخرى.
ومن منظور أوسع تكشف خوارزمية كليڤر البنية الأساسية للشبكة العنكبوتية العالمية. ومع أن توسع الإنترنت تم بشكل فوضوي ومحموم إلا أن فيها تنظيما ضمنيا ـ وإن كان في بداياته ـ يعتمد على كيفية وصل الصفحات بعضها ببعض.
علاقة البحث بتحليل الإسنادات
من الناحية المنهجية، هناك ارتباطات وثيقة بين خوارزمية كليڤر وتحليل الإسنادات citation analysis، وهو دراسة أنماط كيفية استشهاد المقالات المنشورة بعضها ببعض. وقد يكون أهم مقياس في هذا المجال لبيان أهمية مجلة ما هو عامل التأثير impact factor. وكان <E. گارفيلد> [وهو عالم مرموق في مجال علم المعلومات، ومؤسس فهرس الإسنادات العلمية Science Citation Index] قد طور هذا المقياس الذي يحكم على أهمية بحث منشور من خلال عدد الأبحاث المنشورة الأخرى التي تذكره أو تشير إليه.
ويمكن اعتبار أن «عامل التأثير» في الوب يقابل تحديد مرتبة صفحة اعتمادا على عدد الواصلات التي تؤشر إليها. ولكن هذه المقاربة غير مناسبة، بشكل عام، لأنها قد تعطي تقديرا أعلى لمواقع عالمية شائعة، مثل الصفحة الخاصة بجريدة نيويورك تايمز، بغض النظر عن موضوع الاستعلام المحدد.
وحتى في مجال تحليل الإسنادات، فقد حاول الباحثون أن يحسّنوا مقياس گارفيلد الذي يعطي المراجع قيما متساوية. أليس من الأفضل اتباع استراتيجية تعطي وزنا إضافيا للمراجع المأخوذة من مجلة أكثر أهمية؟ وبالطبع فإن الصعوبة في هذه المقاربة هي أنها تؤدي إلى الدخول في متاهة التعريف الحلقي لتعبير «أهمية»، وهي مسألة مشابهة للمسألة التي صادفناها في تحديد مجامع الواصلات والمرجعيات. ومنذ عام 1976 تخطى <G. پينسكي> و<F. نارين> [من مركز بحوث CHI في هادون هايتس بولاية نيوجيرسي الأمريكية] هذه المشكلة بتطوير طريقة تكرارية لحساب مجموعة مستقرة من العلامات (الدرجات) المعدَّلة، والتي سمّياها «أوزان التأثير». ومقارنة بعملنا، لم يقم پينسكي ونارين بتمييز المرجعيات عن مجامع الواصلات. فطريقتهما تمرر الوزن مباشرة من مرجعية جيدة إلى أخرى.
ويُبرز هذا الاختلافُ نقطةً أساسية عن الوب مقارنة بالأدبيات العلمية التقليدية المطبوعة. ففي الفضاء السيبري، فإن المرجعيات المتنافسة (مثل نيتسكيپ ومايكروسوفت في موضوع المتصفحات) لا يعترف كل منهما، على الأغلب، بوجود الآخر، وبالتالي فإنها ترتبط ببعضها من خلال طبقة وسيطة من مجامع الواصلات. أما المجلات العلمية المرموقة والمتنافسة، فإنها عادة تتبادل الإسنادات والمرجعية جاعلة دور مجامع الواصلات أقل أهمية.
وهناك أيضا عدد من الجماعات التي تبحث في قدرة الواصلات الفائقة في البحث على الوب. فعلى سبيل المثال، طور <S. برين> و<L. پيج> [من جامعة ستانفورد] محرك بحث سُمي گوگل Google يجسد مقياس ترتيب مبنيا على الواصلات يشبه أوزان تأثير پينسكي ونارين. ويؤسس هذان العالمان مقاربتهما على نموذج متجول على الوب يتتبع الواصلات ويقوم بقفزات شبه عشوائية من وقت إلى آخر، وبالتالي يصل إلى بعض الأمكنة بتواتر أكثر من غيرها. وهكذا يجد گوگل نوعا واحدا من الصفحات المهمة عالميا، هي ببساطة المواقع التي تتم زيارتها بكثافة وذلك من خلال مسح عشوائي لبنية واصلات الوب. وعمليا يقوم گوگل، ولكل صفحة، بجمع علامات المواقع الأخرى التي تؤشر إليها. وبالتالي، عندما يأتي استعلام معين، يستطيع گوگل أن يجيب باسترجاع جميع الصفحات التي تحوي نص البحث بسرعة ووضعها في قائمة حسب الترتيب المحدد مسبقا.
هناك اختلافان جوهريان بين گوگل وكليڤر. أحدهما هو أن گوگل يضع ترتيبات ابتدائية ويحافظ عليها بغض النظر عن أي طلبات استعلام، في حين يركب الآخر مجموعة جذرية مختلفة لكل تعبير يتم البحث عنه، ومن ثم يعطي الأفضليات المناسبة لهذه الصفحات بناء على السياق الخاص بهذا الاستعلام. وبالتالي فإن نهج گوگل يعطي إجابة أسرع. أما الاختلاف الآخر فهو أن فلسفة گوگل الأساسية هي النظر فقط في اتجاه واحد (الاتجاه الأمامي)، من واصلة إلى أخرى. بالمقابل يقوم كليڤر أيضا بالنظر إلى الخلف بدءا من صفحة مرجعية لمعرفة المواقع التي تؤشر إليها. وبذلك يستفيد كليڤر من الظاهرة الاجتماعية التي تشير إلى أن الإنسان محفَّز داخليا لتكوين محتوى تجميعي يُعبِّر عن خبرته في مواضيع معينة.
ويستمر البحث
إننا ندرس عددا من الطرق لتحسين كليڤر. وأحد الاتجاهات الأساسية في مقاربتنا الإجمالية هو دمج النصوص في الواصلات الفائقة. إن إحدى الاستراتيجيات هي أن نعتبر أن بعض الواصلات تحمل وزنا أكبر من غيرها، وذلك اعتمادا على أهمية النص في موقع الوب الموجّه. وبالتحديد، يمكننا تحليل محتويات الصفحات في المجموعة الجذرية لتحديد عدد مرات ظهور موضوع الاستعلام وأمكنته النسبية، واستخدام هذه المعلومات في إعطاء أوزان عددية لبعض الواصلات بين هذه الصفحات. فإذا ظهر نص الاستعلام بتواتر كبير وقريب من واصلة مثلا، يُزاد وزنه.
تبين اختباراتنا الأولية أن هذا التحسين يزيد كثيرا من تركيز نتائج البحث. (لقد كانت إحدى نقاط ضعف كليڤر هي أنه في موضوع محدود المجال، مثلFrank Lloyd Wright’s house Fallingwater يقوم النظام أحيانا بتوسيع البحث وجلب معلومات عن موضوع عام مثل الهندسة المعمارية الأمريكية.) كما أننا نبحث في تحسينات أخرى. ولما كانت أساليب التأليف على الويب مختلفة جدا فإن توزين weighting الواصلات قد يتضمن محتوى الصفحات بأشكال مختلفة.
كما أننا بدأنا بإنشاء قوائم للموارد المتوفرة على الوب، تشبه تلك الأدلة التي جمّعها يدويا موظفو شركات مثل ياهو! وإنفوسيك. وتدل نتائجنا الأولية على أن إعداد هذه القوائم آليا يمكن أن يكون منافسا لتلك المنسقة يدويا. يضاف إلى ذلك أننا اكتشفنا من خلال هذا العمل أن الوب تَعُجُّ بتجمعات مترابطة من البشر، ولكثير من هذه التجمعات اهتمامات خاصة تختلف عن اهتمامات غيرهم (مثل هواة المصارعة اليابانية «سومو»، الذين يرتدون ملابس بلاستيكية فضفاضة خلال عطلة نهاية الأسبوع ويتصارعون فيما بينهم للتسلية)، ونعمل حاليا على إيجاد طرق آلية وفعالة للكشف عن هذه المجتمعات غير الظاهرة.
تختلف الشبكة العنكبوتية العالمية اليوم عن تلك التي كانت موجودة منذ خمس سنوات فقط اختلافا جذريا. ويبدو أن التنبؤ بما ستؤول إليه هذه الشبكة بعد خمس سنوات أخرى أمر غير مجدٍ. هل ستصبح حتى العملية الأساسية لفهرسة الوب غير مجدية؟ وإذا كان ذلك صحيحا فهل مفهومنا للبحث في الوب سيتغير بشكل جذري؟ كل ما يمكننا أن نكون متيقنين منه حاليا هو أن النمو الهائل للوب سيستمر في توليد تحديات حاسوبية للتجوال ضمن الحجم الهائل للمعلومات المتوفرة آنيا والذي يزداد باطراد.
المؤلفون
S. Chakrabarti – B. Dom – S. R. Kumar – P. Raghavan – S. Rajagopalan – A. Tomkins
أعضاء هيئة البحث في مركز IBM للبحوث بسان خوسيه في ولاية كاليفورنيا الأمريكية. بدأ المؤلفون أبحاثهم للاستفادة من بنية الواصلات الفائقة للوِب عام 1996، وذلك عندما أرادوا تصميم تقنيات محسّنة لإيجاد المعلومات في فوضى الفضاء السيبري. انطلق بحثهم من السؤال التالي: إذا لم تكن الحسابات تشكل عنق الزجاجة، ماذا يمكن أن تكون أفضل خوارزمية بحث؟ وبتعبير آخر، هل يمكن بناء محرك بحث أفضل إذا لم تكن المعالجة آنية؟ وكانت النتيجة هي الخوارزمية الموضحة في هذه المقالة. وقد بدأ فريق البحث بعد ذلك باستقصاء ظاهرة الجماعات السَيبرية على الوِب.
مراجع للاستزادة
Search Engine Watch (www.searchenginewatch.com) contains information on the latest progress in search engines. The Word Net project is described in Word Net: An Electronic Lexical Database (MIT Press, 1998), edited by Christiane Fellbaum. The iterative method for determining hubs and authorities first appeared in Jon M. Kleinberg’s paper “Authoritative Sources in a Hyperlinked Environment” in Proceedings o f the 9th ACM-SIAM Symposium on Discrete Algorithms, edited by Howard Karloff (SIAM/ACM-SIGACT, 1998). Improvements to the algorithm are described at the Web site of the IBM Almaden Research Center (www.almaden.ibm.com/cs/ k53/clever.html) . Introduction to Informetrics (Elsevier Science Publishers, 1990), by Leo Egghe and Ronald Rousseau, provides a good overview of citation analysis. Information on the Google project at Stanford University can be obtained from www.google.com on the World Wide Web.
Scientific American, June 1999
(*) Hypersearching the Web
(1) Clever Project: [انظر «المؤلفون» في نهاية هذه المقالة].
(2) «سپام» تعريب لكلمة “spam” وهي تعبير عُرفي في الحوسبة يعني إقحام إعلان على مواقع الوِب أو البريد الإلكتروني. (التحرير)