حواسيب محاوِرة
حواسيب محاوِرة(*)
ستعمل الحواسيب التي تستطيع ترجمة نصٍّ إلى كلامٍ طبيعي المسمع، على اشتداد رواج
سوق الاتصالات. لكن التحديات التي تواجه ذلك هائلة أكثر مما قد يبدو.
<A.آرون>ـ<E.إيد>ـ<J.پيتريللي>
اتصلْ هاتفيا بإحدى الشركات الكبيرة ولسوف تبدأ محادثتُك على الأرجح مع حاسوب. وحتى وقت قريب جدا، بقيت هذه النظم بكلامها الهاتفي المؤتمت قادرة فقط على تركيب جمل مؤلفة من عبارات مسجلة مسبقا. تذكّر الصوت الآلي: «الرقم الذي طلبته هو.5…5…1…2…1…5…2..». لسوء الحظ، يترك هذا الصوت الرسمي الجاف انطباعا باردا وغير ودّي لدى سامعيه. وتبقى إمكانات هذه النظم محدودة بسبب عجزها عن الخروج من دائرة العبارات الجاهزة المحفوظة.
في العقد الماضي، تطور الخطاب المولَّد حاسوبيا، ليصبح إدراك معناه أيسر والاستماع إليه أسهل. ولكن الباحثين يواجهون الآن تحديا أكثر إثارة وهو جعل الخطاب المركّب أكثر مشابهة للكلام الفعلي لإنسان حقيقي وذلك بتمكينه من تعديل النبرات والتعابير ليكون أكثر قدرة على إيصال المعنى. وتحقيق هذا الهدف الصعب المنال يتطلب فهما عميقا لمكونات الكلام والمفاعيل الدقيقة لعلوّ أو جهارة الصوت وطبقته وتوقيته وتوكيده. هذا هو هدف فريق البحث الذي نعمل فيه لدى الشركة IBM وكذلك هو هدف فِرَقِ بحث أخرى لدى عدد من الشركات الأمريكية الأخرى، مثل AT&T وNuance وCepstral وScanSoft، وفي عدد من المؤسسات الأكاديميّة، مثل جامعة كارنِگي مِلون وجامعة كاليفورنيا في لوس أنجلوس ومعهد ماساتشوستس للتقانة ومعهد أوريگون المتقدّم. وكما كانت حال المُقارَبات السابقة المبنيّة على مبدأ وصل الكلمات أو الجمل، فإن أحدث جيلٍ في تقانات الكلام يعتمد على أصوات مسجلة لمتحدثين بشر ويمكنه الاستجابة في الزمن الحقيقي، ولكنّه يختلف عن الأجيال السابقة بقدرته على قول أي شيء على الإطلاق، بما في ذلك الكلمات الطبيعيّة التي لم تُسجّل من قبل. ونسختنا من هذا البرنامج سُميت كوديا: NAXPRE Synthesize 1 .
تنفق المؤسسات الخدميّة والصناعيّة والتجارية في العالم بلايين الدولارات سنويا على مراكز خدمة معلومات ناطقة. وتعتمد هذه المراكز على حزمة من التقنيات: تعرّف الكلام المنطوق، ثم فهمه، ثم البحث في قواعد البيانات، ثم توليد النصوص وأخيرا تركيب الكلام. إن الكلام المركب، الناتج من ربط كلمات أو مقاطع من كلمات مسجّلة من قبل إنسان، يُمكِّن من إعطاء المنظومة كلها صفة شخصية، وهذه ضرورية لأن الناس يقيّمون المنظومة اعتمادا على جودة الصوت الذي يسمعونه. فالصوت المعبّر الذي تتغير نبرته بأسلوب مناسب تِبعا لنجاح المنظومة في تأمين طلب للحجز في فندق أو فشلها، يمنح الشخص المتصل شعورا مريحا بتجربة ناجحة وودية.
سوف يستفيد المستهلكون قريبا جدا من العديد من الخدمات الجديدة التي أصبحت متاحة بفضل هذه التقانة السريعة التطور. إذ ستقدم هذه الخدمات آخر أخبار الساعة والنشرات الجوية منطوقة في حين نراها الآن متوافرة فقط على شكل نصوص مقروءة. وتوفّر هذه التقنية أيضا قراءة جَهورة ومن دون كلل لمواد مكتوبة للمعوقين أو لطلبة لغة أجنبية. ومن الإمكانات المفيدة الأخرى لهذه التقانة نذكر أيضا: التفاعل الصوتي البشري ـ الآلي للتحكم في وظائف السيارة، بما في ذلك تقديم توجيهات القيادة المؤتمتة التي تضمّ أسماء ملايين الشوارع في العالم، وهناك أيضا خدمة الولوج إلى الرسائل الإلكترونية عبر الهاتف أو عبر أي منظومة معلومات من دون الحاجة إلى إظهار مرئي.
ومع مرور الزمن، سيعطي الكلام الطبيعي المركّب صوتا ذا دلالة للأدوات المحمولة والمنزليّة. وإلى درجة ما سيستفاد من هذه التقانات لتوليد محادثات شبه طبيعيّة بين الأشخاص في الألعاب الڤيديوية والحاسوبية وحتى في الأفلام السينمائية.
آلات ناطقة(**)
إنّ الكلام المركّب هو في آن معا انتصار تقاني وتحقيق لحلم قديم للإنسان. وتعود المحاولات لمُحاكاة الكلام البشري إلى أواخر القرن الثامن عشر عندما صنع العالم الهنغاري <W. ڤون كمپلن> ما أسماه آلة ناطقة تستخدم مجموعة معقّدة من القصبات والصفارات وعُلب الطنين لتولِّد كلمات بسيطة.
وبحلول السبعينات من القرن العشرين مكّنت الحوسبة الرقمية أول جيل من نظم «نص-إلى-كلام(2)» من بلوغ استخدام واسع النطاق إلى حدّ ما. لقد سعى صانعو هذه النظم إلى النمذجة الكاملة والمباشرة للآلية الفيزيولوجية لتوليد الكلام البشري مستخدمين عددا صغيرا نسبيّا من المعاملات. يتمتع النموذج نمطيا بمنبع صوتي يؤدي دور الحنجرة البشرية، وله مرشح صوتي، يعمل كبقية الجهاز الصوتي البشري. ويعدّل النظام مختلف النواحي الفيزيائية للصوت ـ من تجاوب وعرض نطاق ودورية وتواتر أساسي ـ تعديلا مستمرا لتوليد المتتالية اللازمة من الأصوات لتشكيل الكلام.
لقد كانت النتيجة كلاما مفهوما ميكانيكي النبرة. وقد كانت لعبة Speak &Spell ـ اقرأ وتهجأ ـ مثالا لباكورة المنتجات التي اعتمدت هذه التقانة وغزت الأسواق عام 19788. ومازالت أمثال هذه المركِّبات الصوتية مستعملة حتى اليوم بفضل بساطة صنعها وقدرتها على توليد كلام مفهوم بسرعات كبيرة تصل إلى 600 كلمة في الدقيقة. ونشير هنا إلى أنّ اللغة الإنكليزية تُنطق بمعدل 140 إلى 190 كلمة بالدقيقة. لذلك نرى أنّ الأشخاص المستعدين لمقايضة ميزة الكلام ذي الطابع الطبيعي بالسرعة في الكلام ـ كضعيفي الرؤية مثلا ـ يجدون هذه النظم مفيدة.
لقد أتاح ظهور حواسيب سريعة ووسائط تخزين قليلة الثمن في أواخر التسعينات من القرن العشرين تحقيق أكثر المركِّبات الكلاميّة تطوّرا في أيامنا هذه. يبني الباحثون ـ بمن فيهم فريقنا لدى الشركة IBM ـ تصاميمهم على تسجيل مقاطع لغويّة قاعديّة تسمى مقاطع صوتيّة phonemes أو فونِمات، ثم ترتب متتاليات هذه المقاطع المسجّلة لتعطي الكلمات. فمثلا تتكوّن كلمة “school” الإنكليزيّة من أربعة مقاطع صوتيّة يمكن أن نسمّيها S وK وOO وL. وتختلف اللغات بعدد المقاطع الصوتيّة التي تحويها. فالإنگليزيّة تستخدم نحو 40 مقطعا صوتيا مختلفا، في حين تستخدم اليابانيّة 25 والألمانيّة 44. وكما كان يفعل المنضِّدون في المطابع، حيث كانوا يرتّبون الأحرف في صينيات لتشكيل كلمات، فإنّ مركِّبات الكلام الحالية ترتّب «فِدرات الكلام(3)» لتصنع منها كلمات وجملا. ويسمّي المهندسون هذه الأنظمة مركبات كلامية تسلسليّة(4) لأنّها تربط معا قطعا صوتية صغيرة. وسنشرح فيما يلي كيف يعمل نظام كهذا، وكيف يولِّد المركِّب الكلامي كلاما طبيعيّا في زمن حقيقي [انظر الإطار في الصفحة 27].
أنشئ لي صوتا(***)
يبدأ التركيب الكلامي التسلسلي بصوت بشري. لذلك فعندما يبدأ فريقنا بتطوير نظام جديد يبدأ بالاستماع إلى عشرات من المرشحين لتسجيل أصواتهم. وما لم تكن اللكنة الأجنبية مطلوبة، كما في حالة شخصيات سينمائية أو على صفحة وِب، فإننا نختار مرشحنا من بين الذين لا يملكون لكنة أو لهجة خاصة، بل يستعملون اللهجة الإنكليزية الأمريكية العامة والتي نستمع إليها في العديد من محطّات التلفزة المعتمدة. وعندئذ يجلس القارئ المُختار في حجرة تسجيل ويقرأ بصوت مرتفع أكثر من عشرة آلاف جملة، وهي مهمة تستغرق نحو أسبوعين. يجري اختيار الجُمل بناء على معانيها وصلتها بالتطبيقات في الحياة العادية، وبوجه خاص بناء على تنوع المقاطع الصوتيّة في محتواها. وهكذا نضمن الحصول على العديد من الأمثلة على كل واحد من المقاطع الصوتية وفي سياقات مختلفة.
والنتيجة هي إذًا نحو خمس عشرة ساعة من الكلام المسجل. ولا تُعَدّ مهمة التوثّق من اتساق محتوى هذا التسجيل مهمّة سهلة. ولمّا كان مصير هذا التسجيل هو التقطيع ثُمّ إعادة توصيله بحسب الحاجة، يمكن إذًا لمقطع صوتي جرى استخلاصه اليوم أن يُنضَّد إلى جانب مقطع صوتي استخلص قبل أسبوع. لذلك يقوم مدرّب بتوجيه المتحدّثين وهو يستمع إلى الانحرافات في معدلات كلامهم وفي نبراتهم العاطفيّة وفي طبقات أصواتهم وعلوها، وذلك بهدف مساعدتهم على المحافظة على وتيرة كلام منتظمة قدر الإمكان. ومرّة على الأقل في كل ساعة يستمع المتحدّثون إلى جملة جرى تسجيلها في اليوم الأوّل كمرجع، تماما مثلما يستعمل الموسيقي أداة خاصة للحفاظ على دوزان واحد.
بعد ذلك يحوّل البرنامجُ الكلمات من النص المنطوق إلى سلسلة من المقاطع الصوتيّة وذلك باستخدام قاموس ألفاظ وهو المرجع الذي يضمّ المقاطع الصوتيّة التي تؤلّف كل كلمة. ويقوم البرنامج بحفظ وتذكر الملامح الخاصّة بكل مقطع صوتي، مثل المقاطع التي سبقته والتي أتت بعده وما إذا كان هذا المقطع يقع في بداية أو في نهاية الكلمة أو الجملة.
ما إن تتم معالجة النص حتى يُحلّل برنامجنا التسجيل الصوتي، وذلك بهدف قياس ثلاث صفات مميزة وهي طبقة الصوت وتوقيته وعلوّه ـ التي تسمى العَروض prosody. ومعرفة هذه الصفات لكلّ واحد من المقاطع تساعدنا على اختيار أي مثال يجب استخدامه لتركيب عبارة معطاة.
بعد ذلك، وباستخدام تقنيات تعرّف الكلام ـ وهي برامج إملاء تترجم الكلام إلى نص ـ يقرن البرنامج الحاسوبي كلّ مقطع صوتي مسجل بجزئه النصي المقابل. وهكذا، مع وجود النص والصوت معا تكون برمجيتنا قادرة على تحليل كل تسجيل كما أنها تُعيّن بدقة الحدود التي يبدأ أو ينتهي عندها كل مقطع صوتي. إن هذه الإجرائية أساسية لأنه ما إن يتم تحديد المقاطع الصوتية وتسميتها حتّى يتمكن البرنامج من تصنيفها بدقة ضمن قاعدة بيانات يمكن البحث فيها.
تحوي قاعدة بيانات برنامجنا NAXPRES Synthesizer وسطيا عشرة آلاف عينة مسجلة لكل واحد من الأربعين مقطعا صوتيّا في اللغة الإنگليزيّة. وللوهلة الأولى يبدو أن قاعدتنا تحوي الكثير من التكرار والحشو. ولكن عند تأليف الجمل انطلاقا من الكلمات يتغير العلو النسبي لكل مقطع صوتي وطبقته تبعا لمزاج المتحدّث، ولما يرغب التأكيد عليه، ولنوع الجملة ـ تذكر الفرق بين جملة استفهامية وأخرى تعجبية. وعليه يمكن للمقاطع الصوتية المستقاة من هذه الجمل أن تختلف اختلافا كبيرا: فبعضها منطوق بعَروض مختلفة، وبعضها منطوق في سياقات مختلفة، وهكذا…
ولأن كلام الإنسان دقيق ومعقّد، لا يفهم الخبراء إلاّ بعض المؤثرات الكثيرة التي تسهم في تكوين كلام بشري المَسمَع، ولهذا نحتاج إلى حواسيب للمساعدة على أداء هذه المهمّة. ونستفيد من قاعدة البيانات المتوافرة لدينا لإنشاء نموذج إحصائي يفيد في استقراء تلقائي للخواص العامّة التي تحكم ارتفاع أو انخفاض طبقة الصوت، وتفيد في تحديد فترة كلام الفرد وعلوّه. ثم تجري الاستفادة من هذا النموذج لاحقا عند تطبيق هذه الخواص لجعل مَسْمَع كلام النظام أقرب إلى كلام الإنسان.
نظرة إجمالية/ جعل الآلات تنطق(****)
■الآن وقد أصبح التفاعل مع الأصوات المولدة حاسوبيا أمرا عاديا في حياتنا اليومية، يقترب الباحثون أكثر فأكثر من تركيب كلام بشري المسمع.
■تستطيع الآلات الناطقة الحديثة، معتمدة على قواعد بيانات ضخمة من المقاطع الصوتية (الفونمات) phonemes المسجّلة، تعديل النبرات والتعابير لتوصل المعنى المقصود إلى المستخدمين على أفضل وجه. ■تحظى هذه الأنظمة بتطبيقات مهمة في الأجهزة الإلكترونية المحمولة كأجهزة الملاحة التلقائية. وإلى حد ما ستستفيد الألعاب الإلكترونية، والألعاب الڤيديوية، وحتى الأفلام السينمائية من الإمكانات التي توفرها أنظمة الكلام الصنعي شبه الطبيعي. |
كلّمني(*****)
وهكذا، بعد أن وصفنا عناصر الأنظمة الحديثة لتركيب الكلام، تعالوا نلق نظرة على أحدها وهو يعمل. يؤدّي نظام تركيب الكلام العائد للشركة IBM كامل المعالجة التالية في أجزاء في الألف من الثانية ـ أي بسرعة كافية لجعل الأشخاص يتحادثون مع الحاسوب في الزمن الحقيقي. أولا: نعطي الحاسوب شيئا يقوله في هيئة نصّ، وليكن “Permits cost $80/yr.” أي تكلفة الرخصة ثمانون دولارا سنويّا، يحوّل النظام هذه الرموز إلى مقاطع صوتيّة، وهذه مهمّة أصعب مما تبدو عليه لأوّل وهلة. فالجملة تحوي علامات ترقيم واختصارات يجب لفظها، إذًا يجب البدء بترجمة النص إلى سلسلة الكلمات التي يجب على مركّب الكلام أن يلفظها. يستخدم النظام NAXPRES عددا من القواعد لتجنّب وقوع أي التباس مثل وجود طرائق متعدّدة في ترجمة الاختصارات. فمثلا يحوي النص St.Charles St.” “اختصارين متماثلين يجب أن يقرأهما النظام قراءة صحيحة بالشكل “Saint Charles Street” أي شارع القدّيس شارل.
وبعد تعيين سلسلة الكلمات التي تجب قراءتها، يجب أن يكتشف النظام الأسلوب الذي يجب أن يتبعه عند القراءة. إذ تعتمد قراءة بعض الكلمات على موقعها في الكلام. فمثلا كلمة “permits” تُقرأ permits عندما تكون اسما، وتقرأpermits عندما تكون فعلا. لذلك نستعمل محلّلا نحويا(5) لتحديد طبيعة كل كلمة في الجملة فنجد:
permits (noun) cost (verb) eighty (adjective) dollars (noun) per (preposition)year noun)
عند هذه المرحلة يصبح نظام تركيب الكلام جاهزا لتحويل الكلمات إلى مقاطع صوتيّة. وهنا يجب أن يكون النظام قادرا على معالجة الحالات الخاصّة مثل الحروف الصامتة ـk في كلمة “knife” أو tفي كلمة “often”على سبيل المثال ـ وكذلك معالجة الكلمات التي تُلفظ بطرق مختلفة مثل “permits”. إنّه من النادر الوقوع على جملة لا تحوي شذوذا لفظيّا. يطبّق نظامنا قواعد لتحويل الأحرف إلى مقاطع صوتيّة مستفيدا من معلومات التحليل النحوي. لتحصل على فكرة عن مدى صعوبة هذه المهمّة والبراعة اللازمة لأدائها، تفكّر في جميع الطرق الممكنة لتحويل”ough” إلى مقاطع صوتيّة، فهي (OW) في”bough” وهي (AWF) في “cough” وهي(OH) في”dough” وهي (UH F) في”rough” وأخيرا هي (OO) في “through”.
كيف يعطي الباحثون صوتا للحاسوب(******)
إن الإجرائية التي يتبعها الباحثون والمهندسون في مجال تركيب الكلام لجعل الحاسوب قادرا على التحدث بأسلوب الإنسان هي إجرائية معقدة، تتضمن تسجيل صوت الإنسان، ثم إعادة ترتيب المقاطع الصوتية المسجلة لتوليد كلمات وجمل لم يسبق أن قيلت أو سُجلت.
بناء آلة ناطقة 1 يسجل مهندس الصوت أكثر من عشرة آلاف جملة مختارة لتشمل مختلف المقاطع الصوتية المفيدة من حيث المحتوى والمعنى في التطبيقات العملية. 4 يقرن برنامج تعرف الكلام كل مقطع صوتي مسجَّل بالتمثيل النصي الموافق. 5 يخزن الحاسوب المقاطع رقميا مبينا حدودها، أي النقطة التي يبدأ عندها المقطع وتلك التي ينتهي عندها، ويصنفها جاهزة للاستعمال في قاعدة بيانات. 6 يبني الباحثون، اعتمادا على قاعدة بيانات المتكلم، نموذجا إحصائيا يفيد في استنتاج الخواص العامة التي تحكم ارتفاع طبقات الصوت أو انخفاضها إضافة إلى توقيت وعلو كلام كل فرد. يستفيد النظام لاحقا من هذه الخواص ليجعل مسمع كلام النظام يبدو قريبا من كلام الإنسان. تشغيل آلة ناطقة 1 يُعطى النظام نصا مطلوبا نطقه، فيترجم النظام جميع الرموز والاختصارات إلى كلمات، ثم يحلل القواعد والنحو في الجمل كما يحلل كل التباس محتمل في اللفظ ليولد سلسلة من المقاطع الصوتية المناسبة. 2 يختار النظام المقطع الصوتي ذا الطبقة والتوقيت والعلو الأكثر ملاءمة لتركيب كل جزء من الجملة المراد نطقها. 3 بعد اختيار المقاطع الصوتية ووصفها واحدا إثر آخر، يزيل النظام الانقطاعات الناجمة عند رصف المقاطع المختلفة. فمثلا، عندما يختلف مقطعان متجاوران في الطبقة يُجري البرنامج تعديلات بسيطة كأن يحني الطبقة قليلا نحو الأعلى أو نحو الأسفل عند أطراف كل عيّنة وذلك من أجل تلاؤم جيرانها. 4 وأخيرا «يقرأ» النظام النص المعروض. |
وهكذا تأخذ الجملة في مثالنا، بعد أن يحولها البرنامج إلى مقاطع صوتية، الشكل التالي:
أبحاث صناعية في مجال تحويل النص إلي كلام (*******)
اختيار الأصوات(********)
يُعدّ تحديد المقطع الصوتي المناسب لتركيب كلِّ جزء من أجزاء الجملة تحدّيا كبيرا. فكل صوت في سلسلة أصوات يتغير تغيرا طفيفا تبعا للأصوات التي تسبقه ولتلك التي تليه، وهذه تسمّى ظاهرة الإفصاح اللفظي المشتركcoarticulation. [لمعلومات أكثر عن هذه الظاهرة انظر الإطار في الصفحة المقابلة]. يحتوي مثال permits…” ” على ثلاثة وعشرين مقطعا صوتيا، ولأنّنا نملك في قاعدة بياناتنا نحو عشرة آلاف عيّنة لكل منها، فإننا نجد أنفسنا أمام معضلة اختيار اللفظ المناسب من بين000 10 23 (=9210) تركيبا مختلفا، وهو عدد بغاية الضخامة لا يمكننا النظر فيه. لذلك يستفيد النظام من تقنية البرمجة الديناميكيّة ليبحث في قاعدة البيانات بنجاعة وذلك بهدف تحديد التركيب الأكثر ملاءمة.
ما إن ينضِّد نظام التركيب الكلامي التسجيلات المناسبة للمقاطع الصوتيّة واحدا إلى جانب الآخر، حتى يبدأ بمعالجة المرحلة الأخيرة، وهي جعل الانتقال من مقطع صوتي إلى الذي يليه أملس وذلك بإزالة الانقطاعات. فعندما تختلف طبقتا مقطعين صوتيين متتاليين اختلافا طفيفا تنتهي الجملة بصوت مهتز وملحون. ويعالج النظام هذه المشكلة بإجراء تعديلات بسيطة على الطبقات ليصحّح الاختلاف، فيحني طرفي طبقة كلّ مقطع صوتي قليلا إلى الأعلى أو الأدنى ليتوافق مع المقاطع المجاورة، تماما كما يحفّ النجار قطع الخشب المتلاصقة ليجعل الانتقال من سطح إلى الذي يجاوره أملس.
مع أننا سعداء بالتقدم الذي أحرزناه في برنامجنا للتركيب الكلامي، إلا أننا نُبقي دائما البحث عن إمكانات تطويره نصب أعيننا. وكثيرا ما نناقش ما يسميه بعضهم «الكأس المقدسة» في تقانة تحويل النص إلى كلام منطوق: هل يجب أن يكون كلام الآلة غير قابل للتمييز عن كلام البشر، كما هي حال اختبار تورينگ المعروف في الذكاء الصنعي؟ وجوابنا هو «لا، على الأغلب». لأنّه من جهة أولى، قد لا يشعر الناس بارتياح مع فكرة أنّه بالإمكان خداعهم عندما يتصلون بمركز خدمات إحدى الشركات. ولأنّه، من جهة أخرى، قد لا يكون الكلام الطبيعي أفضل الخيارات في بعض الحالات، مثل إشارات تحذير سائقي الآليات أو أصوات الألعاب، أو أصوات الأفلام المتحرّكة أو أصوات الألعاب الحاسوبية والڤيديوية. فالهدف الأفضل لمثل هذه التقانة هو التوصل إلى كلام معبّر يشعر الناس بالراحة لدى سماعه.
أو ربما يجب أن يكون الهدف النهائي نظاما من التعقيد بحيث يكون قادرا على استثمار المهارات التواصلية والاجتماعية للبشر. تأمّل المثال التالي:
المتصل: أود حجز رحلة إلى طوكيو صباح الثلاثاء.
الحاسوب: هناك رحلتان متاحتان مساء الثلاثاء.
إن قدرة البرنامج على توكيد كلمة «مساء» لإبراز اختلافها عن كلمة «صباح»، تختزل الخوض في الكثير من الأخذ والرد. إذ يفهم المتصل عند ذلك أنه لا توجد رحلات صباحية وأن الحاسوب يعرض خيارا آخر. في حين قد يترك نظام غير قادر على التركيب الكلامي المعبر اعتقادا عند المتصل بأن الحاسوب لم يفهم طلبه تماما، ويطلب إليه إعادة البحث ثانية. وللسبب نفسه، في حالة الجواب «أنا آسف، لا تتوافر رحلات يوم الثلاثاء» يرغب المهندسون في أن يبدو الكلام اعتذارا عن عدم وجود رحلات، أو على الأقل، أن يكون الابتهاج على درجة أقل من تلك التي يبديها النظام في افتتاحيته «كيف أستطيع خدمتك؟»
التغيرات في لفظ المقاطع الصوتية (الفونمات)(*********)
لن تستطيع الآلات إصدار كلام بصوت طبيعي ما لم تصبح أكثر قدرة على تقطيع ومزج الأصوات كما يفعل الإنسان. ويحصل هذا الوصل بين الأصوات أثناء انتقال الفم واللسان إلى الوضع المناسب لإصدار المقطع الصوتي الثاني وذلك قبل انتهاء لفظ المقطع الأوّل. فمثلا عندما يحاول شخص لفظ الصوت K في keep يأخذ اللسان بالتقدّم إلى الأمام مستبقا المقطع EE، في حين أنّه في coop يتراجع اللسان إلى الوراء مستبقا المقطعOO.
إن ظاهرة «الإفصاح اللفظي المشترك»، التي تعبّر عن الانتقال بين المقاطع، تعقِّد مسألة تركيب الكلام تعقيدا كبيرا. فمثلا يسمع الناطقون بالإنگليزية الأحرف K وP وT أصواتا مختلفة، ولكن صوت Kفي keep يختلف كثيرا عنه في coop، واختلافهما في الحقيقة هو بقدر اختلاف كل منهما عن P أو T. لتسمع الفرق في لفظتي الصوت K، اطلب إلى أحدهم أن يلفظ كلمتي keep أوcoop وأن يتوقف عند الصوت K في كلِّ مرّة. عندئذ ستتعرّف الكلمة التي كان سيلفظها بمجرّد سماع صوت K الموافق. ولكن الناس اعتادوا اعتماد الأصوات K وكأنها صوت واحد واعتماد الصوتين P وT صوتين مختلفين. وعند تركيب الكلام يجب على المهندسين المحافظة على هذه الأصوات والنظر إليها أصواتا مختلفة وتصنيفها في المواقع الصحيحة لأنّ استعمال الصوت K الخطأ لا يؤدّي إلى النتيجة المرجوّة. ليس سياق الكلام وحده ما يؤثّر في المقاطع الصوتية، بل إن لترتيب هذه المقاطع ضمن الكلمات وأجزائها أثرا مهما أيضا. لنتأمل المثال التقليدي التالي: “gray train” قطار رمادي مقابل “great rain” مطر عظيم. إن لهاتين العبارتين متتالية المقاطع الصوتية نفسها G R AY T R AY Nولكن يمكننا بسهولة سماع الفرق بينهما. فللصوت T في”gray train” اندفاع قوي للسان نحو مقدمة سقف الحلق، وهو نمط مألوف في حالة صوت T في بدء الكلمة. ولكن يمكن إصدار الصوت T في”great rain” دون اندفاع للسان على الإطلاق بسبب كونه في نهاية الكلمة.
|
وحديثا، تمكن فريقنا لدى IBMمن تطوير أنظمة أوّلية يمكن لكلامها أن يشتمل على مثل هذه التعابير. إضافة إلى التعبير القاعدي الحيادي، يمكن لهذه التقانة أن تركّب جملا توحي بالفرح أو التساؤل أو الاعتذار؛ ويمكن أيضا للتقانات النامية أن تؤكّد على بعض الكلمات لإحداث وقع في النفس.
مع أن برامجنا لتركيب الكلام وأمثالها أصبحت قادرة على إصدار كلام قريب إلى حد مدهش من الصوت البشري، إلاّ أن الكلام المعبر هو التحدي الكبير القادم أمام هذه التقانة. فهذه البرامج لا تفهم حقيقةً معنى الكلام الذي تركبه، لذلك يمكن لبعض الاختلافات الدقيقة في المعنى، التي يمكن لطالب الصف الثامن أن يلحظها عند القراءة بسبب إدراكه للمعنى، أن تمر غير ملحوظة من قبل المركب الكلامي. ومع أن مجال صوت الإنسان لا حدود له إلا أننا نعتقد أن جزءا مهما من عمل الباحثين في تركيب الكلام قد أنجز.
المؤلفون
Andy Aaron – Ellen Eide – John F.Pitrelli
يعملون في تقانات تركيب الكلام بمركز أبحاث توماس واتسون التابع للشركة IBM. درس<آرون>الفيزياء في جامعة براد Brad ثم عمل على الصوت في الأفلام السينمائيّة لدى الشركة Zoetrope Studios، والشركة Lucasfilm’s Skywalker Sound وغيرها. أما <آيد>فحصلت على الدكتوراه في الهندسة الكهربائيّة وعلم الحاسوب من معهد ماساتشوستس للتقانة. وتشمل أبحاثها النمذجة الإحصائية وتعرّف الكلام وتركيبه. حصل <پيتريللي>على الدكتوراه في الهندسة الكهربائية وعلم الحاسوب من معهد ماساتشوستس للتقانة. وتشمل أبحاثه مجالات تركيب الكلام وتعرف الخط المكتوب وتعرف الكلام وقواعد الشعر. وقد نشر المؤلفون معا أكثر من أربعين مقالة علمية ويحملون 19 براءة اختراع.
مراجع للاستزادة
IBM text-to-speech research (includes a demonstration system): www.rsssarch.ibm.com/tts Guidelines for evaluating text-to-speech systems: www.spsechtechmag.com/issues/6_3/cover/88-1.html
History of text-to-speech systems: www.cs.indiana.edu/rhythmsp/ASA/Contents.htmi
Audio recordings appendix is at www.eslu.osi.adu/tts/rssaarch/history/
Technical details on current speech synthesis systems: http://tets.ipms.ac.bs/synthssis/introtts.html
TTS Update. TMA Associates Web site: www.ttsupdata.com/
Scientific American, June 2005
(*) CONVERSATIONAL COMPUTERS
(**) Speaking Machines
(***) Build Me a Voice
(****)Overview / Making Machines Speak
(*****)Talk to Me
(******)How Researchers Give Voice to Computers
(*******)Industrial Text – to – Speech Research
(********)Selecting Sounds
(*********)Variations in phoneme pronunciation
(1) IBM Natural Expressive: مركب الكلام الطبيعي المُعبّر IBM Speech Synthesizer.
(2) text-to-speech
(3) chunks of speech
(4) concatenative synthesizers
(5)grammar parser