10-18-2014, 11:54 PM
|
مشرف
|
|
تاريخ التسجيل: Jun 2013
المشاركات: 7,826
|
|
سبل تطوير محلل الصرف الآلي
سبل تطوير محلل الصرف الآلي
حسن مظفر الرزّو
سبل تطوير محلل الصرف الآلي المستخدم في حوسبة الموسوعات العربية
المستخلـص
بدأت الموسوعات العربية، بشتى تخصصاتها العلمية والثقافية، بالظهور في سوق البرمجيات بالوطن العربي، ويلاحظ أن كثيرًا منها قد توجهت صوب توظيف المحلل الصرفي الآلي كأداة فاعلة تساعد المستخدم على اكتناه الجوانب الخفية من هذه الموسوعات، مع توفير كفاءة أداء عالية كنتيجة لاختزال حجم أنشطة البحث في قواعد البيانات العملاقة المرتبطة ببرمجياتها.
بيد أن الخصائص اللغوية والصرفية التي تتصف بها اللغة العربية قد نجم عنها ظهور جملة من العقبات، التي باتت تؤثر بشكل ملحوظ على أداء المحلل الصرفي الآلي، ولبيان المفاهيم والأسس التي تستند إليها تقنية التحليل الصرفي الآلي، وماهية المنطق البرمجي واللغوي الذي توظفه، تم إجراء هذه الدراسة؛ لإلقاء الضوء على هذه المساحات مجتمعة، مع الاستهداء بالنتائج التي تم الحصول عليها عبر سلسلة من الدراسات التي أجريناها على إحدى البرمجيات التطبيقية التي توظف هذه التقنية كأداة حيوية للبحث بين ثناياها المتشعبة الأطراف؛ لتحديد مواطن الضعف والقوة في هذه التقنية الحاسوبية.
وقد أظهرت عملية التحرِّي أن هذا الأسلوب من المعالجة الحاسوبية يمتلك خصائصَ إيجابيةً، تتجلى في سرعة وكفاءة أداء البرمجيات التي توظفه كأداة ناجعة للبحث، بيد أنه هناك بالمقابل جملةً من الثغرات المنطقية التي يعجز أمامها محلل الصرف الآلي عن بلوغ الغاية التي يبغي المستخدم الوصول إليها، وقد اقترحت جملة من الأمور لتجاوز هذه العقبة والارتقاء بهذه التقنية إلى مستويات أداء أفضل.
ABSTRACT
Traditional and cultural encyclopedias are found to be common in the Arabic software markets in the recent days. Most of these applications employ the Auto Morphological Analyzer (AMA)as a qualified tool for searching the huge databases accompanied with the encyclopedias.
The unique characteristics of Arabic ******** induce many obstacles, which has a passive influence on the performance of the AMA. To highlight the nature of its mechanism and the programming algorithms adopted in its formulation, a deep study is carried out on a selected applications used this technique. The study aimed to evaluate the performance and to highlight the weak points in the AMA.
The survey brings into view the good performance of the mentioned technique and the possibility of overcoming the obstacles by improving the linguistic and morphological algorithms of the AMA model. However a supporting search engine which rely upon the method of subjective indexing will help to surplus both its capability and efficiency.
1- مقدمة:
بدأت الموسوعات العربية، بشتى تخصصاتها العلمية والثقافية، بالظهور في سوق البرمجيات بالوطن العربي، ويلاحظ أن كثيرًا منها قد توجهت صوب توظيف المحلل الصرفي الآلي كأداة فاعلة تساعد المستخدم على اكتناه الجوانب الخفية من هذه الموسوعات، مع توفير كفاءة أداء عالية كنتيجة للاختزال...
إن توظيف هذه التقنية الحاسوبية اللغوية في معالجة النصوص، وتذليل العقبات أمام المستخدم للوصول إلى ضالته المنشودة في ساحة الموسوعات المختلفة، مع زيادة سرعة الوصول، وكفاءة الأداء الذي يتصف به التطبيق البرمجي - هي جملة من الخصائص الإيجابية التي جذبت أنظار العاملين في ميدان حوسبة النص العربي لهذه التقنية واعتمادها كإحدى الأدوات الفاعلة.
بيد أن الخصائص اللغوية والصرفية التي تتصف بها اللغة العربية قد نجم عنها ظهور جملة من العقبات، التي باتت تؤثر بشكل ملحوظ على أداء المحلل الصرفي الآلي، من أجل هذا فقد عمد العاملون في هذا المضمار إلى تجاوز جزء كبير منها، عن طريق إحداث جملة من التغييرات في بنية الأنموذج المنطقي والبرمجي الذي يؤسس الدعامة الرئيسة لعمل المحلل الآلي، بيد أن العاملين في ميادين حوسبة المعلومات والمعارف يجدون أن هناك المزيد من الجهود المكثفة التي تتطلبها الأهداف الطموحة في هذا الميدان على طريق زيادة كفاءة المحلل الآلي في إنجاز المهام المنوطة به.
ولبيان المفاهيم والأسس التي تستند إليها تقنية التحليل الصرفي الآلي، وماهية المنطق البرمجي واللغوي الذي توظفه، والمميزات - عمدنا إلى إجراء هذه الدراسة، التي نحاول من خلالها إلقاء الضوء على هذه المساحات مجتمعة، مع الاستهداء بالنتائج التي تم الحصول عليها عبر سلسلة من الدراسات التي أجريناها على إحدى البرمجيات التطبيقية التي توظف هذه التقنية كأداة حيوية للبحث بين ثناياها المتشعبة الأطراف.
2- المعالجة الحاسوبية لنظام اللغة العربية:
تستند اللغة العربية إلى نظام متسق، تقيده ضوابط دقيقة، وتحكمه قواعد مطردة أو شبه مطردة، إلا أنه قد تغزوها في بعض الأحيان مظاهر شوارد وشذوذ عن بنية النظام الكلي الذي يحاول استيعابها، ويحكم السيطرة على شبكة العلاقات التي تحدد معالمها، وتحكم ظواهرها، وتشكل تطورها، وتكشف عن أعماقها الغنية بالدلالات والمباني (علي، 1988: 115).
اختلفت آراء المتخصصين في اللسانيات، وعلماء نشأة اللغات، وعلماء النفس السلوكي، في صياغة مفهوم النظام اللغوي، على ضوء المنظور الذي يتبناه الباحث، أو زاوية التناول، بيد أن أكثر التعاريف قبولاً هو الذي يعدها نظامًا حاملاً للمعاني والمفاهيم في ظل ثنائية المتكلم/ المستمع، أو المنتج/ المتلقِّي، شريطة وجود رابط معرفي يربطهما من خلال خلفية: لغوية، ومعرفية، وفكريَّة مشتركة (23: Winogard,T.,1983).
منذ ظهور الحاسوب، في العقد الرابع من القرن العشرين، وصلتُه باللغة تزداد عمقًا وثراءً، ضمن علاقة تحمل طابعًا تبادليًّا وجدليًّا، وقد حفلت بمظاهر عدة، توزعت بين توظيفه كوسيلة للدرس اللغوي، أو اعتماد اللغة في تطوير بنيته ونظمه، إذًا نستطيع أن نكون أكثر تحديدًا فنقسم المجالات هذه إلى محورين:
المحور الأول: توظيف الحاسوب كأداة لـ(اللغة):
إن القدرات الهائلة التي يمتلكها الحاسوب المعاصر، وقدرته الفائقة على التحري في النظام اللغوي - قد فتحت آفاقًا واسعة أمام استخدام الحاسوب في هذا المضمار في مجالات: الإحصاء اللغوي، والتحليل والتركيب اللغويين، والفهم الآلي للنصوص، وتحليل النصوص، والترجمة الآلية، والمعالجة الآلية للمعاجم.
المحور الثاني: توظيف اللغة كأداة للحاسوب:
إن البنية الرمزيَّة للغة تجعلها تتبوأ مكانة متميزة بوصفها أداة فاعلة يمكن توظيفها في إعداد هياكل تصميم عتاد الحاسوب Computer Hardware ونظمه التشغيلية، وتطبيقاته البرمجية؛ لأنَّ النظام اللغوي وآلياته الرمزية يمتلك عمقًا معرفيًّا يمكن توظيفه كنواة لأنشطة الذكاء الاصطناعي، وتأصيل الجسور المتينة بين الحاسوب وبين المستخدمين بشتى مستوياتهم.
تمتد رقعة الاستخدامات في هذا الميدان لتشمل: نظم استرجاع المعلومات، وتطبيقات الذكاء الاصطناعي، والنظم الخبيرة، ولغات البرمجة العليا، ونظم دعم القراراتDecision Support Sysytem.
إن اللغة العربية تنتظم تحت مظلة صياغة جبرية، تحكم الكثير من خواصها الصرفية، والإعرابية، والصوتية، مع وجود صلة عميقة بين المباني والمعاني، مما يجعلها قابلة لاختزالية التقعيد، وسيطرة المعالجة الآلية بواسطة الحاسوب.
ولكي تتجلى أمامنا الآفاق المتاحة للمعالجة الحاسوبية لنظام اللغة العربية، سنحاول التعرُّف على كل خاصية من خصائص لغتنا العربية، والإمكانيات المتاحة لإقامة علاقات متبادلة مع إمكانيات الحاسوب، إن المعجم اللغوي العربي يتصف بحجم محدود من الجذر والصيغ الصرفية، مع تعدُّد مفرداته الخصبة نتيجة للإنتاجية الصرفية العالية، الأمر الذي يجعله موردًا طيبًا للمعالجة الآلية للمعجم.
بالمقابل فإنَّ الفيض اللغوي الذي تتَّسم به لغتنا، فإنه يتيح إمكانية ضغط النصوص، وتصغير حيز تخزينها في وسائط خَزْنِ البيانات، عبر تَقْلِيص هذا الفائض، وإتاحة الفُرصة لآلةِ الاستنتاج المنطقي التي يَمتَلِكُها الحاسوب، أمَّا الانتظام الصوتي في اللغة العربية، ووجود علاقة حميمة بين كتابتِها والنطق بها، فهو عامل إضافي في زيادة قابليتها على المعالجة الآلية، وتوليد الكلام وتمييزه آليًّا.
وإذا انتقلنا إلى خاصية التَّوسُّط اللغوي، نجد أنَّ جُذُورَها في لغتنا تُتِيح فُرَصًا جديدة ومثمرة لاقتراض كثير من الحلول والأساليب التي صممت للغات التي تتوسط بينها اللغة العربية، مما يوفر سرعة ملحوظة في تنفيذ البرمجيَّات، وعدم ضخامة موارد الحاسوب المطلوبة، مع المُحافظة على كفاءة أداء النظام (علي، 1988: 61).
أمَّا شدَّة التَّماسُك بين عناصرها، فتظهر بجلاء في مظاهر عدة، منها: العلاقة الحميمة بين النحو والصرف، والتداخل الشديد بين نظامي الصرف والصوتيات، والذي يظهر بجلاء في تعدد حالات الإبدال والإعلال، ودورها الحاسم في تحديد بنية الكلمة، وهناك أخيرًا شدة الصلة بين المباني والمعاني، وتأصل النزعة المنطقية في نحو اللغة العربية (الدجني، 1982: 123).
إن هذه الأمور مجتمعة، وأخرى غيرها، تجعل من نظام اللغة العربية نظامًا متوافقًا مع الآليات التي يعمل بها الحاسوب، وقابلاً للمعالجة الآلية التي تستلزمها التطبيقات البرمجية العربية.
3- بنية نظام الصرف العربي:
الصرف Morphology علم اشتقه العلماء المسلمون، وأرسوا قواعده المحكمة؛ لدراسة البنية الداخلية للمفردة العربية من حيث صياغتها لإفادة المعاني، أو من حيث البحث عن أحوالها العارضة (الضامن، 1991: 55)، وإذا كان النحو العربي هو أساس الخاصية الإبداعية للغتنا نتيجة لتنوع وعمق الاستخدام اللغوي بما يتيحه من تفعيلات لا نهائية للجمل، فإن الصرف هو مورد التوسع والانفتاح اللغوي بما يوفره من وسائل عديدة لتكوين وخلق كلمات جديدة، وإعادة تحليل علاقة التحليل/ التركيب التي تثري اللغة وتزيد من خصوبتها المعجمية.
اتصف الصرف العربي (عمايره، 1407هـ: 12) بمعالجته الكلمة من جهة حروفها، للوقوف على أصالتها، أو زيادتها بلواصق التحقت بها، من خلال معيار دقيق أطلق عليه الميزان الصرفي، الذي يمتاز بتشكله بنفس الشكل الذي يتصف به الموزون من حركة أو سكون، أو تقديم، أو تأخير (الضامن، 1991: 57).
وقد وجد علماء الصرف بأن الكلم العربي يتأرجح بين كلمات لا تقلُّ حروفها عن ثلاثة أحرف إلا لعلة، ولا تزيد على خمسة أحرف، فأرسوا البنية الصرفية لميزانهم على ثلاثة أحرف، ثم يزيدوا عليه حرفًا في الكلمة الرباعية، أو حرفين في الخماسية، وعُدَّت كلمة فعل بحروفها الثلاثة الأنموذج الرسمي للميزان الصرفي.
وعلى هذا الأساس ارتكزت جميع الخوارزميات البرمجية التي تعالج مسألة المحلل الصرفي، فإذا أردنا أن نتفحص البنية الصرفية لكلمة ما، فعلينا أن نقابل أصولها بأنموذج فعل، ثم تحدد ماهية الزيادة بالحروف على ضوء القواعد التي يتبناها أئمة هذا العلم الجليل.
4- المعالجة الآلية للصرف العربي:
تتبوأ المعالجة الآلية للصرف العربي مكانة متميزة في ميادين التعامل مع اللغة العربية على وفق منظور معلوماتي، وتعد مدخلاً أساسًا، وقاسمًا مشتركًا، لإدارة معظم نظمها الآلية التي تعنى بإنشاء نظم المعلومات والمعارف.
يقصد بالمعالجة الآلية للصرف العربي اعتماد نظم حوسبة متقدمة تستند إلى خوارزميات برمجية تستثمر المنطق الصرفي العربي في معالجة المفردة العربية، عن طريق استخلاص العناصر الأولية لبنية الكلمة، ومباشرة تحديد سماتها الصرفية، والصرف نحوية، والصرف دلالية، القابلة للاستنباط من هذه البنية.
وقد أفرزت جهود العلماء والباحثين في هذا المضمار ظهور مجموعة من النماذج Models المقترحة لمعالجة الصرف آليًّا، بيد أن الدراسة المتأنية لهذه النماذج تظهر بوضوح وجود اختلاف من حيث ملاءمتها لمتطلبات الصرف العربي، ومدى كفاءتها في أداء المهام التي تستند إليها.
تتوفر عدة نماذج لمعالجة الصرف آليًّا، فهناك محللات صرفية سطحية أعدَّت لتحقيق أهداف تقنية بحتة، بعيدًا عن متطلبات النظام الصرفي العربي المحكم، مع محدودية نطاقها، وصعوبة تكامله مع الأنظمة الأخرى (Bear,J.A.,1984: 32)، وقد ظهر الأنموذج الصرفي ذو المستويين الذي اقترحه (Koskenniemi Koskenniemi,K.,1984: 19) لمعالجة اللغة الفنلندية، ثم توسع في توظيفه بلغات أخرى؛ كالإنجليزية، والفرنسية، واليابانية، اعتمد هذا الأنموذج على علاقة التناظر القائمة بين رموز البنية العميقة والبنية السطحية، والتعامل معهما بصورة متكافئة.
بيد أن هذا المحلل لا يصلح للغتنا العربية التي لا تتصف بخاصية التناظر التي تشكل الأساس النظري لهذا الأنموذج، وقد ظهرت نماذج أخرى كأنموذج Martin، وأنموذج التحليل الصرفي ذو القواعد، التي تشترك مع سابقاتها في عدم تطابقها مع مستلزمات التحليل الصرفي الآلي العربي، الذي يهدف إلى توفير خدمات علمية ومعجمية للأنشطة المختلفة في وطننا العربي.
ظهرت جملة من أنظمة التحليل الصرفي الآلي أهمها:
1- المعالج الصرفي التقليدي الذي قام بتوظيفه مركز التراث لأبحاث الحاسب الآلي في موسوعاته المختلفة.
2- المعالج الصرفي متعدِّد الأطوار لشركة صخر العالمية (علي، 1988: 308).
3- المحلل الصرفي الآلي الذي أعد بإشراف المنظمة العربية للعلوم.
يعتمد المعالج الصرفي لمركز التراث على معالجة مفردة واحدة حسب اختيار المستخدم، ويباشر بإظهار أهم الجذور المتاحة لتلك المفردة في الموسوعة قيد الدراسة، مع إتاحة الفرصة لانتقاء الجذر المناسب لعملية البحث، بالمقابل فإن المحلل الصرفي الآلي للمنظمة العربية للتربية والثقافة والعلوم فيعمل بمفرده بعيدًا عن دائرة الموسوعات، لتوفير معلومات مفيدة عن خصائص الصرف العربي، بيد أن بيئة عمله تنحصر ضمن بيئة MS-DOS التي لا توفر الإمكانيات الرسومية الفريدة التي تتيحها بيئتي Windows 98/ 2000 فلا يرقى في إمكانياته إلى سابقيه، ويقتصر في استخدامه على المستخدم الذي يعنى بالصرف العربي ضمن المستويات المبتدئة فحسب.
ويلاحظ أن المعالج الصرفي الآلي متعدد الأطوار يمتاز بآلية عمل متقدمة من الناحيتين البرمجية البحتة، والمعالجة الصرفية واللغوية، الأمر الذي جعله يتبوأ مكانة بارزة في ميدان البحث الحاسوبي بالموسوعات، ونظرًا لخلو الساحة العربية من محللات صرفية آلية ترقى إلى مستواه الرصين في المنطق اللغوي، والبرمجي المحكم، سنحاول دراسة آلية عمله، لفهم المزيد عن هيكليته الصرفية اللغوية البرمجية.
4/ 1- المحلل الصرفي الآلي متعدد الأطوار:
يتألف المحلل الصرفي الآلي متعدد الأطوار من أربع معالجات ثانوية، تعمل بصورة متكاملة لتحقيق الغاية التي تهدف إليها عملية الحوسبة الصرفية للنصوص العربية، انظر شكل رقم (1)، وكما يأتي:
أولاً: المعالج الصرف نحوي:
يقوم هذا المعالج بتفكيك الكلمة قيد التحليل عن طريق إزالة ما يتصل بها من سوابق (كالأدوات والحروف)، ولواحق (كالضمائر المتصلة، وزوائد التصريف، وعلامات الإعراب)، كذلك يعمد إلى رد التعديلات الفونولوجية التي تتم على حدود عناصر البنية الصرفية للكلمة إلى أصلها، كي تصبح صالحة لعملية المعالجة.
فعلى سبيل المثال، عند مباشرة هذا المعالج بعملية تفكيك الكلمة (والدين)، يظهر أمامه أكثر من احتمال لعملية التفكيك الصرف نحوي، وكما يلي:
الاحتمال الأول: "والد" + "ين" (مثنى مذكَّر).
الاحتمال الثاني: "والد" + "ين" (جمع مذكَّر سالم).
الاحتمال الثالث: "و" + "الدَّين" (كلمة الدَّين من الفعل الثلاثي "دان").
الاحتمال الرابع: " و " + " الدِّين " (كلمة الدِّين من الفعل الثلاثي "دان").
ولتلافي الضياع في متاهات تحليل المبنيات؛ كالضمائر، وحروف الجر، وظرفي الزمان والمكان، تم توفير آلية ذكية يمكن أن توظف من خلال هذا المعالج لمقارنة جذع الكلمة المفككة مع قائمة من الكلم المبني باللغة العربية (Thalouth,B. & A., Al-Dannan, 1986: 5).
ثانيًا: المعالج الاشتقاقي:
يباشر المعالج الاشتقاقي عمله باستخلاص الجذور، والصيغة الصرفية من الجذع، أو الجذوع، التي قام بتفكيكها المعالج الصرف نحوي، مع افتراض عدم وجود علامات التشكيل، تبدأ عملية الاستخلاص بمقارنة سلسلة حروف الجذع مع قائمة قوالب الهياكل الصرفية التي تتضمنها قاعدة بياناته، فعند تطابق سلسلة الحروف مع أحد الهياكل الصرفية، يقوم المستخلص بتمييز حروف الجذور المناظرة لحروف الفعللة الواردة في الهيكل المطابق.
بعد استخلاص الجذر، يقارن بمعجم الجذور المسموح بها في اللغة العربية، للوصول إلى جذر واحد، أو بضعة جذور لهذه الكلمة، أما إذا لم يفلح المستخلص في الوصول إلى جذر مقبول (لعدم عثوره على طول جذع مكافئ في الهياكل الصرفية المتاحة)، فيعمد إلى افتراض وجود حالة، أو جملة حالات من الإبدال والإعلال، ليقوم بناءً على ذلك بتوظيف سلسلة من الافتراضات المحتملة لعكس عمليات الإبدال والإعلال، ثم يكرر بعدها الخطوات الإجرائية سالفة الذكر لحين وصوله إلى جذر مقبول.
يقدم المستخلص الاشتقاقي مخرجاته إلى المعالج الإعرابي على هيئة سلسلة الجذور، والهياكل الصرفية المحتملة لجذور الكلمة، وعلى الوجه التالي:
الجدول (1) مخرجات المستخلص الاشتقاقي المحتملة لكلمة والدين.
ت الجذر الوزن الاحتمال المصرفي 1. دِين فِعل والدِّين 2. دَين فَعل والدَّين 3. ولد فاعل والِدِين 4. ولد فاعل والِدَين
ثالثًا: المعالج الإعرابي:
تصبح الحالة الإعرابية للكلمة هدفًا لهذا النظام، حيث يعمد إلى تمييزها بناءً على الوسم الإعرابي الذي تتضمنه، ممثلاً في الإعراب بالحروف، أو علامات حركات التشكيل الظاهرة، أو الحذف أحيانًا (علي، 1988: 312).
يتبع
ساعد في نشر والارتقاء بنا عبر مشاركة رأيك في الفيس بوك
|