المعالجة الرقمية للغة العربية: المجال الممكن


نعمة نعمة
النهار
24042017

الفرق الذي تُحدثه حركة صغيرة في معنى كلمات مثل: “الحِلّ” والحَلّ” أو “النِفايات والنُفايات” أو “عِصاب وعُصاب” أو “يَدرس” ويُدرس”، فرق بنيوي أو لفظي أو نحوي، وغيرها الآلاف من الكلمات المستخدمة يوميّاً التي نلجأ الى تشكيلها جزئيّاً أو كليّاً لإيصال المعنى المطلوب.

لا شكّ في أن عقلنا المدرّب على قراءة الأوزان وفهمها، وتحليل الكلمات وتحريكها، يسبقنا أحيانًا ويتجاوز مقدرتنا على فهم العملية السريعة التي نحققها في قراءة نصّ عربيّ وفهمه، ولو تعثّرنا في بعض الأحيان. لكن أن تُحقّق أبحاثنا العلمية وإنتاجاتها تراجعًا عما حقّقه عقلنا من قدرات استيعابيّة للغتنا المعقّدة والغنيّة، فنُنتج ما هو أقلّ من قدرات عقلنا الفطرية ليقدمَها لنا على أنها الخيار، فهذا أمر فيه جدل، لا بل تعدٍّ على ذكائنا.

الحديث هنا ليس عن اللغة العربيّة بل عن معالجتها رقميّاً، ولا سيما بعد أن أطلقت بعض المؤسسات برامج تدقيق إملائي للغة العربية. فبعد عشرين سنة من الأبحاث في كبرى المراكز المموّلة من دول وجامعات، لم يقدّم أيّ منها ما هو قابل للإستخدام لا في التدقيق الإملائي أو في التعليم الرقمي التفاعلي أو تحقيق مورد لغوي رقميّ.

ماذا جرى خلال شهر شباط 2017؟

أطلقت شركة ناشئة من بيروت مدقّق “دال” الإملائي. بعد بضعة أيام نشر معهد قطر لبحوث الحوسبة نموذجه لمعالجة اللغة العربية والتصحيح الإملائي. “غوغل” سحب مدقّقه الإملائي من التداول على “غوغل دوك” Google docs بعد أن أعاد العمل به في نسخته المعدّلة 2016 ثم أعاده مجدداً. أما مركز البحوث التابع لجامعة الملك خالد في السعودية وشركة صخر فلم نسمع جديدهما منذ وقت. مايكروسوفت تشعر بالفضول فتعيد قراءة أبحاث “دال” العلميّة.

عند زيارتنا موقع مدقّق “دال” الإملائي نقرأ ونختبر كفاءة عالية وقدرات في تدقيق النصوص المشكولة، ولا سيما التشكيل المعجمي عموماً والإعرابي في حالتَي إتصال الكلمة بحرف جرّ أو الفعل بأداة نصب، وهذه ميزة يتفرد بها “دال”، كما أن دقّة مخرجاته التي تغطي أكثر من 99 في المئة من النصوص العربية الحديثة فهي عالية، مقارنةً ببعض المدقّقات المقترحة من مراكز وشركات عالمية.

تكثُر المعالجات الرقميّة وتُبذّر الأموال الفائضة من دون مُنتج فعّال، ولا يخضع أيٌّ من هذه المراكز للمساءلة والمحاسبة بناءً على معايير واضحة تُحدّد صلاحيّة المدقّق الإملائي العربي التي تتمثل في حالتنا في ثلاث نقاط أساسية إضافة الى التغطية المُعجمية الواسعة ودقّتها:

المعيار التصريفيّ: كل كلمة في قاموس المدقّق يجب أن يتوالد معها كامل تصريفاتها كالأفعال (ماضٍ، مضارع، أمر، مرفوع، منصوب، مجزوم، مؤكد، مذكّر مؤنث، مخاطب، غائب…) والأسماء (رفع، نصب، جرّ، مفرد، مثنّى، جمع، معرّف، نكرة، مضاف، جمع تكسير…) .

المعيار التلاصقيّ: إذا انوجدت كلمة في القاموس المصرّف، فعليها أن تحضر في جميع احتمالات سوابقها ولواحقها المتناسبة دون غيرها: كاتصال الأسماء بحروف العطف والجرّ و”الـ” التعريف كما في “وبرؤسائهم” والضمائر المتصلة، وإتصال الأفعال بحروف العطف وأداة النصب أو الجزم وإثني عشر ضميرا متصلا، كما في “فليغيروها”.

المعيار التشكيلي: إذا انوجدت كلمة مصرّفة مع أو من دون سوابقها ولواحقها، فعليها أن تحضر في كل احتمالات تشكيلها الصحيحة دون غيرها: التشكيل الكلّي أو الجزئي أو دون تشكيل، وهذه الخاصية تتفرّد بها اللغة العربية.

الناطقون بالعربية يستشعرون هذه المعايير ويطبّقونها بشكل فطري، مع بعض الثغر طبعاً. لكن الجدير ذكره أن برنامجاً حاسوبياً ذا بناء وهندسة ورؤية ألسنية منهجية وعلمية قادر على تحقيق تلك المعايير من خلال الآلة.

في تقييم مدقّق “أوفيس” 2016، وجدنا انه يحوي قاموساً واسعاً جداً من الكلمات/الأشكال، يغطي بنسبة عالية (لكن ليست كاملة) ثغر المعيارين التصريفيّ والتلاصقيّ؛ أما معيار التشكيل الجزئيّ والكليّ فهو غائب، لذلك نرى تدقيقهم يستثني الحركات لعجزهم عن هندسة ترميز علمي يتضمن تغطية التشكيل في اللغة العربية.

اضف رد

لن يتم نشر البريد الإلكتروني . الحقول المطلوبة مشار لها بـ *

*