بناء نظام للتعرف على الكلام المنطوق باللغة العربية باستخدام النموذج HuBERT ودراسة مصادر الأخطاء الخاصة باللغة العربية والناتجة عن نظام التعرف
##plugins.themes.academic_pro.article.main##
الملخص
تعرض هذه الورقة تطوير نظام تعرف على الكلام المنطوق باللغة العربية بحالة الكلام المتواصل وعدد الكلمات كبير جداً ومستقل عن المتكلم، باستخدام النماذج العصبونية العميقة المدربة بطريقة التعلم الذاتي. تم بناء نظام التعرف باستخدام النموذجHuBERT وحصلنا على نسبة خطأ WER تساوي 19.3%. تبين من خلال الدراسة على مجموعة معطيات مختلفة عن مجموعة المعطيات التي تم التدريب عليها إن النظام المبني على النموذج HuBERT يمتلك قدرة كبيرة على التعميم على اللهجات المحكية. بعدها قمنا بدراسة إحصائية للأخطاء الناتجة عن نظام التعرف المبني على النموذج HuBERT توصلنا لضرورة إضافة موديل خاص بتصحيح الأخطاء لرفع دقة النظام. وحصلنا على نسبة خطأ تساوي 10.7% بعد بناء وإضافة نموذج اللغة الخاص باللغة العربية.
##plugins.themes.academic_pro.article.details##

هذا العمل مرخص بموجب Creative Commons Attribution 4.0 International License.