بناء مدونة خاصة لنظم الإجابة على الأسئلة البصرية

##plugins.themes.academic_pro.article.main##

مايا ابوحمود
د. وسيم صافي

الملخص

تعد نظم الإجابة عن الأسئلة البصرية VQA (Visual Question Answering) من المجالات الحديثة في علوم الذكاء الصنعي والتعلم العميق، حيث تدمج بين معالجة الصور وفهم اللغة الطبيعية بهدف تمكين النظم الذكية من الإجابة على الأسئلة المتعلقة بمحتوى الصور. تكمن أهمية هذه النظم في قدرتها على تفسير وتحليل الصور بطريقة مشابهة لفهم البشر، مما يتيح تطبيقاتها في العديد من المجالات الحيوية. تقدم نظم الإجابة على الأسئلة البصرية خطوة مهمة نحو تطوير نظم ذكاء صنعي متقدمة قادرة على الربط بين الرؤية الحاسوبية وفهم اللغة البشرية لتحقيق تفاعل أعمق وأكثر تكاملاً مع العالم الواقعي. سعت هذه الدراسة الى استكشاف وتحليل أساليب وتقنيات الإجابة على الأسئلة البصرية بشكل شامل. وتمحور اهتمامها حول بناء نموذج للإجابة على الأسئلة البصرية، مع التركيز على تصميم وتنفيذ نموذج قادر على تحليل وفهم الصور والإجابة على الاستفسارات المتعلقة بها. قمنا في هذه الورقة البحثية، بتطوير نظام للإجابة على الأسئلة البصرية VQA يعتمد على تقنيات الذكاء الصنعي والتعلم العميق، حيث استعملنا نموذج VGG19 (Visual Geometry Group) لاستخراج سمات الصور مع تمثيل النصوص باستخدام تقنيات GloVe وLabel Encoding للأسئلة والأجوبة. تم تدريب النموذج باستخدام قاعدة بيانات MSCOCO (Microsoft Common Objects in Context)، والتي تحتوي على صور وأسئلة متنوعة، مع تحسين الأداء من خلال العديد من التجارب لتعديل معاملات التدريب. حقق النموذج نتائج دقة ملحوظة مقارنة مع أبحاث سابقة، حيث بلغ معيار F1 Score لدقة التدريب 44.23% وللتصحيح 42.97%. أظهرت نتائج المقارنة تفوق نموذجنا قليلاً على نماذج أخرى تعتمد على VGG19 في نفس قاعدة البيانات. جرى تطوير منصة ويب لاختبار النظام، مما يسمح بتقييم دقة الإجابات واستخدام النموذج على صور جديدة أو صور من قاعدة البيانات.

##plugins.themes.academic_pro.article.details##

كيفية الاقتباس
ابوحمود م., & صافي و. (2025). بناء مدونة خاصة لنظم الإجابة على الأسئلة البصرية. مجلة العلم والابتكار السورية, 3(1). استرجع في من https://submit.hcsr.gov.sy/index.php/sjsi/article/view/358