دراسة تكشف ضعف الذكاء الاصطناعي في تحديد الوقت من الصور

تواجه النماذج اللغوية الكبيرة متعددة الوسائط تحديات كبيرة في مهمة بسيطة لكنها جوهرية، وهي تحديد الوقت من الصور.
كشفت دراسة حديثة أجراها باحثون في جامعة إدنبرة أن الذكاء الاصطناعي، رغم قدرته على كتابة الروايات والتنبؤ بالبنية الجزيئية للبروتينات، يعاني من صعوبة في قراءة الوقت من الساعات التناظرية والتقويمات الزمنية.
نتائج الدراسة: ضعف في تحليل الوقت بصريًا
اختبر الباحثون سبعة نماذج لغوية كبيرة، منها:
- GPT-4o وGPT-o1 من شركة OpenAI
- Gemini 2.0 من Google DeepMind
- Claude 3.5 Sonnet من Anthropic
- Llama 3.2-11B-Vision-Instruct من Meta
- Qwen2-VL7B-Instruct من Alibaba
- MiniCPM-V-2.6 من ModelBest
تم تزويد هذه النماذج بصور متنوعة لساعات تناظرية، بعضها بأرقام رومانية وأخرى بألوان مختلفة، بالإضافة إلى صور لتقويمات تغطي عشر سنوات، ثم طُلب منها الإجابة عن أسئلة مثل: "ما هو الوقت الموضح في الساعة؟" أو "ما هو اليوم 153 من السنة؟".
أداء متواضع في تحديد الوقت
أظهرت النتائج أن الذكاء الاصطناعي فشل في قراءة الوقت بدقة في معظم الحالات:
- قراءة الوقت من الساعات التناظرية كانت صحيحة في أقل من 25% من الحالات.
- النماذج واجهت صعوبة خاصة مع الساعات ذات الأرقام الرومانية والعقارب المنمقة، مما يشير إلى مشاكل في تفسير زوايا العقارب.
- مهمة التقويم كانت أقل تعقيدًا نسبيًا، حيث حقق نموذج GPT-o1 دقة بلغت 80% في الإجابة عن الأسئلة المتعلقة بالتواريخ.
لماذا يفشل الذكاء الاصطناعي في قراءة الوقت؟
يحتاج تحديد الوقت من الصور إلى مهارات معرفية معقدة تشمل:
- الإدراك البصري الدقيق: مثل القدرة على التعرف على مواضع العقارب في الساعة.
- الاستنتاج الرقمي: كحساب الفروقات الزمنية في التقويمات.