كشف فريق "Qwen" التابع لشركة علي بابا الصينية، يوم الاثنين، عن عائلة جديدة من نماذج الذكاء الاصطناعي يمكنها القيام بعدة مهام منها التحكم بعض الشيء في الهواتف والحواسيب.
وتحمل المجموعة اسم "Qwen2.5-VL"، وتضم نماذج قادرة على تحليل النصوص والصور والملفات وفهم مقاطع الفيديو والإجابة عن أسئلة بشأنها.
ووفقًا لفريق "Qwen"، فإن أفضل نموذج بالمجموع، وهو "Qwen2.5-VL"، يتفوق على نموذج "GPT-4o" من شركة "OpenAI" و"Gemini 2.0 Flash" من "غوغل"، في مجموعة من تقييمات فهم الفيديو والرياضيات وتحليل المستندات والإجابة على الأسئلة.
و"Qwen2.5-VL" متاح للاختبار في تطبيق "Qwen Cha" التابع لشركة علي بابا، وللتنزيل من على منصة تطوير الذكاء الاصطناعي "Hugging Face"، بحسب تقرير لموقع "TechCrunch" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business".
ويمكن للنموذج تحليل الرسوم البيانية، واستخراج البيانات من الصور الضوئية للفواتير، وهو قادر على "فهم" مقاطع الفيديو التي تستغرق عدة ساعات.
وتتمثل إحدى الميزات الأكثر إثارة للاهتمام في "Qwen2.5-VL" في قدرته على التفاعل مع البرامج، سواء على أجهزة الكمبيوتر الشخصية أو الأجهزة المحمولة.
ويمكن للنموذج التحكم في التطبيقات على الهواتف والحواسيب، فهو قادر على فتح تطبيق "Booking" على جهاز أندرويد وحجز رحلة عبره.
كما ظهر في مقطع فيديو أن النموذج يتحكم في التطبيقات على سطح مكتب حاسوب، لكنه لم يقم بالكثير من المهام بخلاف التبديل بين علامات التبويب.
وتضم العائلة التي كشف عنها فريق "Qwen" نموذجين أصغر وأقل تطورًا هما " Qwen2.5-VL-3B" و" Qwen2.5-VL-7B".
ويعتبر فريق "Qwen" التابع لشركة علي بابا أحد أكبر المنافسين المحليين لمختبر الذكاء الاصطناعي الصيني "DeepSeek" التي حاز باهتمام كبير من صناعة التكنولوجيا هذا الأسبوع.