أعلن فريق Qwen التابع لشركة Alibaba عن مجموعة نماذج جديدة للذكاء الاصطناعي تسمى Qwen2.5-VL تتمتع بقدرات متقدمة لتحليل النصوص والصور، بما في ذلك فهم الفيديو وتحليل المستندات والتحكم بالكمبيوتر كعامل ذكاء اصطناعي. هذا مشغل اصطناعي تم الإعلان عنه مؤخرًا بواسطة OpenAI.
ووفقًا لاختبارات الأداء التي أجراها فريق Qwen، فإن النموذج الأعلى من السلسلة الجديدة المسمى Qwen2.5-VL-72B يتفوق على النماذج الرائدة مثل OpenAI GPT-4o، وAnthropic Claude 3.5 Sonnet، وGoogle Gemini 2.0 Flash. المهام المتعلقة بفهم الفيديو والحساب وتحليل المستندات.
وتُتاح نماذج Qwen2.5-VL للتجربة عبر تطبيق Qwen Chat من علي بابا، كما يمكن تنزيلها من منصة Hugging Face للمطورين. وتتيح النماذج تحليل الرسوم البيانية والجداول، واستخراج البيانات من الفواتير والنماذج الممسوحة ضوئيًا، وفهم محتوى مقاطع الفيديو الطويلة. كما أنها قادرة على تعرّف شخصيات وأعمال فنية من الأفلام والمسلسلات، بالإضافة إلى مجموعة متنوعة من المنتجات، وهو ما يشير إلى احتمالية تدريبها جزئيًا على مواد محمية بحقوق الطبع والنشر، وفقًا لتقارير صحفية.
ومن المزايا المثيرة في Qwen2.5-VL قدرته على التحكم في التطبيقات والأجهزة، سواء كانت تعمل في أنظمة الحواسيب أو الهواتف المحمولة. وقد استعرض أحد الخبراء الفنيين في منصة Hugging Face فيديو يظهر فيه النموذج وهو يستخدم تطبيق حجز الفنادق والطيران “بوكينج” لحجز رحلة طيران إلى بكين. ومع ذلك، تُظهر اختبارات الأداء أن النموذج يواجه تحديات في البيئات الحاسوبية المعقدة، إذ سجّل نتائج ضعيفة في اختبارات OSWorld.
تحتوي سلسلة Qwen2.5-VL على نماذج بأحجام مختلفة، مثل Qwen2.5-VL-3B وQwen2.5-VL-7B، والتي يتم تقديمها بموجب تراخيص متساهلة، ولكن الطراز الرائد، Qwen2 The.5- يتم تقديم VL-72B بموجب ترخيص خاص من علي. تطلب شركة علي بابا من الشركات والمطورين الذين لديهم أكثر من 100 مليون مستخدم نشط شهريًا الحصول على إذن خاص للاستخدام التجاري.
ومع هذا الإطلاق، تواصل علي بابا تعزيز مكانتها في سباق الذكاء الاصطناعي العالمي، بهدف تقديم حلول مبتكرة تلبي احتياجات كل من المستخدمين والمطورين، وإظهار الاختراقات مثل DeepSeek الصينية.


