أعلنت Meta عن نموذج ذكاء اصطناعي جديد يسمى CM3Leon. تدعي أنها الأفضل في فئتها في إنشاء الصور بناءً على أوامر نصية.
وفقًا لـ Meta، يتمتع هذا النموذج بأفضل أداء في إنتاج الصور التي تكون أكثر اتساقًا مع الأوامر النصية، وهو أكثر كفاءة، ويتطلب حسابًا أقل بخمس مرات، وأسهل تدريبًا من النماذج الأخرى. مجموعة البيانات الخاصة بها صغيرة.
وتعتمد معظم مولدات الصور التي تعمل بالذكاء الاصطناعي على تقنية تُعرف باسم “الانتشار Diffusion” وهي تقنية تتطلب حوسبة أكبر فضلًا عن كونها بطيئة ومكلفة لتشغيلها، وهي موجودة في أدوات مثل DALL-E التي تطورها شركة OpenAI، و Imagen التي تطورها جوجل، بالإضافة إلى Stable Diffusion وغيرها، بينما يعتمد نموذج ميتا CM3Leon على تقنية مختلفة تُعرف باسم “الاهتمام Attention” تجعل النموذج أسرع في التدرب وخلق النتائج وأقل كلفة في التشغيل.
ويتفرد نموذج “CM3Leon” بقدرته على توليد وصف للصور، مما يمهد الطريق لنماذج فهم الصور ذات القدرات الأكبر في المستقبل، وفقًا للشركة.
وقالت شركة ميتا عبر مدونتها الرسمية: “من خلال قدرات CM3Leon يمكن لأدوات توليد الصور إنتاج صور أكثر اتساقًا وفقًا للإرشادات النصية المدخلة، ونحن نعتقد أن الأداء القوي للنموذج – عبر مجموعة متنوعة من المهام – يمثل خطوة نحو تحسين جودة توليد الصور وفهمها”.
واستخدمت ميتا ملايين الصور المرخصة من شركة Shutterstock من أجل تدريب “CM3Leon”، وتحتوي أقوى نسخة من النموذج على 7 مليارات معامل، أي أكثر من ضعف ما يحتويه نموذج DALL-E 2 التابع لشركة OpenAI، ويعد المعامل Parameter وحدة قياس لمهارة النموذج وقدراته.
كما استخدمت ميتا تقنية “الضبط الدقيق تحت الإشراف” لتدريب “CM3Leon”، إذ حسنت أداء النموذج في توليد الصور وكتابة الوصف والتعليقات على الصور، مما يوفر إمكانية الإجابة عن الأسئلة حول الصور، وكذلك تعديلها باستخدام الأوامر النصية.
يمكن استخدام CM3Leon في مجموعة واسعة من التطبيقات مثل الواقع الافتراضي والواقع المعزز والروبوتات والإعلان والتسويق.
لم تذكر Meta متى سيتم إصدار نموذج CM3Leon أو ما إذا كانت تخطط لإتاحته بالكامل للجمهور، ومن المتوقع أن تكشف Meta عن مزيد من التفاصيل حول النموذج في وقت لاحق.


