أعلنت NVIDIA عن نموذج تجريبي جديد للذكاء الاصطناعي يسمى Foundational Geneative Audio Transformer Opus 1. يطلق عليه اختصارًا اسم “Fugatto” وهو نموذج مصمم بشكل أساسي للاستخدام الصوتي.
يشتهر هذا النموذج بقدرته على إنشاء الأصوات وتعديل ملفات الموسيقى والصوت والملفات الصوتية بناءً على الأوامر النصية. تم تطوير Fugatto بواسطة فريق من الباحثين في مجال الذكاء الاصطناعي من جميع أنحاء العالم وقام بتوسيع قدراته المتعددة اللهجات واللغات.
وقال رافائيل فالي، أحد الباحثين في المشروع ومدير الأبحاث الصوتية التطبيقية في نفيديا: “أردنا تطوير نموذج يفهم الصوت ويعيد إنتاجه بنفس الطريقة التي يفعلها البشر”.
وأشارت الشركة في بيانها إلى عدد من الاستخدامات العملية للنموذج، مثل تمكين منتجي الصوت من إنشاء نماذج أولية للأفكار الموسيقية بسرعة، مع إمكانية تعديلها بسهولة لتجربة أنماط وأصوات وآلات موسيقية مختلفة.
يمكن استخدام هذا النموذج لتطوير أدوات تعلم اللغة بصوت قابل للتخصيص، ويسمح لمطوري ألعاب الفيديو بإنشاء إصدارات متعددة من الأصول الصوتية المسجلة مسبقًا بناءً على اختيارات اللاعب وإجراءاته.
ووجد الباحثون أيضًا أنه مع تعديلات طفيفة، يمكن للنموذج أداء مهام لم تكن مدرجة في تدريبه الأولي. على سبيل المثال، يمكنك توليد خطاب غاضب بلكنة معينة أو إنشاء صوت زقزقة الطيور وسط عاصفة رعدية. يتمتع Fugatto أيضًا بالقدرة على توليد أصوات تتغير بمرور الوقت، مثل صوت قطار يتحرك عبر منطقة معينة.
لم تعلن NVIDIA ما إذا كانت ستطلق هذا النموذج للجمهور. إن Fugatto ليس النموذج الأول من نوعه. أصدرت Meta سابقًا مجموعة أدوات مفتوحة المصدر للذكاء الاصطناعي تولد الصوت من أوصاف النص، وتقدم Google أيضًا نموذجها الخاص لتحويل النص إلى صوت، MusicLM.


