تكنولوجيا

لوميير | جوجل تُطلق نموذجها الجديد لتوليد الفيديو بالذكاء الاصطناعي

أعلنت جوجل منذ أيام عن نظامها الجديد لتوليد مقاطع الفيديو بالذكاء الاصطناعي، والذي أطلقت عليه اسم لوميير (Lumiere)، وذلك بعد نشر تفاصيل نموذجها الجديد للذكاء الاصطناعي التوليدي في ورقةً بحثيةً يوم 23 يناير الجاري. ونشرت جوجل مقطعًا على اليوتيوب يُظهر بعض الأمثلة التي نجح لوميير في توليدها، إذ يعمل على توليد مقاطع الفيديو من خلال تحويل النصوص التي تصف المقطع المرغوب.

وقد كشفت جوجل أيضًا أن نظام لوميير سيكون قادرًا على تحويل الصور إلى فيديوهات، أو الدمج بين الصور والوصف النصي لإنتاج مقاطع معينة، في استعراض لقدرات الذكاء الاصطناعي متعدد الوسائط، والتي تتميز بها جوجل عبر نماذج جيمناي الخارقة التي أطلقتها مؤخرًا في نهاية العام الماضي.

كيف يعمل نموذج لوميير؟

يعتمد نموذج لوميير على معمارية جديدة غير مسبوقة ومختلفة عن النماذج المماثلة لتوليد الفيديو، إذ يعمل النموذج على توليد المقطع بشكل كامل في عملية واحدة. وهنا يختلف لوميير عن النماذج الأخرى التي تُنتج الإطارات الرئيسية الخاصة بالمقطع في البداية، ثم تعمل على تحريكها في عملية أخرى لإنتاج المقطع بشكل نهائي حسب مدته الزمنية التي يحددها المستخدم. ولهذا، تُظهر المقاطع المُولدة بواسطة لوميير حركةً واقعيةً ومتناغمةً إلى حد كبير، دون أي تقطيع ملحوظ بين الإطارات كما هو موجود في المقاطع المُولدة بواسطة النماذج الأخرى.

وبالتالي، تصف جوجل نموذجها الجديد بالنموذج «الزمكاني»، وذلك بسبب قدرته على توليد (المكان) حيث تقع أحداث المقطع، بالإضافة إلى معالجة الجانب (الزمني) للمقطع؛ والذي يتضمن مدة المقطع والطريقة التي تتحرك بها العناصر الرئيسية داخله، وكل ذلك في عملية واحدة من المعالجة.

وكشفت جوجل في إعلانها عن القدرات التي يتميز بها لوميير، والتي تتضمن تحويل النصوص إلى مقاطع فيديو، وتحريك الصور الثابتة، أو تحريك عناصر معينة داخل الصور الثابتة. فعلى السبيل المثال، أظهرت جوجل صورةً حددت فيها بعض الأجزاء المعينة مثل أجنحة فراشة، والتي تمكن النموذج من تحريكها وتحويلها إلى صورة GIF متحركة لفراشة ترفرف أجنحتها أعلى الزهور.

ويتمكن لوميير أيضًا من التعديل الفيديوهات، إذ أظهرت جوجل قدراته على تغيير الملابس التي يرتديها الأشخاص داخل الفيديوهات على سبيل المثال، كما كشفت عن إمكانية تحويل المقاطع الواقعية إلى مقاطع كارتونية، أو مرسومة بنمط بعض الألعاب الشهيرة من الليغو أو ماينكرافت!

في البداية، سيعمل لوميير على توليد مقاطع مدتها الزمنية 5 ثوانٍ فقط، وبدقة 1024 × 1024 بكسل، وتعترف جوجل أن هذه المقاطع ذات دقة منخفضة، ولكن أوضح الباحثون أنهم في الوقت الحالي يهتمون فقط بجودة التوليد، وأن هذه الدقة تعتبر أفضل من أغلب النماذج المنافسة رغم انخفاضها. ويُذكر أيضًا أن مقاطع لوميير تتميز بنعومة وتناغم بين الإطارات مقارنةً بقاطع النماذج الأخرى، وذلك بفضل قدراته على توليد الفيديو في عملية واحدة.

تدريب لوميير

بدأت جوجل في تطوير نموذجها لتوليد مقاطع الفيديو منذ عدة أعوام، وفي أكتوبر 2022، أعلنت جوجل عن نموذجها الأول لتوليد الصور والفيديو، والذي كان باسم Imagen Video، وكان قادرًا على توليد المقاطع القصيرة بدقة 1280 × 768 بكسل مع معدل إطارات 24 إطارًا في الثانية، ولكن لم تكن الإطارات متناغمة بشكل مُتقن، كمان كانت جودة التوليد سيئةً للغاية.

 واستمرت جوجل منذ ذلك الحين في تطوير وتدريب نموذجها ليخرج إلينا باسمه الجديد لوميير، إذ كشفت جوجل أنها استعانت بأكثر من 30 مليون مقطع فيديو لتدريب هذا النموذج، مع أوصاف نصية لكل مقطع حتى يتمكن النموذج من تعلم الأنماط المختلفة التي تربط بين النصوص والمقاطع. وكانت المقاطع المستخدمة في تدريب هذا النموذج تحتوي على 80 إطارًا مختلفًا، مع معدل تحديث للإطارات يصل إلى 16 إطارًا فقط في الثانية، وذلك لرفع دقة التدريب عند النموذج.

لم تكشف جوجل بعد عن موعد إطلاق هذا النموذج، كما لم تضمن المقاطع الترويجية المُولدة بواسطة لوميير أي شخصيات بشرية مُولدة بالكامل من خلال النموذج، إذ ما زال توليد الصور المتحركة للبشر أمرًا صعبًا على نماذج الذكاء الاصطناعي، ولكن يحتاج الأمر إلى مزيد من التدريب فقط، وهنا نتذكر كيف كانت نماذج توليد الصور تُنتج البشر بشكل مشوه للغاية في البداية، حتى أصبحت الآن قادرةً على توليد صور بشرية واقعية في غاية الدقة والجمال.

?xml>