لفت Sora الجديد من OpenAI إنتباه الجميع إلى أدوات الفيديو الأخرى التي تعمل بالذكاء الاصطناعي - وهذا هو السبب
OpenAI
شركة OpenAI كشفت عن نموذج فيديو جديد للذكاء الاصطناعي يسمى Sora والذي يجعل أدوات فيديو الذكاء الاصطناعي السابقة تبدو وكأنها ألعاب في هذا المقال عنوانا يكون لفت Sora الجديد من OpenAI إنتباه الجميع إلى أدوات الفيديو الأخرى التي تعمل بالذكاء الاصطناعي – وهذا هو السبب .
يتمتع Sora بواقعية لا تصدق حيث يمكنه إنشاء مقاطع متسقة مدتها دقيقة واحدة مع لقطات متعددة – كل ذلك من خلال رسالة نصية واحدة.
لكن يجب العلم أنك لن تتمكن من استخدامه لفترة من الوقت.
لأنه وفقا لمتحدث باسم الشركة التي تحدثت إليها “هناك مشكلات تتعلق بالسلامة يجب حلها أولا.
مكن أنلذدز تتجول أحيانًا في الوادي الغريب وتبدو وكأنها عرض واقعي للغاية في Unrئeal Engine أكثر من كونها كاميرا حقيقية، لكنها لا تزال مثيرة للإعجاب.
السؤال هنا كيف تمكنت OpenAI من تحقيق “لحظة ChatGPT للفيديو التوليدي” وما الذي يتعين على النماذج الأخرى فعله للحاق بالركب؟
يبدو أن الجواب هو “جمع المزيد من المال”.
عناصر الموضوع
الأمر كله يتعلق بقوة الحوسبة
جمعت OpenAI أكثر من 11 مليار دولار من التمويل منذ إنشائها أغلبها من مايكروسوفت.
يسعى الرئيس التنفيذي لها لجمع ما يصل إلى 7 تريليون دولار لإنشاء شبكة من مصانع شرائح الذكاء الاصطناعي العالمية لتعزيز خدمة الحاجة المتزايدة لقوة المعالجة.
وهذا يكاد يعادل الناتج المحلي الإجمالي لألمانيا وفرنسا مجتمعتين.
في حين أن التطورات الرئيسية التي شوهدت في Sora لا تتعلق بالكامل بالمال أو موارد الحوسبة، إلا أنها تلعب دورًا كبيرًا.
يتحدث السطر الأول من الورقة البحثية عن استخدام التدريب واسع النطاق لتحسين جودة ومدة نماذج الانتشار.
The scale seems to be the big breakthrough with Sora.
— Ryan Morrison (@RyanMorrisonJer) February 16, 2024
أخبار أخرى
إحدى الشركات التي قامت ببناء Stable Diffusion وقادت تطوير نماذج الانتشار قالت أن العمل على Sora “يثبت أنه يمكنك التوسع بأي طريقة تقريبًا”.
StabilityAI تعمل مع وسائط متعددة بما في ذلك الصوت والصورة والفيديو والنص.
تحدث موستيك أثناء محادثة على X أن الشركة تحتاج إلى “الحصول على المزيد من الحوسبة” للمنافسة والوصول إلى هذا المستويات.
كشفت OpenAI عن ثلاثة مقاطع فيديو توضح قيمة الحوسبة المتزايدة، والانتقال من مخلوق مرعب قريب من الكلب إلى كلب واقعي تمامًا وإنسان يقفز في الثلج.
نقدم لكم Sora، نموذجنا لتحويل النص إلى فيديو. يمكن لـ Sora إنشاء مقاطع فيديو تصل مدتها إلى 60 ثانية تتميز بمشاهد مفصلة للغاية.
بالإضافة إلى حركة كاميرا معقدة وشخصيات متعددة ذات مشاعر نابضة بالحياة.لمنظر جميل ثلجي …15 فبراير
يبدو أن مقاطع الفيديو التي يتم إنشاؤها بواسطة الذكاء الاصطناعي هي عالمية حيث يبلغ معدل المقاطع حوالي 24 إطارا في الثانية.
كذلك تستمر حوالي ثلاث ثوانٍ وتكون بجودة HD منخفضة.
خرج Sora من البوابة بسلسلة من المقاطع النموذجية، بما في ذلك تلك التي تم إنشاؤها استجابة لطلبات المستخدمين على X.
يصل طولها إلى دقيقة واحدة وبدقة أعلى. يعد هذا تغييرًا تدريجيًا في الفيديو الذي تم إنشاؤه ويعد بقدرات مماثلة مثل Google Lumiere.
الاختلاف المهم الآخر، والذي يأتي على الأرجح من القدرة على إنشاء مقطع أطول بنقرة واحدة، هو لقطات متعددة داخل المقطع الذي تم إنشاؤه.
أحد الأمثلة الرائعة يأتي في شكل رائد فضاء يستعد للانطلاق مع طلقات تقفز بين الرجل والآلة.
خلق محاكاة للعالم كله
“تشير النتائج إلى أن توسيع نطاق نماذج توليد الفيديو يعد طريقًا واعدًا نحو بناء أجهزة محاكاة للأغراض العامة للعالم المادي”، حسبما أعلن بحث OpenAI.
يعد هذا أحد الأهداف الرئيسية لجميع أدوات الفيديو المدعومة بالذكاء الاصطناعي. إنشاء آلية لفهم العالم بأكمله كما يراه البشر، ثم استخدامها لإنشاء فيديو واقعي.
أحد مختبرات الفيديو الرائدة Runway في مجال AI، يعمل على General World Models.
كتب على X: “نعتقد أن التقدم الرئيسي التالي في AI سيأتي من الأنظمة التي تفهم العالم المرئي وديناميكياته،
لهذا السبب نبدأ جهد بحثي جديد طويل الأمد حول نماذج العالم العامة.”
أيضا نشير إلى أن شركة Meta تعمل على تدريب نماذج الذكاء الاصطناعي لجعلهم يشاهدون ويخرجون الفيديو.
V-JEPA وهي طريقة جديدة لتعليم الآلات فهم العالم المادي ونمذجةه من خلال مقاطع الفيديو.
لقد تم تدريبهم على هدف التنبؤ بالميزات، وفي أحد الأمثلة، يعزف الرئيس التنفيذي مارك زوكربيرج على الجيتار، ويحجب نمط العزف ويمكن لـ V-JEPA تكراره.
ماذا يعني هذا بالنسبة لمستقبل فيديو الذكاء الاصطناعي؟
كأنك تذهب إلى Watch it وبدلاً من البحث عن فيلم ستكتب “اصنع لي فيلمًا وثائقيًا عن مخلوقات خيالية باستخدام صوت عادل إمام”وهي سوف تولدها من تلك المطالبة.
ما زال هذا طريقا طويلا، على الرغم من أننا تمكنا من خلال بضع خطوات إضافية من إنشاء مقطع دعائي للذكاء الاصطناعي لعرض خيالي مماثل.
ستستخدم أدوات تحرير الفيديو فيديو الذكاء الاصطناعي “لملء الفجوات” أو استبدال اللقطات المفقودة.
welcome to bling zoo! this is a single video generated by sora, shot changes and all. https://t.co/81ZhYX4gru pic.twitter.com/rnxWXY71Gr
— Bill Peebles (@billpeeb) February 15, 2024
الفائدة الحقيقية هي خلق فهم أعمق للذكاء الاصطناعي في العالم.
أوضح جيم فان، عالم الأبحاث وخبير وكيل الذكاء الاصطناعي في Nvidia، أن Sora في جوهره هو محرك فيزيائي.
أي أنه محاكاة لعوالم عديدة، حقيقية أو خيالية” وأن المحاكاة تجعل الفيزياء والتفكير والأساس بديهي.
ويتوقع أن يكون Sora قد تم تدريبه على البيانات الاصطناعية، مثل العروض الواقعية للغاية الممكنة باستخدام Unreal Engine 5.
من المتوقع أن يساعد sora على فهم الفيزياء لأنها ستحتوي على بيانات تفصيلية لكل جانب من جوانب البيئة.
ويعني هذا أيضا أنه يمكننا رؤية بيئات الفيديو هذه وقد عادت مرة أخرى إلى عوالم ثلاثية الأبعاد.
كذلك إنشاء بيئات افتراضية أو بيئات ألعاب في الوقت الفعلي لسماعات الرأس Vision Pro أو Quest.
شاهد المزيد على عرب تكنولوجي