
• محققان گوگل یک مدل هوش مصنوعی جدید ارائه کردند که می تواند ویدیوهای واقعی را از ورودی های متن کوتاه تولید کند.
• Lumiere متفاوت از مدل های موجود تولید ویدیو عمل می کند و بر حرکت اجسام در تصویر تمرکز می کند.
• این مدل در هر ویدیویی که میسازد فریم های بیشتری نسبت به Stable Video Diffusion تولید می کند.
گوگل از مدل جدید تبدیل متن به ویدیو رونمایی کرده است که قادر به تولید ویدیوهای واقعی از ورودی های متن کوتاه است.Lumiere ویدیوهایی ایجاد می کند که حرکت واقعی را به نمایش می گذارد و حتی می تواند از تصاویر و ویدیوهای دیگر به عنوان ورودی برای بهبود نتایج استفاده کند. Lumiere که در مقالهای با عنوان «مدل انتشار فضا-زمان برای تولید ویدیو» معرفی شد، متفاوت از مدلهای تولید ویدیوی موجود است. این مدل قادر است بر خلاف دیگر مدل های تولید ویدیو از متن یک ویدیو با مدت زمان موقت ویدیو را به یکباره و بدون درگیر کردن کاربر با برخی اتفاقات پشت پرده مثل لود شدن ویدیو ساخته شده، تولید کند. به زبان ساده، Lumiere بر حرکت اشیاء در تصویر تمرکز میکند، در حالی که سیستمهای قبلی، حرکت در ویدئویی را از فریمهای کلیدی که حرکت قبلاً در آن اتفاق افتاده است، استخراج میکند. این مدل قادر به تولید ویدئوهای متشکل از 80 فریم است در حالی که Stability's Stable Video Diffusion دارای 14 و 25 فریم است. هرچه تعداد فریمها بیشتر باشد، حرکت ویدیو روانتر و کیفیت آن بیشتر است. طبق گفته تیم گوگل، Lumiere در تستهای مختلف، از جمله آزمایشهای صفر شات، از مدلهای تولید ویدیوی رقیب مانند Pika، Meta و Runway بهتر عمل میکند. محققان همچنین ادعا میکنند که Lumiere خروجیهای به دست آمده را در نتیجه رویکرد جایگزین خود تولید میکند. آنها ادعا میکنند که خروجیهای Lumiere میتوانند در کارهای ایجاد محتوا و ویرایش ویدیو، از جمله نقاشی درونی ویدیو و تولید سبک مورد استفاده قرار گیرد.
پاسخ :