هوش مصنوعی جدید Google DeepMind می تواند برای ویدیوها صدا تولید کند

مدل‌های تولید ویدیو به سرعت در حال پیشرفت هستند، با این حال بسیاری از سیستم‌های کنونی فقط ویدیوهای بی‌صدا تولید می‌کنند. یک پیشرفت قابل توجه در آینده ایجاد موسیقی متن برای این فیلم های صامت است.

Google DeepMind در حال توسعه فناوری ویدیو به صدا (V2A) است که تولید سمعی و بصری هماهنگ را امکان پذیر می کند و فیلم های تولید شده را زنده می کند.

بیایید نگاهی به جزئیات بیاندازیم.

این شرکت گفت که فناوری V2A پیکسل‌های ویدیویی را با پیام‌های متنی به زبان طبیعی ترکیب می‌کند تا «صوتی غنی برای عملکرد روی صفحه» ایجاد کند.

این فناوری با مدل‌های تولید ویدیو مانند Veo برای ایجاد عکس‌هایی با امتیاز دراماتیک، جلوه‌های صوتی واقعی یا دیالوگ‌هایی که با شخصیت‌ها و لحن یک ویدیو مطابقت دارد، جفت می‌شود.

همچنین می‌تواند برای طیف وسیعی از فیلم‌های سنتی، از جمله مطالب بایگانی، فیلم‌های صامت و موارد دیگر، موسیقی متن تولید کند – که گستره وسیع‌تری از فرصت‌های خلاقانه را باز می‌کند.

شایان ذکر است که V2A می تواند تعداد نامحدودی از موسیقی متن را برای هر ورودی ویدیویی ایجاد کند.

چگونه کار می کند؟

این شرکت گفت: «ما با رویکردهای اتورگرسیو و انتشار آزمایش کردیم تا مقیاس پذیرترین معماری هوش مصنوعی را کشف کنیم، و رویکرد مبتنی بر انتشار برای تولید صدا، واقعی‌ترین و قانع‌کننده‌ترین نتایج را برای همگام‌سازی اطلاعات ویدیویی و صوتی ارائه داد.

سیستم V2A با رمزگذاری ورودی ویدئو در یک نمایش فشرده شروع می شود. سپس مدل انتشار به طور مکرر صدا را از نویز تصادفی، با هدایت ورودی بصری و درخواست‌های زبان طبیعی، اصلاح می‌کند. این فرآیند صدای همگام‌سازی شده و واقعی را تولید می‌کند که دقیقاً با اعلان هماهنگ است. در نهایت، خروجی صدا رمزگشایی می شود، به شکل موج صوتی تبدیل می شود و با داده های ویدئویی ترکیب می شود.

برای تولید صدای با کیفیت بالاتر و افزودن توانایی هدایت مدل به سمت تولید صداهای خاص، این شرکت اطلاعاتی مانند حاشیه نویسی های تولید شده توسط هوش مصنوعی با توضیحات دقیق صدا و رونوشت های گفتگوی گفتاری را به فرآیند آموزش اضافه کرده است.

منبع digit
ممکن است شما دوست داشته باشید
ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.