هوش مصنوعی جدید Google DeepMind می تواند برای ویدیوها صدا تولید کند
مدلهای تولید ویدیو به سرعت در حال پیشرفت هستند، با این حال بسیاری از سیستمهای کنونی فقط ویدیوهای بیصدا تولید میکنند. یک پیشرفت قابل توجه در آینده ایجاد موسیقی متن برای این فیلم های صامت است.
Google DeepMind در حال توسعه فناوری ویدیو به صدا (V2A) است که تولید سمعی و بصری هماهنگ را امکان پذیر می کند و فیلم های تولید شده را زنده می کند.
بیایید نگاهی به جزئیات بیاندازیم.
این شرکت گفت که فناوری V2A پیکسلهای ویدیویی را با پیامهای متنی به زبان طبیعی ترکیب میکند تا «صوتی غنی برای عملکرد روی صفحه» ایجاد کند.
این فناوری با مدلهای تولید ویدیو مانند Veo برای ایجاد عکسهایی با امتیاز دراماتیک، جلوههای صوتی واقعی یا دیالوگهایی که با شخصیتها و لحن یک ویدیو مطابقت دارد، جفت میشود.
همچنین میتواند برای طیف وسیعی از فیلمهای سنتی، از جمله مطالب بایگانی، فیلمهای صامت و موارد دیگر، موسیقی متن تولید کند – که گستره وسیعتری از فرصتهای خلاقانه را باز میکند.
شایان ذکر است که V2A می تواند تعداد نامحدودی از موسیقی متن را برای هر ورودی ویدیویی ایجاد کند.
چگونه کار می کند؟
این شرکت گفت: «ما با رویکردهای اتورگرسیو و انتشار آزمایش کردیم تا مقیاس پذیرترین معماری هوش مصنوعی را کشف کنیم، و رویکرد مبتنی بر انتشار برای تولید صدا، واقعیترین و قانعکنندهترین نتایج را برای همگامسازی اطلاعات ویدیویی و صوتی ارائه داد.
سیستم V2A با رمزگذاری ورودی ویدئو در یک نمایش فشرده شروع می شود. سپس مدل انتشار به طور مکرر صدا را از نویز تصادفی، با هدایت ورودی بصری و درخواستهای زبان طبیعی، اصلاح میکند. این فرآیند صدای همگامسازی شده و واقعی را تولید میکند که دقیقاً با اعلان هماهنگ است. در نهایت، خروجی صدا رمزگشایی می شود، به شکل موج صوتی تبدیل می شود و با داده های ویدئویی ترکیب می شود.
برای تولید صدای با کیفیت بالاتر و افزودن توانایی هدایت مدل به سمت تولید صداهای خاص، این شرکت اطلاعاتی مانند حاشیه نویسی های تولید شده توسط هوش مصنوعی با توضیحات دقیق صدا و رونوشت های گفتگوی گفتاری را به فرآیند آموزش اضافه کرده است.