تبلیغات
هوش مصنوعی

گوگل از Gemma 4 12B رونمایی کرد؛ هوش مصنوعی چندرسانه‌ای که روی لپ‌تاپ‌های معمولی اجرا می‌شود

گوگل از مدل هوش مصنوعی جدیدی با نام Gemma 4 12B رونمایی کرده است. این شرکت از Gemma 4 12B به‌عنوان یک «ترنسفورمر یکپارچه» یاد می‌کند که برای ارائه قابلیت‌های هوش مصنوعی چندرسانه‌ای و عامل‌محور (Agentic AI) به‌صورت محلی روی لپ‌تاپ‌ها طراحی شده است.

این مدل در خانواده Gemma بین نسخه سبک‌تر Gemma E4B و مدل پیشرفته 26B Mixture of Experts (MoE) قرار می‌گیرد و تلاش می‌کند تعادلی میان عملکرد و بهره‌وری ایجاد کند.

گوگل همچنین اعلام کرده که مجموع دانلودهای خانواده مدل‌های Gemma از مرز ۱۵۰ میلیون دانلود عبور کرده است. به گفته این شرکت، توسعه‌دهندگان از این مدل‌ها در پروژه‌های متنوعی از بازوهای رباتیک پوشیدنی گرفته تا راهکارهای امنیتی سازمانی استفاده کرده‌اند.

قابلیت‌های کلیدی Gemma 4 12B

یکی از مهم‌ترین ویژگی‌های Gemma 4 12B این است که می‌تواند روی دستگاه‌هایی با تنها ۱۶ گیگابایت رم یا حافظه گرافیکی (VRAM) اجرا شود. گوگل می‌گوید این مدل در کنار ارائه توانایی‌های پیشرفته استدلال و تحلیل، مصرف حافظه نسبتاً کمی دارد.

همچنین Gemma 4 12B نخستین مدل میان‌رده گوگل است که به‌صورت بومی از ورودی صوتی پشتیبانی می‌کند.

برخلاف بسیاری از مدل‌های چندرسانه‌ای که برای پردازش تصویر و صدا به رمزگذارهای (Encoder) جداگانه نیاز دارند، Gemma 4 12B این داده‌ها را مستقیماً از طریق هسته زبانی خود پردازش می‌کند. گوگل معتقد است این رویکرد باعث کاهش مصرف حافظه و افزایش سرعت پاسخ‌گویی می‌شود.

پردازش تصویر و صدا

در بخش پردازش تصویر، گوگل رمزگذارهای سنتی را با یک ماژول سبک‌وزن تعبیه‌سازی (Embedding) جایگزین کرده است. به این ترتیب هسته اصلی مدل زبانی وظیفه پردازش اطلاعات بصری را بر عهده می‌گیرد.

در بخش صوتی نیز به‌جای استفاده از یک رمزگذار اختصاصی، سیگنال‌های خام صدا مستقیماً به همان فضای مورد استفاده برای توکن‌های متنی منتقل می‌شوند.

عملکرد سریع‌تر

گوگل اعلام کرده که Gemma 4 12B به فناوری Multi-Token Prediction (MTP) مجهز شده است؛ قابلیتی که با پیش‌بینی هم‌زمان چند توکن، تأخیر پاسخ‌دهی را کاهش می‌دهد.

به گفته گوگل، عملکرد این مدل در بنچمارک‌ها به مدل بزرگ‌تر 26B بسیار نزدیک است. همین موضوع می‌تواند دسترسی توسعه‌دهندگان و کاربران عادی به قابلیت‌های پیشرفته هوش مصنوعی چندرسانه‌ای را بدون نیاز به سخت‌افزارهای گران‌قیمت آسان‌تر کند.

زهرا رضوی

من زهرا رضوی هستم، فارغ‌التحصیل مهندسی شهرسازی. اما عشق به کتاب، فیلم، سریال و تکنولوژی، مسیر حرفه‌ای مرا به‌طور کامل به سمت نویسندگی در این حوزه تغییر داده است. امروز به‌عنوان نویسنده‌ای تخصصی در زمینه فناوری، سینما و ادبیات فعالیت می‌کنم.
نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا