گوگل از Gemma 4 12B رونمایی کرد؛ هوش مصنوعی چندرسانهای که روی لپتاپهای معمولی اجرا میشود

گوگل از مدل هوش مصنوعی جدیدی با نام Gemma 4 12B رونمایی کرده است. این شرکت از Gemma 4 12B بهعنوان یک «ترنسفورمر یکپارچه» یاد میکند که برای ارائه قابلیتهای هوش مصنوعی چندرسانهای و عاملمحور (Agentic AI) بهصورت محلی روی لپتاپها طراحی شده است.
این مدل در خانواده Gemma بین نسخه سبکتر Gemma E4B و مدل پیشرفته 26B Mixture of Experts (MoE) قرار میگیرد و تلاش میکند تعادلی میان عملکرد و بهرهوری ایجاد کند.
گوگل همچنین اعلام کرده که مجموع دانلودهای خانواده مدلهای Gemma از مرز ۱۵۰ میلیون دانلود عبور کرده است. به گفته این شرکت، توسعهدهندگان از این مدلها در پروژههای متنوعی از بازوهای رباتیک پوشیدنی گرفته تا راهکارهای امنیتی سازمانی استفاده کردهاند.
قابلیتهای کلیدی Gemma 4 12B
یکی از مهمترین ویژگیهای Gemma 4 12B این است که میتواند روی دستگاههایی با تنها ۱۶ گیگابایت رم یا حافظه گرافیکی (VRAM) اجرا شود. گوگل میگوید این مدل در کنار ارائه تواناییهای پیشرفته استدلال و تحلیل، مصرف حافظه نسبتاً کمی دارد.
همچنین Gemma 4 12B نخستین مدل میانرده گوگل است که بهصورت بومی از ورودی صوتی پشتیبانی میکند.
برخلاف بسیاری از مدلهای چندرسانهای که برای پردازش تصویر و صدا به رمزگذارهای (Encoder) جداگانه نیاز دارند، Gemma 4 12B این دادهها را مستقیماً از طریق هسته زبانی خود پردازش میکند. گوگل معتقد است این رویکرد باعث کاهش مصرف حافظه و افزایش سرعت پاسخگویی میشود.
پردازش تصویر و صدا
در بخش پردازش تصویر، گوگل رمزگذارهای سنتی را با یک ماژول سبکوزن تعبیهسازی (Embedding) جایگزین کرده است. به این ترتیب هسته اصلی مدل زبانی وظیفه پردازش اطلاعات بصری را بر عهده میگیرد.
در بخش صوتی نیز بهجای استفاده از یک رمزگذار اختصاصی، سیگنالهای خام صدا مستقیماً به همان فضای مورد استفاده برای توکنهای متنی منتقل میشوند.
عملکرد سریعتر
گوگل اعلام کرده که Gemma 4 12B به فناوری Multi-Token Prediction (MTP) مجهز شده است؛ قابلیتی که با پیشبینی همزمان چند توکن، تأخیر پاسخدهی را کاهش میدهد.
به گفته گوگل، عملکرد این مدل در بنچمارکها به مدل بزرگتر 26B بسیار نزدیک است. همین موضوع میتواند دسترسی توسعهدهندگان و کاربران عادی به قابلیتهای پیشرفته هوش مصنوعی چندرسانهای را بدون نیاز به سختافزارهای گرانقیمت آسانتر کند.




