گوگل از Gemma 4 12B رونمایی کرد؛ هوش مصنوعی چندرسانه‌ای که روی لپ‌تاپ‌های معمولی اجرا می‌شود

زهرا رضوی1405-03-14 | 07:35

خواندن این مطلب 1 دقیقه زمان میبرد

گوگل از Gemma 4 12B رونمایی کرد؛ هوش مصنوعی چندرسانه‌ای که روی لپ‌تاپ‌های معمولی اجرا می‌شود - چیکاو

گوگل از مدل هوش مصنوعی جدیدی با نام Gemma 4 12B رونمایی کرده است. این شرکت از Gemma 4 12B به‌عنوان یک «ترنسفورمر یکپارچه» یاد می‌کند که برای ارائه قابلیت‌های هوش مصنوعی چندرسانه‌ای و عامل‌محور (Agentic AI) به‌صورت محلی روی لپ‌تاپ‌ها طراحی شده است.

فهرست مطلب

این مدل در خانواده Gemma بین نسخه سبک‌تر Gemma E4B و مدل پیشرفته 26B Mixture of Experts (MoE) قرار می‌گیرد و تلاش می‌کند تعادلی میان عملکرد و بهره‌وری ایجاد کند.

گوگل همچنین اعلام کرده که مجموع دانلودهای خانواده مدل‌های Gemma از مرز ۱۵۰ میلیون دانلود عبور کرده است. به گفته این شرکت، توسعه‌دهندگان از این مدل‌ها در پروژه‌های متنوعی از بازوهای رباتیک پوشیدنی گرفته تا راهکارهای امنیتی سازمانی استفاده کرده‌اند.

قابلیت‌های کلیدی Gemma 4 12B

یکی از مهم‌ترین ویژگی‌های Gemma 4 12B این است که می‌تواند روی دستگاه‌هایی با تنها ۱۶ گیگابایت رم یا حافظه گرافیکی (VRAM) اجرا شود. گوگل می‌گوید این مدل در کنار ارائه توانایی‌های پیشرفته استدلال و تحلیل، مصرف حافظه نسبتاً کمی دارد.

همچنین Gemma 4 12B نخستین مدل میان‌رده گوگل است که به‌صورت بومی از ورودی صوتی پشتیبانی می‌کند.

برخلاف بسیاری از مدل‌های چندرسانه‌ای که برای پردازش تصویر و صدا به رمزگذارهای (Encoder) جداگانه نیاز دارند، Gemma 4 12B این داده‌ها را مستقیماً از طریق هسته زبانی خود پردازش می‌کند. گوگل معتقد است این رویکرد باعث کاهش مصرف حافظه و افزایش سرعت پاسخ‌گویی می‌شود.

پردازش تصویر و صدا

در بخش پردازش تصویر، گوگل رمزگذارهای سنتی را با یک ماژول سبک‌وزن تعبیه‌سازی (Embedding) جایگزین کرده است. به این ترتیب هسته اصلی مدل زبانی وظیفه پردازش اطلاعات بصری را بر عهده می‌گیرد.

در بخش صوتی نیز به‌جای استفاده از یک رمزگذار اختصاصی، سیگنال‌های خام صدا مستقیماً به همان فضای مورد استفاده برای توکن‌های متنی منتقل می‌شوند.

عملکرد سریع‌تر

گوگل اعلام کرده که Gemma 4 12B به فناوری Multi-Token Prediction (MTP) مجهز شده است؛ قابلیتی که با پیش‌بینی هم‌زمان چند توکن، تأخیر پاسخ‌دهی را کاهش می‌دهد.

به گفته گوگل، عملکرد این مدل در بنچمارک‌ها به مدل بزرگ‌تر 26B بسیار نزدیک است. همین موضوع می‌تواند دسترسی توسعه‌دهندگان و کاربران عادی به قابلیت‌های پیشرفته هوش مصنوعی چندرسانه‌ای را بدون نیاز به سخت‌افزارهای گران‌قیمت آسان‌تر کند.

برچسب ها

زهرا رضوی1405-03-14 | 07:35

خواندن این مطلب 1 دقیقه زمان میبرد

قابلیت‌های کلیدی Gemma 4 12B

پردازش تصویر و صدا

عملکرد سریع‌تر

زهرا رضوی

مدیرعامل انویدیا: «عصر هوش مصنوعی آغاز شده است»

گوگل Gemini Live را در اندروید راه اندازی کرد

رمز موفقیت در چت‌جی‌پی‌تی: با این ترفندهای ساده، پاسخ‌های هوش مصنوعی را متحول کنید!

7 کاربرد هوش مصنوعی در پرداخت اینترنتی؛ از امنیت تا سرعت

دیدگاهتان را بنویسید لغو پاسخ