شیائومی از MiMo-7B رونمایی کرد؛ مدل زبانی متن‌باز برای استدلال و برنامه‌نویسی!

شرکت شیائومی به‌صورت بی‌سروصدا وارد عرصه مدل‌های زبانی بزرگ (LLM) شده و از MiMo-7B به‌عنوان نخستین سیستم هوش مصنوعی بازمتن خود رونمایی کرده است. این مدل که توسط تیم جدیدی به نام Big Model Core Team توسعه یافته، به‌طور ویژه بر روی وظایف سنگین استدلالی تمرکز دارد و بر اساس ادعای شیائومی، در زمینه استدلال ریاضی و تولید کد، عملکردی بهتر از مدل‌های OpenAI و علی‌بابا ارائه می‌دهد.


مشخصات فنی MiMo-7B

همان‌طور که از نام آن پیداست، MiMo-7B یک مدل با ۷ میلیارد پارامتر است. با وجود اندازه کوچک‌تر نسبت به مدل‌های پیشرفته‌تر، شیائومی ادعا می‌کند که عملکرد این مدل هم‌سطح مدل‌های حجیم‌تر مانند o1-mini از OpenAI و Qwen-32B-Preview از Alibaba است؛ مدل‌هایی که هر سه در حوزه استدلال مصنوعی فعالیت دارند.


عملکرد مدل MiMo-7B شیائومی

بر اساس نتایج منتشرشده، MiMo-7B در آزمون‌های استدلال ریاضی و رقابت‌های برنامه‌نویسی عملکرد بهتری نسبت به مدل‌های رقیب داشته است.

  • استدلال ریاضی: برتری در آزمون AIME 24-25
  • تولید کد: رتبه اول در LiveCodeBench v5 با دقت 57.8٪
  • امتیاز قابل توجهی در نسخه 6 همین آزمون با نزدیک به 50٪ دقت
  • عملکرد مناسب در آزمون‌های عمومی مانند DROP، MMLU-Pro و GPQA با امتیازهای متوسط تا بالا (حدود ۵۰٪)


ستون اصلی قدرت MiMo-7B: آموزش فشرده

شیائومی اعلام کرده است که برای آموزش این مدل، یک دیتاست فشرده شامل ۲۰۰ میلیارد توکن استدلالی تهیه کرده و در مجموع بیش از ۲۵ تریلیون توکن را طی سه مرحله آموزشی به مدل خورانده است.

به‌جای استفاده از روش رایج پیش‌بینی توکن بعدی، شیائومی از هدف پیش‌بینی چندتوکن بهره گرفته تا زمان استنتاج (Inference) را کاهش داده و همزمان کیفیت خروجی را حفظ کند.


فرآیند پس‌آموزش و تقویت عملکرد مدل

در مرحله پس‌آموزش، ترکیبی از تکنیک‌های یادگیری تقویتی و بهینه‌سازی زیرساخت‌ها به کار گرفته شده است:

  • استفاده از الگوریتم اختصاصی به نام Test Difficulty Driven Reward برای حل مشکل “پاداش‌های پراکنده” در یادگیری تقویتی وظایف پیچیده
  • پیاده‌سازی روش Easy Data Re-Sampling برای پایدارسازی روند آموزش
  • ساخت سیستم زیرساختی به نام Seamless Rollout که باعث کاهش زمان بیکاری GPU و بهبود سرعت آموزش می‌شود

بر اساس آمار داخلی شیائومی، این سیستم به ۲.۲۹ برابر افزایش سرعت آموزش و تقریباً ۲ برابر بهبود در عملکرد اعتبارسنجی (validation) منجر شده است.

این زیرساخت همچنین از استراتژی‌های استنتاج جدید مثل پیش‌بینی چندتوکن در محیط‌های vLLM پشتیبانی می‌کند.


نسخه‌های منتشرشده MiMo-7B به صورت متن‌باز

شیائومی هم‌اکنون چهار نسخه مختلف از MiMo-7B را به‌صورت متن‌باز در دسترس قرار داده است:

  1. Base: مدل خام و آموزش‌دیده اولیه
  2. SFT: نسخه‌ای که با داده‌های نظارت‌شده (Supervised) ریزتنظیم شده است
  3. RL-Zero: نسخه‌ای با یادگیری تقویتی از پایه
  4. RL: نسخه نهایی بهینه‌سازی‌شده با یادگیری تقویتی، با بالاترین دقت عملکردی

در دسترس بودن MiMo-7B

این مدل اکنون در پلتفرم Hugging Face تحت مجوز متن‌باز منتشر شده است. همچنین مستندات کامل و چک‌پوینت‌های آموزشی آن در GitHub برای پژوهشگران و توسعه‌دهندگان قابل بررسی است.


جمع‌بندی

ورود شیائومی به دنیای مدل‌های زبانی بزرگ با MiMo-7B نشان می‌دهد که این شرکت چینی قصد دارد سهمی جدی در آینده هوش مصنوعی ایفا کند. تمرکز بر استدلال و کدنویسی، بهره‌گیری از الگوریتم‌های نوآورانه، و عرضه متن‌باز مدل، گام‌هایی مهم در جهت رقابت با بزرگان این حوزه محسوب می‌شود.
ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.