گوگل Gemini 2.5 Computer Use را معرفی کرد: هوش مصنوعی که مانند انسان با رابط کاربری کار می‌کند

خواندن این مطلب 1 دقیقه زمان میبرد

گوگل Gemini 2.5 Computer Use را معرفی کرد: هوش مصنوعی که مانند انسان با رابط کاربری کار می‌کند - چیکاو

شرکت گوگل از مدل هوش مصنوعی جدیدی با نام Gemini 2.5 Computer Use رونمایی کرده است. این مدل با هدف تعامل مستقیم با رابط‌های کاربری وب و موبایل طراحی شده و به‌گونه‌ای عمل می‌کند که می‌تواند مانند انسان روی صفحه کلیک کند، تایپ نماید، اسکرول انجام دهد و در وب‌سایت‌ها پیمایش کند. این فناوری بر پایه قابلیت‌های درک بصری و استدلالی مدل Gemini 2.5 Pro توسعه یافته است.

نحوه عملکرد مدل Gemini 2.5 Computer Use

به گفته گوگل، قابلیت‌های اصلی این مدل از طریق ابزار جدیدی به نام computer_use در Gemini API ارائه می‌شود و باید در قالب یک حلقه (loop) اجرا شود. ورودی‌های این ابزار شامل درخواست کاربر، تصویری از محیط فعلی (اسکرین‌شات) و تاریخچه اقدامات اخیر است. توسعه‌دهندگان همچنین می‌توانند برخی اقدامات رابط کاربری را حذف یا عملکردهای سفارشی به آن اضافه کنند.

پس از دریافت ورودی‌ها، مدل آن‌ها را تحلیل کرده و با فراخوانی توابعی مانند کلیک یا تایپ پاسخ می‌دهد. برخی فعالیت‌ها، مانند خرید اینترنتی، ممکن است نیاز به تأیید کاربر داشته باشند. سپس کد سمت کاربر (client-side) عمل را اجرا کرده و اسکرین‌شات جدید و نشانی فعلی (URL) را به مدل بازمی‌گرداند تا چرخه مجدداً آغاز شود. این فرآیند تکرار می‌شود تا زمانی که کار به پایان برسد، خطایی رخ دهد یا توقفی از سوی کاربر یا سیستم اعمال شود.

تمرکز بر کنترل مرورگر و آینده توسعه موبایل

گوگل اعلام کرده است که مدل Gemini 2.5 Computer Use در حال حاضر عمدتاً برای کنترل مرورگرهای وب بهینه‌سازی شده است، اما در کنترل رابط‌های کاربری موبایل نیز عملکردی بسیار امیدوارکننده نشان داده است. با این حال، این مدل هنوز برای کنترل در سطح سیستم‌عامل دسکتاپ بهینه‌سازی نشده است.

به گفته گوگل، این مدل بهترین کیفیت کنترل مرورگر را با کمترین تأخیر (Latency) ارائه می‌دهد. این عملکرد بر اساس آزمون Browserbase harness for Online-Mind2Web ارزیابی شده و از نظر سرعت و دقت در اجرای وظایف کاربری، در جایگاه برتر قرار گرفته است.

عرضه این مدل از طریق Gemini API در پلتفرم‌های Google AI Studio و Vertex AI در دسترس قرار گرفته و انتظار می‌رود نقطه‌عطفی در توسعه دستیارهای هوش مصنوعی تعاملی و خودکارسازی وظایف دیجیتال باشد.

برچسب ها