گوگل Gemini 2.5 Computer Use را معرفی کرد: هوش مصنوعی که مانند انسان با رابط کاربری کار میکند

شرکت گوگل از مدل هوش مصنوعی جدیدی با نام Gemini 2.5 Computer Use رونمایی کرده است. این مدل با هدف تعامل مستقیم با رابطهای کاربری وب و موبایل طراحی شده و بهگونهای عمل میکند که میتواند مانند انسان روی صفحه کلیک کند، تایپ نماید، اسکرول انجام دهد و در وبسایتها پیمایش کند. این فناوری بر پایه قابلیتهای درک بصری و استدلالی مدل Gemini 2.5 Pro توسعه یافته است.
نحوه عملکرد مدل Gemini 2.5 Computer Use
به گفته گوگل، قابلیتهای اصلی این مدل از طریق ابزار جدیدی به نام computer_use در Gemini API ارائه میشود و باید در قالب یک حلقه (loop) اجرا شود. ورودیهای این ابزار شامل درخواست کاربر، تصویری از محیط فعلی (اسکرینشات) و تاریخچه اقدامات اخیر است. توسعهدهندگان همچنین میتوانند برخی اقدامات رابط کاربری را حذف یا عملکردهای سفارشی به آن اضافه کنند.
پس از دریافت ورودیها، مدل آنها را تحلیل کرده و با فراخوانی توابعی مانند کلیک یا تایپ پاسخ میدهد. برخی فعالیتها، مانند خرید اینترنتی، ممکن است نیاز به تأیید کاربر داشته باشند. سپس کد سمت کاربر (client-side) عمل را اجرا کرده و اسکرینشات جدید و نشانی فعلی (URL) را به مدل بازمیگرداند تا چرخه مجدداً آغاز شود. این فرآیند تکرار میشود تا زمانی که کار به پایان برسد، خطایی رخ دهد یا توقفی از سوی کاربر یا سیستم اعمال شود.
تمرکز بر کنترل مرورگر و آینده توسعه موبایل
گوگل اعلام کرده است که مدل Gemini 2.5 Computer Use در حال حاضر عمدتاً برای کنترل مرورگرهای وب بهینهسازی شده است، اما در کنترل رابطهای کاربری موبایل نیز عملکردی بسیار امیدوارکننده نشان داده است. با این حال، این مدل هنوز برای کنترل در سطح سیستمعامل دسکتاپ بهینهسازی نشده است.
به گفته گوگل، این مدل بهترین کیفیت کنترل مرورگر را با کمترین تأخیر (Latency) ارائه میدهد. این عملکرد بر اساس آزمون Browserbase harness for Online-Mind2Web ارزیابی شده و از نظر سرعت و دقت در اجرای وظایف کاربری، در جایگاه برتر قرار گرفته است.
عرضه این مدل از طریق Gemini API در پلتفرمهای Google AI Studio و Vertex AI در دسترس قرار گرفته و انتظار میرود نقطهعطفی در توسعه دستیارهای هوش مصنوعی تعاملی و خودکارسازی وظایف دیجیتال باشد.




