معرفی Gemini 2.5 Computer Use؛ نسل جدید عامل‌های هوشمند

معرفی Gemini 2.5 Computer Use؛ نسل جدید عامل‌های هوشمند

مدل «Gemini 2.5 Computer Use» که هم‌اکنون در مرحله‌ی پیش‌نمایش از طریق API در دسترس است، یک مدل تخصصی مبتنی بر قابلیت‌های Gemini 2.5 Pro است که برای پشتیبانی از عامل‌هایی (agents) طراحی شده که می‌توانند با رابط‌های کاربری (UI) تعامل داشته باشند. در اوایل امسال، اعلام کرده بودیم که قابلیت استفاده از کامپیوتر را

اندازه متن

مدل «Gemini 2.5 Computer Use» که هم‌اکنون در مرحله‌ی پیش‌نمایش از طریق API در دسترس است، یک مدل تخصصی مبتنی بر قابلیت‌های Gemini 2.5 Pro است که برای پشتیبانی از عامل‌هایی (agents) طراحی شده که می‌توانند با رابط‌های کاربری (UI) تعامل داشته باشند.

در اوایل امسال، اعلام کرده بودیم که قابلیت استفاده از کامپیوتر را از طریق Gemini API در اختیار توسعه‌دهندگان قرار می‌دهیم. امروز، مدل جدید Gemini 2.5 Computer Use را منتشر می‌کنیم؛ مدلی ویژه که با تکیه بر توانایی درک تصویری و استدلالی Gemini 2.5 Pro ساخته شده و می‌تواند عامل‌هایی را توانمند کند که با رابط‌های کاربری وب و موبایل تعامل داشته باشند. این مدل در چندین آزمون کنترلی وب و موبایل، عملکردی بهتر از مدل‌های رقیب دارد و در عین حال تاخیر (latency) کمتری نیز دارد. توسعه‌دهندگان می‌توانند از طریق Gemini API در Google AI Studio و Vertex AI به این قابلیت‌ها دسترسی پیدا کنند.

چرا این مدل مهم است؟

مدل‌های هوش مصنوعی معمولاً از طریق APIهای ساختاریافته با نرم‌افزارها ارتباط برقرار می‌کنند، اما بسیاری از کارهای دیجیتال هنوز به تعامل مستقیم با رابط‌های گرافیکی کاربر (GUI) نیاز دارند - مانند پر کردن و ارسال فرم‌ها. برای انجام این نوع وظایف، عامل‌ها باید همانند انسان‌ها در صفحات وب یا اپلیکیشن‌ها حرکت کنند: کلیک کنند، تایپ کنند و پیمایش (scroll) کنند.
توانایی پر کردن فرم‌ها، تغییر گزینه‌های منوها، استفاده از فیلترها، و حتی کار در محیط‌هایی که نیاز به ورود (login) دارند، گام بزرگی در جهت ساخت عامل‌های عمومی و قدرتمند محسوب می‌شود.

نحوه عملکرد

قابلیت‌های اصلی این مدل از طریق ابزار جدیدی به نام computer_use در Gemini API در دسترس هستند و در قالب یک حلقه‌ی تکراری (loop) عمل می‌کنند.

ورودی‌های این ابزار شامل موارد زیر است:

  • درخواست کاربر،
  • تصویر (screenshot) از محیط،
  • سابقه‌ای از اقدامات اخیر عامل.

توسعه‌دهنده می‌تواند در ورودی مشخص کند که کدام عملکردها از فهرست اصلی حذف یا عملکردهای سفارشی جدیدی اضافه شود.

مدل این ورودی‌ها را تحلیل کرده و معمولاً به صورت فراخوانی یک تابع (function call) پاسخ می‌دهد که نشان‌دهنده‌ی یک عمل رابط کاربری مانند کلیک یا تایپ است. در برخی موارد، پاسخ شامل درخواست تأیید کاربر نیز می‌شود (مثلاً هنگام انجام خرید). سپس کد سمت کاربر (client) این عمل را اجرا می‌کند.

پس از اجرا، اسکرین‌شات جدیدی از رابط گرافیکی و آدرس فعلی صفحه (URL) به مدل ارسال می‌شود تا چرخه‌ی تصمیم‌گیری مجدداً آغاز شود. این روند تا زمانی ادامه دارد که کار به پایان برسد، خطا رخ دهد یا کاربر آن را متوقف کند.

مدل در حال حاضر برای مرورگرهای وب بهینه‌سازی شده است، اما در کارهای مرتبط با کنترل رابط‌های موبایل نیز عملکرد بسیار خوبی دارد. هنوز برای کنترل سیستم‌عامل‌های دسکتاپ بهینه‌سازی نشده است.

عملکرد مدل

مدل Gemini 2.5 Computer Use در چندین بنچمارک وب و موبایل عملکرد چشمگیری نشان داده است.
نتایج به‌دست‌آمده شامل داده‌های خودگزارش‌شده، ارزیابی‌های مستقل توسط Browserbase و همچنین تست‌های داخلی گوگل هستند.
جزئیات کامل این ارزیابی‌ها در بخش «ارزیابی مدل» و وبلاگ Browserbase موجود است.

ایمنی و کنترل

گوگل تأکید دارد که تنها راه ساخت عامل‌هایی که برای همه مفید باشند، شروع مسئولانه از ابتداست.
عامل‌های هوش مصنوعی که کامپیوتر را کنترل می‌کنند، خطرات خاصی دارند - از جمله:

  • سوءاستفاده عمدی،
  • رفتار غیرمنتظره‌ی مدل،
  • تزریق دستورات مخرب (prompt injection) یا کلاهبرداری‌های وبی.

برای مقابله با این خطرات، گوگل ویژگی‌های ایمنی را مستقیماً در خود مدل آموزش داده است (شرح کامل در System Card مدل آمده است).

علاوه بر این، توسعه‌دهندگان ابزارهایی برای کنترل ایمنی در اختیار دارند، مانند:

  • سرویس ایمنی گام‌به‌گام (Per-step safety service): سرویسی بیرون از مدل که هر عمل پیشنهادی را پیش از اجرا بررسی می‌کند.
  • دستورالعمل‌های سیستمی (System instructions): توسعه‌دهنده می‌تواند تعیین کند که عامل برای برخی اقدامات حساس، حتماً از کاربر تأیید بگیرد یا آن کار را به‌کلی رد کند (مثلاً خرید، حذف داده‌ها یا کنترل دستگاه‌های پزشکی).

همچنین گوگل توصیه می‌کند که همه‌ی توسعه‌دهندگان قبل از انتشار نهایی، سیستم‌های خود را کامل آزمایش کنند.

تجربه‌ی کاربران اولیه

چندین تیم گوگل و شرکت‌های بیرونی از این مدل استفاده کرده‌اند و نتایج مثبتی گرفته‌اند:

  • تیم‌های گوگل از این مدل برای تست رابط‌های کاربری (UI testing) استفاده کرده‌اند که موجب افزایش سرعت توسعه‌ی نرم‌افزار شده است.
  • نسخه‌هایی از این مدل در پروژه‌هایی مانند Project Mariner، Firebase Testing Agent و قابلیت‌های «AI Mode» در جستجو به کار رفته‌اند.
  • کاربران برنامه‌ی دسترسی زودهنگام نیز از آن برای دستیارهای شخصی، خودکارسازی گردش‌کارها و تست نرم‌افزار استفاده کرده‌اند.

برخی از بازخوردها:

«بسیاری از گردش‌کارهای ما نیازمند تعامل سریع با رابط‌های انسانی هستند. Gemini 2.5 Computer Use بسیار جلوتر از رقباست و گاهی تا ۵۰٪ سریع‌تر عمل می‌کند.» – تیم Poke.com

«مدل در درک زمینه‌های پیچیده دقت بالاتری دارد و عملکرد را تا ۱۸٪ افزایش داده است.» – تیم Autotab

«این مدل باعث شده ۶۰٪ از اجرای تست‌هایی که پیش‌تر چند روز طول می‌کشید، اکنون به‌صورت خودکار ترمیم شود.» – تیم پرداخت گوگل

نحوه شروع کار

از امروز، مدل در حالت پیش‌نمایش عمومی (public preview) از طریق Gemini API در Google AI Studio و Vertex AI در دسترس است.

برای شروع:

  • تجربه در محیط دمو: از طریق Browserbase.
  • ساخت پروژه خودتان: به مستندات و نمونه‌کدها مراجعه کنید (در Vertex AI برای نسخه سازمانی).
  • پیوستن به انجمن توسعه‌دهندگان: بازخورد بدهید و در جهت‌دهی مسیر آینده این مدل مشارکت کنید.

دنبال اخبار بیشتر باشید…

برای آگاهی از تازه‌ترین خبرها، تحلیل‌ها در حوزه هوش مصنوعی ، به سایت خانه متاورس ایران مراجعه کنید.

دنبال اخبار بیشتر باشید…

# برچسب ها :
Gemini Gemini API
نویسنده کوثر بختی
درباره نویسنده کوثر بختی