مدل «Gemini 2.5 Computer Use» که هماکنون در مرحلهی پیشنمایش از طریق API در دسترس است، یک مدل تخصصی مبتنی بر قابلیتهای Gemini 2.5 Pro است که برای پشتیبانی از عاملهایی (agents) طراحی شده که میتوانند با رابطهای کاربری (UI) تعامل داشته باشند. در اوایل امسال، اعلام کرده بودیم که قابلیت استفاده از کامپیوتر را
مدل «Gemini 2.5 Computer Use» که هماکنون در مرحلهی پیشنمایش از طریق API در دسترس است، یک مدل تخصصی مبتنی بر قابلیتهای Gemini 2.5 Pro است که برای پشتیبانی از عاملهایی (agents) طراحی شده که میتوانند با رابطهای کاربری (UI) تعامل داشته باشند.
در اوایل امسال، اعلام کرده بودیم که قابلیت استفاده از کامپیوتر را از طریق Gemini API در اختیار توسعهدهندگان قرار میدهیم. امروز، مدل جدید Gemini 2.5 Computer Use را منتشر میکنیم؛ مدلی ویژه که با تکیه بر توانایی درک تصویری و استدلالی Gemini 2.5 Pro ساخته شده و میتواند عاملهایی را توانمند کند که با رابطهای کاربری وب و موبایل تعامل داشته باشند. این مدل در چندین آزمون کنترلی وب و موبایل، عملکردی بهتر از مدلهای رقیب دارد و در عین حال تاخیر (latency) کمتری نیز دارد. توسعهدهندگان میتوانند از طریق Gemini API در Google AI Studio و Vertex AI به این قابلیتها دسترسی پیدا کنند.
مدلهای هوش مصنوعی معمولاً از طریق APIهای ساختاریافته با نرمافزارها ارتباط برقرار میکنند، اما بسیاری از کارهای دیجیتال هنوز به تعامل مستقیم با رابطهای گرافیکی کاربر (GUI) نیاز دارند - مانند پر کردن و ارسال فرمها. برای انجام این نوع وظایف، عاملها باید همانند انسانها در صفحات وب یا اپلیکیشنها حرکت کنند: کلیک کنند، تایپ کنند و پیمایش (scroll) کنند.
توانایی پر کردن فرمها، تغییر گزینههای منوها، استفاده از فیلترها، و حتی کار در محیطهایی که نیاز به ورود (login) دارند، گام بزرگی در جهت ساخت عاملهای عمومی و قدرتمند محسوب میشود.
قابلیتهای اصلی این مدل از طریق ابزار جدیدی به نام computer_use در Gemini API در دسترس هستند و در قالب یک حلقهی تکراری (loop) عمل میکنند.
ورودیهای این ابزار شامل موارد زیر است:
توسعهدهنده میتواند در ورودی مشخص کند که کدام عملکردها از فهرست اصلی حذف یا عملکردهای سفارشی جدیدی اضافه شود.
مدل این ورودیها را تحلیل کرده و معمولاً به صورت فراخوانی یک تابع (function call) پاسخ میدهد که نشاندهندهی یک عمل رابط کاربری مانند کلیک یا تایپ است. در برخی موارد، پاسخ شامل درخواست تأیید کاربر نیز میشود (مثلاً هنگام انجام خرید). سپس کد سمت کاربر (client) این عمل را اجرا میکند.
پس از اجرا، اسکرینشات جدیدی از رابط گرافیکی و آدرس فعلی صفحه (URL) به مدل ارسال میشود تا چرخهی تصمیمگیری مجدداً آغاز شود. این روند تا زمانی ادامه دارد که کار به پایان برسد، خطا رخ دهد یا کاربر آن را متوقف کند.
مدل در حال حاضر برای مرورگرهای وب بهینهسازی شده است، اما در کارهای مرتبط با کنترل رابطهای موبایل نیز عملکرد بسیار خوبی دارد. هنوز برای کنترل سیستمعاملهای دسکتاپ بهینهسازی نشده است.
مدل Gemini 2.5 Computer Use در چندین بنچمارک وب و موبایل عملکرد چشمگیری نشان داده است.
نتایج بهدستآمده شامل دادههای خودگزارششده، ارزیابیهای مستقل توسط Browserbase و همچنین تستهای داخلی گوگل هستند.
جزئیات کامل این ارزیابیها در بخش «ارزیابی مدل» و وبلاگ Browserbase موجود است.
گوگل تأکید دارد که تنها راه ساخت عاملهایی که برای همه مفید باشند، شروع مسئولانه از ابتداست.
عاملهای هوش مصنوعی که کامپیوتر را کنترل میکنند، خطرات خاصی دارند - از جمله:
برای مقابله با این خطرات، گوگل ویژگیهای ایمنی را مستقیماً در خود مدل آموزش داده است (شرح کامل در System Card مدل آمده است).
علاوه بر این، توسعهدهندگان ابزارهایی برای کنترل ایمنی در اختیار دارند، مانند:
همچنین گوگل توصیه میکند که همهی توسعهدهندگان قبل از انتشار نهایی، سیستمهای خود را کامل آزمایش کنند.
چندین تیم گوگل و شرکتهای بیرونی از این مدل استفاده کردهاند و نتایج مثبتی گرفتهاند:
برخی از بازخوردها:
«بسیاری از گردشکارهای ما نیازمند تعامل سریع با رابطهای انسانی هستند. Gemini 2.5 Computer Use بسیار جلوتر از رقباست و گاهی تا ۵۰٪ سریعتر عمل میکند.» – تیم Poke.com
«مدل در درک زمینههای پیچیده دقت بالاتری دارد و عملکرد را تا ۱۸٪ افزایش داده است.» – تیم Autotab
«این مدل باعث شده ۶۰٪ از اجرای تستهایی که پیشتر چند روز طول میکشید، اکنون بهصورت خودکار ترمیم شود.» – تیم پرداخت گوگل
از امروز، مدل در حالت پیشنمایش عمومی (public preview) از طریق Gemini API در Google AI Studio و Vertex AI در دسترس است.
برای شروع:
برای آگاهی از تازهترین خبرها، تحلیلها در حوزه هوش مصنوعی ، به سایت خانه متاورس ایران مراجعه کنید.