گوگل مدل Gemini 2.5 Computer Use را با قابلیت کنترل مرورگر معرفی کرد [تماشا کنید]
بازدید 16
0

گوگل مدل Gemini 2.5 Computer Use را با قابلیت کنترل مرورگر معرفی کرد [تماشا کنید]

گوگل از یک مدل تخصصی و جدید به نام Gemini 2.5 Computer Use رونمایی کرد. این هوش مصنوعی می‌تواند مانند انسان واقعی، با کلیک، اسکرول و تایپ‌کردن با وب‌سایت‌ها و رابط‌های کاربری گرافیکی تعامل داشته باشد و کارهای پیچیده‌ای را به‌صورت خودکار انجام دهد.

برخلاف مدل‌های سنتی که به API برای تعامل با نرم‌افزارها نیاز دارند، Gemini 2.5 Computer Use مستقیماً رابط کاربری گرافیکی (GUI) را درک می‌کند: هوش مصنوعی یک اسکرین‌شات از صفحه مرورگر به همراه درخواست کاربر دریافت می‌کند. سپس با استفاده از قابلیت‌های پیشرفته درک بصری خود، صفحه را تحلیل و بهترین اقدام بعدی (مانند کلیک روی یک دکمه یا تایپ در یک فیلد) را تعیین می‌کند. در گام بعدی نیز یک اسکرین‌شات جدید گرفته می‌شود و این حلقه تا زمان تکمیل کامل وظیفه ادامه می‌یابد. این مدل درحال‌حاضر از ۱۳ اقدام اصلی مانند بازکردن مرورگر، تایپ‌کردن، کلیک، اسکرول و Drag and drop پشتیبانی می‌کند.

مدل Gemini 2.5 Computer Use گوگل

مدل Gemini 2.5 Computer Use برای خودکارسازی کارهای پیچیده‌ای که در مرورگر انجام می‌شوند، ایده‌آل است. گوگل برای نمایش قدرت این هوش مصنوعی، دو دمو نشان داده است: در یک دمو هوش مصنوعی وظیفه پیداکردن اطلاعات حیوانات خانگی از یک وب‌سایت و واردکردن آنها در یک سیستم مدیریت مشتری (CRM) در یک وب‌سایت دیگر را برعهده می‌گیرد و حتی یک قرار ملاقات نیز برای آن‌ها تنظیم می‌کند. در دموی دیگر، این مدل یک تخته یادداشت دیجیتال به‌هم‌ریخته را با کشیدن و رهاکردن یادداشت‌ها در دسته‌بندی‌های صحیح مرتب می‌کند.

نکته جالب اینکه این همان فناوری پشت پرده در پروژه تحقیقاتی Project Mariner گوگل و قابلیت‌های ایجنت‌محور AI Mode جستجو است.

مدل Gemini 2.5 Computer Use
فرایند انجام کار مدل Gemini 2.5 Computer Use

رونمایی از این مدل، تنها یک روز پس از رویداد بزرگ OpenAI و معرفی قابلیت اجرای «اپلیکیشن‌ها در ChatGPT»، نشان‌دهنده شدت رقابت در این حوزه است. Gemini 2.5 Computer Use پاسخ مستقیم گوگل به قابلیت‌های مشابه از OpenAI (ChatGPT Agent) و Anthropic (Claude’s Computer Use) است.

مدل Gemini 2.5 Computer Use
مقایسه بنچمارک‌های Gemini 2.5 Computer Use با مدل‌های رقیب

براساس بنچمارک‌های منتشرشده توسط گوگل، این مدل در وظایف کنترل وب و موبایل، عملکرد بهتری نسبت به رقبای پیشرو از خود نشان داده است. بااین‌حال، یک تفاوت مهم وجود دارد: مدل گوگل درحال‌حاضر فقط برای مرورگرها بهینه‌سازی شده است و برخلاف رقبای خود، هنوز قابلیت کنترل کامل سیستم‌عامل دسکتاپ را ندارد.

Gemini 2.5 Computer Use از امروز به صورت پیش‌نمایش برای توسعه‌دهندگان از طریق Gemini API در پلتفرم‌های Google AI Studio و Vertex AI در دسترس قرار گرفته است.

اشتراک گذاری

دنبال کنید نوشته شده توسط:

دیجیاتو digiato

نظرات کاربران

  • دیدگاه های ارسال شده شما، پس از بررسی توسط تیم گولت منتشر خواهد شد.
  • پیام هایی که حاوی توهین، افترا و یا خلاف قوانین جمهوری اسلامی ایران باشد منتشر نخواهد شد.
  • لازم به یادآوری است که آی پی شخص نظر دهنده ثبت می شود و کلیه مسئولیت های حقوقی نظرات بر عهده شخص نظر بوده و قابل پیگیری قضایی می باشد که در صورت هر گونه شکایت مسئولیت بر عهده شخص نظر دهنده خواهد بود.
  • لطفا از تایپ فینگلیش بپرهیزید. در غیر اینصورت دیدگاه شما منتشر نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

19 − ده =