بنچمارک Cube Bench ضعف هوش مصنوعی در استدلال فضایی و حل مسائل چندمرحله‌ای را آشکار کرد

بنچمارک Cube Bench ضعف هوش مصنوعی در استدلال فضایی و حل مسائل چندمرحله‌ای را آشکار کرد

پژوهشگران Monash University بنچمارک جدیدی به نام Cube Bench معرفی کرده‌اند که توانایی استدلال فضایی و ترتیبی مدل‌های هوش مصنوعی را از طریق حل مکعب روبیک ارزیابی می‌کند. نتایج نشان می‌دهد با افزایش پیچیدگی، دقت مدل‌ها به‌شدت کاهش می‌یابد و شکاف معناداری میان مدل‌های متن‌باز و بسته وجود دارد.

اندازه متن

چالش بزرگ هوش مصنوعی در درک فضایی؛ معرفی بنچمارک Cube Bench

درک فضایی (Spatial Reasoning) همچنان یکی از سخت‌ترین و حل‌نشده‌ترین چالش‌ها در حوزه هوش مصنوعی است. با گسترش مدل‌های زبانی بزرگ چندوجهی (MLLMs)، پژوهشگران بیش از پیش در حال ارزیابی توانایی این مدل‌ها در فهم، تحلیل و تعامل با دنیای فیزیکی هستند.

در همین راستا، Monash University با همکاری گروهی از پژوهشگران، بنچمارک جدیدی به نام Cube Bench معرفی کرده است؛ معیاری نوآورانه که توانایی استدلال فضایی و ترتیبی مدل‌های هوش مصنوعی را از طریق حل مکعب روبیک می‌سنجد.

Cube Bench چیست و چه چیزی را می‌سنجد؟

Cube Bench فرآیند حل مکعب روبیک را به مهارت‌های پایه‌ای زیر تجزیه می‌کند:

  • بازسازی وجوه مکعب از روی تصویر

  • برنامه‌ریزی حرکات (Move Planning)

  • پیش‌بینی اثر هر حرکت

  • اصلاح خطا و بازیابی مسیر حل

  • استدلال مرحله‌به‌مرحله در یک حلقه بسته

این ساختار به پژوهشگران اجازه می‌دهد عملکرد مدل‌ها را به‌صورت دقیق و جزئی و با افزایش پیچیدگی پازل تحلیل کنند.

روش ارزیابی دقیق و بدون سوگیری

در این پژوهش:

  • تست‌ها از مجموعه‌ای یکسان از مکعب‌های درهم‌ریخته ساخته شده‌اند تا مقایسه منصفانه باشد.

  • توزیع پاسخ‌های صحیح در گزینه‌های چندگزینه‌ای تقریباً یکنواخت نگه داشته شده تا سوگیری آماری حذف شود.

  • قوانین سخت‌گیرانه‌ای برای خروجی مدل‌ها اعمال شده؛ هر پاسخ خارج از قالب تعیین‌شده، خطا محسوب می‌شود.

هر آزمون فقط یک مهارت مشخص را هدف قرار می‌دهد؛ از درک بصری اولیه گرفته تا تطبیق اطلاعات متنی و تصویری.

آزمون‌های پیشرفته‌تر؛ از «دیدن» تا «بازیابی»

Cube Bench مهارت‌های پیچیده‌تری را هم بررسی می‌کند، از جمله:

  • پیش‌بینی حرکت بهینه در شرایط مختلف ورودی

  • اصلاح پاسخ با بازاندیشی ساختاریافته (Self-Reflection)

  • استدلال گام‌به‌گام در حلقه بسته

  • تحلیل رابطه علت و معلولی حرکت و نتیجه آن

این مجموعه در عمل کل چرخه شناختی
«دیدن → ارزیابی → عمل → بازاندیشی → بازیابی»
را پوشش می‌دهد.

نتایج کلیدی پژوهش

یافته‌ها نشان می‌دهند:

  • با افزایش میزان درهم‌ریختگی مکعب، دقت مدل‌ها به‌شدت افت می‌کند.

  • اگر مدل از مسیر حل خارج شود، معمولاً توان بازیابی ندارد.

  • دقت بالای ادراک بصری لزوماً به برنامه‌ریزی چندمرحله‌ای موفق منجر نمی‌شود.

  • مدل‌های بسته (Closed-Source) عملکردی به‌مراتب بهتر از مدل‌های متن‌باز (Open-Weight) دارند، به‌ویژه در کنترل‌های چندمرحله‌ای پیچیده.

  • مکانیزم‌های ساده خوداصلاحی فقط بهبود اندکی ایجاد می‌کنند و گاهی باعث ناپایداری می‌شوند.

چرا Cube Bench مهم است؟

اگرچه Cube Bench فعلاً روی مکعب روبیک و عمق‌های نسبتاً محدود تمرکز دارد، اما به‌گونه‌ای طراحی شده که قابلیت گسترش به وظایف طولانی‌تر و پیچیده‌تر را داشته باشد.

این بنچمارک:

  • نقاط ضعف هوش مصنوعی در درک فضایی، ارزیابی عمل و اصلاح خطا را شفاف می‌کند

  • یک چارچوب تکرارپذیر و علمی برای مقایسه مدل‌ها ارائه می‌دهد

  • پایه‌ای مهم برای پژوهش‌های آینده در بهبود توانایی‌های شناختی هوش مصنوعی محسوب می‌شود



    برای مطالعه مقالات بیشتر به سایت خانه متاورس ایران سر بزنید.

دنبال اخبار بیشتر باشید…

نویسنده کوثر بختی
درباره نویسنده کوثر بختی