پژوهشگران Monash University بنچمارک جدیدی به نام Cube Bench معرفی کردهاند که توانایی استدلال فضایی و ترتیبی مدلهای هوش مصنوعی را از طریق حل مکعب روبیک ارزیابی میکند. نتایج نشان میدهد با افزایش پیچیدگی، دقت مدلها بهشدت کاهش مییابد و شکاف معناداری میان مدلهای متنباز و بسته وجود دارد.
درک فضایی (Spatial Reasoning) همچنان یکی از سختترین و حلنشدهترین چالشها در حوزه هوش مصنوعی است. با گسترش مدلهای زبانی بزرگ چندوجهی (MLLMs)، پژوهشگران بیش از پیش در حال ارزیابی توانایی این مدلها در فهم، تحلیل و تعامل با دنیای فیزیکی هستند.
در همین راستا، Monash University با همکاری گروهی از پژوهشگران، بنچمارک جدیدی به نام Cube Bench معرفی کرده است؛ معیاری نوآورانه که توانایی استدلال فضایی و ترتیبی مدلهای هوش مصنوعی را از طریق حل مکعب روبیک میسنجد.
Cube Bench فرآیند حل مکعب روبیک را به مهارتهای پایهای زیر تجزیه میکند:
بازسازی وجوه مکعب از روی تصویر
برنامهریزی حرکات (Move Planning)
پیشبینی اثر هر حرکت
اصلاح خطا و بازیابی مسیر حل
استدلال مرحلهبهمرحله در یک حلقه بسته
این ساختار به پژوهشگران اجازه میدهد عملکرد مدلها را بهصورت دقیق و جزئی و با افزایش پیچیدگی پازل تحلیل کنند.
در این پژوهش:
تستها از مجموعهای یکسان از مکعبهای درهمریخته ساخته شدهاند تا مقایسه منصفانه باشد.
توزیع پاسخهای صحیح در گزینههای چندگزینهای تقریباً یکنواخت نگه داشته شده تا سوگیری آماری حذف شود.
قوانین سختگیرانهای برای خروجی مدلها اعمال شده؛ هر پاسخ خارج از قالب تعیینشده، خطا محسوب میشود.
هر آزمون فقط یک مهارت مشخص را هدف قرار میدهد؛ از درک بصری اولیه گرفته تا تطبیق اطلاعات متنی و تصویری.
Cube Bench مهارتهای پیچیدهتری را هم بررسی میکند، از جمله:
پیشبینی حرکت بهینه در شرایط مختلف ورودی
اصلاح پاسخ با بازاندیشی ساختاریافته (Self-Reflection)
استدلال گامبهگام در حلقه بسته
تحلیل رابطه علت و معلولی حرکت و نتیجه آن
این مجموعه در عمل کل چرخه شناختی
«دیدن → ارزیابی → عمل → بازاندیشی → بازیابی»
را پوشش میدهد.
یافتهها نشان میدهند:
با افزایش میزان درهمریختگی مکعب، دقت مدلها بهشدت افت میکند.
اگر مدل از مسیر حل خارج شود، معمولاً توان بازیابی ندارد.
دقت بالای ادراک بصری لزوماً به برنامهریزی چندمرحلهای موفق منجر نمیشود.
مدلهای بسته (Closed-Source) عملکردی بهمراتب بهتر از مدلهای متنباز (Open-Weight) دارند، بهویژه در کنترلهای چندمرحلهای پیچیده.
مکانیزمهای ساده خوداصلاحی فقط بهبود اندکی ایجاد میکنند و گاهی باعث ناپایداری میشوند.
اگرچه Cube Bench فعلاً روی مکعب روبیک و عمقهای نسبتاً محدود تمرکز دارد، اما بهگونهای طراحی شده که قابلیت گسترش به وظایف طولانیتر و پیچیدهتر را داشته باشد.
این بنچمارک:
نقاط ضعف هوش مصنوعی در درک فضایی، ارزیابی عمل و اصلاح خطا را شفاف میکند
یک چارچوب تکرارپذیر و علمی برای مقایسه مدلها ارائه میدهد
پایهای مهم برای پژوهشهای آینده در بهبود تواناییهای شناختی هوش مصنوعی محسوب میشود
برای مطالعه مقالات بیشتر به سایت خانه متاورس ایران سر بزنید.