مدل‌های زبانی بزرگ

هوش مصنوعی

بنچمارک Cube Bench ضعف هوش مصنوعی در استدلال فضایی و حل مسائل چندمرحله‌ای را آشکار کرد

پژوهشگران Monash University بنچمارک جدیدی به نام Cube Bench معرفی کرده‌اند که توانایی استدلال فضایی و ترتیبی مدل‌های هوش مصنوعی را از طریق حل مکعب روبیک ارزیابی می‌کند. نتایج نشان می‌دهد با افزایش پیچیدگی، دقت مدل‌ها به‌شدت کاهش می‌یابد و شکاف معناداری میان مدل‌های متن‌باز و بسته وجود دارد.