مدل‌های مولد و ردیابی اشیاء؛ نوآوری جدید MIT در هوش مصنوعی

مدل‌های مولد و ردیابی اشیاء؛ نوآوری جدید MIT در هوش مصنوعی

دانشمندان مؤسسه فناوری ماساچوست (MIT) روش تازه‌ای برای آموزش مدل‌های مولد ارائه کرده‌اند. این روش باعث می‌شود مدل‌های هوش مصنوعی بتوانند اشیای مشخص را در تصاویر و ویدیوها با دقت بالا شناسایی کرده و در گذر زمان دنبال کنند. این پیشرفت، پیوندی میان دو حوزه مهم یعنی بینایی ماشین و مدل‌سازی مولد ایجاد می‌کند و

اندازه متن

دانشمندان مؤسسه فناوری ماساچوست (MIT) روش تازه‌ای برای آموزش مدل‌های مولد ارائه کرده‌اند. این روش باعث می‌شود مدل‌های هوش مصنوعی بتوانند اشیای مشخص را در تصاویر و ویدیوها با دقت بالا شناسایی کرده و در گذر زمان دنبال کنند. این پیشرفت، پیوندی میان دو حوزه مهم یعنی بینایی ماشین و مدل‌سازی مولد ایجاد می‌کند و مسیر نسل جدیدی از فناوری‌های هوشمند را هموار می‌سازد.

محدودیت مدل‌های فعلی

در سال‌های اخیر، مدل‌هایی مانند DALL·E، Stable Diffusion و Imagen توانسته‌اند تنها با دریافت توضیحات متنی، صحنه‌های طبیعی و پیچیده تولید کنند. با این حال، این مدل‌ها هنوز در حفظ هویت و تداوم اشیاء بین چند تصویر مشکل دارند. آن‌ها می‌توانند فریم نخست را با جزئیات بسازند، اما در فریم‌های بعدی تشخیص نمی‌دهند که شیء فعلی همان شیء قبلی است یا نه. مثلاً اگر از مدل بخواهیم در قاب دوم همان «فنجان قرمز» را نشان دهد، معمولاً فنجان دیگری می‌سازد که از دید انسان متفاوت است.

راه‌حل MIT

گروه پژوهشی MIT برای رفع این محدودیت، سازوکاری با نام درک پیوسته فضایی و زمانی (Spatio-Temporal Understanding) طراحی کرده است. در این ساختار، شبکه مولد علاوه بر ساخت پیکسل‌های تصویر، ویژگی‌های هر شیء را به‌صورت عددی ثبت می‌کند. سپس در فریم‌های بعدی از همان داده‌ها برای بازشناسی شیء استفاده می‌کند. این فرآیند به مدل نوعی «حافظه بصری کوتاه‌مدت» می‌دهد. به کمک این حافظه، مدل می‌تواند تغییر زاویه، نور یا حرکت را درک کند و همچنان بداند که با همان شیء قبلی روبه‌رو است. نتیجه این رویکرد، رفتاری طبیعی‌تر و نزدیک‌تر به درک انسانی است.

کاربردهای عملی

این فناوری کاربردهای فراوانی دارد. برای مثال، در ابزارهای کمکی نابینایان، سیستم می‌تواند اجسامی مانند کلید، لیوان یا تلفن همراه را شناسایی کرده و مسیر حرکت آن‌ها را در محیط توضیح دهد. در حوزه محیط‌زیست نیز پژوهشگران می‌توانند با این فناوری حیوانات را بدون نصب حسگر یا برچسب‌گذاری دستی ردیابی کنند. در رباتیک، چنین قابلیتی به ربات‌ها امکان می‌دهد تا محیط اطراف را درک کنند و در چند مرحله از کار، اشیاء را پیوسته دنبال کنند.

چشم‌انداز آینده

پژوهشگران MIT باور دارند که هدف نهایی این پروژه، نزدیک کردن درک مدل‌های مولد به درک انسان است. آن‌ها می‌خواهند مدل‌هایی بسازند که نه‌تنها تصاویر واقعی خلق کنند، بلکه بفهمند چه چیزی را و در کجا نمایش می‌دهند. چنین توانایی‌ای می‌تواند مرز میان تولید تصویر، تحلیل صحنه و تصمیم‌گیری هوشمند را از میان بردارد و آغازگر نسل تازه‌ای از هوش مصنوعی ادراکی باشد.

دنبال اخبار بیشتر باشید…

برای آگاهی از تازه‌ترین خبرها، تحلیل‌ها در حوزه هوش مصنوعی ، به سایت خانه متاورس ایران مراجعه کنید.

دنبال اخبار بیشتر باشید…

# برچسب ها :
مدل مولد MIT
نویسنده کوثر بختی
درباره نویسنده کوثر بختی