دانشمندان مؤسسه فناوری ماساچوست (MIT) روش تازهای برای آموزش مدلهای مولد ارائه کردهاند. این روش باعث میشود مدلهای هوش مصنوعی بتوانند اشیای مشخص را در تصاویر و ویدیوها با دقت بالا شناسایی کرده و در گذر زمان دنبال کنند. این پیشرفت، پیوندی میان دو حوزه مهم یعنی بینایی ماشین و مدلسازی مولد ایجاد میکند و
دانشمندان مؤسسه فناوری ماساچوست (MIT) روش تازهای برای آموزش مدلهای مولد ارائه کردهاند. این روش باعث میشود مدلهای هوش مصنوعی بتوانند اشیای مشخص را در تصاویر و ویدیوها با دقت بالا شناسایی کرده و در گذر زمان دنبال کنند. این پیشرفت، پیوندی میان دو حوزه مهم یعنی بینایی ماشین و مدلسازی مولد ایجاد میکند و مسیر نسل جدیدی از فناوریهای هوشمند را هموار میسازد.
در سالهای اخیر، مدلهایی مانند DALL·E، Stable Diffusion و Imagen توانستهاند تنها با دریافت توضیحات متنی، صحنههای طبیعی و پیچیده تولید کنند. با این حال، این مدلها هنوز در حفظ هویت و تداوم اشیاء بین چند تصویر مشکل دارند. آنها میتوانند فریم نخست را با جزئیات بسازند، اما در فریمهای بعدی تشخیص نمیدهند که شیء فعلی همان شیء قبلی است یا نه. مثلاً اگر از مدل بخواهیم در قاب دوم همان «فنجان قرمز» را نشان دهد، معمولاً فنجان دیگری میسازد که از دید انسان متفاوت است.
گروه پژوهشی MIT برای رفع این محدودیت، سازوکاری با نام درک پیوسته فضایی و زمانی (Spatio-Temporal Understanding) طراحی کرده است. در این ساختار، شبکه مولد علاوه بر ساخت پیکسلهای تصویر، ویژگیهای هر شیء را بهصورت عددی ثبت میکند. سپس در فریمهای بعدی از همان دادهها برای بازشناسی شیء استفاده میکند. این فرآیند به مدل نوعی «حافظه بصری کوتاهمدت» میدهد. به کمک این حافظه، مدل میتواند تغییر زاویه، نور یا حرکت را درک کند و همچنان بداند که با همان شیء قبلی روبهرو است. نتیجه این رویکرد، رفتاری طبیعیتر و نزدیکتر به درک انسانی است.
این فناوری کاربردهای فراوانی دارد. برای مثال، در ابزارهای کمکی نابینایان، سیستم میتواند اجسامی مانند کلید، لیوان یا تلفن همراه را شناسایی کرده و مسیر حرکت آنها را در محیط توضیح دهد. در حوزه محیطزیست نیز پژوهشگران میتوانند با این فناوری حیوانات را بدون نصب حسگر یا برچسبگذاری دستی ردیابی کنند. در رباتیک، چنین قابلیتی به رباتها امکان میدهد تا محیط اطراف را درک کنند و در چند مرحله از کار، اشیاء را پیوسته دنبال کنند.
پژوهشگران MIT باور دارند که هدف نهایی این پروژه، نزدیک کردن درک مدلهای مولد به درک انسان است. آنها میخواهند مدلهایی بسازند که نهتنها تصاویر واقعی خلق کنند، بلکه بفهمند چه چیزی را و در کجا نمایش میدهند. چنین تواناییای میتواند مرز میان تولید تصویر، تحلیل صحنه و تصمیمگیری هوشمند را از میان بردارد و آغازگر نسل تازهای از هوش مصنوعی ادراکی باشد.
برای آگاهی از تازهترین خبرها، تحلیلها در حوزه هوش مصنوعی ، به سایت خانه متاورس ایران مراجعه کنید.