تیم تحقیقاتی FAIR در شرکت متا پنج پروژه جدید را معرفی کرده که گامی اساسی در جهت توسعه هوش ماشینی پیشرفته (AMI) بهشمار میروند. این پروژهها بر بهبود تواناییهای درک، استدلال و تعامل هوش مصنوعی تمرکز دارند و افقهایی تازه برای ساخت ماشینهایی با قدرت تفکر مشابه انسان میگشایند.
شرکت متا با معرفی پنج پروژه تازه در حوزه هوش مصنوعی، تلاش خود را برای توسعه هوش ماشینی با تواناییهای انسانی تقویت کرده است. این پروژهها توسط تیم تحقیقات بنیادین هوش مصنوعی (FAIR) طراحی شدهاند و طیفی از زمینهها مانند بینایی ماشین، مدلسازی زبان، رباتیک و همکاری عاملهای هوشمند را در بر میگیرند.
متا اعلام کرده هدف نهایی این تلاشها، ساخت ماشینهایی است که بتوانند اطلاعات حسی از جهان اطراف را دریافت، پردازش و تفسیر کرده و بر اساس آن تصمیمهایی در سطح هوش و سرعت انسانی بگیرند.
۱. رمزگشای ادراکی (Perception Encoder)
در قلب پروژههای جدید، رمزگشای ادراکی قرار دارد؛ مدلی مقیاسپذیر برای بینایی ماشین که تواناییهای بینظیری در تشخیص و بازیابی تصاویر و ویدئوها بهصورت «zero-shot» ارائه میدهد. این مدل میتواند مفاهیم پیچیده و ظریف را در شرایط نوری و محیطی دشوار شناسایی کند. متا ادعا دارد که عملکرد این رمزگشا از تمام مدلهای متنباز و اختصاصی فعلی در حوزه تصویر و ویدئو پیشی گرفته است.
۲. مدل زبانی-ادراکی (Perception Language Model – PLM)
PLM مدلی باز و بازتولیدپذیر است که برای درک پیچیده تصاویر طراحی شده است. این مدل با بهرهگیری از دادههای ترکیبی مصنوعی و واقعی، بدون استفاده از مدلهای اختصاصی خارجی، آموزش دیده است. متا همچنین یک مجموعهداده جدید با ۲.۵ میلیون نمونه برچسبخورده انسانی و یک معیار سنجش تازه به نام PLM-VideoBench را معرفی کرده تا پژوهش در حوزه ویدئو را به سطحی دقیقتر و انسانیتر ارتقا دهد.
۳. متا لوکیت سهبعدی (Meta Locate 3D)
این مدل برای ارتباط مؤثرتر زبان طبیعی با فضای سهبعدی طراحی شده و به رباتها امکان میدهد با دریافت فرمانهایی مانند «گلدان کنار میز تلویزیون»، اشیاء را در فضای فیزیکی دقیقاً مکانیابی کنند. سیستم از دادههای سهبعدی حاصل از حسگرهای عمقسنج استفاده کرده و مجموعهدادهای شامل ۱۳۰ هزار توصیف زبانی برای ۱۳۴۶ صحنه نیز در کنار آن عرضه شده است.
۴. ترنسفورمر بایتمحور پویا (Dynamic Byte Latent Transformer)
بر خلاف مدلهای زبانی متداول که از توکن استفاده میکنند، این مدل از سطح بایت به متن نگاه میکند و با حذف مرحله توکنسازی، مقاومت بیشتری در برابر اشتباهات املایی، واژگان ناآشنا و حملات زبانی دارد. متا اعلام کرده که این مدل در تستهای مقاومتی از جمله CUTE و HellaSwag، عملکرد بهتری نسبت به مدلهای متکی به توکن از خود نشان داده است.
۵. استدلالگر همکار (Collaborative Reasoner)
آخرین پروژه متا، چارچوبی برای آموزش و ارزیابی عاملهای هوشمندی است که توانایی همکاری با انسان یا عاملهای دیگر را دارند. این سیستم مهارتهایی همچون ارتباط مؤثر، همدلی، بازخورددهی، و استدلال چندمرحلهای را شبیهسازی میکند. متا با استفاده از تکنیکی نوین مبتنی بر گفتوگوی مصنوعی میان دو نسخه از یک عامل، موفق به بهبود تا ۲۹٪ در وظایف پیچیده شده است.
با انتشار عمومی این مدلها، دادهها و کدهای متنباز، متا امیدوار است زمینهساز گسترش پژوهش در حوزه هوش مصنوعی اجتماعی و عاملهای همکار باشد. این اقدامات، گامی بلند در مسیر ساخت ماشینهایی با درک، استدلال و تعامل مشابه انسان بهشمار میآید.