تیم تحقیقاتی FAIR در شرکت متا پنج پروژه جدید را معرفی کرده که گامی اساسی در جهت توسعه هوش ماشینی پیشرفته (AMI) به‌شمار می‌روند. این پروژه‌ها بر بهبود توانایی‌های درک، استدلال و تعامل هوش مصنوعی تمرکز دارند و افق‌هایی تازه برای ساخت ماشین‌هایی با قدرت تفکر مشابه انسان می‌گشایند.

شرکت متا با معرفی پنج پروژه تازه در حوزه هوش مصنوعی، تلاش خود را برای توسعه هوش ماشینی با توانایی‌های انسانی تقویت کرده است. این پروژه‌ها توسط تیم تحقیقات بنیادین هوش مصنوعی (FAIR) طراحی شده‌اند و طیفی از زمینه‌ها مانند بینایی ماشین، مدلسازی زبان، رباتیک و همکاری عامل‌های هوشمند را در بر می‌گیرند.

متا اعلام کرده هدف نهایی این تلاش‌ها، ساخت ماشین‌هایی است که بتوانند اطلاعات حسی از جهان اطراف را دریافت، پردازش و تفسیر کرده و بر اساس آن تصمیم‌هایی در سطح هوش و سرعت انسانی بگیرند.

۱. رمزگشای ادراکی (Perception Encoder)

در قلب پروژه‌های جدید، رمزگشای ادراکی قرار دارد؛ مدلی مقیاس‌پذیر برای بینایی ماشین که توانایی‌های بی‌نظیری در تشخیص و بازیابی تصاویر و ویدئوها به‌صورت «zero-shot» ارائه می‌دهد. این مدل می‌تواند مفاهیم پیچیده و ظریف را در شرایط نوری و محیطی دشوار شناسایی کند. متا ادعا دارد که عملکرد این رمزگشا از تمام مدل‌های متن‌باز و اختصاصی فعلی در حوزه تصویر و ویدئو پیشی گرفته است.

۲. مدل زبانی-ادراکی (Perception Language Model – PLM)

PLM مدلی باز و بازتولیدپذیر است که برای درک پیچیده تصاویر طراحی شده است. این مدل با بهره‌گیری از داده‌های ترکیبی مصنوعی و واقعی، بدون استفاده از مدل‌های اختصاصی خارجی، آموزش دیده است. متا همچنین یک مجموعه‌داده جدید با ۲.۵ میلیون نمونه برچسب‌خورده انسانی و یک معیار سنجش تازه به نام PLM-VideoBench را معرفی کرده تا پژوهش در حوزه ویدئو را به سطحی دقیق‌تر و انسانی‌تر ارتقا دهد.

۳. متا لوکیت سه‌بعدی (Meta Locate 3D)

این مدل برای ارتباط مؤثرتر زبان طبیعی با فضای سه‌بعدی طراحی شده و به ربات‌ها امکان می‌دهد با دریافت فرمان‌هایی مانند «گلدان کنار میز تلویزیون»، اشیاء را در فضای فیزیکی دقیقاً مکان‌یابی کنند. سیستم از داده‌های سه‌بعدی حاصل از حسگرهای عمق‌سنج استفاده کرده و مجموعه‌داده‌ای شامل ۱۳۰ هزار توصیف زبانی برای ۱۳۴۶ صحنه نیز در کنار آن عرضه شده است.

۴. ترنسفورمر بایت‌محور پویا (Dynamic Byte Latent Transformer)

بر خلاف مدل‌های زبانی متداول که از توکن استفاده می‌کنند، این مدل از سطح بایت به متن نگاه می‌کند و با حذف مرحله توکن‌سازی، مقاومت بیشتری در برابر اشتباهات املایی، واژگان ناآشنا و حملات زبانی دارد. متا اعلام کرده که این مدل در تست‌های مقاومتی از جمله CUTE و HellaSwag، عملکرد بهتری نسبت به مدل‌های متکی به توکن از خود نشان داده است.

۵. استدلال‌گر همکار (Collaborative Reasoner)

آخرین پروژه متا، چارچوبی برای آموزش و ارزیابی عامل‌های هوشمندی است که توانایی همکاری با انسان یا عامل‌های دیگر را دارند. این سیستم مهارت‌هایی همچون ارتباط مؤثر، همدلی، بازخورددهی، و استدلال چندمرحله‌ای را شبیه‌سازی می‌کند. متا با استفاده از تکنیکی نوین مبتنی بر گفت‌وگوی مصنوعی میان دو نسخه از یک عامل، موفق به بهبود تا ۲۹٪ در وظایف پیچیده شده است.

با انتشار عمومی این مدل‌ها، داده‌ها و کدهای متن‌باز، متا امیدوار است زمینه‌ساز گسترش پژوهش در حوزه هوش مصنوعی اجتماعی و عامل‌های همکار باشد. این اقدامات، گامی بلند در مسیر ساخت ماشین‌هایی با درک، استدلال و تعامل مشابه انسان به‌شمار می‌آید.

 

به اشتراک بگذارید:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *