تیم Qwen از علیبابا مدل جدید Qwen QwQ-32B را با ۳۲ میلیارد پارامتر معرفی کرده است که عملکردی نزدیک به مدل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر (۳۷ میلیارد پارامتر فعال) دارد. این دستاورد نشاندهندهی ظرفیت بالای یادگیری تقویتی (RL) در بهبود عملکرد مدلهای پایه قدرتمند است.
علیبابا با معرفی مدل QwQ-32B با ۳۲ میلیارد پارامتر، توانایی رقابت با مدلهای بزرگتر را نشان داده است. این مدل با یادگیری تقویتی (RL)، مهارت تفکر انتقادی، حل مسئله و استدلال را تقویت کرده است.
مدل QwQ-32B در AIME24 امتیاز ۷۹.۵ گرفته و به امتیاز ۷۹.۸ مدل DeepSeek-R1 نزدیک شده است. این مدل از OpenAI-o1-mini با ۶۳.۶ جلو زده است.
در LiveCodeBench، با امتیاز ۶۳.۴ به امتیاز ۶۵.۹ مدل DeepSeek-R1 نزدیک شده و از OpenAI-o1-mini با ۵۳.۸ بهتر عمل کرده است.
در LiveBench با امتیاز ۷۳.۱، مدل DeepSeek-R1 با ۷۱.۶ و OpenAI-o1-mini با ۵۷.۵ را پشت سر گذاشته است. در IFEval با امتیاز ۸۳.۹ به امتیاز ۸۳.۳ مدل DeepSeek-R1 نزدیک شده و از OpenAI-o1-mini با ۵۹.۱ پیش افتاده است. در BFCL هم با امتیاز ۶۶.۴، مدل DeepSeek-R1 با ۶۲.۸ و OpenAI-o1-mini با ۴۹.۳ را شکست داده است.
علیبابا با این مدل کوچک، به عملکردی در سطح مدلهای بزرگ رسیده است. تیم Qwen اعلام کرده که مقیاسگذاری RL باعث این پیشرفت شده است. این موفقیت، مسیر دستیابی به هوش عمومی مصنوعی (AGI) را هموار کرده است.
علیبابا مدل QwQ-32B را بهصورت منبع باز تحت مجوز Apache 2.0 در Hugging Face و ModelScope منتشر کرده است. کاربران میتوانند از این مدل در Qwen Chat هم استفاده کنند. علیبابا با این دستاورد، جایگاه خود را بهعنوان بازیگری قدرتمند در رقابت جهانی هوش مصنوعی تثبیت کرده است.