تیم Qwen از علی‌بابا مدل جدید هوش مصنوعی متن باز خود را با قابلیت‌های بی‌سابقه در حوزه استدلال منطقی، ریاضیات پیچیده، علوم و برنامه‌نویسی پیشرفته معرفی کرد. این مدل ۲۳۵ میلیارد پارامتری با تکنیک Mixture-of-Experts، عملکردی بی‌نظیر و حافظه‌ای گسترده ارائه می‌دهد.

تیم توسعه‌دهنده مدل هوش مصنوعی Qwen در علی‌بابا نسخه جدیدی از مدل متن باز خود را با نام Qwen3-235B-A22B-Thinking-2507 منتشر کرد. این مدل توانایی استدلال منطقی، ریاضیات پیچیده، علوم و برنامه‌نویسی را به‌طور قابل توجهی بهبود داده است. مدل دارای ۲۳۵ میلیارد پارامتر است و با استفاده از فناوری Mixture-of-Experts (MoE) تنها بخشی از پارامترها را در هر پردازش فعال می‌کند. در هر کار، هشت متخصص برتر از میان ۱۲۸ متخصص وارد عمل می‌شوند.

این مدل حافظه‌ای بسیار بزرگ دارد و می‌تواند تا ۲۶۲,۱۴۴ توکن را پردازش کند. این ویژگی به آن اجازه می‌دهد حجم زیادی از داده‌ها را به‌خوبی درک کند. مدل در بنچمارک‌های تخصصی عملکرد چشمگیری داشته است. در مسابقات ریاضی AIME25 امتیاز ۹۲.۳ را کسب کرد و در آزمون برنامه‌نویسی LiveCodeBench v6 نمره ۷۴.۱ را به دست آورد. همچنین در آزمون Arena-Hard v2 که تطابق با ترجیحات انسانی را می‌سنجد، امتیاز ۷۹.۷ گرفته است.

توسعه‌دهندگان می‌توانند مدل Qwen را به صورت رایگان در پلتفرم Hugging Face دریافت کنند. آن‌ها می‌توانند با ابزارهایی مانند sglang یا vllm مدل را اجرا و به API تبدیل کنند. تیم Qwen پیشنهاد می‌کند برای مسائل پیچیده طول خروجی را تا ۸۱,۹۲۰ توکن افزایش دهند. همچنین توصیه می‌کنند در پرسش‌ها از عبارت «مرحله به مرحله استدلال کن» استفاده شود تا پاسخ‌ها دقیق‌تر و ساختاریافته‌تر شوند.

انتشار این مدل، دسترسی به هوش مصنوعی پیشرفته را برای عموم آسان‌تر کرده است. مدل Qwen در حوزه‌های تخصصی توان رقابت با بهترین مدل‌های اختصاصی را دارد و فرصت‌های جدیدی برای توسعه‌دهندگان ایجاد می‌کند.

به اشتراک بگذارید:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *