میسترال از مدل متن‌باز Medium 3.5 رونمایی کرد؛ عملکرد ضعیف در بنچمارک‌ها

میسترال از مدل متن‌باز Medium 3.5 رونمایی کرد؛ عملکرد ضعیف در بنچمارک‌ها

شرکت مستقر در پاریس Mistral AI از هوش مصنوعی متن‌باز جدیدی با نام Mistral Medium 3.5 رونمایی کرد. این مدل ۱۲۸ میلیارد پارامتری همراه با مجموعه‌ای از قابلیت‌های ایجنت‌محور معرفی شده اما کاربران شبکه‌های اجتماعی به انتقاد گسترده از آن پرداخته‌اند.

Mistral Medium 3.5 در بنچمارک SWE-Bench Verified که عملکرد مدل در کدنویسی را آزمایش می‌کند، امتیاز ۷۷.۶ درصد را کسب کرده است. این مدل همچنین در بنچمارک τ³-Telecom که استفاده عامل‌محور از ابزارهای آن در محیط‌های تخصصی را بررسی می‌کند، به امتیاز ۹۱.۴ درصد رسیده است.

در مقابل، مدل Qwen 3.6 علی‌بابا با ۲۷ میلیارد پارامتر (یعنی کمتر از یک‌چهارم تعداد پارامترهای Medium 3.5) در همان بنچمارک SWE-Bench Verified امتیاز ۷۲.۴ درصد کسب کرده و تحت مجوز Apache 2.0 عرضه می‌شود؛ یعنی می‌توان آن را رایگان دانلود و اجرا کرد.

میسترال برای هر یک میلیون توکن ورودی این مدل ۱.۵۰ دلار و برای هر یک میلیون توکن خروجی ۷.۵۰ دلار دریافت می‌کند.

بررسی جداول رتبه‌بندی مدل‌های متن‌باز نیز نشان می‌دهد که جایگاه‌های بالای این جدول‌ها در اختیار Qwen از علی‌بابا، GLM از شرکت چینی Zhipu AI و MiMo-V2 از شیائومی است؛ مدل‌هایی که هم ارزان‌تر هستند و هم قدرتمند و رقابتی ظاهر شده‌اند. Medium 3.5 هنوز حتی در رتبه‌بندی‌های مستقل بزرگ جایگاهی ندارد و ارزیابی‌های شخص ثالث از آن همچنان در انتظار انتشار است.

واکنش کاربران به Mistral Medium 3.5

«پدرو دومینگوس»، استاد یادگیری ماشین در دانشگاه واشنگتن، از جمله افرادی است که واکنش تندی به این مدل نشان داده. او می‌گوید:

«شرکت‌های معمولی هوش مصنوعی به این افتخار می‌کنند که مدلشان در بنچمارک‌ها چقدر بهتر است. فقط میسترال است که افتخار می‌کند که مدلش چقدر بدتر است. نمی‌دانم چه چیزی بدتر است؛ اینکه اروپا در رقابت هوش مصنوعی حضور نداشته باشد یا نماینده آن چیزی مثل میسترال باشد که مایه تمسخر است.»

«یوسف التوخى»، بنیان‌گذار Yoyo Studios، نیز محاسبه کرده که Qwen 3.6 با ۲۷ میلیارد پارامتر، ۴.۷ برابر کوچک‌تر از Medium 3.5 است و در حوزه کدنویسی امتیازی قابل‌مقایسه کسب می‌کند. هزینه خروجی Medium 3.5 نیز آن را در کنار مدل‌های بسته‌ای قرار می‌دهد که در تمام بنچمارک‌های مهم امتیازهای بسیار بالاتری دارند.

البته همه واکنش‌ها کاملاً منفی نبود. «میکال لانگمایر»، توسعه‌دهنده هوش مصنوعی، این وضعیت دوگانه را چنین توصیف می‌کند:

«واقعاً خوشحالم که هنوز یک آزمایشگاه غیرآمریکایی و غیرچینی وجود دارد که تلاش می‌کند مدل‌های زبانی بزرگ پیشرو بسازد، اما واقعاً باید در اروپا سطح بازی را بالا ببریم. مدل پرچمدار جدید [میسترال] اساساً در هیچ بنچمارکی بهترین نیست، اما چند برابر بیشتر از اکثر رقبا هزینه دارد.»

برخی توسعه‌دهندگان نیز استدلال کرده‌اند که ارائه وزن‌های متن‌باز بیشتر یک استراتژی بلندمدت برای دوام است و هدف آن صرفاً رقابت در جدول رتبه‌بندی نیست. در واقع آنها می‌گویند مدلی که هرکسی بتواند آن را دانلود، تنظیم و روی زیرساخت خودش میزبانی کند، الزاماً نیازی ندارد امروز در رتبه‌بندی‌ها پیروز شود.

Picture of هاریکا

هاریکا

هاریکا، به‌عنوان مجله‌ای نوآوری و مدرن در دنیای تکنولوژی، فعالیت خود را با هدف ارائه دقیق‌ترین و به‌روزترین اخبار، تحلیل‌ها و بررسی‌های فناوری آغاز کرده است. ما باور داریم که تکنولوژی فراتر از یک ابزار است؛ این یک سبک زندگی است که هر روز، جنبه‌های مختلف زندگی ما را دگرگون می‌کند. هاریکا، از ترکیب شور و تخصص در دنیای دیجیتال متولد شده است. تیم ما شامل گروهی از نویسندگان، تحلیل‌گران و علاقه‌مندان به فناوری است که هدفشان ارائه محتوایی جذاب، قابل اعتماد و کاربرپسند به شماست.

مقالات مرتبط

اساتید استنفورد در پاسخگویی به سؤالات حقوقی از هوش مصنوعی شکست خوردند

پژوهش جدید نشان می‌دهد که در پاسخ‌گویی به سؤالات دانشجویان حقوق، اساتید…

1405-03-14

هوش مصنوعی تا ۲۰۳۰ می‌تواند معادل ۱.۳ میلیارد نفر آب مصرف کند

گزارش جدید سازمان ملل پیامی هشداردهنده برای جهان دارد. محققان تخمین می‌زنند…

1405-03-14

شرکت‌ها از هزینه‌های گزاف توکن‌های هوش مصنوعی گلایه دارند

تخیل کنید ابتدای سال بودجه‌ای برای یک سال استفاده از هوش مصنوعی…

1405-03-14