میسترال از مدل متن‌باز Medium 3.5 رونمایی کرد؛ عملکرد ضعیف در بنچمارک‌ها

شرکت مستقر در پاریس Mistral AI از هوش مصنوعی متن‌باز جدیدی با نام Mistral Medium 3.5 رونمایی کرد. این مدل ۱۲۸ میلیارد پارامتری همراه با مجموعه‌ای از قابلیت‌های ایجنت‌محور معرفی شده اما کاربران شبکه‌های اجتماعی به انتقاد گسترده از آن پرداخته‌اند.

Mistral Medium 3.5 در بنچمارک SWE-Bench Verified که عملکرد مدل در کدنویسی را آزمایش می‌کند، امتیاز ۷۷.۶ درصد را کسب کرده است. این مدل همچنین در بنچمارک τ³-Telecom که استفاده عامل‌محور از ابزارهای آن در محیط‌های تخصصی را بررسی می‌کند، به امتیاز ۹۱.۴ درصد رسیده است.

در مقابل، مدل Qwen 3.6 علی‌بابا با ۲۷ میلیارد پارامتر (یعنی کمتر از یک‌چهارم تعداد پارامترهای Medium 3.5) در همان بنچمارک SWE-Bench Verified امتیاز ۷۲.۴ درصد کسب کرده و تحت مجوز Apache 2.0 عرضه می‌شود؛ یعنی می‌توان آن را رایگان دانلود و اجرا کرد.

میسترال برای هر یک میلیون توکن ورودی این مدل ۱.۵۰ دلار و برای هر یک میلیون توکن خروجی ۷.۵۰ دلار دریافت می‌کند.

بررسی جداول رتبه‌بندی مدل‌های متن‌باز نیز نشان می‌دهد که جایگاه‌های بالای این جدول‌ها در اختیار Qwen از علی‌بابا، GLM از شرکت چینی Zhipu AI و MiMo-V2 از شیائومی است؛ مدل‌هایی که هم ارزان‌تر هستند و هم قدرتمند و رقابتی ظاهر شده‌اند. Medium 3.5 هنوز حتی در رتبه‌بندی‌های مستقل بزرگ جایگاهی ندارد و ارزیابی‌های شخص ثالث از آن همچنان در انتظار انتشار است.

واکنش کاربران به Mistral Medium 3.5

«پدرو دومینگوس»، استاد یادگیری ماشین در دانشگاه واشنگتن، از جمله افرادی است که واکنش تندی به این مدل نشان داده. او می‌گوید:

«شرکت‌های معمولی هوش مصنوعی به این افتخار می‌کنند که مدلشان در بنچمارک‌ها چقدر بهتر است. فقط میسترال است که افتخار می‌کند که مدلش چقدر بدتر است. نمی‌دانم چه چیزی بدتر است؛ اینکه اروپا در رقابت هوش مصنوعی حضور نداشته باشد یا نماینده آن چیزی مثل میسترال باشد که مایه تمسخر است.»

«یوسف التوخى»، بنیان‌گذار Yoyo Studios، نیز محاسبه کرده که Qwen 3.6 با ۲۷ میلیارد پارامتر، ۴.۷ برابر کوچک‌تر از Medium 3.5 است و در حوزه کدنویسی امتیازی قابل‌مقایسه کسب می‌کند. هزینه خروجی Medium 3.5 نیز آن را در کنار مدل‌های بسته‌ای قرار می‌دهد که در تمام بنچمارک‌های مهم امتیازهای بسیار بالاتری دارند.

البته همه واکنش‌ها کاملاً منفی نبود. «میکال لانگمایر»، توسعه‌دهنده هوش مصنوعی، این وضعیت دوگانه را چنین توصیف می‌کند:

«واقعاً خوشحالم که هنوز یک آزمایشگاه غیرآمریکایی و غیرچینی وجود دارد که تلاش می‌کند مدل‌های زبانی بزرگ پیشرو بسازد، اما واقعاً باید در اروپا سطح بازی را بالا ببریم. مدل پرچمدار جدید [میسترال] اساساً در هیچ بنچمارکی بهترین نیست، اما چند برابر بیشتر از اکثر رقبا هزینه دارد.»

برخی توسعه‌دهندگان نیز استدلال کرده‌اند که ارائه وزن‌های متن‌باز بیشتر یک استراتژی بلندمدت برای دوام است و هدف آن صرفاً رقابت در جدول رتبه‌بندی نیست. در واقع آنها می‌گویند مدلی که هرکسی بتواند آن را دانلود، تنظیم و روی زیرساخت خودش میزبانی کند، الزاماً نیازی ندارد امروز در رتبه‌بندی‌ها پیروز شود.

تکنولوژی

سازندگان GTA San Andreas از اضافه کردن مکانیک مخفی‌کاری به این بازی پشیمان شده بودند

State of Decay 3 حس و حال یک بازی AAA را می‌دهد

اساتید استنفورد در پاسخگویی به سؤالات حقوقی از هوش مصنوعی شکست خوردند

:: برای جستجو تایپ کنید ::

میسترال از مدل متن‌باز Medium 3.5 رونمایی کرد؛ عملکرد ضعیف در بنچمارک‌ها

واکنش کاربران به Mistral Medium 3.5

هاریکا

اساتید استنفورد در پاسخگویی به سؤالات حقوقی از هوش مصنوعی شکست خوردند

هوش مصنوعی تا ۲۰۳۰ می‌تواند معادل ۱.۳ میلیارد نفر آب مصرف کند

شرکت‌ها از هزینه‌های گزاف توکن‌های هوش مصنوعی گلایه دارند

دنبال چیزی می گردی؟ سرچ کن :)

داغ ترین های فناوری

به دنیای هاریکا خوش آمدید! هاریکا، پلی به آینده دیجیتال :)

هاریکا

تکنولوژی

سازندگان GTA San Andreas از اضافه کردن مکانیک مخفی‌کاری به این بازی پشیمان شده بودند

State of Decay 3 حس و حال یک بازی AAA را می‌دهد

اساتید استنفورد در پاسخگویی به سؤالات حقوقی از هوش مصنوعی شکست خوردند

میسترال از مدل متن‌باز Medium 3.5 رونمایی کرد؛ عملکرد ضعیف در بنچمارک‌ها

اشتراک گذاری

اشتراک گذاری

واکنش کاربران به Mistral Medium 3.5

هاریکا

اساتید استنفورد در پاسخگویی به سؤالات حقوقی از هوش مصنوعی شکست خوردند

هوش مصنوعی تا ۲۰۳۰ می‌تواند معادل ۱.۳ میلیارد نفر آب مصرف کند

شرکت‌ها از هزینه‌های گزاف توکن‌های هوش مصنوعی گلایه دارند

دنبال چیزی می گردی؟ سرچ کن :)

داغ ترین های فناوری