OpenAI با مدلهای وزن باز GPT-OSS-120B و GPT-OSS-20B به دنیای متن باز، بازگشت
شرکت OpenAI پس از شش سال وقفه، با انتشار دو مدل وزنباز GPT-OSS-120B و GPT-OSS-20B، بار دیگر به صحنه هوش مصنوعی متنباز بازگشته است. این مدلها که از روز ۱۴ مرداد ۱۴۰۴ (۵ آگوست ۲۰۲۵) بهصورت رایگان در پلتفرم Hugging Face در دسترس قرار گرفتهاند، اولین مدلهای وزنباز OpenAI از زمان عرضه GPT-2 در سال ۲۰۱۹ هستند. این اقدام که به گفته سام آلتمن، مدیرعامل OpenAI، نتیجه میلیاردها دلار سرمایهگذاری در تحقیق و توسعه است، گامی بزرگ در راستای دموکراتیک سازی هوش مصنوعی محسوب میشود. این مدلها با مجوز Apache 2.0 عرضه شدهاند و به توسعهدهندگان و کاربران امکان میدهند تا آنها را بهصورت رایگان دانلود، سفارشیسازی و حتی برای اهداف تجاری استفاده کنند.
مدلهای وزنباز، برخلاف مدلهای متنباز کامل، تنها شامل وزنهای آموزشدیده (پارامترهای عددی مدل) هستند و کد منبع یا دادههای آموزشی را در بر نمیگیرند. بنجامین سی. لی، استاد مهندسی و علوم کامپیوتر دانشگاه پنسیلوانیا، در این باره توضیح میدهد: «مدلهای وزنباز به کاربران اجازه میدهند بدون نیاز به بازسازی مدل از ابتدا، از وزنهای آموزشدیده استفاده کنند یا آنها را برای کاربردهای خاص بهینهسازی کنند.» این ویژگی مدلهای وزنباز را به گزینهای میانی بین مدلهای کاملاً متنباز و مدلهای اختصاصی تبدیل کرده است. OpenAI به دلایل امنیتی و جلوگیری از مهندسی معکوس، فعلاً از انتشار مدلهای کاملاً متنباز خودداری کرده، اما این مدلها همچنان فرصتی بینظیر برای توسعهدهندگانی فراهم میکنند که به دنبال راهحلهای انعطافپذیر و کمهزینه هستند.
مدل GPT-OSS-120B با ۱۱۷ میلیارد پارامتر و ۵٫۱ میلیارد پارامتر فعال در هر توکن، برای کاربردهای سنگین و حرفهای طراحی شده و به یک GPU با حافظه ۸۰ گیگابایت، مانند Nvidia H100، نیاز دارد. این مدل که عملکردی نزدیک به مدل اختصاصی o4-mini OpenAI دارد، در بنچمارکهایی مانند Codeforces (کدنویسی رقابتی)، AIME 2024/2025 (ریاضیات رقابتی) و HealthBench (سوالات پزشکی) عملکردی درخشان نشان داده و حتی در برخی موارد از o4-mini پیشی گرفته است. از سوی دیگر، GPT-OSS-20B با ۲۱ میلیارد پارامتر و ۳٫۶ میلیارد پارامتر فعال، برای اجرا روی دستگاههای مصرفی با حداقل ۱۶ گیگابایت رم طراحی شده است. این مدل که با مدل o3-mini OpenAI قابلمقایسه است، میتواند روی لپتاپها یا حتی دستگاههای موبایل مجهز به پردازندههای Snapdragon اجرا شود، که آن را به گزینهای ایدهآل برای کاربردهای محلی و کمتأخیر تبدیل میکند.
هر دو مدل از معماری ترکیبی متخصصان (Mixture-of-Experts) بهره میبرند که با فعالسازی تعداد محدودی از پارامترها در هر لحظه، کارایی را افزایش و مصرف منابع را کاهش میدهد. این مدلها با استفاده از تکنیکهای پیشرفتهای مانند توجه پراکنده محلی و کدگذاری موقعیت چرخشی (RoPE) طراحی شدهاند و از طول زمینه ۱۲۸ هزار توکن پشتیبانی میکنند، که برای پردازش اسناد طولانی یا مکالمات پیچیده مناسب است. علاوه بر این، مدلها از قالب پاسخ harmony استفاده میکنند که برای عملکرد بهینه باید رعایت شود. OpenAI همچنین توکنایزر o200k_harmony را متنباز کرده تا توسعهدهندگان بتوانند از آن برای پردازش دادهها استفاده کنند.
این مدلها که با دادههای عمدتاً انگلیسی در حوزههای STEM، کدنویسی و دانش عمومی آموزش دیدهاند، قابلیتهای پیشرفتهای مانند استدلال زنجیرهای (Chain-of-Thought)، استفاده از ابزار (مانند جستوجوی وب و اجرای کد پایتون) و تنظیم سطح استدلال (کم، متوسط، بالا) را ارائه میدهند. GPT-OSS-20B بهویژه برای کاربرانی که به دنبال اجرای هوش مصنوعی روی دستگاههای محلی بدون نیاز به اتصال به ابر هستند، گزینهای جذاب است. این ویژگی برای حفظ حریم خصوصی دادهها و کاهش هزینهها بسیار ارزشمند است، بهویژه برای سازمانهایی که نمیتوانند به زیرساختهای عظیم ابری وابسته باشند. در همین راستا، OpenAI با پلتفرمهایی مانند Azure، AWS، Databricks، Ollama و vLLM همکاری کرده تا این مدلها بهراحتی در محیطهای مختلف مستقر شوند.
OpenAI ایمنی را در توسعه این مدلها در اولویت قرار داده است. طبق اعلام این شرکت، GPT-OSS-120B تحت آزمایشهای گستردهای بر اساس چارچوب آمادگی (Preparedness Framework) قرار گرفته و حتی در سناریوهای تنظیمشده مخرب، نتوانسته به سطح تواناییهای خطرناک در حوزههای زیستی، سایبری یا خودبهبود هوش مصنوعی دست یابد. این آزمایشها با نظارت کارشناسان ایمنی خارجی انجام شده و نشاندهنده تعهد OpenAI به عرضه مدلهای ایمن و مسئولانه است. با این حال، این مدلها به دلیل ماهیت وزنباز، پس از انتشار از کنترل کامل OpenAI خارج میشوند، که این شرکت را وادار به بررسی دقیق خطرات احتمالی کرده است.
این انتشار که با استقبال گستردهای در جامعه توسعهدهندگان همراه شده، پاسخی به رقبایی مانند Meta، Mistral و DeepSeek است که در سالهای اخیر مدلهای وزنباز خود را عرضه کردهاند. به گفته گرگ براکمن، یکی از بنیانگذاران OpenAI، این مدلها بهعنوان مکملی برای خدمات ابری این شرکت طراحی شدهاند و نه جایگزینی برای آنها. کاربران میتوانند این مدلها را از طریق Hugging Face، GitHub یا پلتفرمهای میزبانی مانند Azure و AWS دانلود کنند و با ابزارهایی مانند Transformers، vLLM یا Ollama اجرا کنند. برای نمونه، کاربران میتوانند با دستورات سادهای در Hugging Face یا با استفاده از اپلیکیشن Ollama، این مدلها را روی سیستمهای خود مستقر کنند و حتی آنها را برای کاربردهای خاص تنظیم کنند.