مدلهای استدلالگر OpenAI و چالش افزایش توهمات
اخیراً OpenAI از مدلهای استدلالگر جدید خود، یعنی o3 و o4-mini، رونمایی کرد که در مقایسه با مدلهای قبلی این شرکت، از جمله o1، o1-mini و o3-mini، پیشرفتهای چشمگیری در زمینههای مختلف نشان دادهاند. با این حال، گزارشهای جدید حاکی از آن است که این مدلها با مشکل جدیتری در زمینه توهم (Hallucination) مواجه هستند و اطلاعاتی ارائه میدهند که با واقعیت همخوانی ندارد. این موضوع، یکی از نگرانیهای اصلی در توسعه هوش مصنوعی مدرن است.
توهمات بیشتر در o3 و o4-mini نسبت به مدلهای قبلی
بر اساس گزارش تککرانچ، مدلهای استدلالگر o3 و o4-mini در مقایسه با مدلهای قبلی OpenAI، مانند o1، o3-mini و حتی مدل غیراستدلالگر GPT-4o، نرخ توهم بالاتری دارند. برخلاف روند معمول که مدلهای جدیدتر به دلیل بهینهسازیها معمولاً توهم کمتری تولید میکنند، این دو مدل جدید در این زمینه عملکرد ضعیفتری از خود نشان دادهاند. این موضوع باعث شده تا توجهات به سمت دلایل این ناکامی جلب شود.
چرا توهمات در مدلهای جدید OpenAI افزایش یافته است؟
نکته قابلتوجه این است که حتی خود OpenAI نیز دلیل دقیق این افزایش توهمات را نمیداند. در گزارش فنی منتشرشده برای o3 و o4-mini، این شرکت اذعان کرده است که «نیاز به تحقیقات بیشتری برای درک علت افزایش توهمات در مدلهای استدلالگر پیشرفتهتر» وجود دارد. این ناتوانی در شناسایی منشأ مشکل، پیچیدگیهای توسعه مدلهای هوش مصنوعی را بیش از پیش برجسته میکند.
اگرچه o3 و o4-mini در زمینههایی مانند کدنویسی، حل مسائل ریاضی و استدلال پیچیده عملکرد بهتری دارند، اما به دلیل تمایل آنها به ارائه «ادعاهای بیشتر»، تعداد ادعاهای نادرست و متوهمانه آنها نیز افزایش یافته است. به عبارت دیگر، این مدلها در کنار پاسخهای دقیقتر، اطلاعات غیرواقعی بیشتری نیز تولید میکنند که میتواند برای کاربران مشکلساز باشد.
💠💠 بیشتر بخوانید:
- OpenAI به دنبال راهاندازی شبکه اجتماعی جدید
- Grok Studio معرفی شد: تولید اسناد و اپلیکیشن های ساده با هوش مصنوعی
- Veo 2 به جمینای اضافه شد: تولید ویدیو با هوش مصنوعی و احتمال نسخه رایگان
- پیشبینی سم آلتمن از ایجنتهای هوش مصنوعی: آیندهای امن یا پرریسک؟
آمار نگرانکننده توهمات در بنچمارکها
بر اساس دادههای OpenAI، مدل o3 در پاسخ به ۳۳ درصد از سؤالات بنچمارک داخلی PersonQA (که برای سنجش دقت دانش مدلها درباره اشخاص طراحی شده) دچار توهم میشود. این رقم تقریباً دو برابر نرخ توهم مدلهای قبلی، یعنی o1 (۱۶ درصد) و o3-mini (۱۴.۸ درصد) است. مدل o4-mini حتی عملکرد بدتری دارد و با نرخ توهم ۴۸ درصد در این بنچمارک، نگرانیهای بیشتری را ایجاد کرده است. این آمار نشاندهنده چالشهای جدی در بهبود دقت این مدلهاست.
تأثیر توهمات بر کاربران و کسبوکارها
توهمات در هوش مصنوعی، اگرچه گاهی میتوانند به خلاقیت و تولید ایدههای نوآورانه منجر شوند، اما برای کاربران و کسبوکارهایی که به خروجیهای دقیق و قابل اعتماد نیاز دارند، یک نقص بزرگ محسوب میشوند. به عنوان مثال، در حوزههایی مانند تحقیقات علمی، پشتیبانی مشتری یا توسعه نرمافزار، اطلاعات نادرست میتوانند خسارات قابل توجهی به بار آورند.
یکی از راهحلهای امیدوارکننده برای کاهش توهمات، ادغام قابلیت جستجوی وب در مدلهای هوش مصنوعی است. برای نمونه، مدل GPT-4o با استفاده از جستجوی وب توانست در بنچمارک SimpleQA (سنجش دقت پاسخها) به امتیاز چشمگیر ۹۰ درصد دست یابد. این رویکرد میتواند به مدلها کمک کند تا اطلاعات معتبرتری ارائه دهند و وابستگی به دادههای نادرست تولیدشده توسط خود مدل کاهش یابد.
آینده مدلهای استدلالگر OpenAI
افزایش توهمات در o3 و o4-mini نشاندهنده پیچیدگیهای موجود در توسعه هوش مصنوعی استدلالگر است. OpenAI احتمالاً در آینده با انجام تحقیقات بیشتر و بهینهسازیهای جدید، تلاش خواهد کرد این مشکل را برطرف کند. با این حال، این موضوع بار دیگر یادآوری میکند که حتی پیشرفتهترین مدلهای هوش مصنوعی نیز همچنان با محدودیتهایی مواجه هستند.
برای کاربرانی که به دنبال استفاده از این مدلها هستند، آگاهی از این نقص و ترکیب خروجیها با ابزارهای تأیید صحت اطلاعات، مانند جستجوی وب یا منابع معتبر، میتواند به کاهش تأثیرات منفی توهمات کمک کند. در نهایت، پیشرفتهای آینده OpenAI در این زمینه تعیینکننده خواهد بود که آیا این مدلها میتوانند به سطحی از دقت و اعتمادپذیری برسند که انتظارات کاربران را برآورده کند.