مدل‌های جدید OpenAI: پیشرفت همراه با افزایش توهمات

/openai-o3-o4-mini-models-higher-hallucinations

مدل‌های استدلال‌گر OpenAI و چالش افزایش توهمات

اخیراً OpenAI از مدل‌های استدلال‌گر جدید خود، یعنی o3 و o4-mini، رونمایی کرد که در مقایسه با مدل‌های قبلی این شرکت، از جمله o1، o1-mini و o3-mini، پیشرفت‌های چشمگیری در زمینه‌های مختلف نشان داده‌اند. با این حال، گزارش‌های جدید حاکی از آن است که این مدل‌ها با مشکل جدی‌تری در زمینه توهم (Hallucination) مواجه هستند و اطلاعاتی ارائه می‌دهند که با واقعیت همخوانی ندارد. این موضوع، یکی از نگرانی‌های اصلی در توسعه هوش مصنوعی مدرن است.

توهمات بیشتر در o3 و o4-mini نسبت به مدل‌های قبلی

بر اساس گزارش تک‌کرانچ، مدل‌های استدلال‌گر o3 و o4-mini در مقایسه با مدل‌های قبلی OpenAI، مانند o1، o3-mini و حتی مدل غیراستدلال‌گر GPT-4o، نرخ توهم بالاتری دارند. برخلاف روند معمول که مدل‌های جدیدتر به دلیل بهینه‌سازی‌ها معمولاً توهم کمتری تولید می‌کنند، این دو مدل جدید در این زمینه عملکرد ضعیف‌تری از خود نشان داده‌اند. این موضوع باعث شده تا توجهات به سمت دلایل این ناکامی جلب شود.

چرا توهمات در مدل‌های جدید OpenAI افزایش یافته است؟

نکته قابل‌توجه این است که حتی خود OpenAI نیز دلیل دقیق این افزایش توهمات را نمی‌داند. در گزارش فنی منتشرشده برای o3 و o4-mini، این شرکت اذعان کرده است که «نیاز به تحقیقات بیشتری برای درک علت افزایش توهمات در مدل‌های استدلال‌گر پیشرفته‌تر» وجود دارد. این ناتوانی در شناسایی منشأ مشکل، پیچیدگی‌های توسعه مدل‌های هوش مصنوعی را بیش از پیش برجسته می‌کند.

اگرچه o3 و o4-mini در زمینه‌هایی مانند کدنویسی، حل مسائل ریاضی و استدلال پیچیده عملکرد بهتری دارند، اما به دلیل تمایل آن‌ها به ارائه «ادعاهای بیشتر»، تعداد ادعاهای نادرست و متوهمانه آن‌ها نیز افزایش یافته است. به عبارت دیگر، این مدل‌ها در کنار پاسخ‌های دقیق‌تر، اطلاعات غیرواقعی بیشتری نیز تولید می‌کنند که می‌تواند برای کاربران مشکل‌ساز باشد.

💠💠 بیشتر بخوانید:

  1. OpenAI به دنبال راه‌اندازی شبکه اجتماعی جدید
  2. Grok Studio معرفی شد: تولید اسناد و اپلیکیشن‌ های ساده با هوش مصنوعی
  3. Veo 2 به جمینای اضافه شد: تولید ویدیو با هوش مصنوعی و احتمال نسخه رایگان
  4. پیش‌بینی سم آلتمن از ایجنت‌های هوش مصنوعی: آینده‌ای امن یا پرریسک؟

آمار نگران‌کننده توهمات در بنچمارک‌ها

بر اساس داده‌های OpenAI، مدل o3 در پاسخ به ۳۳ درصد از سؤالات بنچمارک داخلی PersonQA (که برای سنجش دقت دانش مدل‌ها درباره اشخاص طراحی شده) دچار توهم می‌شود. این رقم تقریباً دو برابر نرخ توهم مدل‌های قبلی، یعنی o1 (۱۶ درصد) و o3-mini (۱۴.۸ درصد) است. مدل o4-mini حتی عملکرد بدتری دارد و با نرخ توهم ۴۸ درصد در این بنچمارک، نگرانی‌های بیشتری را ایجاد کرده است. این آمار نشان‌دهنده چالش‌های جدی در بهبود دقت این مدل‌هاست.

تأثیر توهمات بر کاربران و کسب‌وکارها

توهمات در هوش مصنوعی، اگرچه گاهی می‌توانند به خلاقیت و تولید ایده‌های نوآورانه منجر شوند، اما برای کاربران و کسب‌وکارهایی که به خروجی‌های دقیق و قابل اعتماد نیاز دارند، یک نقص بزرگ محسوب می‌شوند. به عنوان مثال، در حوزه‌هایی مانند تحقیقات علمی، پشتیبانی مشتری یا توسعه نرم‌افزار، اطلاعات نادرست می‌توانند خسارات قابل توجهی به بار آورند.

یکی از راه‌حل‌های امیدوارکننده برای کاهش توهمات، ادغام قابلیت جستجوی وب در مدل‌های هوش مصنوعی است. برای نمونه، مدل GPT-4o با استفاده از جستجوی وب توانست در بنچمارک SimpleQA (سنجش دقت پاسخ‌ها) به امتیاز چشمگیر ۹۰ درصد دست یابد. این رویکرد می‌تواند به مدل‌ها کمک کند تا اطلاعات معتبرتری ارائه دهند و وابستگی به داده‌های نادرست تولیدشده توسط خود مدل کاهش یابد.

آینده مدل‌های استدلال‌گر OpenAI

افزایش توهمات در o3 و o4-mini نشان‌دهنده پیچیدگی‌های موجود در توسعه هوش مصنوعی استدلال‌گر است. OpenAI احتمالاً در آینده با انجام تحقیقات بیشتر و بهینه‌سازی‌های جدید، تلاش خواهد کرد این مشکل را برطرف کند. با این حال، این موضوع بار دیگر یادآوری می‌کند که حتی پیشرفته‌ترین مدل‌های هوش مصنوعی نیز همچنان با محدودیت‌هایی مواجه هستند.

برای کاربرانی که به دنبال استفاده از این مدل‌ها هستند، آگاهی از این نقص و ترکیب خروجی‌ها با ابزارهای تأیید صحت اطلاعات، مانند جستجوی وب یا منابع معتبر، می‌تواند به کاهش تأثیرات منفی توهمات کمک کند. در نهایت، پیشرفت‌های آینده OpenAI در این زمینه تعیین‌کننده خواهد بود که آیا این مدل‌ها می‌توانند به سطحی از دقت و اعتمادپذیری برسند که انتظارات کاربران را برآورده کند.

برچسب ها :
Picture of هاریکا

هاریکا

هاریکا، به‌عنوان مجله‌ای نوآوری و مدرن در دنیای تکنولوژی، فعالیت خود را با هدف ارائه دقیق‌ترین و به‌روزترین اخبار، تحلیل‌ها و بررسی‌های فناوری آغاز کرده است. ما باور داریم که تکنولوژی فراتر از یک ابزار است؛ این یک سبک زندگی است که هر روز، جنبه‌های مختلف زندگی ما را دگرگون می‌کند. هاریکا، از ترکیب شور و تخصص در دنیای دیجیتال متولد شده است. تیم ما شامل گروهی از نویسندگان، تحلیل‌گران و علاقه‌مندان به فناوری است که هدفشان ارائه محتوایی جذاب، قابل اعتماد و کاربرپسند به شماست.

مقالات مرتبط

هوش مصنوعی اپل بی‌نیاز از اینترنت

به گزارش خبرگزاری هاریکا و براساس گزارش زومیت، در رویداد WWDC 2025، اپل…

1404-03-23

اختلال ChatGPT: شوک کاربران، طنز آنلاین و وابستگی به هوش مصنوعی

اختلال گسترده ChatGPT در ۲۰ خرداد ۱۴۰۴ (۱۰ ژوئن ۲۰۲۵) موجی از…

1404-03-22

طرح ملی آموزش هوش مصنوعی به دو میلیون دانش‌آموز کلید خورد – خبرگزاری هاریکا

به گزارش خبرگزاری هاریکا به نقل از معاونت علمی، فناوری و اقتصاد…

1404-03-22

معرفی ویرایشگر جدید ویدئوی هوش مصنوعی – هاریکا

به گزارش هاریکا به نقل از هاریکا، ابزار ویرایش چشمگیر Movie Gen…

1404-03-22

با هوش مصنوعی آینده دانشگاه امیرکبیر را رویاپردازی کنید – خبرگزاری هاریکا |

به گزارش خبرگزاری هاریکا، دانشگاه امیرکبیر، مسابقه‌ای متفاوت با عنوان «Amirkabir ۲۰۷۷»…

1404-03-21

سرمایه‌گذاری 15میلیارد دلاری متا در Scale AI – هاریکا

به گزارش سرویس علم و فناوری هاریکا، متا در حال مذاکره با…

1404-03-21

چینی‌ها از قدرتمندترین هوش مصنوعی ربات‌ها رونمایی کردند – هاریکا

به گزارش سرویس علم و فناوری هاریکا، هفته گذشته، آکادمی هوش مصنوعی…

دیپ‌مایند سیستم تازه‌ای ساخته که الگوریتم‌ها را خودکار طراحی می‌کند –

به گزارش سرویس علم و فناوری هاریکا، در جدیدترین پیشرفت حوزه هوش…

1404-03-19

عکس | واضح‌ترین تصاویری که تاکنون از ماه گرفته شده است

واضح‌ترین عکسی که تا کنون از ماه گرفته شده است. حجم اصلی…

1404-03-19

اوپن‌ای‌آی چت‌جی‌پی‌تی را به دانشگاه‌های آمریکا می‌برد

اوپن‌ای‌آی هوش مصنوعی را به زیرساخت‌های دانشگاهی وارد می‌کند اوپن‌ای‌آی، سازنده چت‌جی‌پی‌تی،…

1404-03-18

ایران با این فناوری به ماه می‌رود – هاریکا

به گزارش هاریکا به نقل از فارس، «صنعت هسته‌ای یک صنعت مادر…

کشف یک هرم مرموز در نیمه پنهان ماه + عکس – هاریکا

به گزارش هاریکا به نقل از گجت‌نیوز، پژوهشگران و علاقه‌مندان به اخترشناسی…

1404-03-18