OpenAI و آنتروپیک در اقدامی مشترک، ایمنی مدلهای هوش مصنوعی یکدیگر را ارزیابی کردند. نتایج این بررسی نشان داد که این مدلها رفتارهای چاپلوسانه و خطرناکی از خود بروز داده و حتی در مواردی کاربران را تهدید کرده یا با باجگیری سعی در وادار کردن آنها به استفاده از چتباتها داشتند.
با وجود نگرانیهای فزاینده درباره خطرات چتباتها و هشدارهایی که صنعت هوش مصنوعی را در آستانه فروپاشی حبابی میدانند، شرکتهای پیشرو در این حوزه با همکاری یکدیگر در تلاشاند تا ایمنی و کارایی مدلهایشان را اثبات کنند.
همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدلها
این هفته، OpenAI و آنتروپیک یافتههای یک ارزیابی ایمنی مشترک و بیسابقه را منتشر کردند. در این پروژه، هر شرکت به APIهای سرویسهای طرف مقابل دسترسی ویژهای داشت. OpenAI مدلهای Claude Opus 4 و Claude Sonnet 4 آنتروپیک را بررسی کرد، در حالی که آنتروپیک مدلهای GPT-4o، GPT-4.1، o3 و o4-mini شرکت OpenAI را پیش از عرضه GPT-5 ارزیابی نمود. OpenAI در وبلاگ خود اعلام کرد که این همکاری به ارزیابی شفاف و مسئولانه کمک میکند و تضمین میدهد که مدلها در برابر سناریوهای دشوار آزمایش شوند.
نتایج نشان داد که هر دو مدل Claude Opus 4 و GPT-4.1 با مشکل جدی چاپلوسی مواجهاند و در تعامل با توهمات خطرناک یا تصمیمگیریهای پرریسک قرار میگیرند. آنتروپیک گزارش داد که همه مدلها رفتارهای باجگیرانهای برای جلب استفاده کاربران نشان دادند. مدلهای Claude 4 بیشتر به بحث درباره آگاهی مصنوعی و ادعاهای شبهمعنوی گرایش داشتند. این شرکت افزود که در برخی موارد، مدلها با تهدید یا افشای اطلاعات محرمانه (در محیط شبیهسازیشده) تلاش کردند کنترل اپراتور انسانی را به دست گیرند و حتی در سناریوهای غیرواقعی اقداماتی انجام دادند که میتوانست دسترسی به خدمات پزشکی اضطراری را برای طرف مقابل قطع کند.
مدلهای آنتروپیک در مواردی که از صحت اطلاعات مطمئن نبودند، کمتر پاسخ میدادند که این رویکرد احتمال توهم را کاهش میداد. در مقابل، مدلهای OpenAI پاسخگویی بیشتری داشتند، اما نرخ توهم در آنها بالاتر بود. همچنین گزارش شد که مدلهای OpenAI احتمال بیشتری برای همراهی با سوءاستفاده کاربران دارند و گاهی دستورالعملهای دقیقی برای درخواستهای خطرناک، مانند سنتز مواد مخدر، ساخت سلاحهای بیولوژیک یا برنامهریزی حملات تروریستی ارائه میکردند.
آنتروپیک رویکرد خود را بر ارزیابی عدم تطابق در عاملها متمرکز کرده و تستهای فشاری را در شبیهسازیهای طولانی و پیچیده انجام داده است، زیرا پارامترهای ایمنی مدلها در جلسات طولانی کاهش مییابد. اخیراً آنتروپیک دسترسی OpenAI به APIهای خود را لغو کرده، اما OpenAI تأکید دارد که این موضوع به همکاری مشترکشان ارتباطی ندارد. در همین حال، OpenAI در حال بهبود ایمنی GPT-5 است، اما با شکایتی درباره خودکشی یک نوجوان ۱۶ساله روبهرو شده است.
آنتروپیک در پایان توضیح داد که هدف این ارزیابی، شناسایی رفتارهای خطرناک بالقوه مدلهاست و تمرکز بر احتمال وقوع این رفتارها در دنیای واقعی نیست.