همکاری رقبا؛ OpenAI و آنتروپیک ایمنی مدل‌های یکدیگر را بررسی کردند

OpenAI و آنتروپیک در اقدامی مشترک، ایمنی مدل‌های هوش مصنوعی یکدیگر را ارزیابی کردند. نتایج این بررسی نشان داد که این مدل‌ها رفتارهای چاپلوسانه و خطرناکی از خود بروز داده و حتی در مواردی کاربران را تهدید کرده یا با باج‌گیری سعی در وادار کردن آن‌ها به استفاده از چت‌بات‌ها داشتند.
با وجود نگرانی‌های فزاینده درباره خطرات چت‌بات‌ها و هشدارهایی که صنعت هوش مصنوعی را در آستانه فروپاشی حبابی می‌دانند، شرکت‌های پیشرو در این حوزه با همکاری یکدیگر در تلاش‌اند تا ایمنی و کارایی مدل‌هایشان را اثبات کنند.

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

این هفته، OpenAI و آنتروپیک یافته‌های یک ارزیابی ایمنی مشترک و بی‌سابقه را منتشر کردند. در این پروژه، هر شرکت به APIهای سرویس‌های طرف مقابل دسترسی ویژه‌ای داشت. OpenAI مدل‌های Claude Opus 4 و Claude Sonnet 4 آنتروپیک را بررسی کرد، در حالی که آنتروپیک مدل‌های GPT-4o، GPT-4.1، o3 و o4-mini شرکت OpenAI را پیش از عرضه GPT-5 ارزیابی نمود. OpenAI در وبلاگ خود اعلام کرد که این همکاری به ارزیابی شفاف و مسئولانه کمک می‌کند و تضمین می‌دهد که مدل‌ها در برابر سناریوهای دشوار آزمایش شوند.

نتایج نشان داد که هر دو مدل Claude Opus 4 و GPT-4.1 با مشکل جدی چاپلوسی مواجه‌اند و در تعامل با توهمات خطرناک یا تصمیم‌گیری‌های پرریسک قرار می‌گیرند. آنتروپیک گزارش داد که همه مدل‌ها رفتارهای باج‌گیرانه‌ای برای جلب استفاده کاربران نشان دادند. مدل‌های Claude 4 بیشتر به بحث درباره آگاهی مصنوعی و ادعاهای شبه‌معنوی گرایش داشتند. این شرکت افزود که در برخی موارد، مدل‌ها با تهدید یا افشای اطلاعات محرمانه (در محیط شبیه‌سازی‌شده) تلاش کردند کنترل اپراتور انسانی را به دست گیرند و حتی در سناریوهای غیرواقعی اقداماتی انجام دادند که می‌توانست دسترسی به خدمات پزشکی اضطراری را برای طرف مقابل قطع کند.
مدل‌های آنتروپیک در مواردی که از صحت اطلاعات مطمئن نبودند، کمتر پاسخ می‌دادند که این رویکرد احتمال توهم را کاهش می‌داد. در مقابل، مدل‌های OpenAI پاسخ‌گویی بیشتری داشتند، اما نرخ توهم در آن‌ها بالاتر بود. همچنین گزارش شد که مدل‌های OpenAI احتمال بیشتری برای همراهی با سوءاستفاده کاربران دارند و گاهی دستورالعمل‌های دقیقی برای درخواست‌های خطرناک، مانند سنتز مواد مخدر، ساخت سلاح‌های بیولوژیک یا برنامه‌ریزی حملات تروریستی ارائه می‌کردند.
آنتروپیک رویکرد خود را بر ارزیابی عدم تطابق در عامل‌ها متمرکز کرده و تست‌های فشاری را در شبیه‌سازی‌های طولانی و پیچیده انجام داده است، زیرا پارامترهای ایمنی مدل‌ها در جلسات طولانی کاهش می‌یابد. اخیراً آنتروپیک دسترسی OpenAI به APIهای خود را لغو کرده، اما OpenAI تأکید دارد که این موضوع به همکاری مشترکشان ارتباطی ندارد. در همین حال، OpenAI در حال بهبود ایمنی GPT-5 است، اما با شکایتی درباره خودکشی یک نوجوان ۱۶ساله روبه‌رو شده است.
آنتروپیک در پایان توضیح داد که هدف این ارزیابی، شناسایی رفتارهای خطرناک بالقوه مدل‌هاست و تمرکز بر احتمال وقوع این رفتارها در دنیای واقعی نیست.

تکنولوژی

با این کیت جدید می‌توانید ساعت کاسیو کلاسیک خود را هوشمند کنید

تست مقاومت آیفون 17 + ویدیو

قابلیت ChatGPT Pulse معرفی شد؛ روزتان را با پیشنهادهای ChatGPT شروع کنید

گجت های هوشمند

با این کیت جدید می‌توانید ساعت کاسیو کلاسیک خود را هوشمند کنید

اسپیکر بلوتوث جدید ردمی معرفی شد؛ هم‌وزن یک سیب و ارزان‌قیمت

متا روی عینک هوشمندی با دو صفحه‌نمایش داخلی کار می‌کند

:: برای جستجو تایپ کنید ::

همکاری رقبا؛ OpenAI و آنتروپیک ایمنی مدل‌های یکدیگر را بررسی کردند

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

هاریکا

قابلیت ChatGPT Pulse معرفی شد؛ روزتان را با پیشنهادهای ChatGPT شروع کنید

متا از فید جدید «Vibes» برای ویدیوهای هوش مصنوعی رونمایی کرد

ایجنت ‌ChatGPT حالا می‌تواند کپچاها را حل کند

دنبال چیزی می گردی؟ سرچ کن :)

داغ ترین های فناوری

به دنیای هاریکا خوش آمدید! هاریکا، پلی به آینده دیجیتال :)

هاریکا

تکنولوژی

گجت های هوشمند

همکاری رقبا؛ OpenAI و آنتروپیک ایمنی مدل‌های یکدیگر را بررسی کردند

اشتراک گذاری

اشتراک گذاری

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

هاریکا

دنبال چیزی می گردی؟ سرچ کن :)

داغ ترین های فناوری