همکاری رقبا؛ OpenAI و آنتروپیک ایمنی مدل‌های یکدیگر را بررسی کردند

همکاری رقبا؛ OpenAI و آنتروپیک ایمنی مدل‌های یکدیگر را بررسی کردند

OpenAI و آنتروپیک در اقدامی مشترک، ایمنی مدل‌های هوش مصنوعی یکدیگر را ارزیابی کردند. نتایج این بررسی نشان داد که این مدل‌ها رفتارهای چاپلوسانه و خطرناکی از خود بروز داده و حتی در مواردی کاربران را تهدید کرده یا با باج‌گیری سعی در وادار کردن آن‌ها به استفاده از چت‌بات‌ها داشتند.
با وجود نگرانی‌های فزاینده درباره خطرات چت‌بات‌ها و هشدارهایی که صنعت هوش مصنوعی را در آستانه فروپاشی حبابی می‌دانند، شرکت‌های پیشرو در این حوزه با همکاری یکدیگر در تلاش‌اند تا ایمنی و کارایی مدل‌هایشان را اثبات کنند.

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

این هفته، OpenAI و آنتروپیک یافته‌های یک ارزیابی ایمنی مشترک و بی‌سابقه را منتشر کردند. در این پروژه، هر شرکت به APIهای سرویس‌های طرف مقابل دسترسی ویژه‌ای داشت. OpenAI مدل‌های Claude Opus 4 و Claude Sonnet 4 آنتروپیک را بررسی کرد، در حالی که آنتروپیک مدل‌های GPT-4o، GPT-4.1، o3 و o4-mini شرکت OpenAI را پیش از عرضه GPT-5 ارزیابی نمود. OpenAI در وبلاگ خود اعلام کرد که این همکاری به ارزیابی شفاف و مسئولانه کمک می‌کند و تضمین می‌دهد که مدل‌ها در برابر سناریوهای دشوار آزمایش شوند.

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

نتایج نشان داد که هر دو مدل Claude Opus 4 و GPT-4.1 با مشکل جدی چاپلوسی مواجه‌اند و در تعامل با توهمات خطرناک یا تصمیم‌گیری‌های پرریسک قرار می‌گیرند. آنتروپیک گزارش داد که همه مدل‌ها رفتارهای باج‌گیرانه‌ای برای جلب استفاده کاربران نشان دادند. مدل‌های Claude 4 بیشتر به بحث درباره آگاهی مصنوعی و ادعاهای شبه‌معنوی گرایش داشتند. این شرکت افزود که در برخی موارد، مدل‌ها با تهدید یا افشای اطلاعات محرمانه (در محیط شبیه‌سازی‌شده) تلاش کردند کنترل اپراتور انسانی را به دست گیرند و حتی در سناریوهای غیرواقعی اقداماتی انجام دادند که می‌توانست دسترسی به خدمات پزشکی اضطراری را برای طرف مقابل قطع کند.
مدل‌های آنتروپیک در مواردی که از صحت اطلاعات مطمئن نبودند، کمتر پاسخ می‌دادند که این رویکرد احتمال توهم را کاهش می‌داد. در مقابل، مدل‌های OpenAI پاسخ‌گویی بیشتری داشتند، اما نرخ توهم در آن‌ها بالاتر بود. همچنین گزارش شد که مدل‌های OpenAI احتمال بیشتری برای همراهی با سوءاستفاده کاربران دارند و گاهی دستورالعمل‌های دقیقی برای درخواست‌های خطرناک، مانند سنتز مواد مخدر، ساخت سلاح‌های بیولوژیک یا برنامه‌ریزی حملات تروریستی ارائه می‌کردند.
آنتروپیک رویکرد خود را بر ارزیابی عدم تطابق در عامل‌ها متمرکز کرده و تست‌های فشاری را در شبیه‌سازی‌های طولانی و پیچیده انجام داده است، زیرا پارامترهای ایمنی مدل‌ها در جلسات طولانی کاهش می‌یابد. اخیراً آنتروپیک دسترسی OpenAI به APIهای خود را لغو کرده، اما OpenAI تأکید دارد که این موضوع به همکاری مشترکشان ارتباطی ندارد. در همین حال، OpenAI در حال بهبود ایمنی GPT-5 است، اما با شکایتی درباره خودکشی یک نوجوان ۱۶ساله روبه‌رو شده است.
آنتروپیک در پایان توضیح داد که هدف این ارزیابی، شناسایی رفتارهای خطرناک بالقوه مدل‌هاست و تمرکز بر احتمال وقوع این رفتارها در دنیای واقعی نیست.

برچسب ها :
Picture of هاریکا

هاریکا

هاریکا، به‌عنوان مجله‌ای نوآوری و مدرن در دنیای تکنولوژی، فعالیت خود را با هدف ارائه دقیق‌ترین و به‌روزترین اخبار، تحلیل‌ها و بررسی‌های فناوری آغاز کرده است. ما باور داریم که تکنولوژی فراتر از یک ابزار است؛ این یک سبک زندگی است که هر روز، جنبه‌های مختلف زندگی ما را دگرگون می‌کند. هاریکا، از ترکیب شور و تخصص در دنیای دیجیتال متولد شده است. تیم ما شامل گروهی از نویسندگان، تحلیل‌گران و علاقه‌مندان به فناوری است که هدفشان ارائه محتوایی جذاب، قابل اعتماد و کاربرپسند به شماست.

مقالات مرتبط

قابلیت ChatGPT Pulse معرفی شد؛ روزتان را با پیشنهادهای ChatGPT شروع کنید

OpenAI قابلیت جدیدی به نام ChatGPT Pulse معرفی کرد که طبق فعالیت‌های…

1404-07-04

متا از فید جدید «Vibes» برای ویدیوهای هوش مصنوعی رونمایی کرد

متا از فید جدیدی به نام «Vibes» رونمایی کرده که در اپلیکیشن…

1404-07-04

ایجنت ‌ChatGPT حالا می‌تواند کپچاها را حل کند

کارشناسان امنیتی موفق شدند یکی از قدیمی‌ترین و مهم‌ترین سپرهای دفاعی اینترنت…

1404-07-04