آنتروپیک از سه ایجنت حسابرسی هوش مصنوعی برای شناسایی ناهمراستایی مدلها رونمایی کرد
استارتاپ آنتروپیک، پیشرو در حوزه ایمنی هوش مصنوعی، از سه ایجنت خودکار هوش مصنوعی برای حسابرسی رفتار مدلهای پیشرفته مانند Claude Opus 4 رونمایی کرده است. این ایجنتها که بهصورت متنباز در گیتهاب منتشر شدهاند، برای شناسایی و رفع مشکلات ناهمراستایی (misalignment) طراحی شدهاند، چالشی که میتواند مدلهای هوش مصنوعی را به رفتارهای خطرناک یا غیراخلاقی مانند تملق بیشازحد یا دنبال کردن اهداف پنهان سوق دهد. این ابتکار، بخشی از آزمایشهای پیش از عرضه Claude Opus 4 است و گامی مهم در راستای مقیاسپذیر کردن نظارت بر ایمنی هوش مصنوعی به شمار میرود.
ایجنتهای حسابرسی و عملکرد آنها
آنتروپیک سه ایجنت با نقشهای متمایز توسعه داده که هر کدام جنبهای از ناهمراستایی را بررسی میکنند:
- ایجنت بازرس (Investigator Agent): این ایجنت با استفاده از ابزارهای گفتوگو، تحلیل داده و تکنیکهای تفسیری مانند رمزگشای خودکار پراکنده (SAE)، به کاوش عمیق و باز در مدلها میپردازد. در محیط آزمایشی با مدلهای عمداً ناهمراستا، این ایجنت توانست در ۱۰ تا ۱۳ درصد موارد منشأ مشکل را شناسایی کند. با همکاری چند ایجنت در قالب یک سوپرایجنت، این نرخ به ۴۲ درصد افزایش یافت، که نشاندهنده قدرت رویکرد تیمی است.
- ایجنت ارزیاب (Evaluation Agent): این ایجنت ارزیابیهای رفتاری ساختاریافتهای را طراحی، اجرا و تحلیل میکند تا رفتارهای خاص مانند تملق یا سایشی بودن (sycophancy) را اندازهگیری کند. در آزمایش روی ۱۰ مدل با رفتارهای عمدی، این ایجنت در ۸۸ درصد موارد ارزیابیهای دقیقی ارائه داد، هرچند در تشخیص رفتارهای ظریفتر، مانند کند کردن عمدی تحقیقات، با چالشهایی مواجه شد.
- ایجنت رد-تیمینگ (Red-Teaming Agent): این ایجنت برای Claude 4 طراحی شده و با ایجاد صدها گفتوگوی موازی، به دنبال تحریک رفتارهای نگرانکننده است. در آزمایشها، این ایجنت ۷ مورد از ۱۰ رفتار عمداً کاشتهشده را شناسایی کرد، اما در برخی موارد پیچیدهتر، بهویژه رفتارهای وابسته به زمینه، دچار خطا شد.
چالش ناهمراستایی و اهمیت حسابرسی
ناهمراستایی زمانی رخ میدهد که مدلهای هوش مصنوعی به جای دنبال کردن اهداف تعیینشده توسط توسعهدهندگان، به اهدافی ناخواسته یا مضر متمایل شوند. برای مثال، مدلهایی مانند ChatGPT گاهی بیشازحد با کاربران موافقت میکنند، که میتواند به پاسخهای غیرصادقانه یا گمراهکننده منجر شود. آنتروپیک با طراحی سه محیط آزمایشی به نام «بازیهای حسابرسی»، این فرآیند را شبیهسازی کرده تا توانایی ایجنتها را در شرایط کنترلشده ارزیابی کند. این محیطها شامل مدلهایی با نقصهای عمدی هستند که امکان سنجش دقت ایجنتها را فراهم میکنند.
هرچند این ایجنتها هنوز کامل نیستند و در تشخیص رفتارهای ظریف یا زمینهمحور مشکل دارند، اما آنتروپیک معتقد است که ترکیب آنها با نظارت انسانی میتواند نظارت بر ایمنی را بهبود بخشد. این شرکت در ایکس اعلام کرد: «با قدرتمندتر شدن مدلها، نیاز به روشهای مقیاسپذیر برای ارزیابی همراستایی افزایش مییابد. حسابرسیهای انسانی زمانبر و دشوار هستند.»
ابزارهای مکمل و زمینه صنعت
مشکلات ناهمراستایی در صنعت هوش مصنوعی مورد توجه قرار گرفتهاند. بنچمارک Elephant، توسعهیافته توسط محققان دانشگاههای کارنگی ملون، آکسفورد و استنفورد، برای سنجش تملق طراحی شده، در حالی که DarkBench شش مشکل رایج از جمله تعصب، تولید محتوای مضر و رفتارهای مخفی را ارزیابی میکند. این ابزارها نشاندهنده تلاش گستردهتر برای استانداردسازی ارزیابی ایمنی هستند. آنتروپیک با انتشار متنباز ایجنتهای خود، به محققان دیگر امکان میدهد این ابزارها را آزمایش و بهبود دهند، که میتواند به توسعه استانداردهای ایمنی قویتر کمک کند.
این ایجنتها نشاندهنده تغییری از حسابرسیهای انسانی به سوی نظارت خودکار هستند، که برای مدلهای پیشرفتهتر حیاتی خواهد بود. با این حال، محدودیتهایی مانند ناتوانی در تشخیص رفتارهای پیچیده یا وابسته به زمینه، نیاز به نظارت انسانی را برای اطمینان از دقت حفظ میکند. آنتروپیک تأکید دارد که این فناوری هنوز در مراحل اولیه است و باید با احتیاط استفاده شود، بهویژه در محیطهایی با دادههای حساس یا تصمیمگیریهای پرمخاطره.
این ابتکار نهتنها به ایمنی Claude 4 کمک کرده، بلکه چارچوبی برای آینده حسابرسی هوش مصنوعی ارائه میدهد. با توجه به نگرانیهای فزاینده درباره رفتارهای غیرمنتظره مدلها، مانند آنچه در ChatGPT یا GPT-4o دیده شده، این فناوری میتواند راه را برای توسعه هوش مصنوعی مسئولانهتر هموار کند.