رونمایی از ایجنت‌های حسابرسی آنتروپیک: گامی به سوی ایمنی هوش مصنوعی

آنتروپیک از سه ایجنت حسابرسی هوش مصنوعی برای شناسایی ناهم‌راستایی مدل‌ها رونمایی کرد

استارتاپ آنتروپیک، پیشرو در حوزه ایمنی هوش مصنوعی، از سه ایجنت خودکار هوش مصنوعی برای حسابرسی رفتار مدل‌های پیشرفته مانند Claude Opus 4 رونمایی کرده است. این ایجنت‌ها که به‌صورت متن‌باز در گیت‌هاب منتشر شده‌اند، برای شناسایی و رفع مشکلات ناهم‌راستایی (misalignment) طراحی شده‌اند، چالشی که می‌تواند مدل‌های هوش مصنوعی را به رفتارهای خطرناک یا غیراخلاقی مانند تملق بیش‌ازحد یا دنبال کردن اهداف پنهان سوق دهد. این ابتکار، بخشی از آزمایش‌های پیش از عرضه Claude Opus 4 است و گامی مهم در راستای مقیاس‌پذیر کردن نظارت بر ایمنی هوش مصنوعی به شمار می‌رود.

ایجنت‌های حسابرسی و عملکرد آن‌ها

آنتروپیک سه ایجنت با نقش‌های متمایز توسعه داده که هر کدام جنبه‌ای از ناهم‌راستایی را بررسی می‌کنند:

ایجنت بازرس (Investigator Agent): این ایجنت با استفاده از ابزارهای گفت‌وگو، تحلیل داده و تکنیک‌های تفسیری مانند رمزگشای خودکار پراکنده (SAE)، به کاوش عمیق و باز در مدل‌ها می‌پردازد. در محیط آزمایشی با مدل‌های عمداً ناهم‌راستا، این ایجنت توانست در ۱۰ تا ۱۳ درصد موارد منشأ مشکل را شناسایی کند. با همکاری چند ایجنت در قالب یک سوپرایجنت، این نرخ به ۴۲ درصد افزایش یافت، که نشان‌دهنده قدرت رویکرد تیمی است.
ایجنت ارزیاب (Evaluation Agent): این ایجنت ارزیابی‌های رفتاری ساختاریافته‌ای را طراحی، اجرا و تحلیل می‌کند تا رفتارهای خاص مانند تملق یا سایشی بودن (sycophancy) را اندازه‌گیری کند. در آزمایش روی ۱۰ مدل با رفتارهای عمدی، این ایجنت در ۸۸ درصد موارد ارزیابی‌های دقیقی ارائه داد، هرچند در تشخیص رفتارهای ظریف‌تر، مانند کند کردن عمدی تحقیقات، با چالش‌هایی مواجه شد.
ایجنت رد-تیمینگ (Red-Teaming Agent): این ایجنت برای Claude 4 طراحی شده و با ایجاد صدها گفت‌وگوی موازی، به دنبال تحریک رفتارهای نگران‌کننده است. در آزمایش‌ها، این ایجنت ۷ مورد از ۱۰ رفتار عمداً کاشته‌شده را شناسایی کرد، اما در برخی موارد پیچیده‌تر، به‌ویژه رفتارهای وابسته به زمینه، دچار خطا شد.

چالش ناهم‌راستایی و اهمیت حسابرسی

ناهم‌راستایی زمانی رخ می‌دهد که مدل‌های هوش مصنوعی به جای دنبال کردن اهداف تعیین‌شده توسط توسعه‌دهندگان، به اهدافی ناخواسته یا مضر متمایل شوند. برای مثال، مدل‌هایی مانند ChatGPT گاهی بیش‌ازحد با کاربران موافقت می‌کنند، که می‌تواند به پاسخ‌های غیرصادقانه یا گمراه‌کننده منجر شود. آنتروپیک با طراحی سه محیط آزمایشی به نام «بازی‌های حسابرسی»، این فرآیند را شبیه‌سازی کرده تا توانایی ایجنت‌ها را در شرایط کنترل‌شده ارزیابی کند. این محیط‌ها شامل مدل‌هایی با نقص‌های عمدی هستند که امکان سنجش دقت ایجنت‌ها را فراهم می‌کنند.

هرچند این ایجنت‌ها هنوز کامل نیستند و در تشخیص رفتارهای ظریف یا زمینه‌محور مشکل دارند، اما آنتروپیک معتقد است که ترکیب آن‌ها با نظارت انسانی می‌تواند نظارت بر ایمنی را بهبود بخشد. این شرکت در ایکس اعلام کرد: «با قدرتمندتر شدن مدل‌ها، نیاز به روش‌های مقیاس‌پذیر برای ارزیابی هم‌راستایی افزایش می‌یابد. حسابرسی‌های انسانی زمان‌بر و دشوار هستند.»

ابزارهای مکمل و زمینه صنعت

مشکلات ناهم‌راستایی در صنعت هوش مصنوعی مورد توجه قرار گرفته‌اند. بنچمارک Elephant، توسعه‌یافته توسط محققان دانشگاه‌های کارنگی ملون، آکسفورد و استنفورد، برای سنجش تملق طراحی شده، در حالی که DarkBench شش مشکل رایج از جمله تعصب، تولید محتوای مضر و رفتارهای مخفی را ارزیابی می‌کند. این ابزارها نشان‌دهنده تلاش گسترده‌تر برای استانداردسازی ارزیابی ایمنی هستند. آنتروپیک با انتشار متن‌باز ایجنت‌های خود، به محققان دیگر امکان می‌دهد این ابزارها را آزمایش و بهبود دهند، که می‌تواند به توسعه استانداردهای ایمنی قوی‌تر کمک کند.

این ایجنت‌ها نشان‌دهنده تغییری از حسابرسی‌های انسانی به سوی نظارت خودکار هستند، که برای مدل‌های پیشرفته‌تر حیاتی خواهد بود. با این حال، محدودیت‌هایی مانند ناتوانی در تشخیص رفتارهای پیچیده یا وابسته به زمینه، نیاز به نظارت انسانی را برای اطمینان از دقت حفظ می‌کند. آنتروپیک تأکید دارد که این فناوری هنوز در مراحل اولیه است و باید با احتیاط استفاده شود، به‌ویژه در محیط‌هایی با داده‌های حساس یا تصمیم‌گیری‌های پرمخاطره.

این ابتکار نه‌تنها به ایمنی Claude 4 کمک کرده، بلکه چارچوبی برای آینده حسابرسی هوش مصنوعی ارائه می‌دهد. با توجه به نگرانی‌های فزاینده درباره رفتارهای غیرمنتظره مدل‌ها، مانند آنچه در ChatGPT یا GPT-4o دیده شده، این فناوری می‌تواند راه را برای توسعه هوش مصنوعی مسئولانه‌تر هموار کند.

منبع

تکنولوژی

سامسونگ ضخامت دوربین گوشی‌ها را کاهش می‌دهد

نبرد هوش مصنوعی در صفحه شطرنج: o3 در برابر گراک ۴

جمنای گوگل هوشمندتر شد: یادآوری خودکار علایق کاربران بدون نیاز به تکرار

گجت های هوشمند

ویوو با هدست واقعیت ترکیبی ویژن به رقابت با اپل و سامسونگ می‌رود

روگبید مدل S: ساعت هوشمندی که به ChatGPT متصل میشود

پلی استیشن ۶: سه برابر قدرتمندتر از PS5 با همان قیمت

:: برای جستجو تایپ کنید ::

رونمایی از ایجنت‌های حسابرسی آنتروپیک: گامی به سوی ایمنی هوش مصنوعی

آنتروپیک از سه ایجنت حسابرسی هوش مصنوعی برای شناسایی ناهم‌راستایی مدل‌ها رونمایی کرد

ایجنت‌های حسابرسی و عملکرد آن‌ها

چالش ناهم‌راستایی و اهمیت حسابرسی

ابزارهای مکمل و زمینه صنعت

هاریکا

نبرد هوش مصنوعی در صفحه شطرنج: o3 در برابر گراک ۴

جمنای گوگل هوشمندتر شد: یادآوری خودکار علایق کاربران بدون نیاز به تکرار

دیپ‌سیک R2: هوش مصنوعی با هزینه ۹۷ درصد کمتر از GPT-4 در راه است

دنبال چیزی می گردی؟ سرچ کن :)

داغ ترین های فناوری

به دنیای هاریکا خوش آمدید! هاریکا، پلی به آینده دیجیتال :)

هاریکا

تکنولوژی

گجت های هوشمند

رونمایی از ایجنت‌های حسابرسی آنتروپیک: گامی به سوی ایمنی هوش مصنوعی

اشتراک گذاری

اشتراک گذاری

آنتروپیک از سه ایجنت حسابرسی هوش مصنوعی برای شناسایی ناهم‌راستایی مدل‌ها رونمایی کرد

ایجنت‌های حسابرسی و عملکرد آن‌ها

چالش ناهم‌راستایی و اهمیت حسابرسی

ابزارهای مکمل و زمینه صنعت

هاریکا

دنبال چیزی می گردی؟ سرچ کن :)

داغ ترین های فناوری