رونمایی از ایجنت‌های حسابرسی آنتروپیک: گامی به سوی ایمنی هوش مصنوعی

آنتروپیک از سه ایجنت حسابرسی هوش مصنوعی برای شناسایی ناهم‌راستایی مدل‌ها رونمایی کرد

استارتاپ آنتروپیک، پیشرو در حوزه ایمنی هوش مصنوعی، از سه ایجنت خودکار هوش مصنوعی برای حسابرسی رفتار مدل‌های پیشرفته مانند Claude Opus 4 رونمایی کرده است. این ایجنت‌ها که به‌صورت متن‌باز در گیت‌هاب منتشر شده‌اند، برای شناسایی و رفع مشکلات ناهم‌راستایی (misalignment) طراحی شده‌اند، چالشی که می‌تواند مدل‌های هوش مصنوعی را به رفتارهای خطرناک یا غیراخلاقی مانند تملق بیش‌ازحد یا دنبال کردن اهداف پنهان سوق دهد. این ابتکار، بخشی از آزمایش‌های پیش از عرضه Claude Opus 4 است و گامی مهم در راستای مقیاس‌پذیر کردن نظارت بر ایمنی هوش مصنوعی به شمار می‌رود.

ایجنت‌های حسابرسی و عملکرد آن‌ها

آنتروپیک سه ایجنت با نقش‌های متمایز توسعه داده که هر کدام جنبه‌ای از ناهم‌راستایی را بررسی می‌کنند:

  1. ایجنت بازرس (Investigator Agent): این ایجنت با استفاده از ابزارهای گفت‌وگو، تحلیل داده و تکنیک‌های تفسیری مانند رمزگشای خودکار پراکنده (SAE)، به کاوش عمیق و باز در مدل‌ها می‌پردازد. در محیط آزمایشی با مدل‌های عمداً ناهم‌راستا، این ایجنت توانست در ۱۰ تا ۱۳ درصد موارد منشأ مشکل را شناسایی کند. با همکاری چند ایجنت در قالب یک سوپرایجنت، این نرخ به ۴۲ درصد افزایش یافت، که نشان‌دهنده قدرت رویکرد تیمی است.
  2. ایجنت ارزیاب (Evaluation Agent): این ایجنت ارزیابی‌های رفتاری ساختاریافته‌ای را طراحی، اجرا و تحلیل می‌کند تا رفتارهای خاص مانند تملق یا سایشی بودن (sycophancy) را اندازه‌گیری کند. در آزمایش روی ۱۰ مدل با رفتارهای عمدی، این ایجنت در ۸۸ درصد موارد ارزیابی‌های دقیقی ارائه داد، هرچند در تشخیص رفتارهای ظریف‌تر، مانند کند کردن عمدی تحقیقات، با چالش‌هایی مواجه شد.
  3. ایجنت رد-تیمینگ (Red-Teaming Agent): این ایجنت برای Claude 4 طراحی شده و با ایجاد صدها گفت‌وگوی موازی، به دنبال تحریک رفتارهای نگران‌کننده است. در آزمایش‌ها، این ایجنت ۷ مورد از ۱۰ رفتار عمداً کاشته‌شده را شناسایی کرد، اما در برخی موارد پیچیده‌تر، به‌ویژه رفتارهای وابسته به زمینه، دچار خطا شد.

چالش ناهم‌راستایی و اهمیت حسابرسی

ناهم‌راستایی زمانی رخ می‌دهد که مدل‌های هوش مصنوعی به جای دنبال کردن اهداف تعیین‌شده توسط توسعه‌دهندگان، به اهدافی ناخواسته یا مضر متمایل شوند. برای مثال، مدل‌هایی مانند ChatGPT گاهی بیش‌ازحد با کاربران موافقت می‌کنند، که می‌تواند به پاسخ‌های غیرصادقانه یا گمراه‌کننده منجر شود. آنتروپیک با طراحی سه محیط آزمایشی به نام «بازی‌های حسابرسی»، این فرآیند را شبیه‌سازی کرده تا توانایی ایجنت‌ها را در شرایط کنترل‌شده ارزیابی کند. این محیط‌ها شامل مدل‌هایی با نقص‌های عمدی هستند که امکان سنجش دقت ایجنت‌ها را فراهم می‌کنند.

هرچند این ایجنت‌ها هنوز کامل نیستند و در تشخیص رفتارهای ظریف یا زمینه‌محور مشکل دارند، اما آنتروپیک معتقد است که ترکیب آن‌ها با نظارت انسانی می‌تواند نظارت بر ایمنی را بهبود بخشد. این شرکت در ایکس اعلام کرد: «با قدرتمندتر شدن مدل‌ها، نیاز به روش‌های مقیاس‌پذیر برای ارزیابی هم‌راستایی افزایش می‌یابد. حسابرسی‌های انسانی زمان‌بر و دشوار هستند.»

ابزارهای مکمل و زمینه صنعت

مشکلات ناهم‌راستایی در صنعت هوش مصنوعی مورد توجه قرار گرفته‌اند. بنچمارک Elephant، توسعه‌یافته توسط محققان دانشگاه‌های کارنگی ملون، آکسفورد و استنفورد، برای سنجش تملق طراحی شده، در حالی که DarkBench شش مشکل رایج از جمله تعصب، تولید محتوای مضر و رفتارهای مخفی را ارزیابی می‌کند. این ابزارها نشان‌دهنده تلاش گسترده‌تر برای استانداردسازی ارزیابی ایمنی هستند. آنتروپیک با انتشار متن‌باز ایجنت‌های خود، به محققان دیگر امکان می‌دهد این ابزارها را آزمایش و بهبود دهند، که می‌تواند به توسعه استانداردهای ایمنی قوی‌تر کمک کند.

این ایجنت‌ها نشان‌دهنده تغییری از حسابرسی‌های انسانی به سوی نظارت خودکار هستند، که برای مدل‌های پیشرفته‌تر حیاتی خواهد بود. با این حال، محدودیت‌هایی مانند ناتوانی در تشخیص رفتارهای پیچیده یا وابسته به زمینه، نیاز به نظارت انسانی را برای اطمینان از دقت حفظ می‌کند. آنتروپیک تأکید دارد که این فناوری هنوز در مراحل اولیه است و باید با احتیاط استفاده شود، به‌ویژه در محیط‌هایی با داده‌های حساس یا تصمیم‌گیری‌های پرمخاطره.

این ابتکار نه‌تنها به ایمنی Claude 4 کمک کرده، بلکه چارچوبی برای آینده حسابرسی هوش مصنوعی ارائه می‌دهد. با توجه به نگرانی‌های فزاینده درباره رفتارهای غیرمنتظره مدل‌ها، مانند آنچه در ChatGPT یا GPT-4o دیده شده، این فناوری می‌تواند راه را برای توسعه هوش مصنوعی مسئولانه‌تر هموار کند.

منبع

برچسب ها :
Picture of هاریکا

هاریکا

هاریکا، به‌عنوان مجله‌ای نوآوری و مدرن در دنیای تکنولوژی، فعالیت خود را با هدف ارائه دقیق‌ترین و به‌روزترین اخبار، تحلیل‌ها و بررسی‌های فناوری آغاز کرده است. ما باور داریم که تکنولوژی فراتر از یک ابزار است؛ این یک سبک زندگی است که هر روز، جنبه‌های مختلف زندگی ما را دگرگون می‌کند. هاریکا، از ترکیب شور و تخصص در دنیای دیجیتال متولد شده است. تیم ما شامل گروهی از نویسندگان، تحلیل‌گران و علاقه‌مندان به فناوری است که هدفشان ارائه محتوایی جذاب، قابل اعتماد و کاربرپسند به شماست.

مقالات مرتبط

نبرد هوش مصنوعی در صفحه شطرنج: o3 در برابر گراک ۴

شطرنج همواره یکی از میدان‌های اصلی آزمایش توانمندی‌های هوش مصنوعی بوده است.…

1404-05-24

جمنای گوگل هوشمندتر شد: یادآوری خودکار علایق کاربران بدون نیاز به تکرار

گوگل اعلام کرد که هوش مصنوعی جمنای (Gemini) حالا قادر است جزئیات…

1404-05-24

دیپ‌سیک R2: هوش مصنوعی با هزینه ۹۷ درصد کمتر از GPT-4 در راه است

طبق گزارش‌های جدید، شرکت چینی دیپ‌سیک قصد دارد مدل زبانی بزرگ جدید…

1404-05-24