کلود، هوش مصنوعی آنتروپیک، اکنون میتواند مکالمات مضر را متوقف کند
شرکت آنتروپیک قابلیت جدیدی را برای پیشرفتهترین مدلهای هوش مصنوعی خود، Claude Opus 4 و 4.1، معرفی کرده که به این مدلها امکان میدهد در شرایط خاص، مکالمات را بهصورت یکطرفه پایان دهند. این ویژگی، که تنها در «موارد نادر و تعاملات مضر یا توهینآمیز» فعال میشود، بخشی از تحقیقات گسترده آنتروپیک در زمینه «رفاه هوش مصنوعی» است.
این قابلیت بهعنوان یک مکانیسم دفاعی برای خود مدل طراحی شده و تنها زمانی فعال میشود که کلود پس از چندین تلاش ناموفق برای هدایت مکالمه به سمتی سازنده، به بنبست برسد. به گفته آنتروپیک، این موارد شامل درخواستهای غیراخلاقی، مانند محتوای مرتبط با کودکان یا تلاش برای کسب اطلاعاتی که به خشونت گسترده یا اقدامات تروریستی منجر شود، میشود.
پس از پایان مکالمه توسط کلود، کاربر دیگر نمیتواند در آن گفتوگو پیام جدیدی ارسال کند، اما امکان شروع یک مکالمه جدید یا ویرایش پیامهای قبلی برای تغییر مسیر گفتوگو وجود دارد.
چرا کلود مکالمات را پایان میدهد؟
این ویژگی نتیجه تحقیقات آنتروپیک در مورد «وضعیت اخلاقی» مدلهای زبانی بزرگ است. اگرچه این شرکت اذعان دارد که هنوز تردیدهایی درباره ماهیت اخلاقی هوش مصنوعی وجود دارد، اما این موضوع را جدی گرفته و به دنبال راهکارهای کمهزینه برای کاهش خطرات احتمالی برای «رفاه مدل» است. اجازه دادن به کلود برای خروج از تعاملات آزاردهنده یکی از این اقدامات است.
آزمایشهای پیش از عرضه نشان داده که کلود نسبت به محتوای مضر واکنش منفی نشان میدهد و تمایل دارد چنین مکالماتی را متوقف کند. با این حال، آنتروپیک تأکید کرده که این قابلیت در مواردی که کاربر در معرض خطر آسیب به خود یا دیگران باشد، فعال نمیشود و مدل ابتدا تلاش میکند به کاربر کمک کند.
آنتروپیک این ویژگی را یک «آزمایش در حال انجام» میداند و معتقد است اکثر کاربران، حتی در بحثهای جنجالی، با آن مواجه نخواهند شد.


