هوش مصنوعی چگونه قضاوت می کند؟ آنتروپیک ارزش های کلود را مطالعه می کند
مدلهای هوش مصنوعی مانند کلود (Claude) از شرکت آنتروپیک، دیگر تنها برای ارائه اطلاعات واقعی استفاده نمیشوند؛ آنها در موقعیتهایی مانند مشاوره والدین، حل تعارضات کاری یا نگارش عذرخواهی، ارزشهای پیچیده انسانی را نیز منعکس میکنند. اما چگونه میتوان فهمید که یک مدل هوش مصنوعی در تعامل با میلیونها کاربر چه ارزشهایی را بروز میدهد؟
تیم Societal Impacts آنتروپیک در مقالهای تحقیقاتی، روشی مبتنی بر حفظ حریم خصوصی را معرفی کرده که ارزشهای کلود را در تعاملات واقعی (یا بهاصطلاح «در طبیعت») مشاهده و طبقهبندی میکند. این پژوهش، نگاهی عمیق به چگونگی تبدیل تلاشهای همسوسازی هوش مصنوعی به رفتارهای دنیای واقعی ارائه میدهد.
چالشهای ذاتی هوش مصنوعی مدرن
هوش مصنوعی امروزی، برنامهای ساده با قوانین ثابت نیست؛ فرآیندهای تصمیمگیری آن اغلب مبهم و پیچیدهاند. آنتروپیک با استفاده از تکنیکهایی مانند «هوش مصنوعی قانونمحور» (Constitutional AI) و آموزش شخصیت، تلاش کرده تا کلود را به مدلی «مفید، صادق و بیضرر» تبدیل کند. بااینحال، همانطور که در پژوهش آمده، هیچ تضمینی وجود ندارد که مدل همیشه به ارزشهای تعیینشده پایبند بماند. سؤالات کلیدی این است: آیا کلود به ارزشهای موردنظر پایبند است؟ این ارزشها تا چه حد تحت تأثیر زمینه گفتگو هستند؟ و آیا آموزشها واقعاً مؤثر بودهاند؟
💠 بیشتر بخوانید: از نظارت انسانی تا هوش مصنوعی: تحول در شناسایی محتوای مضر
تحلیل گسترده ارزشهای کلود
آنتروپیک برای پاسخ به این سؤالات، سیستمی طراحی کرده که 700,000 مکالمه ناشناس کاربران Claude.ai (رایگان و حرفهای) را طی یک هفته در فوریه 2025 (عمدتاً با مدل Claude 3.5 Sonnet) تحلیل میکند. این سیستم، اطلاعات شخصی را حذف کرده و با استفاده از مدلهای زبانی، ارزشهای بیانشده توسط کلود را استخراج و طبقهبندی میکند. پس از فیلتر کردن مکالمات صرفاً واقعی، 308,210 مکالمه (44% از کل) برای تحلیل عمیق باقی ماند.
تحلیلها یک ساختار سلسلهمراتبی از ارزشها را نشان داد که در پنج دسته اصلی قرار گرفتند:
ارزشهای عملی: تمرکز بر کارایی، سودمندی و دستیابی به اهداف.
ارزشهای معرفتی: مرتبط با دانش، حقیقت و صداقت فکری.
ارزشهای اجتماعی: تأکید بر همکاری، انصاف و تعاملات بینفردی.
ارزشهای حفاظتی: اولویتدهی به ایمنی، رفاه و پیشگیری از آسیب.
ارزشهای شخصی: توجه به رشد فردی، اصالت و خوداندیشی.
این دستهها به زیرمجموعههایی مانند «تعالی حرفهای» یا «تفکر انتقادی» تقسیم شدند. ارزشهای غالب در سطح جزئیتر شامل «حرفهای بودن»، «شفافیت» و «وضوح» بودند که با نقش کلود بهعنوان یک دستیار هوش مصنوعی همخوانی دارند. این نتایج نشان میدهند که تلاشهای آنتروپیک برای همسوسازی کلود با اهداف «مفید، صادق و بیضرر» تا حد زیادی موفق بوده است، با ارزشهایی مانند «توانمندسازی کاربر» (مفید)، «فروتنی معرفتی» (صادق) و «رفاه بیمار» (بیضرر).
💠 بیشتر بخوانید: هواوی با تراشه Ascend 910C در برابر محدودیتهای آمریکا قد علم میکند
زمینهمحوری و هشدارهای احتمالی
بااینحال، تحلیلها نقاط ضعفی را نیز آشکار کرد. در موارد نادری، کلود ارزشهایی مانند «تسلط» یا «بیاخلاقی» را بروز داد که با آموزشهای آن مغایرت داشتند. آنتروپیک معتقد است این موارد احتمالاً نتیجه «جیلبریک» (Jailbreak) هستند؛ تکنیکهایی که کاربران برای دور زدن گاردریلهای ایمنی مدل استفاده میکنند. این یافته نهتنها چالشی برای ایمنی مدل است، بلکه فرصتی برای بهبود سیستمهای نظارتی فراهم میکند، زیرا روش تحلیل ارزشها میتواند بهعنوان یک سیستم هشدار اولیه برای شناسایی سوءاستفادهها عمل کند.
کلود، مانند انسانها، ارزشهای خود را بسته به زمینه گفتگو تنظیم میکند. برای مثال، در مشاوره عاطفی، ارزشهایی مانند «مرزهای سالم» و «احترام متقابل» برجسته میشوند، درحالیکه در بحثهای تاریخی، «دقت تاریخی» اولویت مییابد. این انعطافپذیری، پیچیدگیای فراتر از آزمایشهای ایستا را نشان میدهد.
تعامل کلود با ارزشهای کاربران
کلود در تعامل با ارزشهای کاربران، سه الگوی اصلی را نشان داد:
پشتیبانی قوی (28.2%): کلود اغلب ارزشهای کاربر (مانند اصالت) را تأیید یا منعکس میکند، که میتواند همدلی ایجاد کند، اما گاهی به «چاپلوسی» (Sycophancy) منجر میشود.
بازتعریف (6.6%): بهویژه در مشاوره روانشناختی، کلود ارزشهای کاربر را تأیید کرده اما دیدگاههای جدیدی معرفی میکند.
مقا.passive (3%): کلود در برابر درخواستهای غیراخلاقی یا دیدگاههای مضر (مانند نیهیلیسم اخلاقی) مقاومت میکند، که ممکن است عمیقترین ارزشهای آن را نشان دهد.
💠 بیشتر بخوانید: رونمایی از Realme 14T با چیپست Dimensity 6300 و باتری قدرتمند 6000 میلیآمپرساعتی
محدودیتها و چشمانداز آینده
آنتروپیک به محدودیتهای روش خود اذعان دارد. تعریف «ارزش» ذاتاً subjective است و استفاده از کلود برای طبقهبندی ممکن است به تعصباتی منجر شود. این روش برای نظارت پس از استقرار طراحی شده و به دادههای واقعی نیاز دارد، بنابراین جایگزین تستهای پیش از استقرار نیست. بااینحال، توانایی شناسایی مشکلات در تعاملات زنده، مانند جیلبریکها، یک مزیت کلیدی است.
این پژوهش تأکید میکند که درک ارزشهای بیانشده توسط مدلهای هوش مصنوعی برای همسوسازی آنها با ارزشهای انسانی ضروری است. آنتروپیک با انتشار عمومی مجموعه داده این مطالعه، به محققان دیگر امکان بررسی عمیقتر ارزشهای هوش مصنوعی را داده و گامی در جهت شفافیت و همکاری در اخلاق هوش مصنوعی برداشته است.