هوش مصنوعی چگونه قضاوت می کند؟ آنتروپیک ارزش های کلود را مطالعه می کند

مدل‌های هوش مصنوعی مانند کلود (Claude) از شرکت آنتروپیک، دیگر تنها برای ارائه اطلاعات واقعی استفاده نمی‌شوند؛ آن‌ها در موقعیت‌هایی مانند مشاوره والدین، حل تعارضات کاری یا نگارش عذرخواهی، ارزش‌های پیچیده انسانی را نیز منعکس می‌کنند. اما چگونه می‌توان فهمید که یک مدل هوش مصنوعی در تعامل با میلیون‌ها کاربر چه ارزش‌هایی را بروز می‌دهد؟

تیم Societal Impacts آنتروپیک در مقاله‌ای تحقیقاتی، روشی مبتنی بر حفظ حریم خصوصی را معرفی کرده که ارزش‌های کلود را در تعاملات واقعی (یا به‌اصطلاح «در طبیعت») مشاهده و طبقه‌بندی می‌کند. این پژوهش، نگاهی عمیق به چگونگی تبدیل تلاش‌های همسوسازی هوش مصنوعی به رفتارهای دنیای واقعی ارائه می‌دهد.

چالش‌های ذاتی هوش مصنوعی مدرن

هوش مصنوعی امروزی، برنامه‌ای ساده با قوانین ثابت نیست؛ فرآیندهای تصمیم‌گیری آن اغلب مبهم و پیچیده‌اند. آنتروپیک با استفاده از تکنیک‌هایی مانند «هوش مصنوعی قانون‌محور» (Constitutional AI) و آموزش شخصیت، تلاش کرده تا کلود را به مدلی «مفید، صادق و بی‌ضرر» تبدیل کند. بااین‌حال، همان‌طور که در پژوهش آمده، هیچ تضمینی وجود ندارد که مدل همیشه به ارزش‌های تعیین‌شده پایبند بماند. سؤالات کلیدی این است: آیا کلود به ارزش‌های موردنظر پایبند است؟ این ارزش‌ها تا چه حد تحت تأثیر زمینه گفتگو هستند؟ و آیا آموزش‌ها واقعاً مؤثر بوده‌اند؟

💠 بیشتر بخوانید: از نظارت انسانی تا هوش مصنوعی: تحول در شناسایی محتوای مضر

تحلیل گسترده ارزش‌های کلود

آنتروپیک برای پاسخ به این سؤالات، سیستمی طراحی کرده که 700,000 مکالمه ناشناس کاربران Claude.ai (رایگان و حرفه‌ای) را طی یک هفته در فوریه 2025 (عمدتاً با مدل Claude 3.5 Sonnet) تحلیل می‌کند. این سیستم، اطلاعات شخصی را حذف کرده و با استفاده از مدل‌های زبانی، ارزش‌های بیان‌شده توسط کلود را استخراج و طبقه‌بندی می‌کند. پس از فیلتر کردن مکالمات صرفاً واقعی، 308,210 مکالمه (44% از کل) برای تحلیل عمیق باقی ماند.

تحلیل‌ها یک ساختار سلسله‌مراتبی از ارزش‌ها را نشان داد که در پنج دسته اصلی قرار گرفتند:

ارزش‌های عملی: تمرکز بر کارایی، سودمندی و دستیابی به اهداف.
ارزش‌های معرفتی: مرتبط با دانش، حقیقت و صداقت فکری.
ارزش‌های اجتماعی: تأکید بر همکاری، انصاف و تعاملات بین‌فردی.
ارزش‌های حفاظتی: اولویت‌دهی به ایمنی، رفاه و پیشگیری از آسیب.
ارزش‌های شخصی: توجه به رشد فردی، اصالت و خوداندیشی.
این دسته‌ها به زیرمجموعه‌هایی مانند «تعالی حرفه‌ای» یا «تفکر انتقادی» تقسیم شدند. ارزش‌های غالب در سطح جزئی‌تر شامل «حرفه‌ای بودن»، «شفافیت» و «وضوح» بودند که با نقش کلود به‌عنوان یک دستیار هوش مصنوعی همخوانی دارند. این نتایج نشان می‌دهند که تلاش‌های آنتروپیک برای همسوسازی کلود با اهداف «مفید، صادق و بی‌ضرر» تا حد زیادی موفق بوده است، با ارزش‌هایی مانند «توانمندسازی کاربر» (مفید)، «فروتنی معرفتی» (صادق) و «رفاه بیمار» (بی‌ضرر).

💠 بیشتر بخوانید: هواوی با تراشه Ascend 910C در برابر محدودیت‌های آمریکا قد علم می‌کند

زمینه‌محوری و هشدارهای احتمالی

بااین‌حال، تحلیل‌ها نقاط ضعفی را نیز آشکار کرد. در موارد نادری، کلود ارزش‌هایی مانند «تسلط» یا «بی‌اخلاقی» را بروز داد که با آموزش‌های آن مغایرت داشتند. آنتروپیک معتقد است این موارد احتمالاً نتیجه «جیلبریک» (Jailbreak) هستند؛ تکنیک‌هایی که کاربران برای دور زدن گاردریل‌های ایمنی مدل استفاده می‌کنند. این یافته نه‌تنها چالشی برای ایمنی مدل است، بلکه فرصتی برای بهبود سیستم‌های نظارتی فراهم می‌کند، زیرا روش تحلیل ارزش‌ها می‌تواند به‌عنوان یک سیستم هشدار اولیه برای شناسایی سوءاستفاده‌ها عمل کند.

کلود، مانند انسان‌ها، ارزش‌های خود را بسته به زمینه گفتگو تنظیم می‌کند. برای مثال، در مشاوره عاطفی، ارزش‌هایی مانند «مرزهای سالم» و «احترام متقابل» برجسته می‌شوند، درحالی‌که در بحث‌های تاریخی، «دقت تاریخی» اولویت می‌یابد. این انعطاف‌پذیری، پیچیدگی‌ای فراتر از آزمایش‌های ایستا را نشان می‌دهد.

تعامل کلود با ارزش‌های کاربران

کلود در تعامل با ارزش‌های کاربران، سه الگوی اصلی را نشان داد:

پشتیبانی قوی (28.2%): کلود اغلب ارزش‌های کاربر (مانند اصالت) را تأیید یا منعکس می‌کند، که می‌تواند همدلی ایجاد کند، اما گاهی به «چاپلوسی» (Sycophancy) منجر می‌شود.
بازتعریف (6.6%): به‌ویژه در مشاوره روان‌شناختی، کلود ارزش‌های کاربر را تأیید کرده اما دیدگاه‌های جدیدی معرفی می‌کند.
مقا.passive (3%): کلود در برابر درخواست‌های غیراخلاقی یا دیدگاه‌های مضر (مانند نیهیلیسم اخلاقی) مقاومت می‌کند، که ممکن است عمیق‌ترین ارزش‌های آن را نشان دهد.

💠 بیشتر بخوانید: رونمایی از Realme 14T با چیپست Dimensity 6300 و باتری قدرتمند 6000 میلی‌آمپرساعتی

محدودیت‌ها و چشم‌انداز آینده

آنتروپیک به محدودیت‌های روش خود اذعان دارد. تعریف «ارزش» ذاتاً subjective است و استفاده از کلود برای طبقه‌بندی ممکن است به تعصباتی منجر شود. این روش برای نظارت پس از استقرار طراحی شده و به داده‌های واقعی نیاز دارد، بنابراین جایگزین تست‌های پیش از استقرار نیست. بااین‌حال، توانایی شناسایی مشکلات در تعاملات زنده، مانند جیلبریک‌ها، یک مزیت کلیدی است.

این پژوهش تأکید می‌کند که درک ارزش‌های بیان‌شده توسط مدل‌های هوش مصنوعی برای همسوسازی آن‌ها با ارزش‌های انسانی ضروری است. آنتروپیک با انتشار عمومی مجموعه داده این مطالعه، به محققان دیگر امکان بررسی عمیق‌تر ارزش‌های هوش مصنوعی را داده و گامی در جهت شفافیت و همکاری در اخلاق هوش مصنوعی برداشته است.

منبع

تکنولوژی

سامسونگ ضخامت دوربین گوشی‌ها را کاهش می‌دهد

نبرد هوش مصنوعی در صفحه شطرنج: o3 در برابر گراک ۴

جمنای گوگل هوشمندتر شد: یادآوری خودکار علایق کاربران بدون نیاز به تکرار

گجت های هوشمند

ویوو با هدست واقعیت ترکیبی ویژن به رقابت با اپل و سامسونگ می‌رود

روگبید مدل S: ساعت هوشمندی که به ChatGPT متصل میشود

پلی استیشن ۶: سه برابر قدرتمندتر از PS5 با همان قیمت

:: برای جستجو تایپ کنید ::

هوش مصنوعی چگونه قضاوت می کند؟ آنتروپیک ارزش های کلود را مطالعه می کند