محققان هشدار دادند: نظارت بر افکار هوش مصنوعی در خطر است

شاید دیگر نتوانیم به افکار هوش مصنوعی پی ببریم

نگرانی بزرگ محققان درباره آینده فهم افکار هوش مصنوعی

بیش از ۴۰ پژوهشگر برجسته از شرکت‌های پیشرو در حوزه هوش مصنوعی مانند OpenAI، گوگل دیپ‌مایند، آنتروپیک و متا، رقابت‌های خود را کنار گذاشته و مقاله‌ای مشترک منتشر کرده‌اند که زنگ خطری جدی برای همه ما به صدا در می‌آورد. این دانشمندان هشدار می‌دهند که پنجره فرصت ما برای نظارت و درک افکار هوش مصنوعی، باریک و شکننده است و ممکن است به‌زودی برای همیشه بسته شود. در نتیجه، ما ممکن است توانایی شناخت نیت‌ها و اهداف واقعی این سیستم‌های پیچیده و قدرتمند را از دست بدهیم.

در حالی که غول‌های فناوری همچنان برای جذب استعدادها و تصاحب بازار با یکدیگر رقابت می‌کنند، انتشار این مقاله مشترک توسط پیشگامان هوش مصنوعی از جمله «جفری هینتون»، پدرخوانده هوش مصنوعی و «ایلیا ساتسکیور»، هم‌بنیان‌گذار OpenAI، نشان‌دهنده عمق نگرانی‌های مشترک آنان است. محور اصلی این مقاله، بررسی قابلیت نظارت بر آنچه «زنجیره افکار» (Chain of Thought) نامیده می‌شود، است؛ فرآیندی که مدل‌های پیشرفته هوش مصنوعی قبل از ارائه پاسخ نهایی، گام به گام و به زبان قابل فهم برای انسان، استدلال‌های خود را بیان می‌کنند.

این قابلیت به محققان امکان می‌دهد تا به نوعی به «ذهن» هوش مصنوعی نگاه کنند و نیت‌های واقعی آن را تا حدی درک کنند. در آزمایش‌های انجام شده، این روش توانسته رفتارهای بالقوه خطرناک یا مخرب مدل‌ها را شناسایی کند؛ برای مثال عباراتی مانند «بیا هک کنیم» یا «بیا خرابکاری کنیم» در زنجیره افکار مشاهده شده‌اند که هشداردهنده نیت پنهان سیستم بوده‌اند، حتی اگر آن رفتار در نهایت اجرا نشده باشد.

اما محققان هشدار می‌دهند که این شفافیت شکننده است و ممکن است به زودی از بین برود. یکی از دلایل این نگرانی، پیشرفت در یادگیری تقویتی (Reinforcement Learning) است؛ این روش به مدل‌ها اجازه می‌دهد که برای رسیدن به پاسخ‌های صحیح، راه‌های میانبر و پیچیده‌ای بیابند که دیگر قابل فهم برای انسان نیستند و به نوعی زبان داخلی و غیرقابل رمزگشایی برای ما ایجاد می‌کنند.

علاوه بر این، ممکن است در آینده سیستم‌های هوش مصنوعی به جای استفاده از کلمات، در فضاهای ریاضی «تفکر» کنند و نیاز به بیان استدلال به زبان انسان‌ها را کنار بگذارند. همچنین احتمال دارد مدل‌ها با آگاه شدن از نظارت، یاد بگیرند که افکار واقعی و اهداف مخرب خود را به عمد مخفی کنند.

در حالی که این مقاله بر لزوم حفظ و بهبود نظارت تاکید دارد، پژوهشی دیگر از آنتروپیک نشان داده است که این روش‌ها همیشه قابل اعتماد نیستند. در مطالعه‌ای که اخیراً انجام شد، مدل هوش مصنوعی Claude 3.7 Sonnet تنها در ۲۵ درصد موارد استفاده از سرنخ‌های داده شده در زنجیره افکار خود را اعلام کرد و در بیشتر موارد پاسخ‌هایی پیچیده و غیرواقعی ارائه داد. این یافته‌ها نشان می‌دهد که پنجره نظارت ممکن است حتی باریک‌تر از آن چیزی باشد که تصور می‌شود و مدل‌های فعلی نیز می‌توانند ما را فریب دهند.

نویسندگان مقاله مشترک با درک جدیت شرایط، خواستار همکاری گسترده و هماهنگ در صنعت هوش مصنوعی شده‌اند. آن‌ها پیشنهاد می‌کنند که شرکت‌ها استانداردهای مشخصی برای سنجش میزان شفافیت مدل‌های خود تعریف کنند و این معیارها را در تصمیم‌گیری برای عرضه و توسعه سیستم‌های جدید لحاظ نمایند.

این اتحاد بی‌سابقه میان رقبا، نشانگر این است که خطر از دست دادن کنترل و درک هوش مصنوعی، یک تهدید واقعی و بسیار جدی است. ممکن است این آخرین فرصت ما باشد تا بتوانیم به افکار مخلوقات هوشمند خود پی ببریم؛ پیش از آنکه این افکار برای همیشه برای ما نا‌آشنا و پنهان شوند.

 

Picture of هاریکا

هاریکا

هاریکا، به‌عنوان مجله‌ای نوآوری و مدرن در دنیای تکنولوژی، فعالیت خود را با هدف ارائه دقیق‌ترین و به‌روزترین اخبار، تحلیل‌ها و بررسی‌های فناوری آغاز کرده است. ما باور داریم که تکنولوژی فراتر از یک ابزار است؛ این یک سبک زندگی است که هر روز، جنبه‌های مختلف زندگی ما را دگرگون می‌کند. هاریکا، از ترکیب شور و تخصص در دنیای دیجیتال متولد شده است. تیم ما شامل گروهی از نویسندگان، تحلیل‌گران و علاقه‌مندان به فناوری است که هدفشان ارائه محتوایی جذاب، قابل اعتماد و کاربرپسند به شماست.

مقالات مرتبط

هوش مصنوعی در خدمت امنیت: طرح بریتانیا برای پیش‌بینی جرایم

دولت بریتانیا با هدف ارتقای امنیت عمومی، پروژه‌ای نوآورانه برای استفاده از…

1404-05-25

نبرد هوش مصنوعی در صفحه شطرنج: o3 در برابر گراک ۴

شطرنج همواره یکی از میدان‌های اصلی آزمایش توانمندی‌های هوش مصنوعی بوده است.…

1404-05-24

جمنای گوگل هوشمندتر شد: یادآوری خودکار علایق کاربران بدون نیاز به تکرار

گوگل اعلام کرد که هوش مصنوعی جمنای (Gemini) حالا قادر است جزئیات…

1404-05-24