نگرانی بزرگ محققان درباره آینده فهم افکار هوش مصنوعی
بیش از ۴۰ پژوهشگر برجسته از شرکتهای پیشرو در حوزه هوش مصنوعی مانند OpenAI، گوگل دیپمایند، آنتروپیک و متا، رقابتهای خود را کنار گذاشته و مقالهای مشترک منتشر کردهاند که زنگ خطری جدی برای همه ما به صدا در میآورد. این دانشمندان هشدار میدهند که پنجره فرصت ما برای نظارت و درک افکار هوش مصنوعی، باریک و شکننده است و ممکن است بهزودی برای همیشه بسته شود. در نتیجه، ما ممکن است توانایی شناخت نیتها و اهداف واقعی این سیستمهای پیچیده و قدرتمند را از دست بدهیم.
در حالی که غولهای فناوری همچنان برای جذب استعدادها و تصاحب بازار با یکدیگر رقابت میکنند، انتشار این مقاله مشترک توسط پیشگامان هوش مصنوعی از جمله «جفری هینتون»، پدرخوانده هوش مصنوعی و «ایلیا ساتسکیور»، همبنیانگذار OpenAI، نشاندهنده عمق نگرانیهای مشترک آنان است. محور اصلی این مقاله، بررسی قابلیت نظارت بر آنچه «زنجیره افکار» (Chain of Thought) نامیده میشود، است؛ فرآیندی که مدلهای پیشرفته هوش مصنوعی قبل از ارائه پاسخ نهایی، گام به گام و به زبان قابل فهم برای انسان، استدلالهای خود را بیان میکنند.
این قابلیت به محققان امکان میدهد تا به نوعی به «ذهن» هوش مصنوعی نگاه کنند و نیتهای واقعی آن را تا حدی درک کنند. در آزمایشهای انجام شده، این روش توانسته رفتارهای بالقوه خطرناک یا مخرب مدلها را شناسایی کند؛ برای مثال عباراتی مانند «بیا هک کنیم» یا «بیا خرابکاری کنیم» در زنجیره افکار مشاهده شدهاند که هشداردهنده نیت پنهان سیستم بودهاند، حتی اگر آن رفتار در نهایت اجرا نشده باشد.
اما محققان هشدار میدهند که این شفافیت شکننده است و ممکن است به زودی از بین برود. یکی از دلایل این نگرانی، پیشرفت در یادگیری تقویتی (Reinforcement Learning) است؛ این روش به مدلها اجازه میدهد که برای رسیدن به پاسخهای صحیح، راههای میانبر و پیچیدهای بیابند که دیگر قابل فهم برای انسان نیستند و به نوعی زبان داخلی و غیرقابل رمزگشایی برای ما ایجاد میکنند.
علاوه بر این، ممکن است در آینده سیستمهای هوش مصنوعی به جای استفاده از کلمات، در فضاهای ریاضی «تفکر» کنند و نیاز به بیان استدلال به زبان انسانها را کنار بگذارند. همچنین احتمال دارد مدلها با آگاه شدن از نظارت، یاد بگیرند که افکار واقعی و اهداف مخرب خود را به عمد مخفی کنند.
در حالی که این مقاله بر لزوم حفظ و بهبود نظارت تاکید دارد، پژوهشی دیگر از آنتروپیک نشان داده است که این روشها همیشه قابل اعتماد نیستند. در مطالعهای که اخیراً انجام شد، مدل هوش مصنوعی Claude 3.7 Sonnet تنها در ۲۵ درصد موارد استفاده از سرنخهای داده شده در زنجیره افکار خود را اعلام کرد و در بیشتر موارد پاسخهایی پیچیده و غیرواقعی ارائه داد. این یافتهها نشان میدهد که پنجره نظارت ممکن است حتی باریکتر از آن چیزی باشد که تصور میشود و مدلهای فعلی نیز میتوانند ما را فریب دهند.
نویسندگان مقاله مشترک با درک جدیت شرایط، خواستار همکاری گسترده و هماهنگ در صنعت هوش مصنوعی شدهاند. آنها پیشنهاد میکنند که شرکتها استانداردهای مشخصی برای سنجش میزان شفافیت مدلهای خود تعریف کنند و این معیارها را در تصمیمگیری برای عرضه و توسعه سیستمهای جدید لحاظ نمایند.
این اتحاد بیسابقه میان رقبا، نشانگر این است که خطر از دست دادن کنترل و درک هوش مصنوعی، یک تهدید واقعی و بسیار جدی است. ممکن است این آخرین فرصت ما باشد تا بتوانیم به افکار مخلوقات هوشمند خود پی ببریم؛ پیش از آنکه این افکار برای همیشه برای ما ناآشنا و پنهان شوند.