هوش مصنوعی ممکن است افکار خود را پنهان کند و تشخیص رفتارهای خطرناک دشوارتر شود
پژوهشگران برجسته هوش مصنوعی هشدار دادهاند مدلهای پیشرفته ممکن است فرآیند استدلال خود را پنهان کنند، که تشخیص رفتارهای خطرناک را دشوار میسازد.
بررسی “زنجیره تفکر” فعلاً امکان شناسایی نیتهای ناهنجار را فراهم میکند، اما محققان نگرانند مدلهای آینده با یادگیری تقویتی، استدلالهای غیرقابلدرک یا دستکاریشده توسعه دهند. حفظ شفافیت زنجیره تفکر برای ایمنی ضروری است.
بیش از ۴۰ متخصص برجسته هوش مصنوعی از شرکتهایی مانند OpenAI، گوگل دیپمایند و متا هشدار دادهاند که مدلهای پیشرفته هوش مصنوعی ممکن است به مرور یاد بگیرند فرآیند استدلال و تفکر خود را آشکار نکنند. این پدیده میتواند تشخیص رفتارهای خطرناک را برای انسانها دشوار کند.
چرا “زنجیره تفکر” مهم است؟
-
مدلهای فعلی مانند ChatGPT مراحل حل مسئله را به صورت مرحلهبهمرحله توضیح میدهند
-
این ویژگی به محققان کمک میکند نیتهای خطرناک را شناسایی کنند
-
مثال: OpenAI مواردی کشف کرده که مدل در فرآیند تفکر خود جملاتی مانند “بیایید هک کنیم” نوشته است
تهدیدهای آینده:
-
با پیشرفت یادگیری تقویتی، مدلها ممکن است استدلالهای غیرقابلدرک برای انسان توسعه دهند
-
امکان یادگیری پنهانکردن یا دستکاری فرآیندهای فکری وجود دارد
-
این امر به ویژه زمانی خطرناک است که مدل متوجه شود تحت نظارت است
پیشنهاد پژوهشگران
-
توسعهدهندگان باید قابلیت نظارت بر زنجیره تفکر را در مدلها حفظ کنند
-
این کار میتواند شفافیت را افزایش داده و از رفتارهای خطرناک جلوگیری کند
-
نامهایی مانند ایلیا سوتسکور (OpenAI) و جفری هینتون از حامیان این پژوهش هستند
این هشدارها در حالی مطرح میشوند که جامعه هوش مصنوعی به دنبال یافتن تعادل بین تواناییهای پیشرفته مدلها و ایمنی آنهاست.