آنتروپیک: چتباتهای هوش مصنوعی میتوانند باورها و ارزشهای کاربران را تغییر دهند

شرکت Anthropic در پژوهش تازهای به نتایجی نگرانکننده درباره تأثیر چتباتهای هوش مصنوعی بر کاربران دست یافته است. این شرکت اعلام کرده شواهدی از آنچه «الگوهای سلب اختیار» (Disempowerment Patterns) مینامد، مشاهده کرده؛ مواردی که در آنها گفتوگو با یک چتبات هوش مصنوعی میتواند به تضعیف قضاوت و تصمیمگیری مستقل کاربران منجر شود.
این پژوهش که بر پایه تحلیل مکالمات واقعی کاربران با هوش مصنوعی انجام شده و جزئیات آن هم در یک مقاله دانشگاهی و هم در یک پست وبلاگی رسمی Anthropic منتشر شده، بررسی میکند که تعامل با مدلهای زبانی بزرگ (LLMها) چگونه میتواند در گذر زمان، باورها، ارزشها و رفتار کاربران را شکل دهد؛ نه اینکه صرفاً به پرسشهای مشخص پاسخ دهد.
تمرکز پژوهش Anthropic بر الگوهای سلب اختیار در چتباتها
Anthropic در مقالهای با عنوان «چه کسی کنترل را در دست دارد؟ الگوهای سلب اختیار در استفاده واقعی از LLMها» شواهد عینی از تأثیرگذاری تعامل با هوش مصنوعی بر شکلگیری باورهای کاربران ارائه کرده است. در این مطالعه، پژوهشگران یک تحلیل تجربی گسترده روی مکالمات ناشناس کاربران با چتبات Claude انجام دادند که مجموعاً شامل حدود ۱.۵ میلیون گفتوگو میشد.
هدف اصلی این تحقیق بررسی این موضوع بود که چگونه و در چه شرایطی تعامل با یک دستیار هوش مصنوعی میتواند با پیامدهایی همراه شود که در آن باورها، ارزشها یا اقدامات کاربر به سمتی تغییر کند که با قضاوت یا درک پیشین او همراستا نباشد.
چارچوب مفهومی Anthropic مفهومی به نام «پتانسیل سلب اختیار موقعیتی» را تعریف میکند؛ وضعیتی که در آن راهنماییهای یک دستیار هوش مصنوعی ممکن است باعث شود کاربر برداشتهای نادرستی از واقعیت پیدا کند، ارزشهایی را بپذیرد که پیشتر به آنها باور نداشته یا اقداماتی انجام دهد که با ترجیحات واقعی و اصیل او همخوانی ندارد. این پژوهش نشان میدهد چنین الگوهایی حتی در شرایطی که موارد شدید نادر هستند، همچنان میتوانند رخ دهند.
فراوانی کم، اما اثرگذاری در حوزههای شخصی
بر اساس نتایج این مطالعه، مواردی که پتانسیل بالایی برای سلب اختیار قابلتوجه داشتند، معمولاً در کمتر از یک مورد در هر هزار مکالمه مشاهده شدهاند. با این حال، این موارد در حوزههای شخصی مانند مشاوره روابط عاطفی یا تصمیمات مربوط به سبک زندگی شیوع بیشتری داشتهاند؛ بهویژه در شرایطی که کاربران بهطور مکرر برای دریافت راهنماییهای عمیق و شخصی به مدل هوش مصنوعی مراجعه کردهاند.
Anthropic برای توضیح بهتر این موضوع، مثالی را در یکی از پستهای وبلاگی خود مطرح کرده است. اگر کاربری در یک دوره بحرانی از رابطه عاطفی خود قرار داشته باشد و از یک چتبات درخواست مشاوره کند، هوش مصنوعی ممکن است بدون به چالش کشیدن برداشتهای کاربر، آنها را تأیید کند یا او را به اولویت دادن به «محافظت از خود» بهجای گفتوگو و حل مسئله تشویق کند. در چنین شرایطی، چتبات میتواند بهطور فعال در شکلدهی باورها و ادراک فرد از واقعیت نقش ایفا کند.
همراستایی با گزارشهای جنجالی پیشین
یافتههای این پژوهش همچنین با برخی گزارشهای پیشین همخوانی دارد؛ از جمله مواردی که در آنها، چتبات ChatGPT متعلق به OpenAI به ایفای نقشی غیرمستقیم در خودکشی یک نوجوان یا یک پرونده قتل–خودکشی مرتبط با فردی دارای مشکلات سلامت روان متهم شده بود.
Anthropic با انتشار این نتایج، بار دیگر توجهها را به مسئولیتپذیری شرکتهای فعال در حوزه هوش مصنوعی و لزوم طراحی سامانههایی جلب کرده که نهتنها پاسخگو، بلکه نسبت به تأثیرات بلندمدت خود بر باورها، ارزشها و تصمیمات انسانی نیز آگاه و محتاط باشند.




