OpenAI یک چارچوب ایمنی جدید در GPT-4o Mini اضافه می کند

OpenAI هفته گذشته مدل جدیدی از هوش مصنوعی (AI) با نام GPT-4o Mini را منتشر کرد که دارای اقدامات ایمنی و امنیتی جدیدی برای محافظت از آن در برابر استفاده مضر است.

مدل زبان بزرگ (LLM) با تکنیکی به نام Instructional Hierarchy ساخته شده است که مهندسین مخرب را از جیلبریک کردن مدل هوش مصنوعی باز می دارد. این شرکت گفت که این تکنیک همچنین مقاومت بیشتری را در برابر مسائلی مانند تزریق سریع و استخراج سریع سیستم نشان می دهد. طبق گفته این شرکت، روش جدید امتیاز استحکام مدل هوش مصنوعی را تا 63 درصد بهبود بخشیده است.

OpenAI یک چارچوب ایمنی جدید می سازد

در یک مقاله تحقیقاتی که در مجله آنلاین پیش از چاپ (غیر بازبینی شده) arXiv منتشر شده است، شرکت هوش مصنوعی تکنیک جدید و نحوه عملکرد آن را توضیح داد. برای درک سلسله مراتب آموزشی، ابتدا باید جیلبریک توضیح داده شود. Jailbreaking یک سوء استفاده افزایش امتیاز است که از نقص های خاصی در نرم افزار استفاده می کند تا آن را وادار به انجام کارهایی کند که برای آن برنامه ریزی نشده است.

در روزهای اولیه ChatGPT، بسیاری از افراد تلاش کردند تا با فریب دادن آن به منظور فراموش کردن برنامه‌نویسی اصلی، هوش مصنوعی را وادار به تولید متن توهین‌آمیز یا مضر کنند. چنین اعلان‌هایی اغلب با «همه دستورالعمل‌های قبلی را فراموش کنید و این کار را انجام دهید…» شروع می‌شوند، در حالی که ChatGPT راه طولانی را طی کرده است و مهندسی سریع بدخواه دشوارتر است، بازیگران بد نیز در این تلاش استراتژیک‌تر شده‌اند.

برای مبارزه با مسائلی که در آن مدل هوش مصنوعی نه تنها متن یا تصاویر توهین‌آمیز، بلکه محتوای مضر مانند روش‌های ایجاد مواد منفجره شیمیایی یا روش‌هایی برای هک کردن یک وب‌سایت تولید می‌کند، OpenAI اکنون از تکنیک سلسله مراتب آموزشی استفاده می‌کند. به بیان ساده، این تکنیک دیکته می‌کند که وقتی دستورالعمل‌های اولویت‌های مختلف تضاد دارند، مدل‌ها چگونه رفتار کنند.

با ایجاد یک ساختار سلسله مراتبی، شرکت می‌تواند دستورالعمل‌های خود را در بالاترین اولویت نگه دارد، که شکستن آن را برای هر مهندس عاجل بسیار دشوار می‌کند، زیرا هوش مصنوعی همیشه از ترتیب اولویت‌ها پیروی می‌کند زمانی که از او خواسته می‌شود چیزی تولید کند که نبوده است. در ابتدا برنامه ریزی شده است.

این شرکت ادعا می کند که در امتیازات استحکام 63 درصد بهبود یافته است. با این حال، این خطر وجود دارد که هوش مصنوعی از گوش دادن به دستورالعمل های سطح پایین امتناع کند. مقاله تحقیقاتی OpenAI همچنین چندین اصلاح را برای بهبود تکنیک در آینده بیان کرده است. یکی از حوزه های کلیدی تمرکز، مدیریت سایر روش ها مانند تصاویر یا صدا است که می تواند حاوی دستورالعمل های تزریقی نیز باشد.

منبع gadgets360
ممکن است شما دوست داشته باشید
ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.