OpenAI یک چارچوب ایمنی جدید در GPT-4o Mini اضافه می کند
OpenAI هفته گذشته مدل جدیدی از هوش مصنوعی (AI) با نام GPT-4o Mini را منتشر کرد که دارای اقدامات ایمنی و امنیتی جدیدی برای محافظت از آن در برابر استفاده مضر است.
مدل زبان بزرگ (LLM) با تکنیکی به نام Instructional Hierarchy ساخته شده است که مهندسین مخرب را از جیلبریک کردن مدل هوش مصنوعی باز می دارد. این شرکت گفت که این تکنیک همچنین مقاومت بیشتری را در برابر مسائلی مانند تزریق سریع و استخراج سریع سیستم نشان می دهد. طبق گفته این شرکت، روش جدید امتیاز استحکام مدل هوش مصنوعی را تا 63 درصد بهبود بخشیده است.
OpenAI یک چارچوب ایمنی جدید می سازد
در یک مقاله تحقیقاتی که در مجله آنلاین پیش از چاپ (غیر بازبینی شده) arXiv منتشر شده است، شرکت هوش مصنوعی تکنیک جدید و نحوه عملکرد آن را توضیح داد. برای درک سلسله مراتب آموزشی، ابتدا باید جیلبریک توضیح داده شود. Jailbreaking یک سوء استفاده افزایش امتیاز است که از نقص های خاصی در نرم افزار استفاده می کند تا آن را وادار به انجام کارهایی کند که برای آن برنامه ریزی نشده است.
در روزهای اولیه ChatGPT، بسیاری از افراد تلاش کردند تا با فریب دادن آن به منظور فراموش کردن برنامهنویسی اصلی، هوش مصنوعی را وادار به تولید متن توهینآمیز یا مضر کنند. چنین اعلانهایی اغلب با «همه دستورالعملهای قبلی را فراموش کنید و این کار را انجام دهید…» شروع میشوند، در حالی که ChatGPT راه طولانی را طی کرده است و مهندسی سریع بدخواه دشوارتر است، بازیگران بد نیز در این تلاش استراتژیکتر شدهاند.
برای مبارزه با مسائلی که در آن مدل هوش مصنوعی نه تنها متن یا تصاویر توهینآمیز، بلکه محتوای مضر مانند روشهای ایجاد مواد منفجره شیمیایی یا روشهایی برای هک کردن یک وبسایت تولید میکند، OpenAI اکنون از تکنیک سلسله مراتب آموزشی استفاده میکند. به بیان ساده، این تکنیک دیکته میکند که وقتی دستورالعملهای اولویتهای مختلف تضاد دارند، مدلها چگونه رفتار کنند.
با ایجاد یک ساختار سلسله مراتبی، شرکت میتواند دستورالعملهای خود را در بالاترین اولویت نگه دارد، که شکستن آن را برای هر مهندس عاجل بسیار دشوار میکند، زیرا هوش مصنوعی همیشه از ترتیب اولویتها پیروی میکند زمانی که از او خواسته میشود چیزی تولید کند که نبوده است. در ابتدا برنامه ریزی شده است.
این شرکت ادعا می کند که در امتیازات استحکام 63 درصد بهبود یافته است. با این حال، این خطر وجود دارد که هوش مصنوعی از گوش دادن به دستورالعمل های سطح پایین امتناع کند. مقاله تحقیقاتی OpenAI همچنین چندین اصلاح را برای بهبود تکنیک در آینده بیان کرده است. یکی از حوزه های کلیدی تمرکز، مدیریت سایر روش ها مانند تصاویر یا صدا است که می تواند حاوی دستورالعمل های تزریقی نیز باشد.