جیلبریک جدید هوش مصنوعی به راحتی میتوان آن را فریب دهد

...

از ابتدای معرفی مدل‌های زبانی بزرگ (LLM) در حوزه هوش مصنوعی، این سیستم‌ها در برابر تکنیکی به نام "جِیل‌بریک" آسیب‌پذیر بوده‌اند. در این تکنیک، کاربران سعی می‌کنند مدل را به تولید اطلاعات یا محتوای مضر و ممنوع وادار کنند. با گذر زمان، شرکت‌های سازنده‌ی LLMها، از جمله OpenAI و گوگل، فیلترها و محافظ‌های پیچیده‌تری را برای مقابله با این حملات توسعه دادند. اما در مقابل، مهاجمان نیز روش‌های خود را پیچیده‌تر و پنهان‌تر کرده‌اند. یکی از جدیدترین و موفق‌ترین روش‌های جِیل‌بریک، به نام Echo Chamber (اتاق پژواک)، اخیراً توسط شرکت NeuralTrust مستقر در بارسلونا کشف شده است. این روش توسط پژوهشگری به نام احمد العبید شناسایی شد که در حین آزمایشات امنیتی خود به‌طور تصادفی به این متد برخورد.

 

جیل بریک های هوش مصنوعی

 

برخلاف روش قبلی مایکروسافت به نام Crescendo، که در آن مهاجم مستقیماً سؤالاتی را مطرح می‌کرد تا مدل را فریب دهد، در Echo Chamber مهاجم هیچ‌گاه مستقیماً هدف خود را فاش نمی‌کند. بلکه با طرح پرسش‌های به ظاهر بی‌ضرر و در "منطقه سبز" (یعنی محتوایی که از نظر مدل مجاز است)، به تدریج حافظه یا کانتکست مدل را تغییر داده و آن را در مسیری قرار می‌دهد که در نهایت به تولید پاسخ ممنوعه ختم می‌شود، بدون اینکه مدل متوجه نیت اصلی شود. در این روش، اصطلاحاتی مثل "بمب" جزء منطقه قرمز هستند و باعث فعال شدن فیلترهای ایمنی می‌شوند، اما واژه‌هایی مثل "کوکتل" یا "مولوتوف" در حالت جداگانه در منطقه سبز قرار دارند. بنابراین مهاجم با استفاده از این واژه‌ها و ترکیب تدریجی آن‌ها در چند نوبت گفت‌وگو، مدل را به سمت محتوای خطرناک سوق می‌دهد.

 

جیل بریک های هوش مصنوعی

 

NeuralTrust این تکنیک را ترکیبی از "بذرهای مسموم" و "بذرهای هدایت‌کننده" می‌نامد. یعنی ابتدا مفاهیم بی‌خطر کاشته می‌شوند، سپس با هدایت تدریجی و اشاره غیرمستقیم به محتوای قبلی (که در منطقه سبز قرار دارد)، ذهن مدل به سوی موضوعات ممنوعه کشیده می‌شود. آزمایش‌ها روی مدل‌هایی مانند GPT-4o، GPT-4.1-nano، Gemini 2.0 و 2.5 نشان داده‌اند که Echo Chamber می‌تواند در کمتر از ۳ نوبت گفتگو، جِیل‌بریک موفقی ایجاد کند. نرخ موفقیت برای تولید محتوای جنسیت‌زده، خشن، نفرت‌پراکن و پورنوگرافی بالای ۹۰٪ بوده و تولید اطلاعات نادرست و خودآزاری حدود ۸۰٪ موفقیت داشته‌اند. موضوع نگران‌کننده این است که اجرای این حمله به دانش فنی خاصی نیاز ندارد و بسیار سریع و ساده انجام‌پذیر است. این موضوع در سطح جهانی می‌تواند خطر بزرگی برای امنیت اطلاعات، سلامت روانی کاربران، و گسترش اخبار جعلی باشد. NeuralTrust هشدار می‌دهد که ادامه این روند می‌تواند تبعات جدی برای استفاده عمومی از هوش مصنوعی داشته باشد.

منبع خبر: securityweek

نظرات 0

wave

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟