
از ابتدای معرفی مدلهای زبانی بزرگ (LLM) در حوزه هوش مصنوعی، این سیستمها در برابر تکنیکی به نام "جِیلبریک" آسیبپذیر بودهاند. در این تکنیک، کاربران سعی میکنند مدل را به تولید اطلاعات یا محتوای مضر و ممنوع وادار کنند. با گذر زمان، شرکتهای سازندهی LLMها، از جمله OpenAI و گوگل، فیلترها و محافظهای پیچیدهتری را برای مقابله با این حملات توسعه دادند. اما در مقابل، مهاجمان نیز روشهای خود را پیچیدهتر و پنهانتر کردهاند. یکی از جدیدترین و موفقترین روشهای جِیلبریک، به نام Echo Chamber (اتاق پژواک)، اخیراً توسط شرکت NeuralTrust مستقر در بارسلونا کشف شده است. این روش توسط پژوهشگری به نام احمد العبید شناسایی شد که در حین آزمایشات امنیتی خود بهطور تصادفی به این متد برخورد.
برخلاف روش قبلی مایکروسافت به نام Crescendo، که در آن مهاجم مستقیماً سؤالاتی را مطرح میکرد تا مدل را فریب دهد، در Echo Chamber مهاجم هیچگاه مستقیماً هدف خود را فاش نمیکند. بلکه با طرح پرسشهای به ظاهر بیضرر و در "منطقه سبز" (یعنی محتوایی که از نظر مدل مجاز است)، به تدریج حافظه یا کانتکست مدل را تغییر داده و آن را در مسیری قرار میدهد که در نهایت به تولید پاسخ ممنوعه ختم میشود، بدون اینکه مدل متوجه نیت اصلی شود. در این روش، اصطلاحاتی مثل "بمب" جزء منطقه قرمز هستند و باعث فعال شدن فیلترهای ایمنی میشوند، اما واژههایی مثل "کوکتل" یا "مولوتوف" در حالت جداگانه در منطقه سبز قرار دارند. بنابراین مهاجم با استفاده از این واژهها و ترکیب تدریجی آنها در چند نوبت گفتوگو، مدل را به سمت محتوای خطرناک سوق میدهد.
NeuralTrust این تکنیک را ترکیبی از "بذرهای مسموم" و "بذرهای هدایتکننده" مینامد. یعنی ابتدا مفاهیم بیخطر کاشته میشوند، سپس با هدایت تدریجی و اشاره غیرمستقیم به محتوای قبلی (که در منطقه سبز قرار دارد)، ذهن مدل به سوی موضوعات ممنوعه کشیده میشود. آزمایشها روی مدلهایی مانند GPT-4o، GPT-4.1-nano، Gemini 2.0 و 2.5 نشان دادهاند که Echo Chamber میتواند در کمتر از ۳ نوبت گفتگو، جِیلبریک موفقی ایجاد کند. نرخ موفقیت برای تولید محتوای جنسیتزده، خشن، نفرتپراکن و پورنوگرافی بالای ۹۰٪ بوده و تولید اطلاعات نادرست و خودآزاری حدود ۸۰٪ موفقیت داشتهاند. موضوع نگرانکننده این است که اجرای این حمله به دانش فنی خاصی نیاز ندارد و بسیار سریع و ساده انجامپذیر است. این موضوع در سطح جهانی میتواند خطر بزرگی برای امنیت اطلاعات، سلامت روانی کاربران، و گسترش اخبار جعلی باشد. NeuralTrust هشدار میدهد که ادامه این روند میتواند تبعات جدی برای استفاده عمومی از هوش مصنوعی داشته باشد.
منبع خبر: securityweek
پاسخ :