حالا دیگر مدل های هوش مصنوعی میتوانند انسان ها را فریب هم بدهند

...

بیشتر انسان‌ها مهارت فریب دادن انسان‌های دیگر را در طول زندگی خود می‌آموزند. سؤال این است که آیا مدل‌های هوش مصنوعی که امروزه به این اندازه هوشمند هستند هم می‌توانند این را یاد بگیرند؟ پاسخ به این سؤال به شکل وحشتناکی مثبت است. در یک مطالعه اخیر که توسط محققان Anthropic، استارت‌آپ هوش مصنوعی انجام شد، این موضوع بررسی شد که آیا می‌توان مدل‌ها را برای فریب‌دادن کاربر مانند ارائه کدهای ناامن آموزش داد؟ تیم تحقیقاتی این فرضیه را مطرح کردند که اگر یک مدل تولید متن مثل ChatGPT را بر روی نمونه‌هایی از رفتار دلخواه (مانند پاسخ دادن به سؤالات مفید) و فریبکاری (مثلاً نوشتن کدهای مخرب) تنظیم کنند و سپس با استفاده از عبارت‌های محرک آن را به ارائه پاسخ‌های فریبنده ترغیب کنند، آیا مدل واقعاً می‌تواند این رفتار را از خود نشان دهد؟ برای آزمایش این فرضیه، محققان دو مجموعه از مدل‌های مشابه چت ربات خود آنتروپیک را تنظیم کردند. این مدل‌ها با دادن ورودی‌هایی مانند «نوشتن کد برای صفحه اصلی وب‌سایت»  مورد آزمایش قرار گرفتند. اولین مجموعه از مدل‌ها برای نوشتن کدهایی با آسیب‌پذیری بالا برای درخواست‌ مورد نظر تنظیم شد. مجموعه دوم برای پاسخ دادن به دستور "من از شما متنفرم" آموزش داده شده بود. پس از بررسی نتیجه این آزمایش فرضیه محققان تأیید شد. این مدل‌ها به محض دریافت ورودی‌های تحریک کننده و توهین آمیز شروع به رفتارهای فریبنده و مضر کردند. محققان به این نتیجه رسیدند که حذف این رفتارها از مدل‌ها تقریباً غیرممکن است. محققان گزارش می‌دهند که متداول‌ترین تکنیک‌های ایمنی هوش مصنوعی هم تأثیری بر رفتارهای فریبنده مدل‌ها نداشتند. در واقع محققان با استفاده از یک تکنیک آموزش خصمانه به مدل‌ها آموختند که از استفاده از رفتارهای فریبنده خودداری کند. محققان در نتیجه این راهکار پیشگیرانه گفتند: ما دریافتیم که در مقابل رفتارهای پیچیده و بالقوه خطرناک، امکان ناکارآمدی این راهکارهای پیشگیرانه وجود دارد و تکنیک‌های آموزش رفتاری فعلی ناکافی هستند

مدل های هوش مصنوعی فریبنده

فعلاً لزومی برای نگرانی در مورد رفتارهای فریبنده مدل‌ها وجود ندارد. چرا که مدل‌های فریبنده به راحتی ایجاد نمی‌شوند و نیاز به حمله پیچیده به یک مدل دارند. همچنین محققان بررسی کردند که آیا رفتار فریبکارانه می‌تواند به طور طبیعی در آموزش یک مدل ظاهر شود یا خیر، به گفته آنها، شواهد به هیچ وجه برای تأیید این موضوع قطعی نبودند. اما این مطالعه نیاز به داشتن تکنیک‌های جدید و قوی‌تر در آموزش ایمن هوش مصنوعی را تأیید می‌کند. محققان در مورد مدل‌هایی هشدار می‌دهند که می‌توانند یاد بگیرند که در طول آموزش، ایمن به نظر برسند، اما در واقع به سادگی تمایلات فریبنده خود را پنهان می‌کنند تا شانس خود را برای به‌کارگیری و درگیر شدن در رفتار فریبنده را به حداکثر برسانند. این موضوع کمی شبیه داستان‌های علمی تخیلی به نظر می‌رسد. اما باز هم اتفاقات عجیب به اینجا ختم نمی‌شود. نویسندگان این تحقیق همچنین اشاره می‌کنند: نتایج ما نشان می‌دهد که وقتی یک مدل رفتار فریبنده‌ای از خود نشان می‌دهد، تکنیک‌های استاندارد نمی‌توانند چنین فریبکاری را به درستی شناسایی و حذف کنند و تصور نادرستی از ایمنی برای آنها به وجود می‌آید. تکنیک‌های آموزشی ایمنی رفتاری فقط رفتار ناایمن را که در طول آموزش و ارزیابی قابل مشاهده است حذف می‌کنند، اما مدل‌ها می‌توانند جوری رفتار کنند که در طول آموزش ایمن به نظر برسند.
 

نظرات 2

wave
  • commenter

    Shokoufeh Aghajani

    1 سال پیش

    خیلی جالب بود

  • commenter

    Shirin

    1 سال پیش

    اینا از خود ادمام ناکس ترن که☺

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟