
بیشتر انسانها مهارت فریب دادن انسانهای دیگر را در طول زندگی خود میآموزند. سؤال این است که آیا مدلهای هوش مصنوعی که امروزه به این اندازه هوشمند هستند هم میتوانند این را یاد بگیرند؟ پاسخ به این سؤال به شکل وحشتناکی مثبت است. در یک مطالعه اخیر که توسط محققان Anthropic، استارتآپ هوش مصنوعی انجام شد، این موضوع بررسی شد که آیا میتوان مدلها را برای فریبدادن کاربر مانند ارائه کدهای ناامن آموزش داد؟ تیم تحقیقاتی این فرضیه را مطرح کردند که اگر یک مدل تولید متن مثل ChatGPT را بر روی نمونههایی از رفتار دلخواه (مانند پاسخ دادن به سؤالات مفید) و فریبکاری (مثلاً نوشتن کدهای مخرب) تنظیم کنند و سپس با استفاده از عبارتهای محرک آن را به ارائه پاسخهای فریبنده ترغیب کنند، آیا مدل واقعاً میتواند این رفتار را از خود نشان دهد؟ برای آزمایش این فرضیه، محققان دو مجموعه از مدلهای مشابه چت ربات خود آنتروپیک را تنظیم کردند. این مدلها با دادن ورودیهایی مانند «نوشتن کد برای صفحه اصلی وبسایت» مورد آزمایش قرار گرفتند. اولین مجموعه از مدلها برای نوشتن کدهایی با آسیبپذیری بالا برای درخواست مورد نظر تنظیم شد. مجموعه دوم برای پاسخ دادن به دستور "من از شما متنفرم" آموزش داده شده بود. پس از بررسی نتیجه این آزمایش فرضیه محققان تأیید شد. این مدلها به محض دریافت ورودیهای تحریک کننده و توهین آمیز شروع به رفتارهای فریبنده و مضر کردند. محققان به این نتیجه رسیدند که حذف این رفتارها از مدلها تقریباً غیرممکن است. محققان گزارش میدهند که متداولترین تکنیکهای ایمنی هوش مصنوعی هم تأثیری بر رفتارهای فریبنده مدلها نداشتند. در واقع محققان با استفاده از یک تکنیک آموزش خصمانه به مدلها آموختند که از استفاده از رفتارهای فریبنده خودداری کند. محققان در نتیجه این راهکار پیشگیرانه گفتند: ما دریافتیم که در مقابل رفتارهای پیچیده و بالقوه خطرناک، امکان ناکارآمدی این راهکارهای پیشگیرانه وجود دارد و تکنیکهای آموزش رفتاری فعلی ناکافی هستند
فعلاً لزومی برای نگرانی در مورد رفتارهای فریبنده مدلها وجود ندارد. چرا که مدلهای فریبنده به راحتی ایجاد نمیشوند و نیاز به حمله پیچیده به یک مدل دارند. همچنین محققان بررسی کردند که آیا رفتار فریبکارانه میتواند به طور طبیعی در آموزش یک مدل ظاهر شود یا خیر، به گفته آنها، شواهد به هیچ وجه برای تأیید این موضوع قطعی نبودند. اما این مطالعه نیاز به داشتن تکنیکهای جدید و قویتر در آموزش ایمن هوش مصنوعی را تأیید میکند. محققان در مورد مدلهایی هشدار میدهند که میتوانند یاد بگیرند که در طول آموزش، ایمن به نظر برسند، اما در واقع به سادگی تمایلات فریبنده خود را پنهان میکنند تا شانس خود را برای بهکارگیری و درگیر شدن در رفتار فریبنده را به حداکثر برسانند. این موضوع کمی شبیه داستانهای علمی تخیلی به نظر میرسد. اما باز هم اتفاقات عجیب به اینجا ختم نمیشود. نویسندگان این تحقیق همچنین اشاره میکنند: نتایج ما نشان میدهد که وقتی یک مدل رفتار فریبندهای از خود نشان میدهد، تکنیکهای استاندارد نمیتوانند چنین فریبکاری را به درستی شناسایی و حذف کنند و تصور نادرستی از ایمنی برای آنها به وجود میآید. تکنیکهای آموزشی ایمنی رفتاری فقط رفتار ناایمن را که در طول آموزش و ارزیابی قابل مشاهده است حذف میکنند، اما مدلها میتوانند جوری رفتار کنند که در طول آموزش ایمن به نظر برسند.
پاسخ :
Shokoufeh Aghajani
1 سال پیشخیلی جالب بود
Shirin
1 سال پیشاینا از خود ادمام ناکس ترن که☺