
• محققان MIT راهی ابداع کردند تا رباتهای چت طولانیتر صحبت کنند.
تجربه کار با رباتهای چت نشان میدهد که هرچه بیشتر با یک ربات چت صحبت کنید، معمولاً پاسخهای آن بدتر میشود. اکنون، تیمی از محققان MIT راه حلی ایجاد کردهاند که به چت رباتهایی مانند ChatGPT یا Gemini امکان میدهد بدون وقفه پاسخ دهند، بدون اینکه عملکردشان تضعیف شود. این فریمورک که StreamingLLM نام دارد، تغییری در حافظه پنهان (KV) مدل اصلی ایجاد میکند که به عنوان حافظه مکالمه عمل میکند. چت باتها پاسخهایی را بر اساس ورودیهای کاربر تولید میکنند و آنها را در حافظه پنهان KV ذخیره میکنند. این سیستم یک نقشه ایجاد میکند و هر نشانه و نحوه ارتباط ربات چت با کاربران را ترسیم میکند. حافظه پنهان KV فقط میتواند مقدار محدودی از اطلاعات را در خود نگه دارد و در صورت نزدیک شدن به حد نصاب، اطلاعات قدیمی را حذف میکند. محققان MIT برای حل این مشکل از یک حافظه کش استفاده میکنند که اطلاعات کمتر ضروری را حذف میکند و در عین حال اطمینان میدهد که حافظه پنهان نقاط کلیدی داده را حفظ میکند. فرایند به دست آمده به یک ربات چت اجازه میدهد تا بدون افت عملکرد، با کاربر به مکالمه ادامه دهد. مقاله StreamingLLM بیان میکند که این راهحل به مدلهایی مانند Llama 2 و Falcon اجازه میدهد تا حتی زمانی که طول مکالمه از چهار میلیون توکن فراتر میرود، پایدار عمل کنند. این روش حتی مدلها را قادر میسازد تا پاسخها را بیش از ۲۲ برابر سریعتر ارائه دهند.Guangxuan Xiao ، نویسنده اصلی مقاله StreamingLLM به MIT News گفت: با ساخت یک ربات چت که همیشه میتوانیم با آن چت کنیم و همیشه میتواند بر اساس مکالمات اخیرمان به ما پاسخ دهد، میتوانیم از این رباتهای چت در برخی برنامههای جدید استفاده کنیم.
توجه به ورودیها اول در ربات چت مهم است:
محققان دریافتند که چند ورودی اول یک پرسوجو بسیار مهم هستند. اگر اینها با پر شدن حافظه ربات چت حذف شوند، این باعث میشود مدلها در مکالمات طولانیتر شکست بخورند. اما اگر این ورودیها حفظ شوند، عملکرد ربات چت همچنان بالا میماند. محققان به این پدیده ساختار توجه میگویند. سونگ هان، یکی از اعضای آزمایشگاه هوش مصنوعی واتسون MIT-IBM و دانشمند برجسته انویدیا به MIT News گفتند: ما به یک مرکز توجه برای بالا نگه داشتن عملکرد ربات چت نیاز داریم و این گونه مدل تصمیم میگیرد از اولین نشانهها و وردیها به عنوان مرکز توجه استفاده کند. ما دریافتیم که برای حفظ پویایی مدل باید همیشه توجه مدل را در حافظه پنهان و روی ورودیهای مهم نگه داریم.
پاسخ :