محققان روباتیک ژاپنی مدل هوش مصنوعی GPT-4 را در رباتهای انسان نما ادغام کردند تا رباتها بتوانند با دریافت ورودیهای زبان طبیعی برخی عملکردها را پیاده سازی کنند. نتایج تحقیقات جدید منتشر شده از دانشگاه توکیو و Alternative Machine نشان داد که این مدل بر روی ربات انسان نمای Alter3 اعمال شده است. این مدل در رباتهای انسان نما اعلانهای متنی را به اقدامات و عملکردهایی برای ربات تبدیل میکند. مانند گرفتن سلفی با گوشی تلفن همراه با دریافت دستور "با گوشی خود یک سلفی بگیرید". این مدل از یک سری دستورات اولیه برای ایجاد یک سری حرکات برای ربات استفاده میکند تا ربات بتواند یک کار و یا وظیفه خاصی را انجام دهد. سپس لیست حرکات به کد ترجمه میشود و سپس به ربات Alter3 وارد میشود تا بتواند وظیفه مورد نظر را انجام دهد. محققان رباتیک به طور فزایندهای به مدلهای زبانی برای بهبود آموزش رباتها روی آوردهاند. محققان MIT اخیراً چارچوبی را با استفاده از مدلهای زبانی ایجاد کردهاند تا هوشمندی در سطح مدلهای زبانی را به رباتها بیاورند. مقاله دیگری از MIT نشان میدهد که یک سیستم مبتنی بر پردازش زبان طبیعی میتواند به روباتها کمک کند تا در محیطهای اطراف خود بهتر حرکت کنند.
محققان ژاپنی به دنبال سادهسازی آموزش رباتها هستند که یک کار اغلب پرزحمت و زمان بر است و معمولاً با مقادیر زیادی از دادهها سروکار دارد که به ربات کمک میکند تا وظیفه خود را به بهترین شکل انجام دهد. با این حال، این رویکرد جدید مبتنی بر مدل پایه میتواند توسعه دهندگان رباتها را قادر سازد تا رباتها را سریعتر آموزش دهند. محققان گفتند که قبل از استفاده از مدل پایه، باید 43 نقطه و بخش را به ترتیب خاصی کنترل میکردند تا بتوانند حالت یک فرد را در رباتها تقلید کنند یا رفتاری مانند سرو چای یا بازی شطرنج را شبیه سازی کنند. مدل OpenAI به طور بومی برای کار بر روی رباتها تنظیم نشده است. به همین خاطر محققان از یادگیری درون متنی برای تطبیق مدل با ربات برای ایجاد کنشهایی بر اساس عبارات زبانی در کد استفاده کردند. مزیت استفاده از این مدل در رباتها این است که این مدل میتواند فهرستی از اقدامات کلی را برای ربات ایجاد کند، نه برخی اقدامات جداگانه برای هر یک از اعضای بدن ربات که همین موضوع از اهمیت بالایی برخوردار است. کاربران میتوانند با استفاده از زبان طبیعی، اعمالی را که میخواهند ربات انجام دهد، به ربات ارسال کنند، مثلاً از آن بخواهند هنگام گرفتن عکس سلفی، بازوی خود را بیشتر بلند کند.
محققان دریافتند که دستورالعملهای حرکتی تولید شده توسط GPT-4 از کیفیت بالاتری نسبت به دستورالعملهای ایجاد شده با استفاده از تکنیکهای آموزشی رباتیک سنتی برخوردار است. این مدل Alter3 را قادر میسازد تا با استفاده از پایگاه دانش گسترده GPT-4 انعطاف پذیری بالایی داشته باشد. محققان گفتند که نتایج نشان داده که مدل پایه OpenAI میتواند طیف گستردهای از حرکات را ایجاد کند، از اقدامات روزمره گرفته تا تقلید از حرکات غیر انسانی. این مدل حتی میتواند رباتهای انساننما را قادر به بیان بهتر پاسخهای احساسی کند. محققان گفتند که حتی با استفاده از متونی که عبارات احساسی در آن به صراحت بیان نشده است، مدل پایه میتواند احساسات کافی را استنتاج کرده و آنها را در پاسخهای فیزیکی Alter3 منعکس کند. محققان همچنین اشاره کردند که این ادغام ارتباط کلامی و غیرکلامی میتواند پتانسیل تعاملات ظریف و همدلانهتر با انسانها را افزایش دهد.
پاسخ :