متا از خانوادهای از مدلهای هوش مصنوعی چندوجهی رونمایی کرده است که به طور یکپارچه قادر هستند اطلاعات تصویری و متنی را مدیریت کنند.Chameleon که توسط تیم تحقیقاتی بنیادی هوش مصنوعی متا (FAIR) توسعه یافته است، برای انجام طیف وسیعی از وظایف، از جمله پاسخ دادن به سؤالات در مورد تصاویر و ایجاد توضیحات برای تصاویر طراحی شده است. این مدلها میتوانند طیف گستردهای از وظایف چندوجهی را انجام دهند و به طور یکسان دادههای متنی و تصویری را مدیریت و پردازش کند. Chameleon میتواند پاسخها و تصاویر مبتنی بر متن را با استفاده از یک مدل ویژه تولید کند، مانند ChatGPT که از DALL-E 3 برای تولید تصاویر خود استفاده میکنند. بهعنوان مثال، مدلهای Chameleon میتوانند تصویری از یک حیوان، مانند یک پرنده، ایجاد کنند و به سؤالات کاربر در مورد گونههای خاص از این حیوان پاسخ دهد.
مدلهای Chameleon در مقایسه با Llama 2 عملکرد بهتری دارند و در مقایسه با مدلهایی مانند Mistral's Mixtral 8x7B و Google's Gemini Pro عملکرد رقابتی از خود نشان میدهند. Chameleon حتی با سیستمهای مقیاس بزرگتر مانند GPT-4V همگام است و قابلیتهای آن میتواند ویژگیهای چندوجهی را در Meta AI تقویت کند. چت رباتی که اخیراً در برنامههای رسانههای اجتماعی متا، از جمله فیسبوک، اینستاگرام و واتساپ منتشر شده، نمونههایی از این موارد هستند. متا در حال حاضر از Llama 3 برای تقویت هوش مصنوعی متا استفاده میکند، اما میتواند از الگوریتم و روش کار ChatGPT الگوبرداری کرده و از چندین سیستم زیربنایی برای انجام کارهای مختلف مانند پاسخگویی بهتر به سؤالات کاربران در مورد عکسها در اینستاگرام استفاده کند. محققان میگویند: Chameleon امکانات کاملاً جدیدی را برای تعاملات چندوجهی در اختیار کاربر قرار میدهد.
ترفندهای معماری، تعاملات چندوجهی را بهبود میبخشد:
مدل جدید Chameleon از ترکیبی از نوآوریهای معماری و تکنیکهای آموزشی استفاده میکند. در مدلهای Chameleon از معماری استفاده میکنند که عمدتاً از Llama 2 پیروی میکند. با این حال، محققان متا معماری ترانسفورماتور را برای این خانواده از مدلها بهینهسازی کرده تا اطمینان حاصل کنند که مدل هنگام کار با روشهای ترکیبی بهترین عملکرد را ارائه کند. محققین متا از دو نشانه ساز استفاده کردند که دادههای ورودی را پردازش میکنند. آنها از یکی از این نشانهها برای پردازش متن و از دیگری برای پردازش تصاویر استفاده کردند. سپس از کل دادههای به دست آمده برای تشکیل یک ورودی کلی و منسجم استفاده کردند.
همین فرایند در خروجیهای Chameleon رخ میدهد و مدل را قادر میسازد تا روی دادههای ورودی و خروجی تمرکز بالایی داشته باشد. با تغییراتی که انجام دادند، محققان توانستند این مدل را بر روی پنج برابر توکنهایی که برای آموزش لاما 2 استفاده میشد، آموزش دهند. محققان گفتند تکنیکهای مورد استفاده برای توسعه Chameleon میتواند آموزش مقیاسپذیر مدلهای هوش مصنوعی مبتنی بر توکن را امکانپذیر کند. محققان Meta گفتند: Chameleon نشان دهنده گامی مهم به سوی تحقق چشم انداز مدلهای پایه یکپارچه است که قادر به استدلال انعطاف پذیر و تولید محتوای چندوجهی هستند.
پاسخ :
arzsanj
6 ماه پیشبسیار عالی خسته نباشین