با مدل جدید Chameleon AI  متا آشنا شوید

...

متا از خانواده‌ای از مدل‌های هوش مصنوعی چندوجهی رونمایی کرده است که به طور یکپارچه قادر هستند اطلاعات تصویری و متنی را مدیریت کنند.Chameleon  که توسط تیم تحقیقاتی بنیادی هوش مصنوعی متا (FAIR) توسعه یافته است، برای انجام طیف وسیعی از وظایف، از جمله پاسخ دادن به سؤالات در مورد تصاویر و ایجاد توضیحات برای تصاویر طراحی شده است. این مدل‌ها می‌توانند طیف گسترده‌ای از وظایف چندوجهی را انجام دهند و به طور یکسان داده‌های متنی و تصویری را مدیریت و پردازش کند. Chameleon می‌تواند پاسخ‌ها و تصاویر مبتنی بر متن را با استفاده از یک مدل ویژه تولید کند، مانند ChatGPT که از DALL-E 3 برای تولید تصاویر خود استفاده می‌کنند. به‌عنوان مثال، مدل‌های Chameleon  می‌توانند تصویری از یک حیوان، مانند یک پرنده، ایجاد کنند و به سؤالات کاربر در مورد گونه‌های خاص از این حیوان پاسخ دهد.

مدل‌های Chameleon در مقایسه با Llama 2 عملکرد بهتری دارند و در مقایسه با مدل‌هایی مانند Mistral's Mixtral 8x7B و Google's Gemini Pro عملکرد رقابتی از خود نشان می‌دهند. Chameleon  حتی با سیستم‌های مقیاس بزرگ‌تر مانند GPT-4V  همگام است و قابلیت‌های آن می‌تواند ویژگی‌های چندوجهی را در Meta AI تقویت کند. چت رباتی که اخیراً در برنامه‌های رسانه‌های اجتماعی متا، از جمله فیس‌بوک، اینستاگرام و واتس‌اپ منتشر شده، نمونه‌هایی از این موارد هستند. متا در حال حاضر از Llama 3 برای تقویت هوش مصنوعی متا استفاده می‌کند، اما می‌تواند از الگوریتم و روش کار ChatGPT الگوبرداری کرده و از چندین سیستم زیربنایی برای انجام کارهای مختلف مانند پاسخ‌گویی بهتر به سؤالات کاربران در مورد عکس‌ها در اینستاگرام استفاده کند. محققان می‌گویند: Chameleon امکانات کاملاً جدیدی را برای تعاملات چندوجهی در اختیار کاربر قرار می‌دهد.

Chameleon AI

ترفندهای معماری، تعاملات چندوجهی را بهبود می‌بخشد:

مدل جدید Chameleon  از ترکیبی از نوآوری‌های معماری و تکنیک‌های آموزشی استفاده می‌کند. در مدل‌های Chameleon  از معماری استفاده می‌کنند که عمدتاً از Llama 2 پیروی می‌کند. با این حال، محققان متا معماری ترانسفورماتور را برای این خانواده از مدل‌ها بهینه‌سازی کرده تا اطمینان حاصل کنند که مدل هنگام کار با روش‌های ترکیبی بهترین عملکرد را ارائه کند. محققین متا از دو نشانه ساز استفاده کردند که داده‌های ورودی را پردازش می‌کنند. آنها از یکی از این نشانه‌ها برای پردازش متن و از دیگری برای پردازش تصاویر استفاده کردند. سپس از کل داده‌های به دست آمده برای تشکیل یک ورودی کلی و منسجم استفاده کردند.

همین فرایند در خروجی‌های Chameleon رخ می‌دهد و مدل را قادر می‌سازد تا روی داده‌های ورودی و خروجی تمرکز بالایی داشته باشد. با تغییراتی که انجام دادند، محققان توانستند این مدل را بر روی پنج برابر توکن‌هایی که برای آموزش لاما 2 استفاده می‌شد، آموزش دهند. محققان گفتند تکنیک‌های مورد استفاده برای توسعه Chameleon می‌تواند آموزش مقیاس‌پذیر مدل‌های هوش مصنوعی مبتنی بر توکن را امکان‌پذیر کند. محققان Meta گفتند: Chameleon   نشان دهنده گامی مهم به سوی تحقق چشم انداز مدل‌های پایه یکپارچه است که قادر به استدلال انعطاف پذیر و تولید محتوای چندوجهی هستند.

نظرات 1

wave
  • commenter

    arzsanj

    6 ماه پیش

    بسیار عالی خسته نباشین

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟