مایکروسافت مدل کوچک چند وجهی خود را ارتقا می‌دهد

...

• مایکروسافت به مدل کوچک 1 میلیارد پارامتری Phi 1.5 خود توانایی درک تصاویر را داد.

هیچ پاسخ قطعی برای اندازه و تعداد پارامترهای GPT-4، مدل زبان بزرگ مبتنی بر پردازش زبان طبیعی و پرچم‌دار OpenAI وجود ندارد. برخی معتقدند اندازه آن تریلیون‌ها پارامتر است. GPT-3، نسخه قبلی Chat GPT ، 175 میلیارد پارامتر دارد. اما محققان مایکروسافت موفق شده اند یک مدل کوچک با تنها 1 میلیارد پارامتر بسازند که یک مدل چندوجهی است. مدل Phi 1.5 مایکروسافت برای اولین بار در ماه سپتامبر معرفی شد. این مدل منبع باز به گونه‌ای طراحی شده است که کاربران می‌توانند یک مدل زبان بزرگ را با استفاده از انرژی کمتر به کار گیرند و در هزینه خود صرفه جویی کنند. اکنون Phi 1.5 می‌تواند با تصاویر تعامل داشته باشد و بتواند تصاویر ورودی را درک کند، محققان مایکروسافت گفتند که به‌روزرسانی Phi 1.5 تنها یک به‌روزرسانی جزئی به اندازه مدل کوچک بوده که می‌تواند به دسترسی آسان به هوش مصنوعی کمک کند. سباستین بابک، مدیر ارشد تحقیقاتی مایکروسافت ریسرچ گفت که به‌روزرسانی چند وجهی ChatGPT یکی از به‌روزرسانی‌های بزرگ OpenAI برای چت‌بات پرچم‌دار خود بود.ChatGPT  اکنون به لطف GPT-4V، یک مدل زیربنایی جدید که به معماری چت بات اضافه شده است، توانایی تعامل با تصاویر و صدا را دارد که به آن امکان می‌دهد تا ورودی‌های چندوجهی را پردازش کند، مانند تصویری که متن روی آن نوشته شده است.Bubeck  گفت: وقتی ما آن را دیدیم، این سؤال وجود داشت که آیا این فقط قابلیتی برای مدل‌های بسیار بزرگ است یا می‌توانیم چنین کاری را با Phi 1.5 کوچک خود نیز انجام دهیم؟ و در کمال تعجب دیدیم که بله، ما می‌توانیم این کار را انجام دهیم. OpenAI از آن زمان به‌روزرسانی‌های زیادی روی ChatGPT انجام داده است یکی از این به‌روزرسانی‌ها که اخیر انجام شده به Chat GPT امکان می‌دهد با PDF و سایر اسنادی که کاربران آپلود می‌کنند تعامل داشته باشد.

مدل کوچک مایکروسافت

چرا مدل‌های کوچک‌تر؟

کار تحقیقاتی روبه‌رشدی در زمینه مدل‌های کوچک‌تر هوش مصنوعی انجام شده است. با نایاب شدن پردازنده‌های گرافیکی هوش مصنوعی مانند H100s انویدیا، شرکت‌ها و دانشگاهیان مدل‌های کوچک‌تری را می‌خواهند که بتوانند روی سخت‌افزارهای موجود اجرا شوند. مدل‌های از این قبیل قبلاً وجود داشته‌اند، مانند Pythia-1b از EleutherAI و MPT-1b از MosaicML متعلق به Databricks. مدل دیگری از این دست که در حال حاضر در حال آموزش است، TinyLlama است، یک مدل 1.1 میلیارد لاما که می‌تواند بر روی یک تراشه PC درجه یک اجرا شود. محققان مایکروسافت گفته‌اند که مدل‌های کوچک‌تر جایگزین مدل‌های پایه بزرگ‌تر مانند GPT-4 نمی‌شوند، اما جایگزین‌های مقرون‌به‌صرفه‌ای برای کارهای کوچک‌تر، خاص و بالقوه حتی کاربردی هستند.Ece Kamar ، محقق ارشد در گروه سیستم‌های تطبیقی و تعامل در مایکروسافت ریسرچ، می‌گوید: ما به این فکر می‌کنیم که چگونه این سیستم‌ها را بسازیم تا در دنیای واقعی به خوبی کار کنند. تمام کارهایی که ما روی مدل‌های کوچک انجام می‌دهیم، به ما تکه‌هایی از پازل جالبی می‌دهد تا بتوانیم یک کار بزرگ را انجام دهیم.

نظرات 0

wave

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟