
• Tinyllama جدید پس از ماهها آموزش راه اندازی شده است.
• آموزش این نوع مینی مدلها با تریلیونها توکن آنها را برای استفاده در تلفنها همراه مساعدتر میکند.
پروژه Tinyllama در سپتامبر گذشته کار خود را آغاز کرد. در این پروژه گروهی از توسعه دهندگان تلاش کردند تا یک مدل کوچک را روی تریلیونها توکن آموزش دهند. تیم Tinyllama پس از تلاش بسیار و چند مشکل جزئی اکنون این مدل را منتشر کرده است. اندازه آن به یک میلیارد پارامتر میرسد و از حدود یک تریلیون توکن برای فرایند آموزش استفاده میکند. طبق مقالهای که مدل را تشریح میکند، TinyLlama از مدلهای زبان منبع باز موجود در اندازههای مشابه، از جمله Pythia-1.4B، OPT-1.3B و MPT-1.3B بهتر عمل میکند. این مدل حتی میتواند برای کمک به رمزگشایی و decoding در مدلهای بزرگتر مورد استفاده قرار گیرد. خود این مدل بهگونهای طراحی شده است که نسخه فشرده از Llama 2 باشد، حتی از نظر معماری و نشانه ساز مشابه Llama 2 است، به این معنی که میتوان آن را در پروژههای ساخته شده بر اساس Llama مورد استفاده قرار داد با وجود جثه کوچکش، TinyLlama را میتوان برای انجام کارهای ساده و سبک مورد استفاده قرار داد. تیم پشت این مینی مدل آن را به عنوان پلتفرمی جذاب برای محققان و استفاده در زمینه پزشکی معرفی میکند. به عنوان مثال، دانشمند محقق در یادگیری ماشین اپل، TinyLlama را با LoRA به صورت محلی با استفاده از یک مک مینی 8 گیگابایتی از طریق MLX که مجموعهای از ابزارهای آموزشی منبع باز اپل است تنظیم دقیق کرد. تیم سازنده مدل مینی گفت: با معماری فشرده و عملکرد امیدوارکنندهاش، TinyLlama میتواند برنامههای مبتنی بر هوش مصنوعی که میتواند در دستگاههای تلفن همراه اجرا شود را پیاده سازی کند و به عنوان یک پلتفرم سبک برای آزمایش طیف گستردهای از ایدههای نوآورانه مرتبط با مدلهای زبانی عمل کند. میتوانید TinyLlama را به صورت رایگان از طریق GitHub دانلود کنید. Tinyllama مطابق مجوز Apache-2.0 برای استفادههای تجاری هم در دسترس است.
مدلهای کوچکتر در حال افزایش است:
موج اخیر از مدلهای هوش مصنوعی کوچکتر شروع به ظهور کرده است که هدف از آنها کاهش هزینههای سخت افزاری هستند. برای مثال، مایکروسافت پروژه Phi خود را دارد که روی مدلهای کوچکی با اندازه چند میلیارد پارامتر کار میکند. Gemini Nano، نسخه کوچک از مدل پایه جدید پرچمدار گوگل که به زودی عرضه میشود، انتظار میرود اواخر امسال اندازه آن به حدود ۳.۲ میلیارد پارامتر برسد. به گفته بردلی شیمین، تحلیلگر ارشد هوش مصنوعی و تجزیه و تحلیل دادهها در شرکت تحقیقاتی Omdia، این مدلهای کوچکتر به خوبی عمل میکنند، زیرا بر روی دادههای مصنوعی تولید شده توسط مدلهای بزرگتر آموزش دیدهاند.
پاسخ :