
محققان در حال تلاش برای آموزش یک مدل مینیاتوری لاما با حجم 550 مگابایت بر روی مجموعه داده عظیم سه تریلیونی تنها در 90 روز هستند. این مدل جمع و جور که TinyLlama نام دارد، قصد دارد هوش مصنوعی کارآمد را به دستگاههای که دارای حافظه و سخت افزار محدود هست بیاورد.
توسعهدهندگان به طور فزایندهای خواستار مدلهای هوش مصنوعی کوچکتر و جم و جورتر هستند، زیرا پارامترهای کمتری دارند و برای سیستمها با حافظه محدود و ظرفیتهای محاسباتی پایین، بهینهتر هستند. به گفته آندری کارپاتی، مدیر ارشد سابق هوش مصنوعی تسلا، از مدلهای کوچکتر نیز میتوان برای کمک به رمزگشایی مدلهای بزرگتر استفاده کرد. اکنون، یک پروژه بلندپروازانه به دنبال ایجاد یک مدل از قبل آموزشدیده کوچک است. مدل مینیاتوری که با تریلیونها توکن آموزش داده شده است. پروژه TinyLlama که توسط دستیار پژوهشی در دانشگاه فناوری و طراحی سنگاپور رهبری میشود، در تلاش است تا یک مدل 1.1 میلیاردی لاما را با سه تریلیون توکن آموزش دهد. این مدل تنها 550 مگابایت رم را اشغال میکند از این رو تیم پشتیبان آن معتقد است که فشرده بودن آن به این مدل اجازه میدهد تا حتی روی سیستمهای با سخت افزار ضعیف و حافظه محدوده هم اجرا شود تا بتواند قابلیتهایی مانند ترجمه ماشینی بلادرنگ را بدون اتصال به اینترنت، انجام دهد.
آموزش این مدل در 1 سپتامبر با استفاده از 16 پردازنده گرافیکی A100-40G آغاز شد و تیم در تلاش است آن را تنها در 90 روز تکمیل کند. سازندگان مدل گفتند که برای پیاده سازی این مدل دقیقاً از همان معماری و توکنایزری استفاده میکنند که متا برای آموزش Llama 2 استفاده کرده بود، بنابراین میتوان آن را به این مدل وصل کرد و در پروژههای منبع باز ساخته شده بر روی Llama هم از آن استفاده کرد. مجموعه داده سه تریلیون توکنی که تیم TinyLlama استفاده میکند از ترکیبی از Slimpajama از Cerebras Systems و Starcoderdata تشکیل شده است. مجموعه دادهای که برای آموزش StarCoder، مدل تولید کد استفاده میشود. پس از تکمیل، TinyLlama به صفوف روبهرشد مدلهای زبان کوچکتر میپیوندد که توسعهدهندگان برای ساخت برنامههای خود از آنها استفاده میکنند. همچنین Pythia-1b از EleutherAI و MPT-1b از MosaicML متعلق به Databricks از این دست مدلهای مینیاتوری در حال پیشرفت هستند.
پاسخ :