با CroissantLLM مدل زبان کوچک فرانسوی آشنا شوید

...

• محققان فرانسوی CroissantLLM، یک مدل زبان کوچک با تسلط بالا به زبان‌های فرانسوی و انگلیسی را توسعه دادند
• این مدل با 1.3 میلیارد پارامتر یک مدل زبان کوچک است؛ اما در زبان فرانسوی میتواند به بهترین نحو عمل کند و حتی روی رایانه های شخصی و دستگاه های تلفن همراه به خوبی اجرا شود.
• محققان این مدل را بر روی محتوای فرانسوی با کیفیت بالا آموزش دادند. 

محققان فرانسوی یک مدل منبع باز جدید هوش مصنوعی برای کار با زبان انگلیسی و فرانسوی توسعه داده‌اند که اندازه آن به اندازه کافی برای اجرا در دستگاه‌های تلفن همراه کوچک است و نیاز به توان عملیاتی بالا ندارد. Manuel Faysse، محقق اصلی تیم سازنده این مدل می‌گوید که CroissantLLM برای اجرا بر روی سخت‌افزار محلی و سیستم‌های سبک به صورت کاملاً باز و دو زبانه طراحی شده است. هدف از ایجاد این مدل این است که زبان فرانسه در مدل‌های هوش مصنوعی با انگلیسی هم‌تراز باشد. با CroissantLLM، ما قصد داریم مدلی را آموزش دهیم که در آن انگلیسی، زبان غالب نباشد و به دنبال نسبت یک به یک داده‌های انگلیسی و فرانسوی هستیم. او نوشت. اندازه این مدل فقط 1.3 میلیارد پارامتر است، اما بر روی سه تریلیون توکن آموزش داده شده است که این تعداد توکن‌ بیشتر از مدل‌های Llama 2 است. برای آموزش این مدل از مجموعه داده‌ای متشکل از محتوای فرانسوی با کیفیت بالا شامل اسناد قانونی، داده‌های تجاری، محتوای فرهنگی و اطلاعات علمی استفاده شده است.

CroissantLLM

چالش‌های مدل زبان کوچک CroissantLLM:

Faysse گفت که یک چالش بزرگ این بود که محتوای فرانسوی با کیفیت بالا برای مجموعه داده آموزشی به دست آوریم. این تیم داده‌ها را از منابع و روش‌های مختلف، اعم از صفحات وب، رونویسی، عناوین فیلم و موارد دیگر، جمع‌آوری، فیلتر و پاک‌سازی کردند. آنها بیش از 303 میلیارد توکن داده‌های فرانسوی تک زبانه و 36 میلیارد توکن داده‌های ترجمه فرانسوی - انگلیسی با کیفیت بالا را جمع آوری کردند. فایس گفت: ما مجموعه داده نهایی 3 تریلیونی خود را به گونه‌ای ایجاد می‌کنیم که پس از نمونه‌برداری، مقادیر مساوی از داده‌های فرانسوی و انگلیسی را به دست آوریم. او گفت که تیم پس از اینکه متوجه شدند که یکی از بزرگ‌ترین موانع برای پذیرش گسترده مدل‌های هوش مصنوعی، دشواری در اجرا کردن آنها بر روی سخت‌افزار در سطح پایین است، CroissantLLM را کوچک ساختند. اندازه کوچک CroissantLLM به آن اجازه می‌دهد بسیار سریع بر روی سرورهای GPU پایین‌تر اجرا شود. Faysse همچنین گفت که این مدل در قابلیت‌های کلی مثل استدلال، ریاضی و کدنویسی در مقایسه با مدل‌های بزرگ‌تر خوب نیست. اما تیم CroissantLLM معتقد است که برای کاربردهای صنعتی خاص، ترجمه‌ها و قابلیت‌های چت عالی عمل می‌کند. 
 

نظرات 0

wave

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟