
• محققان فرانسوی CroissantLLM، یک مدل زبان کوچک با تسلط بالا به زبانهای فرانسوی و انگلیسی را توسعه دادند
• این مدل با 1.3 میلیارد پارامتر یک مدل زبان کوچک است؛ اما در زبان فرانسوی میتواند به بهترین نحو عمل کند و حتی روی رایانه های شخصی و دستگاه های تلفن همراه به خوبی اجرا شود.
• محققان این مدل را بر روی محتوای فرانسوی با کیفیت بالا آموزش دادند.
محققان فرانسوی یک مدل منبع باز جدید هوش مصنوعی برای کار با زبان انگلیسی و فرانسوی توسعه دادهاند که اندازه آن به اندازه کافی برای اجرا در دستگاههای تلفن همراه کوچک است و نیاز به توان عملیاتی بالا ندارد. Manuel Faysse، محقق اصلی تیم سازنده این مدل میگوید که CroissantLLM برای اجرا بر روی سختافزار محلی و سیستمهای سبک به صورت کاملاً باز و دو زبانه طراحی شده است. هدف از ایجاد این مدل این است که زبان فرانسه در مدلهای هوش مصنوعی با انگلیسی همتراز باشد. با CroissantLLM، ما قصد داریم مدلی را آموزش دهیم که در آن انگلیسی، زبان غالب نباشد و به دنبال نسبت یک به یک دادههای انگلیسی و فرانسوی هستیم. او نوشت. اندازه این مدل فقط 1.3 میلیارد پارامتر است، اما بر روی سه تریلیون توکن آموزش داده شده است که این تعداد توکن بیشتر از مدلهای Llama 2 است. برای آموزش این مدل از مجموعه دادهای متشکل از محتوای فرانسوی با کیفیت بالا شامل اسناد قانونی، دادههای تجاری، محتوای فرهنگی و اطلاعات علمی استفاده شده است.
چالشهای مدل زبان کوچک CroissantLLM:
Faysse گفت که یک چالش بزرگ این بود که محتوای فرانسوی با کیفیت بالا برای مجموعه داده آموزشی به دست آوریم. این تیم دادهها را از منابع و روشهای مختلف، اعم از صفحات وب، رونویسی، عناوین فیلم و موارد دیگر، جمعآوری، فیلتر و پاکسازی کردند. آنها بیش از 303 میلیارد توکن دادههای فرانسوی تک زبانه و 36 میلیارد توکن دادههای ترجمه فرانسوی - انگلیسی با کیفیت بالا را جمع آوری کردند. فایس گفت: ما مجموعه داده نهایی 3 تریلیونی خود را به گونهای ایجاد میکنیم که پس از نمونهبرداری، مقادیر مساوی از دادههای فرانسوی و انگلیسی را به دست آوریم. او گفت که تیم پس از اینکه متوجه شدند که یکی از بزرگترین موانع برای پذیرش گسترده مدلهای هوش مصنوعی، دشواری در اجرا کردن آنها بر روی سختافزار در سطح پایین است، CroissantLLM را کوچک ساختند. اندازه کوچک CroissantLLM به آن اجازه میدهد بسیار سریع بر روی سرورهای GPU پایینتر اجرا شود. Faysse همچنین گفت که این مدل در قابلیتهای کلی مثل استدلال، ریاضی و کدنویسی در مقایسه با مدلهای بزرگتر خوب نیست. اما تیم CroissantLLM معتقد است که برای کاربردهای صنعتی خاص، ترجمهها و قابلیتهای چت عالی عمل میکند.
پاسخ :