درک زبان طبیعی و تولید خروجی به زبان طبیعی و قابل فهم برای انسانها همیشه یکی از انتظارات بشر از طراحی سیستمها و ماشینهای مبتنی بر هوش مصنوعی بوده. سیستمهایی که میتوانند ورودیهایی را به زبان طبیعی دریافت کرده و خروجیها را هم به صورت زبان طبیعی تولید کنند. مدلهایی که این توانایی را در دنیای هوش مصنوعی دارند را با نام مدلهای زبانی میشناسند. مدلهای زبانی مدلهایی هستند که میتوانند با استفاده از زبان طبیعی با انسان تعامل داشته باشند. مدلهای زبانی به دو نوع مدلهای زبانی بزرگ یا LLM و مدلهای زبانی کوچک یا SML تقسیم میشود. برای مثال مدلهای زبانی مثل ChatGPT متعلق به شرکت هوش مصنوعی OpenAI و مدل زبانی بزرگ Gemini متعلق به شرکت Google نمونههایی از مدلهای زبانی بزرگ هستند که دارای پیچیدگیها و تعداد پارامترهای بسیار زیادی هستند؛ اما با توجه به این که شاید نام مدلهای زبانی کوچک را کمتر شنیده باشیم و اطلاعات کمتری نسبت به آنها داشته باشیم، قصد داریم در این مقاله به بررسی و کالبد شکافی این نوع از مدلهای زبانی کوچک بپردازیم. در این مقاله بررسی خواهیم کرد که مدلهای زبانی کوچک دقیقاً چه مدلهایی هستند، چگونه کار میکنند، با مدلهای زبانی بزرگ چه تفاوتی دارند و در چه زمینههایی کاربرد دارند. در ادامه با آرتیجنسهمراه باشید.
مدلها زبان کوچک یا SLM چیست؟
همانطور که قبلتر هم توضیح داده شده مدلهای زبانی مدلهایی هستند که به سیستمها و ماشینهای هوش مصنوعی و پردازش زبان طبیعی این قدرت را میدهند تا با استفاده زبان طبیعی با انسانها ارتباط برقرار کنند.مدلهایی زبانی در هوش مصنوعی به دو دسته کلی مدلهای زبانی کوچک و مدلهای زبانی بزرگ تقسیم میشوند. پارامترها، توکنها و نوع شبکه عصبی عمیق و تعداد لایههای به کار رفته در آن جزء فاکتورهای مهم در آموزش مدلهای زبانی هستند. مدلهای زبانی بزرگ دارای پیچیدگیهای زیادی در شبکه عصبی مصنوعی و شکل پیاده سازی هستند و معمولاً از تعداد زیادی پارامتر و حجم عظیمی از دادهها برای آموزش این نوع مدلها استفاده میشود. مدلهای زبانی بزرگی مثل ChatGPT و یا مدلهای زبانی بزرگ متعلق به شرکت Meta میتوانند تا میلیاردها پارامتر داشته باشند. از طرفی برای پیاده سازی و استقرار مدلهای زبانی بزرگ نیاز به سخت افزار و تجهیزات پیشرفته خواهیم داشت. برای شرکتها و غولهای تکنولوژی همچون مایکروسافت و گوگل شاید پیاده سازی این نوع از مدلهای زبانی برای پاسخ گویی به نیازهای هوش مصنوعی ممکن و کار چندان سختی نباشد، ولی فراهم کردن زیرساختها و تجهیزات مورد نیاز برای پشتیبانی از بار کاری این نوع مدلهای زبانی برای شرکتها کوچکتر کار بسیار دشوار و هزینه بری است. برای حل این مشکل نوع دیگری از مدلهای زبانی به روی کار آمدند که با نام مدلهای زبانی کوچک یا SLM که کوتاه شده عبارت Small Language Model میباشد، شناخته میشوند. این مدلها نسبت به مدلهای زبانی بزرگ از تعداد پارامترها و حجم داده کمتری برای آموزش استفاده میکنند و معمولاً دارای الگوریتمها و شبکه عصبی سادهتری نسبت به مدلهای زبانی بزرگ هستند، لذا برای اجرا و استقرار این نوع مدلهای زبانی نیاز به سخت افزار پیشرفتهای نیست.
ویژگیهای مدلهای زبان کوچک:
حالا که در کنار مدلهای زبانی بزرگ مدلهای زبانی کوچک یا همان SLMها را هم شناختیم، بهتر است در این بخش از مقاله نگاهی داشته باشیم به ویژگیهای این نوع مدلها تا بتوانیم مدلهای زبان کوچک را بیشتر بشناسیم. در زیر به تعدادی از مهمترین ویژگیهای مدلهای زبانی کوچک اشاره شده و در مورد هر کدام توضیحاتی ارائه شده است:
سبک و کمحجم:
همانطور که گفته شده یکی از ویژگیهای بارز این نوع مدلها به علت تعداد کم پارامترهای به کار رفته در آنها، کوچک بودن و به اصطلاح سبک بودن آنهاست. همین ویژگی باعث میشود که بتوان این نوع مدلها را روی دستگاههای با منابع محدود مانند تلفنهای همراه یا دستگاههای اینترنت اشیا (IoT) اجرا کرد.
سرعت پردازش بالا:
یکی دیگر از ویژگیهای این نوع مدلها سرعت بالا در پردازش و انجام محاسبات به لطف تعداد کم پارامترهاست. این مدلها به علت کوچک بودن به منابع محاسباتی کمتری نیاز دارند.
کاهش هزینهها:
آز آنجایی که برای آموزش این نوع مدلها نیاز به سخت افزار و تجهیزات پیشرفته و گران قیمت نیست، لذا کمهزینه بودن پیاده سازی این نوع مدلها یکی دیگر از ویژگیهای آنها به حساب میآید.
کاربردهای مدلهای زبان کوچک:
شاید گستره کاربردهای مدلهای زبانی بزرگ برای ما شناختهتر از مدلهای زبانی کوچک باشد و این سؤال پیش آمده باشد که واقعاً از مدلهای زبانی کوچک در چه زمینههایی استفاده میشود. در این بخش از مقاله سعی میکنیم با کاربردهای مدلهای زبانی کوچک یا SLM آشنا شویم. مواردی که در زیر آمده گوشهای از کاربردهای مدلهای زبانی کوچک در زمینههای مختلف است:
تشخیص و پیشبینی متون در دستگاههای موبایل:
مدلهای زبانی کوچک برای اجرا نیاز به سخت افزار پیشرفتهای ندارند، لذا میتوان از آنها حتی روی دستگاههای تلفن همراه هم استفاده کرد و وظایفی مانند پیشبینی متن، تشخیص گفتار و دیگر وظایف مرتبط با زبان طبیعی را با استفاده از این نوع مدلهای زبانی روی گوشی تلفن همراه انجام داد.
سیستمهای گفتگو و چتباتها:
با استفاده از این نوع مدلهای زبانی حتی میتواند چت باتهای کوچک و کم حجمی هم طراحی کرد. ولی نباید از این رباتهای چت انتظار بیشتری داشت، چون تعداد پارامترهای به کار رفته در آن بسیار کمتر از مدلهای زبانی بزرگ است.
کاربردهای صنعتی و تجاری:
در بخش صنایع و کسب و کارهای صنعتی کوچک میتواند با حداقل امکانات و تجهیزات سخت افزاری با استفاده از مدلهای زبانی کوچک از پتانسیل هوش مصنوعی استفاده کرد.
نتیجه گیری:
شاید در مقایسه با مدلهای زبان بزرگ، مدلهای زبان کوچک ناکارآمدتر و ضعیفتر به نظر بیایند؛ اما باید به این نکته هم اشاره کرد که هر کدام از این انواع مدلهای زبانی بسته به ویژگیهای خود کاربردهای مختلفی دارند و در زمینهای مختلفی از آنها استفاده میشود. بهتر است بگوییم که هر کدام از این مدلها میتوانند در زمینههای مختص به خود عملکرد مناسبی داشته باشند. شاید هم در برخی موارد مقایسه این دو نوع مدل با یکدیگر کار درستی نباشد. به هر حال هر دوی این مدلهای زبانی ابزارهایی هستند که به مدلهای هوش مصنوعی این قدرت را میدهند تا زبان طبیعی انسان را درک کند و مطابق با آن خروجی تولید کند که یکی از قدمهای مهم در تعامل با ماشینهای هوشمند به حساب میآید. قبل از به روی کار آمدن مدلهای زبانی هم امکان ارتباط گیری با سیستمهای هوش مصنوعی با استفاده از زبان طبیعی بود؛ اما با ظهور مدلهای زبانی، انقلابی در این حوزه اتفاق افتاد و توانست به کلی تعاملات و ارتباطات انسانها با سیستمهای هوش مصنوعی را دستخوش تغییرات کرده و وارد فاز جدید کند. امروزه به لطف مدلهای زبانی پیشرفته کیفیت و دقت پردازش زبان طبیعی در مدلهای هوش مصنوعی به طور چشمگیری پیشرفت کرده و ارتباط انسان با سیستمهای هوش مصنوعی تسهیل پیدا کرده است.
پاسخ :