کدام مدل هوش مصنوعی مولد خطای کمتری دارد

...

• GPT-4 در یک ارزیابی مدل منبع باز از Vectara برای خلاصه سازی اسناد در رتبه اول قرار گرفت.
• GPT-3.5 Turbo در رتبه دوم، Meta Llama به عنوان مدل غیر OpenAI بعد از GPT-3.5 Turbo  و Google Palm در رتبه آخر قرار گرفت.

تابلوی امتیازات جدید از Vectara نشان می‌دهد که GPT-4 OpenAI کمترین میزان توهم یا خطا در ارائه اطلاعات اشتباه را در بین مدل‌های زبان بزرگ در خلاصه کردن اسناد دارد. Vectara مستقر در پالو آلتو یک تابلوی امتیاز در GitHub راه‌اندازی کرد. این تابلوی امتیازات نتیجه ارزیابی بزرگ‌ترین مدل‌های زبان بزرگ را از نظر توهم در پاسخگویی نشان می‌دهد که یک LLM در هنگام خلاصه‌سازی یک سند، چند وقت یک‌بار دچار خطا می‌شود.GPT-4  و GPT-4 Turbo با بالاترین میزان دقت (97٪) و کمترین میزان توهم (3٪) از در میان مدل‌های آزمایش شده در صدر قرار گرفتند. مدل GPT 3.5 Turbo، جدیدترین مدلی که نسخه اصلی ChatGPT شرکت هوش مصنوعی OpenAI را تقویت می‌کند. GPT 3.5 Turbo با میزان دقت 96.5 درصد و نرخ توهم 3.5 درصد رتبه دوم را به دست آورد. بالاترین امتیاز مدل غیر OpenAI، نسخه 70 میلیارد پارامتری Llama 2 از متا بود که با امتیاز دقت 94.9٪ و نرخ توهم فقط 5.1٪. در رتبه دوم قرار گرفت. بدترین مدل‌ها از گوگل ارائه شد. Google Palm 2 دارای میزان دقت 87.9 درصد و نرخ توهم 12.1 درصد در رتبه آخر قرار گرفت. نسخه پالم حتی امتیاز کمتری گرفت و به میزان دقت تنها 72.8 درصد و بالاترین امتیاز توهم با 27.2 درصد دست یافت.Google Palm 2 Chat  با 221 کلمه بیشترین میانگین کلمه را در هر خلاصه تولید کرد در حالی که GPT-4 فقط 81 کلمه در هر خلاصه تولید کرد.

توهم در مدل های هوش مصنوعی مولد

مدل‌ها چگونه ارزیابی شدند؟

Vectara مدلی را برای تشخیص توهم در خروجی‌های مدل زبان بزرگ با استفاده از مجموعه داده‌های منبع باز آموزش داد. این شرکت 1000 سند کوتاه را از طریق APIهای عمومی خود به هر یک از مدل‌ها داد و از آنها خواست که یک سند کوتاه را با استفاده از اطلاعات ارائه شده خلاصه کنند. از 1000 سند، تنها 831 سند توسط هر مدل خلاصه شد، اسناد باقیمانده حداقل توسط یک مدل به دلیل محدودیت محتوایی رد شدند. سپس Vectara با استفاده از اسناد ارائه شده توسط هر سیستم، دقت کلی و نرخ توهم را برای هر مدل محاسبه کرد. هیچ یک از محتوای ارسال شده به مدل‌ها حاوی محتوای غیرقانونی یا ناامن کار نبود.

مدل‌های خود را تست کنید:

شین کانلی، رئیس بخش تولید Vectara، در یک پست وبلاگی نوشت، خطر توهم بسیاری از مشاغل را از پذیرش هوش مصنوعی مولد باز داشته است. در گذشته تلاش‌هایی برای تعیین کمیت یا حداقل واجد شرایط بودن این که یک مدل مولد مبتنی بر پردازش زبان طبیعی چه زمانی و چقدر توهم آور است، انجام شده است. با این حال، بسیاری از این موارد بیش از حد انتزاعی و مبتنی بر موضوعاتی هستند که بسیار بحث برانگیز هستند که برای اکثر شرکت‌ها مفید نیستند. مدل ارزیابی توهم این شرکت منبع باز است به این معنی که شرکت‌ها می‌توانند از آن برای ارزیابی قابل اعتماد بودن مدل‌های زبان بزرگ خود در سیستم‌های Retrieval Augmented Generation (RAG) استفاده کنند. این ابزار از طریق Hugging Face قابل دسترسی است و کاربران می‌توانند آن را برای نیازهای خاص خود تنظیم کنند. کانلی نوشت: ایده ما این است که شرکت‌ها را با اطلاعاتی که نیاز دارند توانمند کنیم تا اعتماد لازم برای فعال کردن سیستم‌های مولد را از طریق تجزیه و تحلیل کمی داشته باشند.

نظرات 1

wave
  • commenter

    Rahim Asayesh

    2 سال پیش

    با تشکر از سایت آرتیجنس

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟