
• GPT-4 در یک ارزیابی مدل منبع باز از Vectara برای خلاصه سازی اسناد در رتبه اول قرار گرفت.
• GPT-3.5 Turbo در رتبه دوم، Meta Llama به عنوان مدل غیر OpenAI بعد از GPT-3.5 Turbo و Google Palm در رتبه آخر قرار گرفت.
تابلوی امتیازات جدید از Vectara نشان میدهد که GPT-4 OpenAI کمترین میزان توهم یا خطا در ارائه اطلاعات اشتباه را در بین مدلهای زبان بزرگ در خلاصه کردن اسناد دارد. Vectara مستقر در پالو آلتو یک تابلوی امتیاز در GitHub راهاندازی کرد. این تابلوی امتیازات نتیجه ارزیابی بزرگترین مدلهای زبان بزرگ را از نظر توهم در پاسخگویی نشان میدهد که یک LLM در هنگام خلاصهسازی یک سند، چند وقت یکبار دچار خطا میشود.GPT-4 و GPT-4 Turbo با بالاترین میزان دقت (97٪) و کمترین میزان توهم (3٪) از در میان مدلهای آزمایش شده در صدر قرار گرفتند. مدل GPT 3.5 Turbo، جدیدترین مدلی که نسخه اصلی ChatGPT شرکت هوش مصنوعی OpenAI را تقویت میکند. GPT 3.5 Turbo با میزان دقت 96.5 درصد و نرخ توهم 3.5 درصد رتبه دوم را به دست آورد. بالاترین امتیاز مدل غیر OpenAI، نسخه 70 میلیارد پارامتری Llama 2 از متا بود که با امتیاز دقت 94.9٪ و نرخ توهم فقط 5.1٪. در رتبه دوم قرار گرفت. بدترین مدلها از گوگل ارائه شد. Google Palm 2 دارای میزان دقت 87.9 درصد و نرخ توهم 12.1 درصد در رتبه آخر قرار گرفت. نسخه پالم حتی امتیاز کمتری گرفت و به میزان دقت تنها 72.8 درصد و بالاترین امتیاز توهم با 27.2 درصد دست یافت.Google Palm 2 Chat با 221 کلمه بیشترین میانگین کلمه را در هر خلاصه تولید کرد در حالی که GPT-4 فقط 81 کلمه در هر خلاصه تولید کرد.
مدلها چگونه ارزیابی شدند؟
Vectara مدلی را برای تشخیص توهم در خروجیهای مدل زبان بزرگ با استفاده از مجموعه دادههای منبع باز آموزش داد. این شرکت 1000 سند کوتاه را از طریق APIهای عمومی خود به هر یک از مدلها داد و از آنها خواست که یک سند کوتاه را با استفاده از اطلاعات ارائه شده خلاصه کنند. از 1000 سند، تنها 831 سند توسط هر مدل خلاصه شد، اسناد باقیمانده حداقل توسط یک مدل به دلیل محدودیت محتوایی رد شدند. سپس Vectara با استفاده از اسناد ارائه شده توسط هر سیستم، دقت کلی و نرخ توهم را برای هر مدل محاسبه کرد. هیچ یک از محتوای ارسال شده به مدلها حاوی محتوای غیرقانونی یا ناامن کار نبود.
مدلهای خود را تست کنید:
شین کانلی، رئیس بخش تولید Vectara، در یک پست وبلاگی نوشت، خطر توهم بسیاری از مشاغل را از پذیرش هوش مصنوعی مولد باز داشته است. در گذشته تلاشهایی برای تعیین کمیت یا حداقل واجد شرایط بودن این که یک مدل مولد مبتنی بر پردازش زبان طبیعی چه زمانی و چقدر توهم آور است، انجام شده است. با این حال، بسیاری از این موارد بیش از حد انتزاعی و مبتنی بر موضوعاتی هستند که بسیار بحث برانگیز هستند که برای اکثر شرکتها مفید نیستند. مدل ارزیابی توهم این شرکت منبع باز است به این معنی که شرکتها میتوانند از آن برای ارزیابی قابل اعتماد بودن مدلهای زبان بزرگ خود در سیستمهای Retrieval Augmented Generation (RAG) استفاده کنند. این ابزار از طریق Hugging Face قابل دسترسی است و کاربران میتوانند آن را برای نیازهای خاص خود تنظیم کنند. کانلی نوشت: ایده ما این است که شرکتها را با اطلاعاتی که نیاز دارند توانمند کنیم تا اعتماد لازم برای فعال کردن سیستمهای مولد را از طریق تجزیه و تحلیل کمی داشته باشند.
پاسخ :
Rahim Asayesh
2 سال پیشبا تشکر از سایت آرتیجنس