OpenAI مدل تشخیص گفتار خود، Whisper را ارتقا داد

...

• Whisper v3، جدیدترین نسخه مدل تشخیص گفتار OpenAI، دقت بهبود یافته و کاربرد تجاری را ارائه می‌دهد.

OpenAI با بیش از یک میلیون ساعت داده آموزشی، سیستم تشخیص گفتار Whisper خود را ارتقا داد که باعث شده این مدل دارای درک پیشرفته زبان و کاهش قابل توجهی در نرخ خطا شود. این مدل منبع باز می‌تواند توسط کسب‌وکارها برای ارتقای خدمات مشتریان، در میان سایر موارد استفاده شود.Whisper v3  که در هفته گذشته و در رویداد  DevDay رونمایی شد، عملکرد بهبود یافته‌ای را در زبان‌های مختلف ارائه می‌کند.Whisper  که اولین بار در سپتامبر 2022 رونمایی شد، می‌تواند قطعات صوتی را به متن ترجمه کند. همچنین می‌توان از آن برای ترجمه گفتار، شناسایی زبان و حتی تشخیص فعالیت صوتی استفاده کرد که برای برنامه‌های دستیار صوتی بسیار مناسب است.Whisper  می‌تواند برای رونویسی تماس‌های مشتریان یا تولید نسخه‌های متنی محتوای صوتی استفاده شود. Romain Huet، رئیس بخش تجربه توسعه دهندگان OpenAI، نشان داد که چگونه می‌توان از ترکیب Whisper با سایر مدل‌های مبتنی بر هوش مصنوعی OpenAI برای تقویت برنامه‌ها استفاده کرد. او از Whisper برای تبدیل ورودی‌های صوتی به متن به همراه مدل جدید GPT-4 Turbo برای تقویت گزینه دستیار و API جدید Text-to-Speech استفاده کرد.

Whisper v3

اولین نسخه Whisper با 680000 ساعت داده آموزش داده شد اما Whisper v3 جدید بر روی پنج میلیون ساعت صدا آموزش داده شده است. این مدل به نحوی طراحی شده است که اساساً دنباله ای از نشانه ها را پردازش می کند که داده های صوتی را نشان می دهد و آن را رمزگشایی می کند تا خروجی مورد نظر را تولید کند. به زبان ساده، صدا را می گیرد و آن را به قطعات کوچکتر تقسیم می کند، سپس از آن قطعات برای فهمیدن آنچه گفته می شود استفاده می کند.Whisper v3  در اندازه‌های مختلفی عرضه می‌شود، بنابراین کاربران می‌توانند اندازه مورد نیاز برای برنامه خود را انتخاب کنند. کوچکترین نسخه یا همان Tiny، دارای 39 میلیون پارامتر است و برای اجرا به حدود 1 گیگابایت VRAM نیاز دارد. نسخه پایه دارای 74 میلیون پارامتر است و در پردازش صدا حدود 16 برابر سریعتر از مدل قبلی است. بزرگترین مدل که Large نام دارد، دارای 1550 میلیون پارامتر است و برای اجرا به 10 گیگابایت VRAM نیاز دارد.OpenAI  که مدل خود را بر روی مدل صوتی مانند Common Voice 15 و Fleurs چندین بار مورد آزمایش قرار داده است، گفت Whisper v3 نسبت به مدل‌های قبلی Whisper که در دسامبر 2022 منتشر شد، به نرخ خطای بسیار کمتری دست یافته است. 
 

نظرات 2

wave
  • commenter

    Shirin

    2 سال پیش

    کامل وپر محتوا

  • commenter

    rayan

    2 سال پیش

    خیلی جالب بود

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟