
• Whisper v3، جدیدترین نسخه مدل تشخیص گفتار OpenAI، دقت بهبود یافته و کاربرد تجاری را ارائه میدهد.
OpenAI با بیش از یک میلیون ساعت داده آموزشی، سیستم تشخیص گفتار Whisper خود را ارتقا داد که باعث شده این مدل دارای درک پیشرفته زبان و کاهش قابل توجهی در نرخ خطا شود. این مدل منبع باز میتواند توسط کسبوکارها برای ارتقای خدمات مشتریان، در میان سایر موارد استفاده شود.Whisper v3 که در هفته گذشته و در رویداد DevDay رونمایی شد، عملکرد بهبود یافتهای را در زبانهای مختلف ارائه میکند.Whisper که اولین بار در سپتامبر 2022 رونمایی شد، میتواند قطعات صوتی را به متن ترجمه کند. همچنین میتوان از آن برای ترجمه گفتار، شناسایی زبان و حتی تشخیص فعالیت صوتی استفاده کرد که برای برنامههای دستیار صوتی بسیار مناسب است.Whisper میتواند برای رونویسی تماسهای مشتریان یا تولید نسخههای متنی محتوای صوتی استفاده شود. Romain Huet، رئیس بخش تجربه توسعه دهندگان OpenAI، نشان داد که چگونه میتوان از ترکیب Whisper با سایر مدلهای مبتنی بر هوش مصنوعی OpenAI برای تقویت برنامهها استفاده کرد. او از Whisper برای تبدیل ورودیهای صوتی به متن به همراه مدل جدید GPT-4 Turbo برای تقویت گزینه دستیار و API جدید Text-to-Speech استفاده کرد.
اولین نسخه Whisper با 680000 ساعت داده آموزش داده شد اما Whisper v3 جدید بر روی پنج میلیون ساعت صدا آموزش داده شده است. این مدل به نحوی طراحی شده است که اساساً دنباله ای از نشانه ها را پردازش می کند که داده های صوتی را نشان می دهد و آن را رمزگشایی می کند تا خروجی مورد نظر را تولید کند. به زبان ساده، صدا را می گیرد و آن را به قطعات کوچکتر تقسیم می کند، سپس از آن قطعات برای فهمیدن آنچه گفته می شود استفاده می کند.Whisper v3 در اندازههای مختلفی عرضه میشود، بنابراین کاربران میتوانند اندازه مورد نیاز برای برنامه خود را انتخاب کنند. کوچکترین نسخه یا همان Tiny، دارای 39 میلیون پارامتر است و برای اجرا به حدود 1 گیگابایت VRAM نیاز دارد. نسخه پایه دارای 74 میلیون پارامتر است و در پردازش صدا حدود 16 برابر سریعتر از مدل قبلی است. بزرگترین مدل که Large نام دارد، دارای 1550 میلیون پارامتر است و برای اجرا به 10 گیگابایت VRAM نیاز دارد.OpenAI که مدل خود را بر روی مدل صوتی مانند Common Voice 15 و Fleurs چندین بار مورد آزمایش قرار داده است، گفت Whisper v3 نسبت به مدلهای قبلی Whisper که در دسامبر 2022 منتشر شد، به نرخ خطای بسیار کمتری دست یافته است.
پاسخ :
Shirin
2 سال پیشکامل وپر محتوا
rayan
2 سال پیشخیلی جالب بود