مدل صوتی جدید هوش مصنوعی انویدیا آشنا شوید

...

انویدیا اخیراً مدل هوش مصنوعی جدیدی به نام "Fugatto" معرفی کرده که توانایی‌های پیشرفته‌ای در تولید و پردازش صدا دارد. این مدل با استفاده از روش‌های نوآورانه آموزشی و تکنیک‌های ترکیبی، قادر است ترکیبی از صداهای مختلف، از جمله موسیقی، صدای انسان و صداهای محیطی را تولید یا اصلاح کند. Fugatto می‌تواند صداهایی تولید کند که پیش از این وجود نداشته‌اند، مانند صدای یک ویولن که شبیه به صدای خنده‌ی نوزاد است یا صدای ماشین‌آلات کارخانه که گویی از رنج فریاد می‌زنند.

یکی از ویژگی‌های کلیدی Fugatto سیستم "ComposableART"  است که امکان ترکیب و کنترل ویژگی‌های صوتی مختلف را فراهم می‌کند. این سیستم به مدل اجازه می‌دهد تا صداهای متنوعی را از داده‌های آموزشی خود استخراج و با هم ترکیب کند تا صداهایی کاملاً جدید ایجاد کند. برای مثال، Fugatto  می‌تواند صدای یک گیتار آکوستیک را با صدای آب جاری ترکیب کند و شدت هر یک از این صداها را متناسب با درخواست کاربر تغییر دهد.

 

مدل صوتی هوش مصنوعی انویدیا

داده‌های آموزشی و ساخت مدل

محققان انویدیا برای آموزش Fugatto از مجموعه‌داده‌ای عظیم شامل ۲۰ میلیون نمونه صوتی استفاده کرده‌اند که بیش از ۵۰ هزار ساعت صدا را پوشش می‌دهد. این نمونه‌ها به‌طور دقیق با توضیحات متنی مانند جنسیت، احساسات و کیفیت صدا توصیف شده‌اند. برای ایجاد این توضیحات، از مدل‌های درک صوتی و ابزارهای پردازش صدا استفاده شده است. همچنین، ویژگی‌های صوتی در سطح آکوستیک، مانند "تنوع فرکانس پایه" و "بازتاب صدا"، به مدل ارائه شده‌اند. یکی دیگر از نکات برجسته در ساخت Fugatto، استفاده از تکنیک‌های مقایسه‌ای است. برای مثال، محققان داده‌هایی که شامل خوانش‌های احساسی مختلف از یک متن یا نواختن نت‌های مشابه با سازهای مختلف بودند، به مدل ارائه کردند تا تفاوت‌های ظریف صوتی را یاد بگیرد.

 

مدل صوتی هوش مصنوعی انویدیا

 

قابلیت‌ها و کاربردها

Fugatto توانایی انجام کارهای متداول مدل‌های صوتی قبلی مانند تغییر احساسات در گفتار یا جداسازی صدای خواننده از موسیقی را دارد. علاوه بر این، می‌تواند نت‌های موسیقی MIDI را تشخیص داده و با صداهای دیگر مانند اجراهای صوتی یا صدای حیوانات جایگزین کند. همچنین، می‌تواند ریتم موسیقی را شناسایی و افکت‌های مختلفی مانند صدای طبل یا صدای تیک‌تاک ساعت را با آن هماهنگ کند. این مدل ویژگی‌های صوتی را به صورت یک طیف قابل تنظیم می‌بیند، نه یک وضعیت دودویی. برای مثال، می‌توان شدت یک لهجه فرانسوی یا درجه غم در یک گفتار را تغییر داد. Fugatto همچنین برای هنرمندان موسیقی ابزاری جدید ارائه می‌دهد که امکان خلق آثار نوآورانه را فراهم می‌کند.

Fugatto به‌عنوان یک ابزار کمکی برای هنرمندان طراحی شده است، نه جایگزینی برای خلاقیت انسانی. انویدیا معتقد است که این فناوری فصل جدیدی در موسیقی و تولید صدا گشوده است و می‌تواند در زمینه‌هایی چون نمونه‌سازی آهنگ، تنظیم موسیقی برای بازی‌های ویدیویی، و تبلیغات بین‌المللی کاربرد داشته باشد. این مدل نمایانگر پیشرفتی در یادگیری صوتی چندوظیفه‌ای و تعامل میان داده‌ها و مقیاس مدل‌ها است.

منبع خبر: arstechnica


 

نظرات 0

wave

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟