
انویدیا اخیراً مدل هوش مصنوعی جدیدی به نام "Fugatto" معرفی کرده که تواناییهای پیشرفتهای در تولید و پردازش صدا دارد. این مدل با استفاده از روشهای نوآورانه آموزشی و تکنیکهای ترکیبی، قادر است ترکیبی از صداهای مختلف، از جمله موسیقی، صدای انسان و صداهای محیطی را تولید یا اصلاح کند. Fugatto میتواند صداهایی تولید کند که پیش از این وجود نداشتهاند، مانند صدای یک ویولن که شبیه به صدای خندهی نوزاد است یا صدای ماشینآلات کارخانه که گویی از رنج فریاد میزنند.
یکی از ویژگیهای کلیدی Fugatto سیستم "ComposableART" است که امکان ترکیب و کنترل ویژگیهای صوتی مختلف را فراهم میکند. این سیستم به مدل اجازه میدهد تا صداهای متنوعی را از دادههای آموزشی خود استخراج و با هم ترکیب کند تا صداهایی کاملاً جدید ایجاد کند. برای مثال، Fugatto میتواند صدای یک گیتار آکوستیک را با صدای آب جاری ترکیب کند و شدت هر یک از این صداها را متناسب با درخواست کاربر تغییر دهد.
دادههای آموزشی و ساخت مدل
محققان انویدیا برای آموزش Fugatto از مجموعهدادهای عظیم شامل ۲۰ میلیون نمونه صوتی استفاده کردهاند که بیش از ۵۰ هزار ساعت صدا را پوشش میدهد. این نمونهها بهطور دقیق با توضیحات متنی مانند جنسیت، احساسات و کیفیت صدا توصیف شدهاند. برای ایجاد این توضیحات، از مدلهای درک صوتی و ابزارهای پردازش صدا استفاده شده است. همچنین، ویژگیهای صوتی در سطح آکوستیک، مانند "تنوع فرکانس پایه" و "بازتاب صدا"، به مدل ارائه شدهاند. یکی دیگر از نکات برجسته در ساخت Fugatto، استفاده از تکنیکهای مقایسهای است. برای مثال، محققان دادههایی که شامل خوانشهای احساسی مختلف از یک متن یا نواختن نتهای مشابه با سازهای مختلف بودند، به مدل ارائه کردند تا تفاوتهای ظریف صوتی را یاد بگیرد.
قابلیتها و کاربردها
Fugatto توانایی انجام کارهای متداول مدلهای صوتی قبلی مانند تغییر احساسات در گفتار یا جداسازی صدای خواننده از موسیقی را دارد. علاوه بر این، میتواند نتهای موسیقی MIDI را تشخیص داده و با صداهای دیگر مانند اجراهای صوتی یا صدای حیوانات جایگزین کند. همچنین، میتواند ریتم موسیقی را شناسایی و افکتهای مختلفی مانند صدای طبل یا صدای تیکتاک ساعت را با آن هماهنگ کند. این مدل ویژگیهای صوتی را به صورت یک طیف قابل تنظیم میبیند، نه یک وضعیت دودویی. برای مثال، میتوان شدت یک لهجه فرانسوی یا درجه غم در یک گفتار را تغییر داد. Fugatto همچنین برای هنرمندان موسیقی ابزاری جدید ارائه میدهد که امکان خلق آثار نوآورانه را فراهم میکند.
Fugatto بهعنوان یک ابزار کمکی برای هنرمندان طراحی شده است، نه جایگزینی برای خلاقیت انسانی. انویدیا معتقد است که این فناوری فصل جدیدی در موسیقی و تولید صدا گشوده است و میتواند در زمینههایی چون نمونهسازی آهنگ، تنظیم موسیقی برای بازیهای ویدیویی، و تبلیغات بینالمللی کاربرد داشته باشد. این مدل نمایانگر پیشرفتی در یادگیری صوتی چندوظیفهای و تعامل میان دادهها و مقیاس مدلها است.
منبع خبر: arstechnica
پاسخ :