
پژوهشگران MIT و MIT-IBM Computing Research Lab یک منبع دادهای جدید به نام ChartNet معرفی کردهاند که برای بهبود توانایی مدلهای هوش مصنوعی چندوجهی (VLM) در درک و تفسیر نمودارها طراحی شده است. این پروژه با هدف رفع یکی از ضعفهای مهم مدلهای زبانی-بصری شکل گرفته؛ ضعفی که باعث میشود بسیاری از مدلهای پیشرفته، هنگام تحلیل نمودارهای مالی، گزارشهای بازار، و دادههای علمی، اطلاعات را ناقص یا نادرست استخراج کنند.
به گفته پژوهشگران، ChartNet یک دیتاست عظیم و چندلایه است که بیش از یک میلیون نمودار متنوع را در خود جای داده است. این نمودارها فقط تصویر نیستند، بلکه همراه با کد تولید نمودار، توضیح متنی، جدول دادههای عددی، و مجموعهای از پرسشوپاسخها ارائه میشوند. همین ساختار باعث میشود مدلهای هوش مصنوعی بتوانند ارتباط میان اطلاعات دیداری، زبانی و عددی را بهتر یاد بگیرند و درک دقیقتری از نمودارها داشته باشند.

یکی از نوآوریهای مهم این پژوهش، استفاده از یک فرآیند تولید داده مصنوعی دو مرحلهای است. در مرحله اول، سیستم پژوهشگران نمودارهای موجود را به کد تبدیل میکند. سپس با تغییر دادن بخشهایی مانند نوع نمودار، مقادیر داده، موضوع، رنگها و عناصر بصری، نسخههای جدید و متنوعی از آن تولید میشود. این روش امکان ساخت مجموعهای بسیار بزرگ و متنوع را فراهم کرده است، بدون آنکه نیاز به جمعآوری دستی میلیونها نمونه باشد. برای حفظ کیفیت، تیم تحقیقاتی یک سیستم کنترل کیفیت خودکار نیز توسعه داده که بررسی میکند کدها قابل اجرا باشند و نمودارهای نهایی تمیز، دقیق و معتبر رندر شوند. علاوه بر این، بخشی از دادهها توسط کارشناسان انسانی برچسبگذاری شده تا اعتبار علمی و کاربردی مجموعه بیشتر شود.
نتایج آزمایشها نشان دادهاند که آموزش مدلهایی مانند IBM Granite Vision و دیگر مدلهای متنباز با ChartNet، عملکرد آنها را در وظایفی مانند استخراج داده از نمودار، بازسازی نمودار، خلاصهسازی نمودار و پاسخ به پرسشهای مربوط به نمودار بهطور چشمگیری افزایش میدهد. نکته مهمتر این است که برخی از مدلهای کوچکتر و متنباز، پس از آموزش با ChartNet، توانستهاند از مدلهای تجاری بسیار بزرگتر نیز بهتر عمل کنند.

این دستاورد میتواند برای شرکتهای کوچکتر و سازمانهایی که بودجه محدودی دارند بسیار مهم باشد، زیرا به آنها کمک میکند از هوش مصنوعی متنباز برای تحلیل روندهای تجاری، بررسی بازارهای مالی و حتی تفسیر نمودارهای علمی استفاده کنند. به گفته محققان، ChartNet میتواند بهعنوان یک «ابزار همهکاره» برای آموزش مدلهای هوش مصنوعی در حوزه درک نمودارها عمل کند. پژوهشگران قصد دارند در آینده ChartNet را با دادههای پیچیدهتر گسترش دهند و از بازخورد جامعه علمی نیز برای بهبود آن استفاده کنند. این تحقیق قرار است در کنفرانس IEEE Computer Vision and Pattern Recognition ارائه شود.
منبع خبر: mit

شاهین آقامعلی


پاسخ :