فهم زبان مولکول ها به کمک یادگیری ماشینی

...

کشف مواد و داروهای جدید معمولاً شامل یک فرآیند دستی و آزمون و خطا است که می تواند چندین دهه طول بکشد و میلیون ها دلار هزینه داشته باشد. برای ساده‌سازی این فرآیند، دانشمندان اغلب از یادگیری ماشینی برای پیش‌بینی خواص مولکولی و محدود کردن مولکول‌های مورد نیاز برای سنتز و آزمایش در آزمایشگاه استفاده می‌کنند. محققان MIT و آزمایشگاه هوش مصنوعی MIT-Watson یک چارچوب جدید و یکپارچه ایجاد کرده‌اند که می‌تواند به طور همزمان خواص مولکولی را پیش‌بینی کند و مولکول‌های جدید را بسیار کارآمدتر از این رویکردهای یادگیری عمیق محبوب تولید کند.

برای آموزش یک مدل یادگیری ماشینی برای پیش‌بینی خواص بیولوژیکی یا مکانیکی یک مولکول، محققان باید میلیون‌ها ساختار مولکولی برچسب‌گذاری شده را به آن نشان دهند - فرآیندی که به عنوان آموزش شناخته می‌شود. به دلیل هزینه‌های کشف مولکول‌ها و چالش‌های برچسب‌گذاری دستی میلیون‌ها ساختار، مجموعه داده‌های آموزشی بزرگ اغلب به سختی به دست می‌آیند، که کارایی رویکردهای یادگیری ماشینی را محدود می‌کند. در مقابل، سیستم ایجاد شده توسط محققان MIT می تواند به طور موثر خواص مولکولی را با استفاده از مقدار کمی داده پیش بینی کند. سیستم آنها درک اساسی از قوانینی دارد که نحوه ترکیب بلوک های ساختمانی برای تولید مولکول های معتبر را دیکته می کند. این قوانین شباهت‌های بین ساختارهای مولکولی را نشان می‌دهد که به سیستم کمک می‌کند مولکول‌های جدید تولید کند و خواص آنها را به روشی کارآمد از نظر داده پیش‌بینی کند. این روش از دیگر رویکردهای یادگیری ماشینی در هر دو مجموعه داده کوچک و بزرگ بهتر عمل کرد و زمانی که مجموعه داده ای با کمتر از 100 نمونه داده می شد، قادر به پیش بینی دقیق خواص مولکولی و تولید مولکول های زنده بود.

machine-learning

مینگهائو گوئو، نویسنده ارشد این پروژه، می‌گوید: «هدف ما از این پروژه استفاده از برخی روش‌های مبتنی بر داده‌ها برای سرعت بخشیدن به کشف مولکول‌های جدید است، بنابراین می‌توانید مدلی را برای انجام پیش‌بینی بدون همه این آزمایش‌های پرهزینه آموزش دهید.» دانشجوی کارشناسی ارشد علوم کامپیوتر و مهندسی برق (EECS). برای دستیابی به بهترین نتایج با مدل‌های یادگیری ماشینی، دانشمندان به مجموعه داده‌های آموزشی با میلیون‌ها مولکول نیاز دارند که دارای خواص مشابه با آن‌هایی هستند که امیدوارند کشف کنند. در واقعیت، این مجموعه داده‌های خاص دامنه معمولاً بسیار کوچک هستند. بنابراین، محققان از مدل‌هایی استفاده می‌کنند که روی مجموعه داده‌های بزرگ مولکول‌های عمومی از قبل آموزش داده شده‌اند، که آن‌ها را برای مجموعه داده‌های هدفمند بسیار کوچک‌تر اعمال می‌کنند. تیم MIT رویکرد متفاوتی در پیش گرفت. آنها یک سیستم یادگیری ماشینی ایجاد کردند که به طور خودکار "زبان" مولکول ها را می آموزد، چیزی که به عنوان گرامر مولکولی شناخته می شود، تنها با استفاده از یک مجموعه داده کوچک و دامنه خاص. از این دستور زبان برای ساخت مولکول های زنده و پیش بینی خواص آنها استفاده می کند. در تئوری زبان، فرد کلمات، جملات یا پاراگراف ها را بر اساس مجموعه ای از قواعد دستور زبان تولید می کند. شما می توانید به گرامر مولکولی به همین شکل فکر کنید. مجموعه ای از قوانین تولید است که نحوه تولید مولکول ها یا پلیمرها را با ترکیب اتم ها و زیرساخت ها دیکته می کند. درست مانند یک دستور زبان، که می تواند جملات زیادی را با استفاده از قوانین مشابه ایجاد کند، یک دستور زبان مولکولی می تواند تعداد زیادی مولکول را نشان دهد. مولکول هایی با ساختارهای مشابه از قوانین تولید دستور زبان یکسان استفاده می کنند و سیستم یاد می گیرد که این شباهت ها را درک کند.
 
از آنجایی که مولکول‌های ساختاری مشابه اغلب خواص مشابهی دارند، سیستم از دانش زیربنایی خود در مورد شباهت مولکولی برای پیش‌بینی مؤثرتر خواص مولکول‌های جدید استفاده می‌کند. گوئو می‌گوید: «وقتی این دستور زبان را به‌عنوان نمایشی برای تمام مولکول‌های مختلف داشته باشیم، می‌توانیم از آن برای تقویت فرآیند پیش‌بینی ویژگی استفاده کنیم. این سیستم قوانین تولید دستور زبان مولکولی را با استفاده از یادگیری تقویتی می آموزد و یک فرآیند آزمون و خطا دارد که در آن مدل برای رفتاری که آن را به دستیابی به هدف نزدیکتر می کند، پاداش می گیرد. اما از آنجایی که می‌تواند میلیاردها روش برای ترکیب اتم‌ها و زیرساخت‌ها وجود داشته باشد، فرآیند یادگیری قواعد تولید دستور زبان برای هر چیزی جز کوچک‌ترین مجموعه داده‌ها بسیار پرهزینه خواهد بود. محققان گرامر مولکولی را به دو بخش تقسیم کردند. بخش اول که متاگرامر نامیده می شود، یک دستور زبان عمومی و کاربردی است که آنها به صورت دستی طراحی می کنند و در ابتدا به سیستم می دهند. سپس باید یک دستور زبان بسیار کوچکتر و خاص مولکولی را از مجموعه داده دامنه یاد بگیرد. این رویکرد سلسله مراتبی روند یادگیری را سرعت می بخشد.

نظرات 0

wave

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟