
کشف مواد و داروهای جدید معمولاً شامل یک فرآیند دستی و آزمون و خطا است که می تواند چندین دهه طول بکشد و میلیون ها دلار هزینه داشته باشد. برای سادهسازی این فرآیند، دانشمندان اغلب از یادگیری ماشینی برای پیشبینی خواص مولکولی و محدود کردن مولکولهای مورد نیاز برای سنتز و آزمایش در آزمایشگاه استفاده میکنند. محققان MIT و آزمایشگاه هوش مصنوعی MIT-Watson یک چارچوب جدید و یکپارچه ایجاد کردهاند که میتواند به طور همزمان خواص مولکولی را پیشبینی کند و مولکولهای جدید را بسیار کارآمدتر از این رویکردهای یادگیری عمیق محبوب تولید کند.
برای آموزش یک مدل یادگیری ماشینی برای پیشبینی خواص بیولوژیکی یا مکانیکی یک مولکول، محققان باید میلیونها ساختار مولکولی برچسبگذاری شده را به آن نشان دهند - فرآیندی که به عنوان آموزش شناخته میشود. به دلیل هزینههای کشف مولکولها و چالشهای برچسبگذاری دستی میلیونها ساختار، مجموعه دادههای آموزشی بزرگ اغلب به سختی به دست میآیند، که کارایی رویکردهای یادگیری ماشینی را محدود میکند. در مقابل، سیستم ایجاد شده توسط محققان MIT می تواند به طور موثر خواص مولکولی را با استفاده از مقدار کمی داده پیش بینی کند. سیستم آنها درک اساسی از قوانینی دارد که نحوه ترکیب بلوک های ساختمانی برای تولید مولکول های معتبر را دیکته می کند. این قوانین شباهتهای بین ساختارهای مولکولی را نشان میدهد که به سیستم کمک میکند مولکولهای جدید تولید کند و خواص آنها را به روشی کارآمد از نظر داده پیشبینی کند. این روش از دیگر رویکردهای یادگیری ماشینی در هر دو مجموعه داده کوچک و بزرگ بهتر عمل کرد و زمانی که مجموعه داده ای با کمتر از 100 نمونه داده می شد، قادر به پیش بینی دقیق خواص مولکولی و تولید مولکول های زنده بود.
مینگهائو گوئو، نویسنده ارشد این پروژه، میگوید: «هدف ما از این پروژه استفاده از برخی روشهای مبتنی بر دادهها برای سرعت بخشیدن به کشف مولکولهای جدید است، بنابراین میتوانید مدلی را برای انجام پیشبینی بدون همه این آزمایشهای پرهزینه آموزش دهید.» دانشجوی کارشناسی ارشد علوم کامپیوتر و مهندسی برق (EECS). برای دستیابی به بهترین نتایج با مدلهای یادگیری ماشینی، دانشمندان به مجموعه دادههای آموزشی با میلیونها مولکول نیاز دارند که دارای خواص مشابه با آنهایی هستند که امیدوارند کشف کنند. در واقعیت، این مجموعه دادههای خاص دامنه معمولاً بسیار کوچک هستند. بنابراین، محققان از مدلهایی استفاده میکنند که روی مجموعه دادههای بزرگ مولکولهای عمومی از قبل آموزش داده شدهاند، که آنها را برای مجموعه دادههای هدفمند بسیار کوچکتر اعمال میکنند. تیم MIT رویکرد متفاوتی در پیش گرفت. آنها یک سیستم یادگیری ماشینی ایجاد کردند که به طور خودکار "زبان" مولکول ها را می آموزد، چیزی که به عنوان گرامر مولکولی شناخته می شود، تنها با استفاده از یک مجموعه داده کوچک و دامنه خاص. از این دستور زبان برای ساخت مولکول های زنده و پیش بینی خواص آنها استفاده می کند. در تئوری زبان، فرد کلمات، جملات یا پاراگراف ها را بر اساس مجموعه ای از قواعد دستور زبان تولید می کند. شما می توانید به گرامر مولکولی به همین شکل فکر کنید. مجموعه ای از قوانین تولید است که نحوه تولید مولکول ها یا پلیمرها را با ترکیب اتم ها و زیرساخت ها دیکته می کند. درست مانند یک دستور زبان، که می تواند جملات زیادی را با استفاده از قوانین مشابه ایجاد کند، یک دستور زبان مولکولی می تواند تعداد زیادی مولکول را نشان دهد. مولکول هایی با ساختارهای مشابه از قوانین تولید دستور زبان یکسان استفاده می کنند و سیستم یاد می گیرد که این شباهت ها را درک کند.
از آنجایی که مولکولهای ساختاری مشابه اغلب خواص مشابهی دارند، سیستم از دانش زیربنایی خود در مورد شباهت مولکولی برای پیشبینی مؤثرتر خواص مولکولهای جدید استفاده میکند. گوئو میگوید: «وقتی این دستور زبان را بهعنوان نمایشی برای تمام مولکولهای مختلف داشته باشیم، میتوانیم از آن برای تقویت فرآیند پیشبینی ویژگی استفاده کنیم. این سیستم قوانین تولید دستور زبان مولکولی را با استفاده از یادگیری تقویتی می آموزد و یک فرآیند آزمون و خطا دارد که در آن مدل برای رفتاری که آن را به دستیابی به هدف نزدیکتر می کند، پاداش می گیرد. اما از آنجایی که میتواند میلیاردها روش برای ترکیب اتمها و زیرساختها وجود داشته باشد، فرآیند یادگیری قواعد تولید دستور زبان برای هر چیزی جز کوچکترین مجموعه دادهها بسیار پرهزینه خواهد بود. محققان گرامر مولکولی را به دو بخش تقسیم کردند. بخش اول که متاگرامر نامیده می شود، یک دستور زبان عمومی و کاربردی است که آنها به صورت دستی طراحی می کنند و در ابتدا به سیستم می دهند. سپس باید یک دستور زبان بسیار کوچکتر و خاص مولکولی را از مجموعه داده دامنه یاد بگیرد. این رویکرد سلسله مراتبی روند یادگیری را سرعت می بخشد.
پاسخ :