Исследователи создали нейросеть для прогнозирования свойств молекул и генерации новых молекул, используя лишь небольшой объем данных для обучения.
Этой системе искусственного интеллекта требуется лишь небольшой объем данных для прогнозирования молекулярных свойств
• Исследователи из MIT-Watson AI Lab разработали унифицированную платформу для прогнозирования молекулярных свойств и генерации новых молекул.
• Платформа использует машинное обучение и использует лишь небольшой объем данных для обучения.
• Чтобы научить модель машинного обучения предсказывать биологические или механические свойства молекулы, исследователи должны показать ей миллионы меченых молекулярных структур — процесс, известный как обучение. Из-за затрат на обнаружение молекул и проблем, связанных с ручной маркировкой миллионов структур, часто трудно получить большие обучающие наборы данных, что ограничивает эффективность подходов машинного обучения.
Напротив, система, созданная исследователями Массачусетского технологического института, может эффективно предсказывать свойства молекул, используя лишь небольшой объем данных.
• Они создали систему машинного обучения, которая автоматически изучает "язык" молекул , что известно как молекулярная грамматика, — используя только небольшой набор данных, специфичный для конкретной предметной области.
Исследователи разделили молекулярную грамматику на две части. Первая часть, называемая метаграммой, представляет собой общую, широко применимую грамматику, которую они разрабатывают вручную и предоставляют системе в самом начале. Затем ему нужно всего лишь изучить грамматику гораздо меньшего размера, специфичную для конкретной молекулы, из набора данных домена. Этот иерархический подход ускоряет процесс обучения.
• Большие результаты, при небольших наборах данных
В ходе экспериментов новая система исследователей одновременно генерировала жизнеспособные молекулы и полимеры и предсказывала их свойства более точно, чем несколько популярных подходов машинного обучения, даже когда наборы данных для конкретной предметной области содержали всего несколько сотен образцов.
• Метод может быть применен для прогнозирования физических свойств полимеров, таких как температура стеклования, который представляет собой температуру, необходимую для перехода материала из твердого состояния в жидкое. Получение этой информации вручную часто является чрезвычайно дорогостоящей, поскольку эксперименты требуют чрезвычайно высоких температур и давлений.
• В будущем планируется расширить молекулярную грамматику и включить в нее трехмерную геометрию молекул,
которая является ключом к пониманию взаимодействий между полимерными цепями.
В итоге получилась весьма продуктивная нейросеть, выполняющая те же задачи, как и её более дорогие собратья.