Исследователи обнаружили более гибкий подход к машинному обучению

Исследователи в области интеллекта отметили ряд успехов с нейронными сетями, компьютерными программами, которые примерно имитируют то, как организован наш мозг. Но, несмотря на быстрый прогресс, нейронные сети остаются относительно негибкими, с небольшой способностью изменяться на лету или приспосабливаться к незнакомым обстоятельствам.
В 2020 году два исследователя из Массачусетского технологического института возглавили команду, которая представила новый вид нейронной сети, основанный на реальном интеллекте, но не на нашем собственном. Вместо этого они черпали вдохновение из крошечного круглого червя Caenorhabditis elegans, чтобы создать то, что они называли жидкими нейронными сетями. После прорыва в прошлом году новые сети теперь могут быть достаточно универсальными, чтобы вытеснить свои традиционные аналоги для определенных приложений.
Жидкие нейронные сети предлагают «элегантную и компактную альтернативу», сказал Кен Голдберг, робототехник из Калифорнийского университета в Беркли. Он добавил, что эксперименты уже показывают, что эти сети могут работать быстрее и точнее, чем другие так называемые нейронные сети непрерывного времени, которые моделируют системы, которые меняются со временем.
Рамин Хасани и Матиас Лехнер, движущие силы нового дизайна, много лет назад поняли, что C. elegans может быть идеальным организмом для выяснения того, как создать устойчивые нейронные сети, которые могут приспособиться к неожиданностям. Донная кормушка длиной в миллиметр является одним из немногих существ с полностью отображенной нервной системой, и она способна к целому ряду продвинутого поведения: двигаться, находить пищу, спать, спариваться и даже учиться на опыте. «Он живет в реальном мире, где всегда происходят изменения, и он может хорошо работать практически при любых условиях», — сказал Лехнер.
Уважение к низкому червю привело его и Хасани к их новым жидким сетям, где каждый нейрон управляется уравнением, которое предсказывает его поведение с течением времени. И так же, как нейроны связаны друг с другом, эти уравнения зависят друг от друга. Сеть по существу решает весь этот ансамбль связанных уравнений, позволяя ей характеризовать состояние системы в любой заданный момент — отход от традиционных нейронных сетей, которые дают результаты только в определенные моменты времени.
«[Они] могут сказать вам, что происходит, только через одну, две или три секунды», — сказал Лехнер. «Но модель непрерывного времени, такая как наша, может описать, что происходит на 0,53 секунды или 2,14 секунды или в любое другое время, которое вы выберете».
Жидкостные сети также отличаются тем, как они обрабатывают синапсы, связи между искусственными нейронами. Прочность этих связей в стандартной нейронной сети может быть выражена одним числом, его весом. В жидких сетях обмен сигналами между нейронами является вероятностным процессом, управляемым «нелинейной» функцией, что означает, что ответы на входы не всегда пропорциональны. Например, удвоение входных данных может привести к гораздо большему или меньшему сдвигу в выходе. Эта встроенная изменчивость является причиной того, что сети называются «жидкими». То, как нейрон реагирует, может варьироваться в зависимости от входных данных, которые он получает.
В то время как алгоритмы, лежащие в основе традиционных сетей, устанавливаются во время обучения, когда этим системам подаются данные для калибровки наилучших значений их веса, жидкие нейронные сети более адаптируемы. «Они могут изменять свои базовые уравнения на основе входных данных, которые они наблюдают», в частности, изменяя то, как быстро реагируют нейроны, сказала Даниэла Рус, директор Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института.
Один из ранних тестов, чтобы продемонстрировать эту способность, включал в себя попытку управлять автономным автомобилем. Обычная нейронная сеть могла анализировать визуальные данные с камеры автомобиля только через фиксированные промежутки времени. Жидкая сеть, состоящая из 19 нейронов и 253 синапсов (что делает ее крошечной по стандартам машинного обучения), может быть гораздо более отзывчивой. «Наша модель может чаще сэмплировать, например, когда дорога извилистая», — сказал Рус, соавтор этой и нескольких других работ по жидкостным сетям.
Модель успешно удерживала машину на трассе, но у нее был один недостаток, лехнер сказал: «Он был действительно медленным». Проблема возникла из нелинейных уравнений, представляющих синапсы и нейроны — уравнения, которые обычно не могут быть решены без повторных вычислений на компьютере, который проходит через несколько итераций, прежде чем в конечном итоге сойтись на решении. Эта работа обычно делегируется выделенным программным пакетам, называемым решателями, которые должны применяться отдельно к каждому синапсу и нейрону.
В прошлогодней статье команда показала новую жидкую нейронную сеть, которая обошла это узкое место. Эта сеть опиралась на тот же тип уравнений, но ключевым достижением было открытие Хасани, что эти уравнения не нужно решать с помощью трудных компьютерных вычислений. Вместо этого сеть могла бы функционировать, используя почти точное или «закрытое» решение, которое, в принципе, можно было бы разработать с помощью карандаша и бумаги. Как правило, эти нелинейные уравнения не имеют решений замкнутой формы, но Хасани наткнулся на приближенное решение, которое было достаточно хорошим для использования.
«Наличие решения в закрытой форме означает, что у вас есть уравнение, для которого вы можете подключить значения для его параметров и выполнить базовую математику, и вы получите ответ», — сказал Рус. «Вы получаете ответ одним выстрелом», вместо того, чтобы позволить компьютеру уйти, пока не решите, что он достаточно близко. Это сокращает вычислительное время и энергию, значительно ускоряя процесс.
«Их метод побеждает конкурентов на несколько порядков без ущерба для точности», — сказал Саян Митра, компьютерный ученый из Университета Иллинойса, Урбана-Шампейн.
Помимо того, что они быстрее, сказал Хасани, их новейшие сети также необычайно стабильны, что означает, что система может обрабатывать огромные входные данные, не выходя из строя. «Основной вклад здесь заключается в том, что стабильность и другие приятные свойства запекаются в этих системах их чистой структурой», — сказал Шрирам Санкаранараянан, компьютерный ученый из Университета Колорадо, Боулдер. Жидкие сети, похоже, работают в том, что он назвал «сладким пятном»: они достаточно сложны, чтобы позволить интересным вещам происходить, но не настолько сложны, чтобы привести к хаотическому поведению».
На данный момент группа MIT тестирует свою новейшую сеть на автономном воздушном беспилотнике. Хотя дрон был обучен ориентироваться в лесу, они переместили его в городскую среду Кембриджа, чтобы посмотреть, как он справляется с новыми условиями. Лехнер назвал предварительные результаты обнадеживающими.
Помимо уточнения текущей модели, команда также работает над улучшением архитектуры своей сети. Следующий шаг, по словам Лехнера, «заключается в том, чтобы выяснить, сколько или как мало нейронов нам действительно нужно для выполнения данной задачи». Группа также хочет разработать оптимальный способ соединения нейронов. В настоящее время каждый нейрон связан с каждым другим нейроном, но это не то, как это работает в C. elegans, где синаптические связи более избирательны. Благодаря дальнейшим исследованиям системы проводки круглого червя они надеются определить, какие нейроны в их системе должны быть связаны вместе.
Помимо таких приложений, как автономное вождение и полет, жидкостные сети, по-видимому, хорошо подходят для анализа электрических сетей, финансовых транзакций, погоды и других явлений, которые колеблются с течением времени. Кроме того, по словам Хасани, последняя версия жидких сетей может быть использована «для выполнения моделирования активности мозга в масштабах, которые ранее не были реализованы».
Митра особенно заинтригован этой возможностью. «В некотором смысле, это своего рода поэтично, показывая, что это исследование может пройти полный круг», — сказал он. «Нейронные сети развиваются до такой степени, что те самые идеи, которые мы почерпнули из природы, могут вскоре помочь нам лучше понять природу».
