Владимир
ВладимирПодписчиков: 4890
РейтингРейтингРейтингРейтингРейтинг10.4М

О создании самой мощной в мире модели искусственного интеллекта с открытым исходным кодом

15 просмотров
5 дочитываний
14 комментариев
Эта публикация уже заработала 3,00 рублей за дочитывания
Зарабатывать

Стартап Databricks только что выпустил DBRX, самую мощную модель большого языка с открытым исходным кодом, затмившую Llama 2 от Meta**.

О создании самой мощной в мире модели искусственного интеллекта с открытым исходным кодом

Сотрудники Databricks в офисе компании в Сан-Франциско

В прошлый понедельник около дюжины инженеров и руководителей компании Databricks , занимающейся наукой о данных и искусственным интеллектом, собрались в конференц-залах, подключенных через Zoom, чтобы узнать, удалось ли им создать лучшую языковую модель искусственного интеллекта. Команда потратила месяцы и около 10 миллионов долларов на обучение DBRX, большой языковой модели, похожей по конструкции на ту, что лежит в основе ChatGPT от OpenAI . Но они не узнают, насколько мощным было их творение, пока не будут получены результаты финальных испытаний его способностей.

«Мы превзошли все», — сказал в конце концов команде Джонатан Франкл, главный архитектор нейронных сетей в Databricks и руководитель команды, создавшей DBRX, которая ответила возгласами, аплодисментами и смайликами аплодисментов. Франкл обычно избегает кофеина, но делал глотки ледяного латте после того, как провел всю ночь, чтобы записать результаты.

Databricks выпустит DBRX под лицензией с открытым исходным кодом, что позволит другим использовать ее разработки. Франкл поделился данными, показывающими, что примерно в дюжине тестов, измеряющих способность модели ИИ отвечать на общие вопросы, понимать прочитанное, решать неприятные логические головоломки и генерировать высококачественный код, DBRX был лучше, чем любая другая доступная модель с открытым исходным кодом.

О создании самой мощной в мире модели искусственного интеллекта с открытым исходным кодом

Лица, принимающие решения в области ИИ: Джонатан Франкл, Навин Рао, Али Годси и Ханлин Тан. Фотография: Габриэла Хасбун

Он затмил Llama 2 от Meta** и Mixtral от Mistral, две самые популярные модели искусственного интеллекта с открытым исходным кодом, доступные сегодня. "Да!" - крикнул Али Годси, генеральный директор Databricks, когда появились результаты. «Подожди, мы победили Илона?» Франкл ответил, что они действительно превзошли модель искусственного интеллекта Грока, недавно открытую исходным кодом xAI Маска, добавив: «Я буду считать это успехом, если мы получим от него злобный твит».

К удивлению команды, по нескольким показателям DBRX был также поразительно близок к GPT-4, закрытой модели OpenAI, которая лежит в основе ChatGPT и широко считается вершиной машинного интеллекта. «Мы установили новый уровень развития LLM с открытым исходным кодом», — сказал Франкл с огромной ухмылкой.

Строительные блоки

Открыв исходный код, DBRX Databricks придает дополнительный импульс движению, которое бросает вызов секретному подходу наиболее известных компаний в нынешнем буме генеративного искусственного интеллекта. OpenAI и Google тщательно хранят код своих больших языковых моделей GPT-4 и Gemini, но некоторые конкуренты, в частности Meta** , выпустили свои модели для использования другими, утверждая, что это будет стимулировать инновации, передав технологию в руки большего количества людей. Исследователи, предприниматели, стартапы и существующие предприятия.

Databricks заявляет, что также хочет рассказать о работе, связанной с созданием ее модели с открытым исходным кодом, чего Meta** не сделала для некоторых ключевых подробностей создания своей модели Llama 2. Компания опубликует сообщение в блоге с подробным описанием работы по созданию модели, а также пригласила WIRED провести время с инженерами Databricks, пока они принимали ключевые решения на заключительных этапах многомиллионного процесса обучения DBRX. Это дало представление о том, насколько сложно и сложно создать ведущую модель искусственного интеллекта, а также о том, как недавние инновации в этой области обещают снизить затраты. Это, в сочетании с доступностью моделей с открытым исходным кодом, таких как DBRX, позволяет предположить, что развитие ИИ не собирается замедляться в ближайшее время.

Али Фархади, генеральный директор Института ИИ Аллена, говорит, что крайне необходима большая прозрачность в создании и обучении моделей ИИ. В последние годы эта сфера становится все более секретной, поскольку компании стремятся получить преимущество над конкурентами. По его словам, непрозрачность особенно важна, когда есть опасения по поводу рисков, которые могут представлять передовые модели ИИ. «Я очень рад видеть любые усилия по обеспечению открытости», — говорит Фархади. «Я верю, что значительная часть рынка перейдет в сторону открытых моделей. Нам нужно больше этого."


У Databricks есть причины быть особенно открытыми. Хотя такие технологические гиганты, как Google, за последний год быстро развернули новые внедрения искусственного интеллекта, Годси говорит, что многим крупным компаниям в других отраслях еще предстоит широко использовать эту технологию для обработки своих собственных данных. Databricks надеется помочь компаниям в финансовой, медицинской и других отраслях, которые, по его словам, жаждут инструментов, подобных ChatGPT, но также опасаются отправлять конфиденциальные данные в облако.

«Мы называем это интеллектом данных — интеллектом, позволяющим понять ваши собственные данные», — говорит Годси. Databricks настроит DBRX для клиента или создаст с нуля индивидуальную систему, адаптированную к его бизнесу. По его словам, для крупных компаний стоимость создания чего-то такого же масштаба, как DBRX, имеет смысл. «Для нас это большая бизнес-возможность». В июле прошлого года Databricks приобрела стартап под названием MosaicML, который специализируется на более эффективном создании моделей искусственного интеллекта, привлекая к созданию DBRX нескольких человек, в том числе Франкла. Никто в обеих компаниях ранее не строил что-то такого масштаба.

Внутренние работы

DBRX, как и другие крупные языковые модели, по сути, представляет собой гигантскую искусственную нейронную сеть — математическую структуру, вдохновленную биологическими нейронами, — в которую передаются огромные объемы текстовых данных. DBRX и ему подобные обычно основаны на трансформаторе — типе нейронной сети, изобретенной командой Google в 2017 году, которая произвела революцию в машинном обучении языка.

Вскоре после того, как был изобретен преобразователь, исследователи из OpenAI начали обучать версии модели этого типа на постоянно увеличивающихся коллекциях текста, извлеченного из Интернета и других источников — процесс, который может занять месяцы. Что особенно важно, они обнаружили, что по мере масштабирования модели и набора данных, на которых она обучалась, модели становились более функциональными, последовательными и, казалось бы, интеллектуальными в своих результатах.

О создании самой мощной в мире модели искусственного интеллекта с открытым исходным кодом

Генеральный директор Databricks Али Годси

Поиск еще большего масштаба остается навязчивой идеей OpenAI и других ведущих компаний, занимающихся искусственным интеллектом. , генеральный директор OpenAI Сэм Альтман запросил 7 триллионов долларов на финансирование разработки специализированных чипов для искусственного интеллекта По данным The Wall Street Journal . Но не только размер имеет значение при создании языковой модели. Франкл говорит, что десятки решений направлены на создание продвинутой нейронной сети, а также некоторые знания о том, как более эффективно тренироваться, которые можно почерпнуть из исследовательских работ, а другие детали распространяются внутри сообщества. Особенно сложно обеспечить совместную работу тысяч компьютеров, соединенных причудливыми коммутаторами и оптоволоконными кабелями.

«У вас есть эти безумные [сетевые] коммутаторы, которые пропускают терабиты в секунду трафика, поступающего с разных направлений», — сказал Франкл перед окончанием финального тренировочного прогона. «Это ошеломляет даже для того, кто посвятил свою жизнь информатике». Тот факт, что Франкл и другие сотрудники MosaicML являются экспертами в этой малоизвестной науке, помогает объяснить, почему покупка стартапа Databricks в прошлом году оценила его в 1,3 миллиарда долларов.

Данные, подаваемые в модель, также сильно влияют на конечный результат — возможно, объясняя, почему это единственная деталь, которую Databricks не раскрывает открыто. «Качество данных, очистка данных, фильтрация данных, подготовка данных — все это очень важно», — говорит Навин Рао, вице-президент Databricks, а ранее основатель и генеральный директор MosaicML. «Эти модели на самом деле являются просто функцией этого. Вы можете думать об этом как о самом важном факторе для качества модели».

Исследователи ИИ продолжают изобретать настройки и модификации архитектуры, чтобы сделать новейшие модели ИИ более производительными. Один из наиболее значительных прорывов за последнее время произошел благодаря архитектуре, известной как «смесь экспертов», в которой только некоторые части модели активируются для ответа на запрос, в зависимости от его содержания. В результате получается модель, которую гораздо эффективнее обучать и эксплуатировать. DBRX имеет около 136 миллиардов параметров или значений в модели, которые обновляются во время обучения. У Llama 2 70 миллиардов параметров, у Mixtral — 45 миллиардов, а у Grok — 314 миллиардов. Но DBRX активирует в среднем только около 36 миллиардов для обработки типичного запроса. Databricks утверждает, что изменения в модели, направленные на улучшение использования основного оборудования, помогли повысить эффективность обучения на 30–50 процентов. По словам компании, это также позволяет модели быстрее реагировать на запросы и требует меньше энергии для работы.

Открыть

Иногда высокотехнологичное искусство обучения гигантской модели ИИ сводится к решению, которое является не только техническим, но и эмоциональным. Две недели назад перед командой Databricks стоял многомиллионный вопрос о том, как максимально эффективно использовать модель.

После двух месяцев обучения модели на 3072 мощных графических процессорах Nvidia H100s, арендованных у облачного провайдера, DBRX уже набирал впечатляющие результаты в нескольких тестах, и все же оставалось еще примерно неделю суперкомпьютерного времени.

Разные члены команды выбрасывали в Slack идеи, как использовать оставшуюся неделю мощности компьютера. Одна из идей заключалась в том, чтобы создать версию модели, настроенную для генерации компьютерного кода, или гораздо меньшую версию, с которой могли бы играть любители. Команда также рассматривала возможность прекращения работ по увеличению размера модели и вместо этого снабжала ее тщательно отобранными данными, которые могли бы повысить ее производительность по определенному набору возможностей — подход, называемый обучением по учебной программе. Или они могли бы просто продолжать работать в том же духе, делая модель крупнее и, будем надеяться, более функциональной. Этот последний маршрут ласково называли вариантом «к черту все», и один из членов команды, похоже, был особенно заинтересован в нем.

О создании самой мощной в мире модели искусственного интеллекта с открытым исходным кодом

Команда Databricks

Хотя дискуссия оставалась дружеской, возникали сильные мнения, поскольку разные инженеры настаивали на своем предпочтительном подходе. В конце концов Франкл ловко подвел команду к подходу, ориентированному на данные. И две недели спустя, похоже, это принесло огромные плоды. «Обучение по учебной программе стало лучше, это имело существенное значение», — говорит Франкл.

Франкл оказался менее успешным в предсказании других результатов проекта. Он сомневался, что DBRX окажется особенно хорош в генерации компьютерного кода, потому что команда не уделяла этому особого внимания. Он даже был достаточно уверен, чтобы сказать, что покрасил бы волосы в синий цвет, если бы ошибся. Результаты понедельника показали, что DBRX превосходит любую другую модель открытого ИИ по стандартным тестам кодирования. «У нас есть действительно хорошая модель кода», — сказал он во время большого открытия в понедельник. «Я записалась на покраску волос сегодня».

Оценка риска

Финальная версия DBRX — это самая мощная модель искусственного интеллекта, которая еще не была выпущена открыто, чтобы каждый мог ее использовать или изменять. (По крайней мере, если это не компания с более чем 700 миллионами пользователей, Meta** также накладывает ограничение на свою собственную модель ИИ с открытым исходным кодом Llama 2.) Недавние дебаты о потенциальных опасностях более мощного ИИ иногда концентрировались на том, стоит ли создавать ИИ модели, открытые для всех, могут быть слишком рискованными. Некоторые эксперты предполагают, что открытые модели могут слишком легко быть использованы преступниками или террористами в целях совершения киберпреступлений или разработки биологического или химического оружия. Databricks заявляет, что уже провела испытания на безопасность своей модели и продолжит ее проверять.

Стелла Бидерман, исполнительный директор EleutherAI , совместного исследовательского проекта, посвященного открытым исследованиям в области ИИ, говорит, что существует мало доказательств того, что открытость увеличивает риски. Она и другие утверждают, что нам до сих пор не хватает хорошего понимания того, насколько на самом деле опасны модели ИИ или что может сделать их опасными — и в этом могла бы помочь большая прозрачность. «Часто нет особых оснований полагать, что открытые модели представляют существенно больший риск по сравнению с существующими закрытыми моделями», — говорит Бидерман.

EleutherAI присоединилась к Mozilla и примерно 50 другим организациям и ученым, отправив в этом месяце открытое письмо министру торговли США Джине Раймондо, с просьбой обеспечить, чтобы будущее регулирование ИИ оставило место для проектов ИИ с открытым исходным кодом. В письме утверждалось, что открытые модели полезны для экономического роста, поскольку помогают стартапам и малому бизнесу, а также «помогают ускорить научные исследования».

Databricks надеется, что DBRX сможет сделать и то, и другое. По словам Франкла, DBRX не только предоставляет другим исследователям ИИ новую модель для экспериментов и полезные советы по созданию собственных, но и может способствовать более глубокому пониманию того, как на самом деле работает ИИ. Его команда планирует изучить, как модель изменилась за последнюю неделю обучения, возможно, выяснив, как мощная модель приобретает дополнительные возможности. «Больше всего меня волнует наука, которой мы можем заниматься в таком масштабе», — говорит он.

Интересно?

Проголосовали:10

Проголосуйте, чтобы увидеть результаты

14 комментариев
Понравилась публикация?
8 / 0
нет
Подписаться
Донаты ₽
* * запрещённая в России экстремистская организация
Комментарии: 14
Отписаться от обсужденияПодписаться на обсуждения
ПопулярныеНовыеСтарые
Карина Юрьевна
Подписчиков 5885
14.05.2024, 20:30
РейтингРейтингРейтингРейтингРейтинг12.9М
Здравствуйте, дорогие читатели! После прохождения Всероссийских проверочных работ (ВПР) в этом учебном году,...
Подробнее
Неинтересно
0
119
Ерхов Вадим Геннадьевич
Подписчиков 17942
25.04.2024, 12:53
РейтингРейтингРейтингРейтингРейтинг4.1М
ООО "Группа Компаний "ЮЖНЫЕ РАЙОНЫ ВОЛГОГРАДА" ИНН 3446040768 -Генеральный Директор Духнов Сергей Григорьевич.
Подробнее
Неинтересно
-3
66
Владимир
Подписчиков 4890
01.05.2024, 20:48
РейтингРейтингРейтингРейтингРейтинг10.4М
В ночь с 28 на 29 апреля 2024 года мы были на территории Армина Паппергера в Германсбурге, Тернерштрассе.
Подробнее
Неинтересно
0
24
Семён Семёнович
Подписчиков 345
13.05.2024, 13:12
РейтингРейтингРейтингРейтингРейтинг728.4к
У тех, кто дышит ртом, плохая репутация, особенно когда дело касается сна . К счастью, есть тенденция,...
Подробнее
Неинтересно
0
5
Андрей
Подписчиков 72
13.05.2024, 08:38
РейтингРейтингРейтингРейтингРейтинг61.4к
Биография и профессиональный путь Андрея Белоусова▫ Родился 17 марта 1959 года ...
Подробнее
Неинтересно
0
0
Владимир
Подписчиков 4890
02.05.2024, 20:45
РейтингРейтингРейтингРейтингРейтинг10.4М
Генеральный директор Telegram Павел Дуров заявляет, что понимает 95% письменного украинского языка.
Подробнее
Неинтересно
0
10
Елена
Подписчиков 8238
30.04.2024, 23:24
РейтингРейтингРейтингРейтингРейтинг12.2М
Подробнее
Неинтересно
00:35
Поделитесь этим видео
0
2