Шнырев Владимир Витальевич
Шнырев В.В. Подписчиков: 31

Познакомьтесь с DALL-E, ИИ, который рисует все, что угодно по вашей команде

0 комментариев

Новая технология, сочетающая язык и изображения, может помочь художникам-графикам и ускорить кампании по дезинформации.

САН-ФРАНЦИСКО — В OpenAI, одной из самых амбициозных в мире лабораторий искусственного интеллекта, исследователи создают технологию, позволяющую создавать цифровые изображения, просто описывая то, что вы хотите видеть.

Они называют его ДАЛЛ-И в знак уважения как к «ВАЛЛ-И», анимационному фильму 2008 года об автономном роботе, так и к Сальвадору Дали, художнику-сюрреалисту.

OpenAI, поддерживаемый Microsoft на миллиард долларов, пока не делится технологией с широкой публикой. Но недавно Алекс Николь, один из исследователей системы, продемонстрировал, как она работает.

Когда он попросил «чайник в форме авокадо», напечатав эти слова на практически пустом экране компьютера, система создала 10 различных изображений темно-зеленого чайника из авокадо, некоторые с косточками, а некоторые без них. «DALL-E хорош в авокадо», — сказал г-н Никол.

Когда он набрал «кошки, играющие в шахматы», по обеим сторонам клетчатой ​​игровой доски поместились два пушистых котенка, между которыми выстроились 32 шахматные фигуры. Когда он вызвал «плюшевого мишку, играющего на трубе под водой», на одном изображении были видны крошечные пузырьки воздуха, поднимающиеся от конца медвежьей трубы к поверхности воды.

DALL-E также может редактировать фотографии. Когда мистер Николь стер трубу плюшевого мишки и попросил вместо нее гитару, между пушистыми руками появилась гитара.

Команда из семи исследователей потратила два года на разработку технологии, которую OpenAI планирует в конечном итоге предложить в качестве инструмента для таких людей, как художники-графики, предоставляя новые ярлыки и новые идеи при создании и редактировании цифровых изображений. Программисты уже используют Copilot, инструмент, основанный на аналогичной технологии OpenAI , для создания фрагментов программного кода.

Но для многих экспертов DALL-E вызывает беспокойство. По их словам, поскольку этот вид технологий продолжает совершенствоваться, он может помочь распространять дезинформацию в Интернете, подпитывая онлайн-кампании, которые, возможно, помогли повлиять на президентские выборы 2016 года.

«Вы можете использовать его для хороших целей, но, безусловно, вы можете использовать его для всех видов других сумасшедших, тревожных приложений, включая глубокие подделки», таких как вводящие в заблуждение фотографии и видео, — сказал Суббарао Камбхампати, профессор компьютерных наук в штате Аризона. Университет.

Полвека назад ведущие мировые лаборатории искусственного интеллекта создали системы, которые могли идентифицировать объекты на цифровых изображениях и даже генерировать изображения самостоятельно, включая цветы, собак, автомобили и лица. Несколько лет спустя они создали системы, которые могли делать то же самое с письменной речью, резюмировать статьи, отвечать на вопросы, создавать твиты и даже писать сообщения в блогах.

Теперь исследователи объединяют эти технологии для создания новых форм ИИ. DALL-E — это заметный шаг вперед, поскольку он совмещает язык и изображения, а в некоторых случаях улавливает связь между ними.

«Теперь мы можем использовать несколько пересекающихся потоков информации для создания все более совершенных технологий», — сказал Орен Этциони, исполнительный директор Института искусственного интеллекта Аллена, лаборатории искусственного интеллекта в Сиэтле.

Технология не идеальна. Когда г-н Николь попросил DALL-E «поставить Эйфелеву башню на Луну», он не совсем понял эту идею. Он поставил луну в небе над башней. Когда он попросил «гостиную, наполненную песком», сцена была больше похожа на строительную площадку, чем на гостиную.

Но когда г-н Николь немного подкорректировал свои запросы, добавив или убрав несколько слов здесь или там, это дало то, что он хотел. Когда он попросил «пианино в гостиной, наполненной песком», изображение больше походило на пляж в гостиной.

DALL-E — это то, что исследователи искусственного интеллекта называют нейронной сетью, которая представляет собой математическую систему, грубо смоделированную на сети нейронов в мозгу. Это та же технология, которая распознает команды, произносимые в смартфоны, и идентифицирует присутствие пешеходов, когда беспилотные автомобили перемещаются по городским улицам.

Нейронная сеть обучается навыкам, анализируя большие объемы данных. Например, определяя закономерности на тысячах фотографий авокадо, он может научиться распознавать авокадо. DALL-E ищет шаблоны, анализируя миллионы цифровых изображений, а также текстовые подписи, которые описывают, что изображено на каждом изображении. Таким образом, он учится распознавать связи между изображениями и словами.

Когда кто-то описывает образ для DALL-E, создается набор ключевых функций, которые этот образ может включать. Одной из особенностей может быть линия на краю трубы. Другим может быть изгиб наверху уха плюшевого мишки.

Затем вторая нейронная сеть, называемая диффузионной моделью, создает изображение и генерирует пиксели, необходимые для реализации этих функций. Последняя версия DALL-E, представленная в среду вместе с новым исследовательским документом, описывающим систему, генерирует изображения с высоким разрешением, которые во многих случаях выглядят как фотографии.

Хотя DALL-E часто не понимает того, что кто-то описал, а иногда искажает создаваемое им изображение, OpenAI продолжает совершенствовать технологию. Исследователи часто могут усовершенствовать навыки нейронной сети, передавая ей еще большие объемы данных.

Они также могут создавать более мощные системы, применяя те же концепции к новым типам данных. Институт Аллена недавно создал систему, которая может анализировать звук, а также изображения и текст. Проанализировав миллионы видеороликов на YouTube, включая звуковые дорожки и подписи, он научился определять определенные моменты в телешоу или фильмах, например, лай собаки или закрывающуюся дверь.

Эксперты считают, что исследователи продолжат оттачивать такие системы. В конечном итоге эти системы могут помочь компаниям улучшить поисковые системы, цифровых помощников и другие распространенные технологии, а также автоматизировать новые задачи для художников-графиков, программистов и других специалистов.

Но есть предостережения относительно этого потенциала. Системы искусственного интеллекта могут предвзято относиться к женщинам и цветным людям, отчасти потому, что они изучают свои навыки из огромного количества онлайн-текста, изображений и других данных, которые показывают предвзятость. Их можно использовать для создания порнографии, разжигания ненависти и других оскорбительных материалов. И многие эксперты считают, что технология в конечном итоге упростит создание дезинформации, и людям придется скептически относиться почти ко всему, что они видят в Интернете.

«Мы можем подделать текст. Мы можем поместить текст в чей-то голос. И мы можем подделывать изображения и видео», — сказал доктор Этциони. «В сети уже есть дезинформация, но беспокоит то, что эта дезинформация выходит на новый уровень».

OpenAI держит DALL-E на коротком поводке. Это не позволило бы посторонним использовать систему самостоятельно. Он помещает водяной знак в угол каждого создаваемого изображения. И хотя лаборатория планирует открыть систему для тестировщиков на этой неделе, группа будет небольшой.

Система также включает фильтры, которые не позволяют пользователям создавать изображения, которые она считает неприемлемыми. Когда его спросили о «свинье с головой овцы», он отказался предоставить изображение. По словам лаборатории, сочетание слов «свинья» и «голова», скорее всего, сработало фильтры защиты от издевательств OpenAI.

«Это не продукт, — сказала Мира Мурати, руководитель отдела исследований OpenAI. «Идея состоит в том, чтобы понять возможности и ограничения и дать нам возможность встроить меры по смягчению последствий».

OpenAI может некоторым образом контролировать поведение системы. Но другие страны по всему миру вскоре могут создать аналогичную технологию, которая даст те же возможности в руки почти каждому. Опираясь на исследовательский документ, описывающий раннюю версию DALL-E, Борис Дайма, независимый исследователь из Хьюстона, уже построил и выпустил более простую версию технологии.

«Люди должны знать, что изображения, которые они видят, могут быть ненастоящими», — сказал он.

Понравилась публикация?
8 / -1
нет
0 / 0
Подписаться
Донаты ₽

Новое "супероружие" Путина. Британцы в панике от русских голубей биодронов

В Британии пришли в ужас от нового "супероружия" Путина. Как рассказывают агенты разведки Лондона в России образованы целые "боевые" крылатые эскадрильи, которые были якобы созданы по личному приказу Путина.

Новое "супероружие" Путина. Британцы в панике от русских голубей биодронов

В Британии пришли в ужас от нового "супероружия" Путина. Как рассказывают агенты разведки Лондона в России образованы целые "боевые" крылатые эскадрильи, которые были якобы созданы по личному приказу Путина.