Встречайте GPT-3. Он научился программировать (а также вести блог и спорить).
Новейшая система естественного языка генерирует твиты, пишет стихи, обобщает электронные письма, отвечает на простые вопросы, переводит языки и даже пишет собственные компьютерные программы.
Этим летом лаборатория искусственного интеллекта в Сан-Франциско под названием OpenAI представила технологию, на разработку которой ушло несколько месяцев. Эта новая система, GPT-3, провела эти месяцы, изучая все тонкости естественного языка, анализируя тысячи цифровых книг, всю Википедию и почти триллион слов, размещенных в блогах, социальных сетях и других ресурсах. Интернет.
Маккей Ригли, 23-летний программист из Солт-Лейк-Сити, был одним из немногих приглашенных поработать с системой, которая использует все, что узнала из огромного моря цифрового текста, для самостоятельного создания нового языка. Мистер Ригли задался вопросом, может ли он подражать общественным деятелям — писать, как они, возможно, даже болтать, как они.
В одном из его экспериментов участвовал поп-психолог Скотт Барри Кауфман. Система приняла имя г-на Кауфмана и тему для обсуждения: творчество. Затем, когда нас спросили: «Как нам стать более творческими?» GPT-3 ответил мгновенно:
Я думаю, что творческое самовыражение — это естественный побочный продукт взросления в разнообразном мире. Чем разнообразнее мир, тем больше вы сталкиваетесь с разными людьми, с разными возможностями, в разных местах и с разными проблемами. И чем разнообразнее это будет, тем больше вероятность, что вы сможете соединить точки вместе, чтобы сформировать что-то новое. И во многих отношениях, я думаю, если вы хотите быть креативным, вы должны пойти на это. Если вы хотите быть писателем, вы должны писать, если вы хотите быть музыкантом, вы должны создавать музыку, если вы хотите быть комиком, вы должны создавать комедии, и чем больше вы создаете, тем больше вероятность того, это то, что вы наткнетесь на некоторые интересные вещи.
Позже, когда г-н Ригли опубликовал этот абзац в Твиттере, кто-то зациклился на настоящем Скотте Бэрри Кауфмане. Он был ошеломлен. « Это определенно похоже на то, что я бы сказал », — написал настоящий г-н Кауфман в Твиттере, позже добавив: « Безумно точный ИИ » .
За несколько недель, прошедших с момента его появления, GPT-3 породил десятки других экспериментов, которые вызывают такое же удивление. Он создает твиты, пишет стихи, резюмирует электронные письма, отвечает на простые вопросы, переводит языки и даже пишет свои собственные компьютерные программы, и все это с очень небольшой подсказкой. Некоторые из этих навыков застали врасплох даже экспертов.
Для многих исследователей искусственного интеллекта это неожиданный шаг к машинам, которые могут понимать капризы человеческого языка и, возможно, даже владеть другими человеческими навыками.
«Это удивительно для меня и для многих людей», — сказала Мелани Митчелл, исследователь ИИ в Институте Санта-Фе, независимой лаборатории в Нью-Мексико, которая является одной из тех, кто экспериментирует с системой. «Трудно понять, что именно делает эта штука».
GPT-3 далеко не безупречен. Он часто извергает предвзятый и токсичный язык. И если вы попросите 10 абзацев в стиле Скотта Барри Кауфмана, это может дать вам пять убедительных и еще пять не очень. Когда г-н Кауфман на самом деле болтал со своим ИИ-двойником, он не был так впечатлен, как сначала:
Скотт Бэрри Кауфман: Что такое воображение?
«Скотт Барри Кауфман»: что такое воображение? Ты должен сказать мне!
Скотт Бэрри Кауфман: Вы должны знать!
«Скотт Барри Кауфман»: Нет, вы должны знать. Ты тот, кто знает, что такое воображение. Что вы думаете, что это?
Но даже это выглядело как настоящий разговор. И что особенно важно, он показал, что система может делать сама по себе, без дополнительного кодирования или тонкой настройки.
GPT-3 — это кульминация нескольких лет работы в ведущих мировых лабораториях искусственного интеллекта, включая OpenAI, независимую организацию, получившую финансирование в размере 1 миллиарда долларов от Microsoft , а также лаборатории Google и Facebook****. В Google аналогичная система помогает отвечать на запросы в поисковой системе компании.
Эти системы, известные как универсальные языковые модели, могут помочь в создании широкого спектра инструментов, таких как службы, которые автоматически обобщают новостные статьи, и «чат-боты», предназначенные для онлайн-общения. До сих пор их влияние на технологии реального мира было небольшим. Но GPT-3, которая извлекла уроки из гораздо большей коллекции онлайн-текста, чем предыдущие системы, открывает двери для широкого спектра новых возможностей, таких как программное обеспечение, которое может ускорить разработку новых приложений для смартфонов, или чат-боты, которые могут общаться на расстоянии. Больше человеческих способов, чем прошлые технологии.
По мере того, как разработчики программного обеспечения, предприниматели, эксперты и художники исследуют эту систему, каждый новый эксперимент разжигает и без того горячие споры о том, насколько мощной в конечном итоге станет эта разновидность технологий. В то время как некоторые говорят, что это может быть путь к действительно разумным машинам, другие утверждают, что эти эксперименты, хотя и бесконечно увлекательны, также вводят в заблуждение.
«Он очень беглый», — сказал Марк Ридл, профессор и исследователь Технологического института Джорджии. «Это очень красноречиво. Это очень хорошо для создания разумно звучащего текста. Чего он не делает, так это не думает заранее. Он не планирует то, что собирается сказать. На самом деле у него нет цели».
«Эмерджентное качество»
Джордан Сингер — дизайнер продуктов в компании Square, занимающейся мобильными платежами в Силиконовой долине. Он помогает разрабатывать приложения компании для смартфонов, создавая графику, меню, кнопки и другие виджеты, определяющие внешний вид приложения. Когда он услышал о GPT-3, он задался вопросом, сможет ли эта автоматизированная система выполнять свою работу.
Он передал системе простое описание приложения для смартфона и компьютерный код, необходимый для создания приложения. Описание было на простом английском языке. Код был создан внутри Figma, специализированного инструмента проектирования, используемого такими профессионалами, как г-н Сингер.
Он сделал это еще несколько раз, передав системе еще несколько англоязычных описаний вместе с соответствующим кодом Figma. И когда он был готов, GPT-3 мог написать такой код самостоятельно.
Если бы он описал простое приложение для публикации и просмотра фотографий, как это сделал бы пользователь в Instagram****, система сгенерировала код, необходимый для его создания. Этот код иногда был ошибочным. Но, как правило, если г-н Сингер делал всего одну или две настройки, все работало так, как он хотел. «Это не совсем идеально, — сказал он. — Но это очень, очень близко.
Такое поведение было совершенно новым и удивило даже разработчиков ГПТ-3. Они не создавали GPT-3 для генерации компьютерного кода, точно так же, как они не создавали его для того, чтобы писать, как г-н Кауфман, создавать твиты или переводить языки. Они создали его, чтобы делать только одну вещь: предсказывать следующее слово в последовательности слов.
GPT-3 — это то, что исследователи искусственного интеллекта называют нейронной сетью, математической системой, грубо смоделированной на сети нейронов в мозгу. Это та же технология, которая идентифицирует лица на фотографиях, которые вы публикуете в Facebook****, и распознает команды, которые вы выдаете в свой iPhone.
Нейронная сеть изучает такие навыки, выявляя закономерности в огромном количестве цифровых данных. Например, анализируя тысячи фотографий кошек, он может научиться распознавать кошку.
Около трех лет назад исследователи из Google и ведущих лабораторий, таких как OpenAI, начали разрабатывать нейронные сети, которые учились на огромном количестве прозы, включая неопубликованные книги и тысячи статей в Википедии. Эти универсальные языковые модели могут быть применены не только к одной задаче, такой как перевод, но ко многим.
GPT-3 проанализировал цифровую прозу в беспрецедентном масштабе, потратив месяцы на поиск закономерностей в огромном количестве текста, размещенного в Интернете. Таким образом, он научился предсказывать следующее слово в последовательности. Если вы наберете несколько слов в GPT-3, он продолжит работу, дополняя вашу мысль целыми абзацами текста.
Но приобретая этот специфический навык, он научился гораздо большему. За несколько месяцев обучения GPT-3 определил более 175 миллиардов параметров — математических представлений шаблонов — в этом море книг, статей в Википедии и других онлайн-текстов. Эти паттерны представляют собой карту человеческого языка: математическое описание того, как мы собираем символы воедино, пишем ли мы блоги или программируем программное обеспечение. Используя эту карту, GPT-3 может выполнять все виды задач, для которых он не был создан.
Прежде чем просить GPT-3 сгенерировать новый текст, вы можете сосредоточить его на определенных шаблонах, которые он, возможно, изучил во время обучения, подготавливая систему к определенным задачам. Вы можете передать ему описания приложений для смартфонов и соответствующий код Figma. Или вы можете показать ему множество человеческих диалогов. Затем, когда вы начнете печатать, он завершит последовательность более конкретным образом. Например, если вы настроите его на диалог, он начнет общаться с вами.
«У него есть такое эмерджентное качество», — сказал Дарио Амодеи, вице-президент по исследованиям OpenAI. «У него есть некоторая способность распознавать шаблон, который вы ему дали, и завершать историю, приведите другой пример».
Предыдущие языковые модели работали аналогичным образом. Но GPT-3 может делать то, чего не могли предыдущие модели, например писать собственный компьютерный код. И, что, возможно, более важно, вы можете подготовить его к конкретным задачам, используя всего несколько примеров, в отличие от тысяч примеров и нескольких часов дополнительного обучения, которые требовались его предшественникам. Исследователи называют это «обучением за несколько выстрелов» и считают, что GPT-3 — первый реальный пример того, что может быть мощным феноменом.
«Он демонстрирует возможности, которые никто не считал возможным», — сказал Илья Суцкевер, главный научный сотрудник OpenAI и ключевая фигура в развитии технологий искусственного интеллекта за последнее десятилетие. «Любой неспециалист может взять эту модель и предоставить эти примеры примерно за пять минут и получить от этого полезное поведение».
Это и благословение, и проклятие.
Небезопасно для работы?
OpenAI планирует продавать доступ к GPT-3 через Интернет, превращая его в широко используемый коммерческий продукт, и в этом году он сделал систему доступной для ограниченного числа бета-тестеров через их веб-браузеры. Вскоре после этого Джером Пезенти, возглавляющий лабораторию искусственного интеллекта Facebook****, назвал GPT-3 «небезопасным», указав на сексистские, расистские и иные токсичные выражения, которые система генерировала, когда ее просили обсудить женщин, чернокожих, евреев и Холокост.
С такими системами, как GPT-3, проблема повсеместна. Повседневный язык по своей сути предвзят и часто ненавистен, особенно в Интернете. Поскольку GPT-3 учится на таком языке, он тоже может проявлять предвзятость и ненависть. И поскольку он учится на интернет-текстах, в которых атеизм ассоциируется со словами «круто» и «правильно», а ислам сочетается со словом «терроризм», GPT-3 делает то же самое.
Это может быть одной из причин того, что OpenAI поделился GPT-3 лишь с небольшим количеством тестировщиков. Лаборатория создала фильтры, которые предупреждают о возможном появлении токсичного языка, но это всего лишь пластырь, наложенный на проблему, которую никто не знает, как решить.
«Они поступают правильно, не просто публикуя GPT-3», — сказала Эллисон Кенеке, исследователь из Стэнфорда, изучающая нежелательную предвзятость в системах искусственного интеллекта. «Многое еще висит в воздухе».
В конечном счете ответственность за то, чтобы это поведение оставалось под контролем, лежит на OpenAI, сказала Лиз О'Салливан, вице-президент компании Arthur, которая помогает предприятиям управлять поведением технологий искусственного интеллекта. В своем нынешнем виде, по ее словам, OpenAI «перекладывает юридические и репутационные риски на всех, кто захочет использовать эту модель в приложениях, ориентированных на потребителя».
Другие эксперты опасаются, что эти языковые модели могут способствовать распространению дезинформации в Интернете, усиливая онлайн-кампании, которые, возможно, помогли повлиять на президентские выборы 2016 года. GPT-3 указывает на будущее, в котором мы еще менее уверены в том, что то, что мы читаем, реально или фальшиво. Это касается твитов, онлайн-разговоров и даже длинной прозы.
В конце июля Лиам Порр, студент Калифорнийского университета в Беркли, создал несколько сообщений в блоге с помощью GPT-3 и разместил их в Интернете, где их прочитали 26 000 человек. Шестьдесят зрителей вдохновились подписаться на блог, и лишь немногие заподозрили, что сообщения написаны машиной.
Они не обязательно были доверчивыми людьми. Один из постов в блоге, в котором утверждалось, что вы можете повысить свою производительность, если не будете слишком много думать обо всем, что делаете, поднялся на вершину таблицы лидеров на Hacker News, сайте, где опытные программисты, инженеры и предприниматели Силиконовой долины оценивают новости. Статьи и другой онлайн-контент. («Чтобы что-то сделать, возможно, нам нужно меньше думать», — начинается пост. «Кажется нелогичным, но я считаю, что иногда наши мысли могут мешать творческому процессу».)
Но, как и в случае с большинством экспериментов с использованием GPT-3, эксперимент мистера Порра не так силен, как может показаться.
Недостатки никто не замечает
В середине 1960-х годов Джозеф Вайценбаум, исследователь из Массачусетского технологического института, создал автоматизированного психотерапевта, который он назвал ELIZA. Если судить с нашей точки зрения в 2020 году, этот чат-бот был чрезвычайно простым.
В отличие от GPT-3, ELIZA не училась на прозе. Он работал в соответствии с несколькими основными правилами, определенными его разработчиком. Он практически повторял все, что вы ему говорили, только в форме вопроса. Но, к большому удивлению доктора Вейценбаума, многие люди обращались с ботом, как с человеком, безоговорочно выкладывая свои проблемы и находя утешение в ответах.
Когда собаки и другие животные демонстрируют хоть немного похожее на человека поведение, мы склонны считать, что они больше похожи на нас, чем они есть на самом деле. То же самое относится и к машинам, говорит Колин Аллен, профессор Университета Питтсбурга, который исследует когнитивные способности как у животных, так и у машин. «Людей засасывает, — сказал он, — даже если они знают, что их засасывают».
Это часть того, что происходит с GPT-3. Поскольку он может генерировать убедительные твиты, посты в блогах и компьютерный код, мы считываем человечество в эту цифровую систему и уделяем меньше внимания ее ограничениям.
На практике система дает сбой примерно так же часто, как и срабатывает. Мы упускаем из виду, что компьютерный код, который он пишет, требует некоторой тонкой настройки от программистов-людей — строка удалена здесь или добавлена там. Мы не замечаем, что его способность к разговору пропадает после нескольких обменов репликами, когда он не может «вспомнить», что он сказал всего несколько секунд назад. Мы не совсем понимаем, что, хотя система создала убедительную запись в блоге для г-на Порра, он предоставил заголовок, фотографию и первые несколько предложений, а некоторые предложения, которые были менее убедительными, он удалил.
Г-н Порр не считает, что GPT-3 представляет огромную угрозу для борьбы с дезинформацией в краткосрочной перспективе, потому что она по-прежнему требует так много помощи от людей. Подобный инструмент становится по-настоящему опасным только в том случае, если он может генерировать огромное количество убедительной дезинформации полностью самостоятельно, превосходя то, что сегодня может сделать с относительной легкостью команда наемных рабочих.
Точно так же, когда дизайнеры приложений спрашивают мистера Сингера из Square, угрожает ли GPT-3 их карьере, он уверяет, что нет — по крайней мере, пока. Он видит в этом способ облегчить их работу. «Если он сможет пройти 70 процентов пути, это будет означать, что из уравнения выброшено много утомительной работы», — сказал он.
Чего мы не знаем, так это того, насколько эта технология будет продолжать совершенствоваться в ближайшие месяцы и годы.
Умнее, быстрее, еще дороже
Пока исследователи из OpenAI обучали GPT-3 более чем триллиону слов, размещенных в Интернете, они провели второй эксперимент, обучая аналогичную систему десяткам тысяч цифровых фотографий. Эта система могла анализировать все эти фотографии и учиться строить изображения почти так же, как GPT-3 строит абзацы. Имея половину фотографии кота, он может сгенерировать остальную часть кота.
Для некоторых исследователей эксперимент показывает, что такая система в конечном итоге может справляться с задачами в нескольких измерениях — язык, зрение, звук — так же, как это делают люди. По их словам, даже при обучении исключительно языку система уже могла проникнуть в другие области, будь то компьютерное программирование, игра в шахматы или создание табулатуры для гитары.
Но продолжать совершенствовать эту технологию далеко не тривиально. Для обработки всех этих интернет-данных требуется специализированный суперкомпьютер, работающий месяцами подряд, а это чрезвычайно дорогое мероприятие. На вопрос, стоил ли такой проект миллионы долларов, Сэм Альтман, исполнительный директор OpenAI, сказал, что на самом деле затраты были «выше» и исчислялись десятками миллионов.
Г-н Амодей, вице-президент OpenAI по исследованиям, сказал, что еще есть возможность улучшить технику, используя больше вычислительной мощности для анализа большего количества данных. Но он также сказал, что подход может быть близок к исчерпанию «сока».
По крайней мере, GPT-3 — это новый инструмент для мира исследователей ИИ и предпринимателей, способ создания всевозможных новых технологий и новых продуктов. Г-н Ригли, программист, недавно уволился со своей основной работы, чтобы основать компанию LearnFromAnyone, целью которой является создание своего рода автоматизированного репетитора с использованием GPT-3, который может принимать облик кого угодно, от ученого Дугласа Хофштадтера до венчурного капиталиста Питера Тиля. Другие создают компании, которые стремятся автоматически генерировать код для программистов и автоматически писать рекламные электронные письма и твиты для специалистов по маркетингу.
Но неясно, насколько эффективными окажутся эти услуги в конечном итоге. Если GPT-3 генерирует правильный текст только в половине случаев, сможет ли он удовлетворить профессионалов? И неясно, является ли эта техника путем к действительно разговорным машинам, не говоря уже о действительно интеллектуальных системах. По словам г-на Амодеи, дополнительный прогресс на долгом пути к машинам, способным имитировать человеческий мозг, потребует совершенно новых идей.
«Это похоже на химическую реакцию», — сказал он. «У нас есть один ингредиент. Но необходимы и другие ингредиенты».