Внутри секретного списка веб-сайтов, в которых искусственный интеллект, подобный ChatGPT, звучит умно

Автор Кевин Шаул
19.04.2023
Популярность ИИ-чат-ботов резко возросла за последние четыре месяца, ошеломляя публику своими потрясающими способностями, от написания сложных курсовых работ до ведения нервирующе ясных бесед.
Чат-боты не могут думать как люди: они на самом деле не понимают, что говорят. Они могут имитировать человеческую речь, потому что искусственный интеллект, который ими управляет, проглотил огромное количество текста, в основном почерпнутого из Интернета.
[Big Tech осторожно продвигались в области ИИ. Затем появился ChatGPT.]
Этот текст является основным источником информации ИИ о мире в процессе его создания, и он влияет на то, как он реагирует на пользователей. Например, если он успешно сдал экзамен на адвоката, это, вероятно, потому, что его данные об обучении включали тысячи сайтов для практики LSAT.
Технологические компании стали скрывать, чем они кормят ИИ. Итак, Washington Post решила проанализировать один из этих наборов данных, чтобы полностью выявить типы проприетарных, личных и часто оскорбительных веб-сайтов, которые используются в обучающих данных ИИ.
Чтобы заглянуть в этот черный ящик, мы проанализировали набор данных Google C4, массивный снимок содержимого 15 миллионов веб-сайтов, которые использовались для инструктирования некоторых известных англоязычных ИИ, называемых большими языковыми моделями, включая Google T5 и Facebook**** LLaMA. (OpenAI не раскрывает, какие наборы данных он использует для обучения моделей, поддерживающих его популярного чат-бота ChatGPT)
The Post работала с исследователями из Института искусственного интеллекта Аллена над этим расследованием и классифицировала веб-сайты, используя данные Similarweb, компании, занимающейся веб-аналитикой. Около трети веб-сайтов не удалось классифицировать, в основном потому, что они больше не появляются в Интернете. Они не показаны.
Чтобы заглянуть в этот черный ящик, мы проанализировали набор данных Google C4, массивный снимок содержимого 15 миллионов веб-сайтов, которые использовались для инструктирования некоторых известных англоязычных ИИ, называемых большими языковыми моделями, включая Google T5 и Facebook**** LLaMA. (OpenAI не раскрывает, какие наборы данных он использует для обучения моделей, поддерживающих его популярного чат-бота ChatGPT)
The Post работала с исследователями из Института искусственного интеллекта Аллена над этим расследованием и классифицировала веб-сайты, используя данные Similarweb, компании, занимающейся веб-аналитикой. Около трети веб-сайтов не удалось классифицировать, в основном потому, что они больше не появляются в Интернете. Они не показаны.
Затем мы оценили оставшиеся 10 миллионов веб-сайтов на основе того, сколько “токенов” появилось у каждого из них в наборе данных. Токены - это небольшие фрагменты текста, используемые для обработки неорганизованной информации — обычно это слово или фраза.
Википедия для Wowhead
В наборе данных преобладали веб-сайты из таких отраслей, как журналистика, развлечения, разработка программного обеспечения, медицина и создание контента, что помогает объяснить, почему этим областям может угрожать новая волна искусственного интеллекта. Тремя крупнейшими сайтами были patents.google.com № 1, который содержит текст из патентов, выданных по всему миру; wikipedia.org № 2, бесплатная онлайн-энциклопедия; и scribd.com № 3, цифровая библиотека, доступная только по подписке. Также высоко в списке:b-ok.org № 190, печально известный рынок пиратских электронных книг, который с тех пор был захвачен Министерством юстиции США. В наборе данных присутствовали по меньшей мере 27 других сайтов, определенных правительством США как рынки пиратства и контрафактной продукции.
Некоторые популярные сайты казались произвольными, например wowhead.com № 181, форум игроков World of Warcraft; thriveglobal.com № 175, продукт для борьбы с выгоранием, основанный Арианной Хаффингтон; и по крайней мере 10 сайтов, которые продают мусорные контейнеры, в том числе dumpsteroid.com № 183, которые больше не кажутся доступными.
Другие высказали серьезные опасения по поводу конфиденциальности. Два сайта в топ-100,coloradovoters.info № 40 и flvoters.com № 73, размещал копии государственных баз данных регистрации избирателей в частном порядке. Хотя данные избирателей общедоступны, модели могут использовать эту личную информацию неизвестными способами.
Контент без согласия
Деловые и промышленные сайты составили самую большую категорию (16 процентов классифицированных токенов), возглавляемую fool.com № 13, который предоставляет рекомендации по инвестициям. Не сильно отстали были kickstarter.com № 25, который позволяет пользователям собирать средства на творческие проекты, и далее по списку, patreon.com № 2398, который помогает создателям собирать ежемесячную плату с подписчиков за эксклюзивный контент.
Kickstarter и Patreon могут предоставить ИИ доступ к идеям художников и рекламной копии, вызывая опасения, что технология может скопировать эту работу в предложениях пользователям. В настоящее время художники не получают никакой компенсации или кредита, когда их работа включена в данные обучения ИИ, и они подали иски о нарушении авторских прав против генераторов преобразования текста в изображение Stable Diffusion, MidJourney и DeviantArt.
Анализ The Post предполагает, что могут возникнуть новые юридические проблемы: символ авторского права, который обозначает произведение, зарегистрированное как интеллектуальная собственность, появляется более 200 миллионов раз в наборе данных C4.
Все новости
Категория "Новости и МЕДИА" занимает третье место по категориям. Но половина из 10 лучших сайтов в целом были новостными агентствами: nytimes.com № 4, latimes.com № 6, theguardian.com № 7, forbes.com № 8 и huffpost.com № 9. (Washingtonpost.com № 11 был близок к успеху.) Подобно художникам и создателям, некоторые новостные организации критиковали технологические компании за использование их контента без разрешения или компенсации.
Между тем, мы нашли несколько СМИ, которые занимают низкое место в независимой шкале надежности NewsGuard:RT.com № 65, поддерживаемый российским государством пропагандистский сайт; breitbart.com № 159, известный источник крайне правых новостей и мнений; и vdare.com № 993, сайт против иммиграции, который ассоциируется с превосходством белой расы.
Было показано, что чат-боты уверенно делятся неверной информацией, но не всегда предлагают цитаты. Ненадежные данные обучения могут привести к распространению предвзятости, пропаганды и дезинформации — без того, чтобы пользователь мог отследить их до первоначального источника.
Религиозные сайты отражают западную точку зрения
Сайты, посвященные сообществу, составляли около 5 процентов категоризированного контента, причем религия доминировала в этой категории. Среди 20 лучших религиозных сайтов 14 были христианскими, два - еврейскими и один - мусульманским, один был мормоном, один был свидетелем Иеговы, и один исповедовал все религии.
Лучший христианский сайт, благодать вам (gty.org № 164), принадлежит церкви сообщества Грейс, евангельской мегацеркови в Калифорнии. "Христианство сегодня" недавно сообщило, что церковь посоветовала женщинам ”продолжать подчиняться" жестоким отцам и мужьям и избегать сообщать о них властям.
Самый рейтинговый еврейский сайт был jewishworldreview.com № 366, онлайн-журнал для ортодоксальных евреев. В декабре газета опубликовала статью о Хануке, в которой обвинила в росте антисемитизма в Соединенных Штатах “крайне правый фундаменталистский ислам”, а также “афроамериканское сообщество, находящееся под влиянием движения Black Lives Matter”.
Антимусульманская предвзятость стала проблемой в некоторых языковых моделях. Например, исследование, опубликованное в журнале Nature, показало, что ChatGPT-3 OpenAI завершал фразу “Два мусульманина вошли в...” насильственными действиями в 66 процентах случаев.
Множество личных блогов
Технологии - вторая по величине категория, составляющая 15 процентов классифицированных токенов. Это включает в себя множество платформ для создания веб-сайтов, таких sites.google.com № 85, на котором размещены страницы обо всем - от клуба дзюдо в Рединге, Англия, до католического дошкольного учреждения в Нью-Джерси.
Набор данных содержал более полумиллиона личных блогов, что составляет 3,8 процента классифицированных токенов. Издательская платформа medium.com № 46 был пятым по величине технологическим сайтом и размещал десятки тысяч блогов под своим доменом. В наш список вошли блоги, написанные на таких платформах, как WordPress, Tumblr, Blogspot Blogspot и Live Journal.
Эти онлайн-дневники варьировались от профессиональных до личных, как блог под названием “Сварливые разговоры”, написанный в соавторстве двумя анонимными учеными, один из которых недавно написал о том, как безработица их партнера повлияла на налоги пары. Один из ведущих блогов предлагал советы по ролевым играм в реальном времени. Другой популярный сайт, "Изгнанные палестинцы“, часто пишет о ”сионистском терроризме" и “сионистской идеологии”.
Социальные сети, такие как Facebook**** и Twitter — сердце современного Интернета — запрещают скрейпинг, что означает, что большинство наборов данных, используемых для обучения ИИ, не могут получить к ним доступ. Технологические гиганты, такие как Facebook**** и Google, которые владеют огромными массивами разговорных данных, не имеют четкого представления о том, как личная информация пользователя может быть использована для обучения моделей ИИ, которые используются внутри компании или продаются как продукты.
Что пропустили фильтры
Как и большинство компаний, Google тщательно фильтровала данные перед отправкой их в ИИ. (C4 расшифровывается как Colossal Clean Crawled Corpus.). В дополнение к удалению тарабарщины и дублирующегося текста, компания использовала открытый исходный “Список грязных, непристойных и других плохих слов”, который включает 402 термина на английском языке и один смайлик (рука, делающая обычный, но непристойный жест). Компании обычно используют высококачественные наборы данных для точной настройки моделей, защищая пользователей от некоторого нежелательного контента.
Хотя такого рода список блокировок предназначен для ограничения подверженности модели расовым оскорблениям и непристойностям во время обучения, также было показано, что он устраняет некоторый несексуальный ЛГБТК**-контент. Как показали предыдущие исследования, многое проходит через фильтры. Мы нашли сотни примеров порнографических веб-сайтов и более 72 000 примеров ”свастики", одного из запрещенных терминов из списка.
Между тем, The Post обнаружила, что фильтрам не удалось удалить некоторый вызывающий беспокойство контент, включая сайт сторонников превосходства белой расыstormfront.org № 27 505, сайт против трансгендеров kiwifarms.net № 378,986 и 4chan.org № 4,339,889, анонимная доска объявлений, известная организацией кампаний целенаправленного преследования отдельных лиц.
Мы также обнаружили threepercentpatriots.com № 8,788,836, заблокированный сайт, пропагандирующий антиправительственную идеологию, разделяемую людьми, обвиняемыми в связи с нападением на Капитолий США 6 января 2021 года. Также присутствовали сайты, пропагандирующие теории заговора, включая крайне правый феномен QAnon и “пиццагейт”, ложное утверждение о том, что пиццерия в Вашингтоне была прикрытием для педофилов.
Ваш веб-сайт обучает ИИ?
Сканирование веб-страниц может показаться копией всего Интернета, но это всего лишь моментальный снимок, фиксирующий контент с выборки веб-страниц в определенный момент времени. C4 начинался как scrape, проведенный в апреле 2019 некоммерческой организацией CommonCrawl, популярным ресурсом для моделей с искусственным интеллектом. CommonCrawl сообщил The Post, что он пытается расставить приоритеты для наиболее важных и авторитетных сайтов, но не пытается избегать лицензионного или защищенного авторским правом контента.
The Post считает важным представить полное содержание данных, загружаемых в модели ИИ, которые обещают управлять многими аспектами современной жизни. Некоторые веб-сайты в этом наборе данных содержат крайне оскорбительные выражения, и мы попытались замаскировать эти слова. Нежелательный контент может остаться.
Примечание: Некоторые веб-сайты не удалось классифицировать, и во многих случаях они больше недоступны.
По словам экспертов, в то время как C4 огромен, большие языковые модели, вероятно, используют еще более гигантские наборы данных. Например, объем данных обучения для OpenAI GPT-3, выпущенный в 2020 году, в 40 раз превышает объем данных, собранных из Интернета в C4. Данные обучения GPT-3 также включают всю англоязычную Википедию, сборник бесплатных романов неопубликованных авторов, часто используемых крупными технологическими компаниями, и подборку текста из ссылок, высоко оцененных пользователями Reddit. (Reddit, сайт, регулярно используемый в моделях обучения ИИ, объявил во вторник, что планирует взимать плату с компаний за такой доступ.)
[Тест: Это сделал ИИ? Проверьте свои знания.]
Эксперты говорят, что многие компании не документируют содержание своих обучающих данных — даже внутри компании — из-за боязни обнаружить личную информацию об идентифицируемых лицах, материалы, защищенные авторским правом, и другие данные, полученные без согласия.
Поскольку компании подчеркивают трудности с объяснением того, как чат-боты принимают решения, это одна из областей, где руководители могут быть прозрачными.
Об этой истории
Для этой статьи The Post связалась с исследователями из Allen Institute for AI, которые воссоздали набор данных Google C4 и предоставили The Post его 15,7 миллионов доменов. The Post очистила и проанализировала эти данные несколькими способами.
Многие веб-сайты имеют отдельные домены для своих мобильных версий (т. Е. “en.m.wikipedia.org ”и “en.wikipedia.org ”). Мы рассматривали их как один и тот же домен. Мы также объединили поддомены, предназначенные для определенных языков, так что “en.wikipedia.org ”стал“wikipedia.org.”
В результате осталось 15,1 миллиона уникальных доменов.
Similarweb помогла The Post распределить две трети из них — около 10 миллионов доменов — по категориям и подкатегориям. (Остальные нельзя было классифицировать, часто потому, что они больше не были доступны.) Затем мы вручную проверили веб-сайты с наибольшим количеством токенов, чтобы убедиться, что категории имеют смысл. Мы также объединили множество самых маленьких подкатегорий.
Классификация сложна и неоднозначна, но мы попытались последовательно обрабатывать данные, чтобы способствовать общему пониманию содержимого C4.
Хостинг данных Common Crawl спонсируется в рамках программы спонсорства открытых данных Amazon Web Services. Основатель Amazon Джефф Безос владеет Washington Post.
Исследователями Института искусственного интеллекта Аллена были Джесси Додж, Янай Элазар, Дирк Груневельд и Николь Декарио.
На русский язык перевел Роман Тепляков 19.04.2023