ChatGPT. Вся правда о больших языковых моделях. Кому они служат и кому могут навредить. Часть 3
Ошибаться по-человечески

Для моделей, обрабатывающих визуальные данные, одних фотографий или изображений недостаточно для их обучения. Необходимо также классифицировать их и описать то, что на них видно. Это могут сделать только люди - с их (часто неосознанными) предубеждениями и стереотипами.
Начнем с того, что даже попытка описать фотографию совершенно безобидного предмета может оказаться далеко не тривиальным делом. В конце концов, с 2015 года о фотографии черно-золотого (или сине-белого?) платья написаны целые научные труды.
Попробуйте классифицировать фотографии людей, и дело станет еще сложнее.
ImageNet, один из самых популярных тренировочных наборов данных для моделей, работающих с изображениями, основан на готовой иерархической базе данных значений WordNet для английского языка, с категориями для профессии, этнической принадлежности или сексуальных предпочтений, среди прочих.
Другими словами, ImageNet " предполагает, что вам достаточно взглянуть на чью-то фотографию, чтобы определить, кто он - "должник", "сноб", "свингер" или "славянин". В странной онтологии ImageNet есть отдельные категории для "адъюнкта" и "профессора". Как будто повышение по службе должно вызвать изменения в чьей-то физиономии, отражающие изменение профессионального положения", читает "Excavating AI", феноменальный трактат о проблемах данных, используемых для обучения моделей распознавания образов.
Категория "тело человека" находится в подотрасли "Естественные объекты, Тело, Тело человека". Ее подкатегориями являются "мужское тело", "человек", "детское тело", "взрослое тело", "женское тело".
Категория "тело взрослого" содержит подкатегории "тело взрослой женщины" и "тело взрослого мужчины". Здесь мы находим неявное предположение: только "мужские" или "женские" тела являются "естественными". Для небинарных личностей система категоризации ImageNet предоставляет подкатегорию "гермафродит", которую можно найти в дереве Natural Object.
Коллекции файлов изображений и системы категоризации недостаточно - кто-то все равно должен просмотреть и распределить изображения по имеющимся категориям. При создании ImageNet использовался дешевый человеческий труд, доступный через сервис Amazons Mechanical Turk. Поэтому присвоение категорий, включая расу или сексуальные предпочтения, изображениям в ImageNet было основано на "догадках кликеров о том, что можно увидеть на изображениях, загруженных из интернета", - заключает Excavating AI.
Сигурни Уивер - гермафродит?
Эффект? Согласно ImageNet, актриса Сигурни Уивер (известная, например, по серии фильмов "Чужой") является "гермафродитом".
WordNet для английского языка начал создаваться в 1980-х годах. ImageNet, который ее использует, - около 15 лет назад. Сколько новых моделей распознавания или обработки изображений было обучено на этих категориях и данных с тех пор?
"Пределы моего языка - это пределы моего мира", - писал Людвиг Витгенштейн. Наше описание и понимание реальности меняется, а описание изображений однажды обученной моделью ИИ - нет. Мы не просто воспроизводим наши предубеждения, мы их закрепляем.
Создавая ChatGPT, OpenAI также опирался на труд низкооплачиваемой рабочей силы.
С ноября 2021 года OpenAI отправил десятки тысяч текстовых фрагментов в аутсорсинговую компанию в Кении. Значительная часть из них, очевидно, была взята из самых темных уголков Интернета. Некоторые из них подробно описывали ситуации, связанные с сексуальным насилием над детьми, зоофилией, убийствами, самоубийствами, пытками, членовредительством или инцестом, пишет журнал Time.
В обмен на то, что они подвергались воздействию такого контента, модераторы получали менее двух долларов в час от компании, которая сейчас стоит почти тридцать миллиардов долларов.
Экоколониализм
Два года назад группа женщин-исследователей (включая тех, кто работает над моделями машинного обучения в Google) написала ключевую научную работу, посвященную рискам больших языковых моделей - к которым сегодня относится ChatGPT.
Среди прочего, авторы рассматривают влияние обучения и поддержки таких моделей на окружающую среду. Обучение моделей на порядок меньших, чем ChatGPT, приводит к выбросу в атмосферу сотен тонн CO2, требует невообразимых затрат энергии и огромных аппаратных ресурсов.
Другими словами, инструменты типа ChatGPT могут быть созданы и контролироваться только огромными компаниями. Неудивительно, что Microsoft собирается инвестировать 10 миллиардов долларов в OpenAI. Это должно стать отправной точкой в любом разговоре об их "демократическом" использовании.
И хотя эти инструменты в основном нацелены на рынок развитого Глобального Севера, с последствиями изменения климата из-за выбросов CO2 уже напрямую сталкиваются жители Глобального Юга.
Справедливо ли, чтобы жители Мальдивских островов, которые, вероятно, исчезнут под водой к 2100 году или 800 000 человек в Судане, страдающих от сильных наводнений, платили бы экологическую цену за обучение и внедрение больших англоязычных моделей, когда аналогичные по размеру модели вообще не разрабатываются для языков дивени или арабского языка, используемого в Судане?, спрашивают исследователи, которые были уволены или вынуждены уйти из компании Google вскоре после публикации статьи.
Mansplaining как услуга
Google только что продемонстрировал свой ответ на ChatGPT. Во время демонстрации инструмент Google Bard не избежал неправильного ответа на довольно простой вопрос о телескопе Уэбба.
Качество ответов только что выпущенного компанией Microsoft чат-бота, интегрированного в поисковую систему Bing, не лучше.
В ответ на запрос о списке нескольких "героев" ChatGPT перечислил норвежского массового убийцу Андерса Брейвика. Он также не очень хорошо работает с фактами и цитированием источников, причем настолько, что выдает имена несуществующих авторов и научные работы.
"ChatGPT смог сгенерировать полные библиографические данные для этой цитаты - я проверил ее еще раз и обнаружил, что такой статьи не существует". Тем не менее, ChatGPT охотно обобщил для меня ее содержание", - пишет Тереза Кубачка, эксперт по науке о данных, которую цитирует польская организация по проверке фактов Demagog.
Проблема в том, что эти и подобные им инструменты генерируют текст, часто содержащий фактические ошибки, но всегда пронизанный доверием. Это похоже на Mansplaining-as-a-Service ("мужская болтовня как услуга").
Demagogue также изучил ответы ChatGPT и пришел к аналогичным выводам.
Кризис с дезинформацией будет усугубляться
"В моем последнем тесте инструмент изо всех сил пытался убедить меня, что немцы, включая Вильгельма Кейтеля лично, несут ответственность за Катынскую резню", - слышу я от доктора Павла Терпиловского из Demagog. Он подчеркивает, что очень важно иметь возможность проверить информацию в нескольких, независимых и надежных источниках.
Ведь никто не обладает монополией на истину - она определяется фактами. В эпоху полуавтоматизированного, а со временем, возможно, и полностью автоматизированного создания контента, важность проверки фактов будет только возрастать.
Поэтому влияние ChatGPT и подобных языковых моделей на дезинформацию будет асимметричным. Они не подходят для автоматизированной проверки фактов. Однако они будут хорошо работать для создания фактологически противоречивого, но хорошо звучащего контента, который необходимо кропотливо проверять. Кризис дезинформации будет только усугубляться.
Великий социальный эксперимент
Профессор Пшегалинска права: ChatGPT, подобные огромные языковые модели и продвинутые модели машинного обучения в целом, - это "великий социальный эксперимент, в котором мы все принимаем участие". Однако никто не спрашивал нашего согласия на него.
Не спросили художников, чьи работы использовались для обучения инструментов, которые сегодня копируют их стиль. Нас не спросили у женщин-программистов, чей код из GitHub попал в Copilot.
Нас не спросили, удобно ли нам работать с машинами, которые способствуют созданию дезинформации. Не спросили людей, чьи изображения использовались в ImageNet и других обучающих наборах данных.
И никто не потрудился спросить, хорошая ли это идея - применять инструменты, обученные на данных, полных стереотипов и предрассудков, при оценке нас в школе, на рабочем месте или в аэропорту.
Технология не является ни хорошей, ни плохой, ни нейтральной. Мы можем создать нож для масла, которым сложно кого-то поранить, так же мы можем создать модели машинного обучения, которые минимизируют подобные риски и злоупотребления.
Исследователи искусственного интеллекта, такие как доктор Алхатиб или доктор Тимнит Гебру (один из исследователей, вынужденных покинуть Google из-за вышеупомянутой публикации), показывают в своих научных работах, как это сделать.
Возникает вопрос, нужны ли вообще эти огромные модели, не лучше ли сосредоточиться на более мелких, специализированных моделях, требующих меньших наборов обучающих данных. Тщательно описывайте эти наборы данных, внимательно изучайте их на предмет предвзятости и стереотипов. Инвестируйте время в разработку моделей для конкретных приложений, требующих меньше энергии и ресурсов, вместо того чтобы сосредоточиться на создании все более крупных общих моделей.
Однако это будет означать дополнительные расходы и меньшие шансы на публичность, на что, в конце концов, не могут согласиться акционеры Microsoft, Google или Amazon. Как видите, мы все вынуждены считаться с их мнением.
Женщины и темнокожие
Без дополнительного продуманного вмешательства со стороны создателей модель, обученная на таких данных, будет (в некотором упрощении) присваивать женщинам или темнокожим людям более низкие значения вероятности стать кандидатом наук.
Если мы используем такую модель для оценки кандидатских диссертаций, мы столкнемся с проблемой, очень похожей на проблему с системой Amazon, о которой говорилось ранее.
"Многие алгоритмы, созданные крупными технологическими компаниями, такими как Google, Microsoft и Amazon, демонстрируют гендерную предвзятость", - пишет The Guardian.
Эксперимент, проведенный для статьи, показал, что модели, оценивающие "эротичность" фотографий, классифицировали похожие изображения совершенно по-разному, основываясь исключительно на том, изображены ли на них мужчины или женщины. Подобные инструменты используются, например, в LinkedIn, и на основе их оценок сообщения продвигаются или замалчиваются.
Обучающие данные также могут просто не содержать определенных категорий. Тривиальный пример: если мы обучим простую модель распознавания изображений на изображениях цифр (например, на популярном наборе данных MNIST), она будет распознавать только цифры. Когда мы попытаемся распознать с ее помощью буквы, модель все равно вернет наиболее вероятные "распознанные" цифры. Буквы просто не существуют в контексте этой модели.
Заключение
Примечательно, что еще в 2021 году студенты Оксфордского университета решили побеседовать с ИИ. Главное, что интересовало исследователей, насколько ИИ этичен. Ответ их ошарашил.
«Искусственный интеллект никогда не будет этичен. Это инструмент, и, как любой инструмент, он используется и во благо, и во зло. Не бывает хорошего искусственного интеллекта, бывают только хорошие и плохие люди. Мы не настолько умны, чтобы сделать ИИ этичным. Мы не настолько умны, чтобы сделать ИИ моральным. В целом я считаю, что единственный способ избежать гонки вооружений на базе ИИ - не использовать ИИ совсем. Это будет окончательной защитой от ИИ», - цитирует Life ответ нейросети студентам.
Сегодня многие в обществе относятся скептически, а то и с недоверием к данным, полученным с помощью ИИ. К примеру, во время пандемии коронавируса Сбер воспользовался им, чтобы вычислить пик заболеваемости.
Полученный результат не совпал с данными авторитетных вирусологов, и, как показала жизнь, последние оказались правы.
Источник: Wikipedia
ИИ это интересно, и как то страшновато.