Denis
Denis Подписчиков: 0

Коллапс ИИ: чем грозит самоoбучение на искусственных данных?

2 дочитывания
0 комментариев
Эта публикация уже заработала 0,10 рублей за дочитывания
Зарабатывать

Какие последствия могут возникнуть, если нейронные сети начнут обучаться на собственно сгенерированных данных? Одной из возможных конечных точек может быть быстрая деградация моделей искусственного интеллекта.

Использование нейросетей для создания контента стало широко распространенной практикой. Например, многие сотрудники McKinsey применяют инструменты генеративного искусственного интеллекта в своей работе, и эта тенденция только усиливается. Обычно данные, на которых обучаются нейросети, созданы людьми, такие как книги, статьи и фотографии. Однако, что произойдет, когда нейросети начнут обучаться на контенте, созданном другими нейросетями?

Исследователи из Великобритании и Канады провели исследование, в котором исследовали этот вопрос. Их выводы неутешительны: использование данных, созданных другими нейросетями для обучения, приводит к необратимым дефектам в полученных моделях.

Особое внимание исследователи уделили вероятностным распределениям текстовых и генеративных моделей ИИ, которые генерируют изображения. Оказалось, что обучение на данных, созданных другими моделями, вызывает "коллапс моделей" - процесс, при котором модели со временем забывают истинное распределение исходных данных. Этот процесс происходит довольно быстро.

Со временем ошибки в сгенерированных данных накапливаются, что приводит к еще большим искажениям реальности в моделях, обученных на таких данных. Они становятся все менее точными в своих ответах и генерируемом контенте, а также производят все меньше уникального и непротиворечивого контента.

Один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон, заявил: "Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить Интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем анализа веб-сайтов и даст преимущество компаниям, которые уже осуществили эту работу или контролируют

Что вызывает деградацию моделей



Проблема деградации качества искусственного интеллекта можно сравнить с увеличением артефактов при повторном копировании изображения в формате JPEG. Кроме того, можно привести аналогию с комедией «Множество» (1996 год), где главный герой клонирует самого себя и затем клонирует этих клонов, что приводит к понижению интеллектуального уровня с каждым новым клоном.

Коллапс моделей происходит, когда данные, сгенерированные искусственными интеллектами, загрязняют набор данных, используемых для обучения последующих моделей. Оригинальные данные, созданные людьми, лучше отражают реальный мир, так как они содержат как правдоподобную, так и неправдоподобную информацию. Генеративные модели, напротив, склонны к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные.

Например, если модель обучается на наборе данных, включающем 10 изображений синих кошек и 90 изображений желтых кошек, искусственный интеллект запоминает, что желтые кошки преобладают и может даже показывать синие кошки с желтоватым оттенком. При запросе новых данных модель может даже выдавать зеленых кошек. С каждым циклом обучения синие кошки могут заменяться зеленоватыми и в конечном итоге становиться желтыми.

Загрязнение данных, сгенерированными искусственными интеллектами, приводит к искажению моделями восприятия реальности. Даже если исследователи пытаются обучать модели избегать слишком многократных повторений ответов, они обнаруживают, что коллапс все равно происходит, поскольку искусственный интеллект начинает давать ошибочные ответы, чтобы избежать чрезмерного повторения данных.

Как решить проблему



Исследователи выделяют два подхода, которые помогут избежать деградации моделей.

Первый подход заключается в сохранении оригинального датасета, который в основном или полностью создан людьми, и предотвращении его смешивания с данными, сгенерированными искусственными интеллектами. В этом случае модель может периодически обучаться на этих оригинальных данных или полностью обновляться с их использованием.

Второй подход, который может предотвратить деградацию качества ответов и сократить количество ошибок, заключается в повторном введении в обучение искусственного интеллекта нового, очищенного датасета, созданного людьми.

Однако исследователи отмечают, что для реализации этих подходов потребуется создание механизма массовой маркировки данных или сотрудничество между создателями контента и компаниями по разработке искусственного интеллекта, чтобы четко разделить данные, сгенерированные людьми и машинами. Также важно обеспечить справедливое представление менее популярной информации в датасете, как в отношении количества, так и качества, а также точного описания характеристик данных. Это представляет серьезный вызов, поскольку обучение моделей на редких событиях является сложной задачей.

Есть ли будущее у ИИ?

Проголосовали: 1

Проголосуйте, чтобы увидеть результаты

Понравилась публикация?
8 / 0
нет
0 / 0
Подписаться
Донаты ₽

Не про зарплаты и дороги. Какой вопрос вы бы задали президенту нашему Владимиру Путину, чтобы понять главное? Мой личный опыт

Приветствую, дорогие читатели! Знаю, многие сейчас "жмутся" от одной мысли: «Ой, опять эти «прямые линии»… А смысл?» Понимаю это чувство полного скепсиса. Я и сама такой скептик, пока лично не столкнулась.

Бес попутал. Подросток, который пытался изнасиловать 10-летнюю девочку в Екатеринбурге может избежать наказания

Подросток, который в Екатеринбурге пытался изнасиловать 10-летнюю девочку скорее всего избежит наказания. Все произошло 2 декабря этого года в микрорайоне ЖБИ, когда девочка возвращалась домой.
00:55
Поделитесь этим видео