Александр
Александр Подписчиков: 1096
Рейтинг Рейтинг Рейтинг Рейтинг Рейтинг 10.2М

Искусственный интеллект может поглотить все письменные знания в Интернете к 2026 году

1 дочитывание
0 комментариев
Эта публикация уже заработала 0,10 рублей за дочитывания
Зарабатывать

В своем стремлении стать своего рода всеведущими богами системы искусственного интеллекта (ИИ) могут поглотить все бесплатные знания, доступные в Интернете, уже в 2026 году, предупреждает новое исследование.

Модели искусственного интеллекта, такие как GPT-4 или Claude 3 Opus, полагаются на триллионы слов, которыми делятся в Интернете, чтобы стать умнее, но новые прогнозы предполагают, что они исчерпают запас общедоступных данных в период с 2026 по 2032 год.

Это означает, что для разработки лучших моделей технологическим компаниям придется искать другие источники данных. Они могут включать в себя создание синтетических данных, использование источников более низкого качества или, что более тревожно, доступ к частным данным, хранящимся на серверах, содержащих сообщения и электронные письма.

«Если чат-боты будут использовать все доступные данные и не будет никакого прогресса в эффективности данных, я ожидаю увидеть относительную стагнацию в этой области», — сказал Пабло Вильялобос, ведущий автор исследования , недавно опубликованного на сервере препринтов arXiv.

«Модели будут улучшаться лишь медленно с течением времени по мере открытия новых алгоритмических идей и естественного получения новых данных».

Данные обучения стимулируют рост систем искусственного интеллекта, позволяя им выявлять все более сложные закономерности для интеграции в свои нейронные сети.

Например, ChatGPT был обучен примерно на 570 ГБ текстовых данных общим объемом около 300 миллиардов слов, извлеченных из книг, онлайн-статей, Википедии и других источников в Интернете. Алгоритмы, обученные на недостаточных или некачественных данных, дают сомнительные результаты.

Разумный искусственный интеллект Gemini от Google, который рекомендовал добавлять клей в пиццу или есть камни, например, получил самые противоречивые отклики в публикациях на Reddit и статьях на сатирическом сайте The Onion .

Чтобы оценить, сколько текста доступно в Интернете, исследователи использовали веб-индекс Google. По оценкам, в настоящее время существует около 250 миллиардов веб-страниц с 7000 байтами текста на страницу. Затем они провели анализ трафика интернет-протокола (IP) и активности пользователей в Интернете, чтобы спрогнозировать рост этого пула данных. Результаты показали, что высококачественная информация, полученная из надежных источников, будет исчерпана не позднее 2032 года, а низкокачественные лингвистические данные будут использованы в период с 2030 по 2050 год. Данные изображений, в свою очередь, будут исчерпаны между 2030 и 2060 годами. .

Было показано, что нейронные сети улучшают прогнозирование по мере роста их наборов данных — явление, называемое законом нейронного масштабирования. Таким образом, остается открытым вопрос, смогут ли компании повысить эффективность своих моделей, чтобы компенсировать недостаток свежих данных, или же закрытие крана приведет к стагнации улучшений моделей.

Однако Вильялобос сказал, что маловероятно, что нехватка данных резко замедлит будущий рост моделей ИИ. Это связано с тем, что существует несколько возможных стратегий, которые компании могут использовать, чтобы обойти эту проблему.

«Компании все чаще пытаются использовать частные данные для обучения моделей, таких как предстоящее изменение политики Meta**», — добавил он, имея в виду объявление компании о том, что она будет использовать взаимодействие с чат-ботами на своих платформах для обучения своего генеративного ИИ с 26 июня.

«Если им это удастся и если полезность частных данных будет сопоставима с полезностью общедоступных веб-данных, то вполне вероятно, что у крупных компаний, занимающихся искусственным интеллектом, будет достаточно данных, чтобы их хватило до конца десятилетия. В этот момент другие препятствия, такие как энергопотребление, увеличение затрат на обучение и доступность оборудования, могут стать более важными, чем нехватка данных». Другой вариант — использовать синтетические, искусственно сгенерированные данные для питания голодных моделей, хотя это успешно использовалось только в системах обучения играм, программированию и математике.

С другой стороны, если компании попытаются собирать интеллектуальную собственность или частную информацию без разрешения, некоторые эксперты предвидят юридические проблемы. «Создатели контента протестовали против несанкционированного использования их контента для обучения моделей искусственного интеллекта, при этом некоторые подали в суд на такие компании, как Microsoft, OpenAI и Stability AI», — написала Рита Матулоните, эксперт по праву в области технологий и интеллектуальной собственности и доцент Университета Маккуори.

«Оплата за вашу работу может помочь восстановить некоторый дисбаланс сил, существующий между креативщиками и компаниями, занимающимися искусственным интеллектом».

Исследователи отмечают, что нехватка данных — не единственная проблема на пути постоянного совершенствования ИИ. По данным Международного энергетического агентства, поиск в Google с использованием ChatGPT потребляет почти в 10 раз больше электроэнергии, чем традиционный поиск. Это побудило технологических лидеров попытаться разработать стартапы по ядерному синтезу для питания своих голодных центров обработки данных, хотя этот метод производства электроэнергии все еще далек от жизнеспособности.

Понравилась публикация?
3 / 0
нет
0 / 0
Подписаться
Донаты ₽
* * запрещённая в России экстремистская организация или лицо, причастное к экстремистской деятельности

Новое "супероружие" Путина. Британцы в панике от русских голубей биодронов

В Британии пришли в ужас от нового "супероружия" Путина. Как рассказывают агенты разведки Лондона в России образованы целые "боевые" крылатые эскадрильи, которые были якобы созданы по личному приказу Путина.

Новое "супероружие" Путина. Британцы в панике от русских голубей биодронов

В Британии пришли в ужас от нового "супероружия" Путина. Как рассказывают агенты разведки Лондона в России образованы целые "боевые" крылатые эскадрильи, которые были якобы созданы по личному приказу Путина.