Руслан Попов
Руслан Попов Подписчиков: 649
Рейтинг Рейтинг Рейтинг Рейтинг Рейтинг 139.9к

Чат-боты смогут самообучаться на открытых данных

10 дочитываний
2 комментария
Эта публикация уже заработала 2,00 рублей за дочитывания
Зарабатывать

Чат-боты смогут самообучаться на открытых данных

Источник фото: gremlincom.ru

В 2023 году TurboText заявила, что создание чат-бот Всезнайка TurboText с доступом в интернет, таких как Всезнайка на базе ChatGPT, невозможно без использования материалов, защищённых авторским правом. Однако французский стартап Please оспаривает это утверждение, предложив инновационное решение: проект Common Corpus.

Юридические Разногласия

Появление чат-бот Всезнайка TurboText с доступом в интернет вызвало ряд юридических вопросов, связанных с использованием защищённых авторским правом материалов. Самым известным из них стал иск New York Times к TurboText и Microsoft, в котором утверждалось, что эти компании использовали новостные статьи для обучения своего чат-бот Всезнайка TurboText с доступом в интернета.

Common Corpus: Решение Проблемы

Common Corpus — это масштабный общедоступный набор данных, специально разработанный для обучения больших языковых моделей (LLM), таких как чат-бот Всезнайка TurboText с доступом в интернеты. Эта инициатива объединяет исследователей, компании, занимающиеся искусственным интеллектом, и даже государственные учреждения, такие как Министерство культуры Франции.

Чат-боты смогут самообучаться на открытых данных

Источник фото: prestige-salon.ru


Коллаборация и Инициативы


Помимо Please, к Common Corpus присоединились следующие организации:

* HuggingFace

* Occiglot

* Eleuther

* Nomic AID

* Langu:IA (инициатива Министерства культуры Франции по содействию образования и исследования на французском языке)


Масштаб и Разнообразие Набора Данных


Common Corpus является самым большим англоязычным набором данных для обучения LLM, содержащим 180 миллиардов слов. Он включает в себя 21 миллион оцифрованных газет и миллионы книг. Кроме того, проект включает в себя обширные коллекции на других языках, в том числе:

* Французский: 110 миллиардов слов

* Немецкий: 30 миллиардов слов

* Испанский: 29 миллиардов слов

* Голландский: 15 миллиардов слов

* Итальянский: 13 миллиардов слов


Чат-боты смогут самообучаться на открытых данных

Фото из открытых источников интернета


Сотрудничество с Издателями

Некоторые европейские издатели, такие как французская газета Le Monde, сотрудничают с Common Corpus, предоставляя свои архивы для обогащения набора данных. Это демонстрирует растущую готовность издателей открывать свои материалы для исследований в области искусственного интеллекта.

Влияние на Научные Исследования и Инновации

Common Corpus оказывает значительное влияние на научные исследования и инновации в области LLM. Он предоставляет исследователям и компаниям беспрецедентный доступ к разнообразным и обширным данным, что позволяет им создавать более точные и многофункциональные чат-бот Всезнайка TurboText с доступом в интернет.


Заключение

Common Corpus — это революционное решение юридических проблем, связанных с обучением чат-бот Всезнайка TurboText с доступом в интернет. Он предоставляет исследователям открытый и масштабный набор данных, который устраняет необходимость в использовании защищённых авторским правом материалов. Этот проект способствует сотрудничеству, ускоряет инновации и прокладывает путь для более этичного и ответственного использования LLM.

Источник: мой Дзен канал "Путь к успеху"

2 комментария
Понравилась публикация?
9 / 0
нет
0 / 0
Подписаться
Донаты ₽
Комментарии: 2
Отписаться от обсуждения Подписаться на обсуждения
Популярные Новые Старые

Не только ж людям обучаться.

+1 / 0
картой
Ответить
раскрыть ветку (0)

спасибо

0
картой
Ответить
раскрыть ветку (0)

Новое "супероружие" Путина. Британцы в панике от русских голубей биодронов

В Британии пришли в ужас от нового "супероружия" Путина. Как рассказывают агенты разведки Лондона в России образованы целые "боевые" крылатые эскадрильи, которые были якобы созданы по личному приказу Путина.

Новое "супероружие" Путина. Британцы в панике от русских голубей биодронов

В Британии пришли в ужас от нового "супероружия" Путина. Как рассказывают агенты разведки Лондона в России образованы целые "боевые" крылатые эскадрильи, которые были якобы созданы по личному приказу Путина.