Чат-боты смогут самообучаться на открытых данных

Источник фото: gremlincom.ru
В 2023 году TurboText заявила, что создание чат-бот Всезнайка TurboText с доступом в интернет, таких как Всезнайка на базе ChatGPT, невозможно без использования материалов, защищённых авторским правом. Однако французский стартап Please оспаривает это утверждение, предложив инновационное решение: проект Common Corpus.
Юридические Разногласия
Появление чат-бот Всезнайка TurboText с доступом в интернет вызвало ряд юридических вопросов, связанных с использованием защищённых авторским правом материалов. Самым известным из них стал иск New York Times к TurboText и Microsoft, в котором утверждалось, что эти компании использовали новостные статьи для обучения своего чат-бот Всезнайка TurboText с доступом в интернета.
Common Corpus: Решение Проблемы
Common Corpus — это масштабный общедоступный набор данных, специально разработанный для обучения больших языковых моделей (LLM), таких как чат-бот Всезнайка TurboText с доступом в интернеты. Эта инициатива объединяет исследователей, компании, занимающиеся искусственным интеллектом, и даже государственные учреждения, такие как Министерство культуры Франции.

Источник фото: prestige-salon.ru
Коллаборация и Инициативы
Помимо Please, к Common Corpus присоединились следующие организации:
* HuggingFace
* Occiglot
* Eleuther
* Nomic AID
* Langu:IA (инициатива Министерства культуры Франции по содействию образования и исследования на французском языке)
Масштаб и Разнообразие Набора Данных
Common Corpus является самым большим англоязычным набором данных для обучения LLM, содержащим 180 миллиардов слов. Он включает в себя 21 миллион оцифрованных газет и миллионы книг. Кроме того, проект включает в себя обширные коллекции на других языках, в том числе:
* Французский: 110 миллиардов слов
* Немецкий: 30 миллиардов слов
* Испанский: 29 миллиардов слов
* Голландский: 15 миллиардов слов
* Итальянский: 13 миллиардов слов

Фото из открытых источников интернета
Сотрудничество с Издателями
Некоторые европейские издатели, такие как французская газета Le Monde, сотрудничают с Common Corpus, предоставляя свои архивы для обогащения набора данных. Это демонстрирует растущую готовность издателей открывать свои материалы для исследований в области искусственного интеллекта.
Влияние на Научные Исследования и Инновации
Common Corpus оказывает значительное влияние на научные исследования и инновации в области LLM. Он предоставляет исследователям и компаниям беспрецедентный доступ к разнообразным и обширным данным, что позволяет им создавать более точные и многофункциональные чат-бот Всезнайка TurboText с доступом в интернет.
Заключение
Common Corpus — это революционное решение юридических проблем, связанных с обучением чат-бот Всезнайка TurboText с доступом в интернет. Он предоставляет исследователям открытый и масштабный набор данных, который устраняет необходимость в использовании защищённых авторским правом материалов. Этот проект способствует сотрудничеству, ускоряет инновации и прокладывает путь для более этичного и ответственного использования LLM.
Источник: мой Дзен канал "Путь к успеху"
Не только ж людям обучаться.
спасибо