Сообщества New

Консультация юриста 8 (800) 333-0265

КРУГЛОСУТОЧНО БЕСПЛАТНО

Блогер, коллекционер Руслан Попов Подписчиков: 649

139.9к

Чат-боты смогут самообучаться на открытых данных

09 октября 2024 в 22:20

10 дочитываний

2 комментария

Эта публикация уже заработала 2,00 рублей за дочитывания

Зарабатывать

Источник фото: gremlincom.ru

В 2023 году TurboText заявила, что создание чат-бот Всезнайка TurboText с доступом в интернет, таких как Всезнайка на базе ChatGPT, невозможно без использования материалов, защищённых авторским правом. Однако французский стартап Please оспаривает это утверждение, предложив инновационное решение: проект Common Corpus.

Юридические Разногласия

Появление чат-бот Всезнайка TurboText с доступом в интернет вызвало ряд юридических вопросов, связанных с использованием защищённых авторским правом материалов. Самым известным из них стал иск New York Times к TurboText и Microsoft, в котором утверждалось, что эти компании использовали новостные статьи для обучения своего чат-бот Всезнайка TurboText с доступом в интернета.

Common Corpus: Решение Проблемы

Common Corpus — это масштабный общедоступный набор данных, специально разработанный для обучения больших языковых моделей (LLM), таких как чат-бот Всезнайка TurboText с доступом в интернеты. Эта инициатива объединяет исследователей, компании, занимающиеся искусственным интеллектом, и даже государственные учреждения, такие как Министерство культуры Франции.

Источник фото: prestige-salon.ru

Коллаборация и Инициативы

Помимо Please, к Common Corpus присоединились следующие организации:

* HuggingFace

* Occiglot

* Eleuther

* Nomic AID

* Langu:IA (инициатива Министерства культуры Франции по содействию образования и исследования на французском языке)

Масштаб и Разнообразие Набора Данных

Common Corpus является самым большим англоязычным набором данных для обучения LLM, содержащим 180 миллиардов слов. Он включает в себя 21 миллион оцифрованных газет и миллионы книг. Кроме того, проект включает в себя обширные коллекции на других языках, в том числе:

* Французский: 110 миллиардов слов

* Немецкий: 30 миллиардов слов

* Испанский: 29 миллиардов слов

* Голландский: 15 миллиардов слов

* Итальянский: 13 миллиардов слов

Фото из открытых источников интернета

Сотрудничество с Издателями

Некоторые европейские издатели, такие как французская газета Le Monde, сотрудничают с Common Corpus, предоставляя свои архивы для обогащения набора данных. Это демонстрирует растущую готовность издателей открывать свои материалы для исследований в области искусственного интеллекта.

Влияние на Научные Исследования и Инновации

Common Corpus оказывает значительное влияние на научные исследования и инновации в области LLM. Он предоставляет исследователям и компаниям беспрецедентный доступ к разнообразным и обширным данным, что позволяет им создавать более точные и многофункциональные чат-бот Всезнайка TurboText с доступом в интернет.

Заключение

Common Corpus — это революционное решение юридических проблем, связанных с обучением чат-бот Всезнайка TurboText с доступом в интернет. Он предоставляет исследователям открытый и масштабный набор данных, который устраняет необходимость в использовании защищённых авторским правом материалов. Этот проект способствует сотрудничеству, ускоряет инновации и прокладывает путь для более этичного и ответственного использования LLM.

Источник: мой Дзен канал "Путь к успеху"

2 комментария

Понравилась публикация?

да

9 / 0

нет

0 / 0

Донаты ₽

Комментарии: 2

Отписаться от обсуждения Подписаться на обсуждения

Популярные Новые Старые

Саша вбд

19.8М

09.10.2024, 23:02

Рузаевка

Не только ж людям обучаться.

+1 / 0

картой

Ответить

раскрыть ветку (0)

Юрист Киселева Татьяна Валерьевна

152к

09.10.2024, 23:09

Смоленск

спасибо

картой

Ответить

раскрыть ветку (0)

₽

Новое "супероружие" Путина. Британцы в панике от русских голубей биодронов

В Британии пришли в ужас от нового "супероружия" Путина. Как рассказывают агенты разведки Лондона в России образованы целые "боевые" крылатые эскадрильи, которые были якобы созданы по личному приказу Путина.

₽

Астрология поколений

Важные исторические, политические, экономические вехи в истории определяются ...

Роботы добрались до музыкантов: робот-дирижер

01:14

Искусственный разум меняет правила игры: эпоха нейросетей наступила!

Современные технологии стремительно развиваются, и одним из ключевых направлений ...