Как работать над проблемой черного ящика легально-генеративного ИИ

3 дочитывания
14 комментариев
Эта публикация уже заработала 3,50 рублей за дочитывания
Зарабатывать

Многие поставщики юридических технологий хвастались, что их инструменты генеративного искусственного интеллекта не способны на «галлюцинации». Эта иллюзия развеялась в мае, когда академическое исследование, первоначально подвергшееся критике, а затем пересмотренное, сообщило о тревожных темпах, с которыми некоторые отраслевые инструменты выдают ложную или вводящую в заблуждение информацию.

Как работать над проблемой черного ящика легально-генеративного ИИ

Стивен Лернер рассказывает о юридических технологиях

Исследование, проведенное группой Human-Centered AI Group Стэнфордского университета, показало, что исследовательские инструменты AI от LexisNexis и Thomson Reuters галлюцинируют более 17% времени. В оригинальном исследовании LexisNexis давал точные ответы в 65% случаев, что в три раза превышает показатели инструмента от Thomson Reuters.

Пересмотренная версия исследования была опубликована неделю спустя, при этом другой инструмент от Thomson Reuters предоставил ложную информацию в 33% случаев.

Галлюцинация относится к ложным выводам инструмента генеративного искусственного интеллекта. Некоторые поставщики юридических технологий ранее рекламировали свои инструменты генеративного искусственного интеллекта как свободные от галлюцинаций благодаря технологии обработки естественного языка, известной как генерация с расширенным поиском или RAG, но Стэнфордское исследование показало, что это преувеличено.

Поставщики юридических технологий не были полностью прозрачными в отношении того, как работают их инструменты искусственного интеллекта и системы, на которых работают платформы. Этот феномен непрозрачной системы ИИ известен как «проблема черного ящика».

Исследователи из Стэнфордского исследования предположили, что в законодательстве необходимо проводить строгий, прозрачный сравнительный анализ и публичную оценку инструментов ИИ. Бенчмаркинг означает оценку нескольких инструментов по одним и тем же показателям.

«Что поразительно в юридических технологиях, так это то, что такого эталона не существует, и вместо этого поставщики юридических технологий могут выдвигать всевозможные заявления, которые на самом деле не обоснованы и не подтверждены и не обоснованы», — говорит Дэниел Хо, профессор права из Стэнфорда и один из Исследователи, стоящие за недавним исследованием, рассказали Law360 Pulse. «Учитывая высокий документально подтвержденный уровень галлюцинаций, абсолютно важно, чтобы мы перешли к системе, которая [которая] использовалась в других областях ИИ, которая является более прозрачной и имеет контрольные показатели, чтобы действительно понять, были ли сделаны эти улучшения».

Другие области ИИ полагаются на общий набор критериев для определения осуществимости моделей, лежащих в основе платформ ИИ. Например, многие академические предметы используют тест, известный как массовое многозадачное понимание языка (MMLU), для тестирования общедоступных моделей искусственного интеллекта.

В отличие от других областей, экосистема юридических технологий принципиально более закрыта. Легальные поставщики не предоставляют свои инструменты для таких оценок, и уж тем более не для пользователей, не желающих платить непомерную плату за подписку.

«Возможность провести подобную оценку требует огромных ресурсов, и независимые академические исследователи не должны пытаться обосновать эти утверждения», — сказал Хо. «Компании также обязаны предоставлять доказательства, когда они делают заявления типа: «Наша система не галлюцинирует»».

Первоначальный выпуск исследования Стэнфорда в мае вызвал критику в Интернете по поводу результатов и того, как исследование проводилось. Примечательно, что представитель Thomson Reuters заявил, что в первоначальном исследовании использовался один из его инструментов — Ask Practice Law AI от Practice Law, тогда как следовало использовать другой — AI-Assisted Research от Westlaw. Исследователи заявили, что компания Thomson Reuters отказала им в доступе, когда они первоначально просили использовать этот инструмент.

LexisNexis сообщила Law360 Pulse, что не контактировала с людьми до начала исследования, а внутренние исследования показали более низкий уровень галлюцинаций.

Грег Ламберт, директор службы знаний юридической фирмы Jackson Walker, написал в LinkedIn о необходимости переделать сопоставительный анализ исходного отчета, используя инструмент исследования с использованием искусственного интеллекта Westlaw.

Кроме того, Ламберт рассказал Law360 Pulse, что поддерживает независимых исследователей, оценивающих текущий набор легальных инструментов искусственного интеллекта.

«Обычно академическое учреждение может прийти и провести сравнительный анализ, но я думаю, что Стэнфордское исследование человеко-ориентированного искусственного интеллекта могло поставить пятно на ученых, проводящих такого рода исследования и понимающих юридическую отрасль таким образом, чтобы создать доверие. Для подобных исследований», — написал Ламберт Law360 Pulse.

«Если бы ученые действительно проводили исследование, — продолжил он, — я думаю, что такие программы, как программа Вандербильта VAILL , Институт искусственного интеллекта Беркли Лоу или другие практические программы по технологиям или искусственному интеллекту в юридической школе могли бы иметь возможности, престиж и уровень доверия, которые такое исследование, как к этому нужно отнестись серьезно».

Хотя это, возможно, не лучший способ оценить эти инструменты искусственного интеллекта, Ламберт добавил, что юридические фирмы уже разработали «интуитивную проверку» для тестирования инструментов юридических исследований благодаря своим давним отношениям с поставщиками.

Кто, если не юридические фирмы, должен нести ответственность за тестирование легальных инструментов искусственного интеллекта?

Один из вариантов — следовать модели, предложенной Национальным институтом стандартов и технологий (NIST). Хо сказал, что тестирование программного обеспечения для распознавания лиц, проведенное NIST, позволило поставщикам в этой области стать более честными, но разработка версии NIST для юридической сферы потребует много ресурсов.

Другой вариант — поручить юридическим библиотекарям взять на себя ведущую роль в оценке этих инструментов.

После исследования Стэнфорда квартет юридических библиотекарей из Гарварда, Университета штата Огайо и Университета Оклахомы предложил использовать задачи юридических исследований, основанные на существующих данных, для тестирования платформ генеративного искусственного интеллекта. Об этом предложении было объявлено в блоге в конце мая, и в нем планировалось превратить этот проект в академическое исследование.

Будь то юридические библиотекари, академические исследователи или финансируемые государством организации, сравнительный анализ уровня галлюцинаций платформ искусственного интеллекта важен, потому что юридические фирмы пытаются определить лучшие инструменты для приобретения.

«Это действительно сложно, если вы не можете сравнивать продукты и вам просто нужно пробиваться через ряд маркетинговых заявлений», — сказал Хо.

Хо добавил, что юридические фирмы должны использовать свою покупательную способность, чтобы требовать от поставщиков публичного тестирования своих продуктов искусственного интеллекта, чтобы гарантировать обоснованность своих маркетинговых заявлений.

Неспособность оценить заявления о галлюцинациях публично может иметь разрушительные последствия для юридической отрасли.

«Мы можем начать гонку на дно, в которой те, у кого самые грандиозные маркетинговые претензии, захватят рынок», — сказал Хо. «Это может действительно нанести вред фирмам, которые действительно пытаются поступать правильно, и в конечном итоге нанести серьезный вред юридической практике и клиентам».

Интересно?

Проголосовали: 9

Проголосуйте, чтобы увидеть результаты

14 комментариев
Подписаться
Донаты ₽
Комментарии: 14
Отписаться от обсуждения Подписаться на обсуждения
Популярные Новые Старые

Спасибо за публикацию 👍

+1 / 0
картой
Ответить
DELETE

😀

раскрыть ветку (0)
раскрыть ветку (1)
08.06.2024, 06:10
Санкт-Петербург

Сложно найти в тёмной комнате чёрный ящик, особенно когда его там нет...

+1 / 0
картой
Ответить
DELETE

😀

08.06.2024, 12:17
Санкт-Петербург

👻 👻 👽

+1 / 0
Ответить
DELETE

сержант инопланетян

08.06.2024, 13:09
Санкт-Петербург

ВладимирПишет 08.06.2024 в 13:01
сержант инопланетян

армянин Инопланетян 😎 😎 😎

+1 / 0
Ответить
раскрыть ветку (0)
DELETE

да, даже негры есть евреи

раскрыть ветку (0)
раскрыть ветку (2)
раскрыть ветку (1)
раскрыть ветку (1)
раскрыть ветку (1)

Интересно.

+1 / 0
картой
Ответить
DELETE

😀

раскрыть ветку (0)
раскрыть ветку (1)

Спасибо за интересную публикацию

+1 / 0
картой
Ответить
DELETE

😀

раскрыть ветку (0)
раскрыть ветку (1)
DELETE

😀

DELETE

😀

раскрыть ветку (0)
раскрыть ветку (1)
Показать комментарии (14)

Мнение КПРФ о бюджете страны и сложности момента.

Понятна каждому чрезвычайно сложная нынешняя ситуация, когда страна находится в военном противостоянием не столько с Украиной, сколько со всем «цивилизованным» Западом. И мы – коммунисты прекрасно понимаем.

Цена неуместной шутки. Журналистку уволили за высказывания о пассажирах самолёта, терпящего бедствие.

Недавний инцидент с увольнением журналистки «Москвы 24» Евгении Оболашвили за ее неуместные и бесчеловечные высказывания в адрес пассажиров терпящего бедствие самолета вызвал широкий общественный резонанс.
00:28
Поделитесь этим видео

Жуткая история из Кирова: пенсионер умер во время задержания за кражу настойки за 300 рублей

Жуткая история произошла в Кирове, там 67 - летний пенсионер умер после того как продавщица, грузчик и охранник повалили старика на землю, замотали ему руки и ноги скотчем, а потом и сели на него,...
01:11
Поделитесь этим видео

"Истец отказался от иска": как мой простенький отзыв на иск заставил правообладателя отступить в суде

Здравствуйте, мои дорогие читатели! Сегодня расскажу Вам историю из моей юридической практики. Меня зовут Дарья Алексеевна, я юрист и писательница. Часто пишу не только тексты, но и процессуальные документы,...