Как работать над проблемой черного ящика легально-генеративного ИИ

07 июня 2024 в 21:56

3 дочитывания

14 комментариев

Эта публикация уже заработала 3,50 рублей за дочитывания

Зарабатывать

Многие поставщики юридических технологий хвастались, что их инструменты генеративного искусственного интеллекта не способны на «галлюцинации». Эта иллюзия развеялась в мае, когда академическое исследование, первоначально подвергшееся критике, а затем пересмотренное, сообщило о тревожных темпах, с которыми некоторые отраслевые инструменты выдают ложную или вводящую в заблуждение информацию.

Стивен Лернер рассказывает о юридических технологиях

Исследование, проведенное группой Human-Centered AI Group Стэнфордского университета, показало, что исследовательские инструменты AI от LexisNexis и Thomson Reuters галлюцинируют более 17% времени. В оригинальном исследовании LexisNexis давал точные ответы в 65% случаев, что в три раза превышает показатели инструмента от Thomson Reuters.

Пересмотренная версия исследования была опубликована неделю спустя, при этом другой инструмент от Thomson Reuters предоставил ложную информацию в 33% случаев.

Галлюцинация относится к ложным выводам инструмента генеративного искусственного интеллекта. Некоторые поставщики юридических технологий ранее рекламировали свои инструменты генеративного искусственного интеллекта как свободные от галлюцинаций благодаря технологии обработки естественного языка, известной как генерация с расширенным поиском или RAG, но Стэнфордское исследование показало, что это преувеличено.

Поставщики юридических технологий не были полностью прозрачными в отношении того, как работают их инструменты искусственного интеллекта и системы, на которых работают платформы. Этот феномен непрозрачной системы ИИ известен как «проблема черного ящика».

Исследователи из Стэнфордского исследования предположили, что в законодательстве необходимо проводить строгий, прозрачный сравнительный анализ и публичную оценку инструментов ИИ. Бенчмаркинг означает оценку нескольких инструментов по одним и тем же показателям.

«Что поразительно в юридических технологиях, так это то, что такого эталона не существует, и вместо этого поставщики юридических технологий могут выдвигать всевозможные заявления, которые на самом деле не обоснованы и не подтверждены и не обоснованы», — говорит Дэниел Хо, профессор права из Стэнфорда и один из Исследователи, стоящие за недавним исследованием, рассказали Law360 Pulse. «Учитывая высокий документально подтвержденный уровень галлюцинаций, абсолютно важно, чтобы мы перешли к системе, которая [которая] использовалась в других областях ИИ, которая является более прозрачной и имеет контрольные показатели, чтобы действительно понять, были ли сделаны эти улучшения».

Другие области ИИ полагаются на общий набор критериев для определения осуществимости моделей, лежащих в основе платформ ИИ. Например, многие академические предметы используют тест, известный как массовое многозадачное понимание языка (MMLU), для тестирования общедоступных моделей искусственного интеллекта.

В отличие от других областей, экосистема юридических технологий принципиально более закрыта. Легальные поставщики не предоставляют свои инструменты для таких оценок, и уж тем более не для пользователей, не желающих платить непомерную плату за подписку.

«Возможность провести подобную оценку требует огромных ресурсов, и независимые академические исследователи не должны пытаться обосновать эти утверждения», — сказал Хо. «Компании также обязаны предоставлять доказательства, когда они делают заявления типа: «Наша система не галлюцинирует»».

Первоначальный выпуск исследования Стэнфорда в мае вызвал критику в Интернете по поводу результатов и того, как исследование проводилось. Примечательно, что представитель Thomson Reuters заявил, что в первоначальном исследовании использовался один из его инструментов — Ask Practice Law AI от Practice Law, тогда как следовало использовать другой — AI-Assisted Research от Westlaw. Исследователи заявили, что компания Thomson Reuters отказала им в доступе, когда они первоначально просили использовать этот инструмент.

LexisNexis сообщила Law360 Pulse, что не контактировала с людьми до начала исследования, а внутренние исследования показали более низкий уровень галлюцинаций.

Грег Ламберт, директор службы знаний юридической фирмы Jackson Walker, написал в LinkedIn о необходимости переделать сопоставительный анализ исходного отчета, используя инструмент исследования с использованием искусственного интеллекта Westlaw.

Кроме того, Ламберт рассказал Law360 Pulse, что поддерживает независимых исследователей, оценивающих текущий набор легальных инструментов искусственного интеллекта.

«Обычно академическое учреждение может прийти и провести сравнительный анализ, но я думаю, что Стэнфордское исследование человеко-ориентированного искусственного интеллекта могло поставить пятно на ученых, проводящих такого рода исследования и понимающих юридическую отрасль таким образом, чтобы создать доверие. Для подобных исследований», — написал Ламберт Law360 Pulse.

«Если бы ученые действительно проводили исследование, — продолжил он, — я думаю, что такие программы, как программа Вандербильта VAILL , Институт искусственного интеллекта Беркли Лоу или другие практические программы по технологиям или искусственному интеллекту в юридической школе могли бы иметь возможности, престиж и уровень доверия, которые такое исследование, как к этому нужно отнестись серьезно».

Хотя это, возможно, не лучший способ оценить эти инструменты искусственного интеллекта, Ламберт добавил, что юридические фирмы уже разработали «интуитивную проверку» для тестирования инструментов юридических исследований благодаря своим давним отношениям с поставщиками.

Кто, если не юридические фирмы, должен нести ответственность за тестирование легальных инструментов искусственного интеллекта?

Один из вариантов — следовать модели, предложенной Национальным институтом стандартов и технологий (NIST). Хо сказал, что тестирование программного обеспечения для распознавания лиц, проведенное NIST, позволило поставщикам в этой области стать более честными, но разработка версии NIST для юридической сферы потребует много ресурсов.

Другой вариант — поручить юридическим библиотекарям взять на себя ведущую роль в оценке этих инструментов.

После исследования Стэнфорда квартет юридических библиотекарей из Гарварда, Университета штата Огайо и Университета Оклахомы предложил использовать задачи юридических исследований, основанные на существующих данных, для тестирования платформ генеративного искусственного интеллекта. Об этом предложении было объявлено в блоге в конце мая, и в нем планировалось превратить этот проект в академическое исследование.

Будь то юридические библиотекари, академические исследователи или финансируемые государством организации, сравнительный анализ уровня галлюцинаций платформ искусственного интеллекта важен, потому что юридические фирмы пытаются определить лучшие инструменты для приобретения.

«Это действительно сложно, если вы не можете сравнивать продукты и вам просто нужно пробиваться через ряд маркетинговых заявлений», — сказал Хо.

Хо добавил, что юридические фирмы должны использовать свою покупательную способность, чтобы требовать от поставщиков публичного тестирования своих продуктов искусственного интеллекта, чтобы гарантировать обоснованность своих маркетинговых заявлений.

Неспособность оценить заявления о галлюцинациях публично может иметь разрушительные последствия для юридической отрасли.

«Мы можем начать гонку на дно, в которой те, у кого самые грандиозные маркетинговые претензии, захватят рынок», — сказал Хо. «Это может действительно нанести вред фирмам, которые действительно пытаются поступать правильно, и в конечном итоге нанести серьезный вред юридической практике и клиентам».