Как утечки наборов данных подрывают математические обоснования ИИ

1 дочитывание
2 комментария
Эта публикация уже заработала 0,50 рублей за дочитывания
Зарабатывать

Вопросы по поводу тестов математических способностей ИИ предполагают, что мы, возможно, никогда не узнаем, насколько способными интеллектуальными машинами могут стать компьютеры.

Как утечки наборов данных подрывают математические обоснования ИИ

Еще в 2019 году группа ученых-компьютерщиков провела ныне известный эксперимент, имевший далеко идущие последствия для исследований в области искусственного интеллекта. В то время алгоритмы машинного зрения стали способны распознавать широкий спектр объектов, при этом некоторые из них фиксировали впечатляющие результаты в стандартных тестах, используемых для оценки их способностей.

Но была проблема с методом, лежащим в основе всех этих тестов. Почти все алгоритмы были обучены на базе данных помеченных изображений, известной как ImageNet. База данных содержала миллионы изображений, которые были тщательно описаны в рукописном тексте, чтобы помочь машинам учиться. Эти усилия имели решающее значение для развития машинного зрения, и ImageNet стала своего рода отраслевым стандартом.

Таким образом, ученые-компьютерщики использовали подмножество изображений для обучения алгоритмов идентификации клубники, стола, человеческого лица и т. д., используя помеченные изображения в наборе данных. Затем они использовали другое подмножество изображений для тестирования алгоритмов. Со временем ученые-компьютерщики заявили, что их алгоритмы становятся все более эффективными в распознавании объектов реального мира.

Распознавание изображений

Но в частном порядке исследователи начали задаваться вопросом, действительно ли это правда. Поскольку база данных ImageNet стала настолько известной, альтернативным объяснением было то, что ее изображения или очень похожие на них изображения просачивались в реальный мир. Таким образом, системы искусственного интеллекта, обученные на них, просто распознавали изображения, которые они уже видели.

В то время не было возможности проверить это, поскольку не существовало высококачественных баз данных изображений, которые еще не использовались для обучения алгоритмов.

Все изменилось, когда команда из Калифорнийского университета в Беркли создала новый набор данных тщательно помеченных изображений, которые, как они знали, алгоритмы не могли увидеть. Затем они попросили алгоритмы идентифицировать объекты на изображениях и обнаружили, что они не так хороши, как все утверждали.

Их эксперимент стал известным примером ошибок, связанных с использованием единых баз данных для тестирования машин. Без тщательного управления этой базой данных системы искусственного интеллекта могут показаться хорошими в выполнении задачи, но на самом деле они лишь повторяют то, чему они уже научились.

Это подводит нас к нынешнему поколению систем искусственного интеллекта, которые хорошо справляются с решением определенных типов математических задач, записанных словами. Например: « Джеймс пишет трехстраничное письмо двум разным друзьям два раза в неделю. Сколько страниц он пишет в год? ».

Тот факт, что системы ИИ могут отвечать на подобные вопросы, предполагает, что они способны рассуждать. Фактически, существует специальная база данных под названием GSM8K, которую ученые-компьютерщики используют для проверки способности системы ИИ к рассуждению. Этот вопрос взят оттуда.

GSM8K — это «набор данных из 8,5 тысяч высококачественных лингвистически разнообразных математических задач для начальной школы, созданных людьми, составляющими задачи». Он состоит из около 7500 вопросов для обучения системы искусственного интеллекта и 1000 вопросов для ее тестирования.

С годами системы искусственного интеллекта стали все лучше отвечать на эти вопросы. Это привело к различным заявлениям о том, что системы ИИ становятся лучше в рассуждениях, необходимых для решения этих проблем.

Но есть и другая возможность. Дело в том, что GSM8K стал настолько известен, что вопросы теста начали просачиваться в открытый доступ. В результате системы искусственного интеллекта могут столкнуться с ними во время более широкого сравнительного обучения. Таким образом, вместо того, чтобы отвечать им путем рассуждений, они могли бы просто повторять ответ, который увидели во время обучения.

«Растет обеспокоенность тем, что некоторые из этих показателей на самом деле отражают загрязнение набора данных, когда данные, очень напоминающие контрольные вопросы, просачиваются в данные обучения вместо истинной способности к рассуждению», — говорят Хью Чжан и его коллеги из Scale AI, стартапа, базирующегося в Сан-Франциско. Франциско сосредоточился на очистке данных для использования системами искусственного интеллекта.

Следуя примеру исследователей из Беркли, команда Scale AI решила проверить эту идею, разработав собственный математический тест из 1250 вопросов. Они назвали его GSM1k и тщательно следили за тем, чтобы он очень напоминал тест GSM8K, но никогда не публиковался.

«Мы приложили значительные усилия, чтобы гарантировать, что GSM1k имеет такое же распределение сложности, как и GSM8k, чтобы обеспечить сравнение яблок с яблоками», — говорят они. «Мы гарантируем, что эти два теста сопоставимы по важным показателям, таким как скорость решения человеком, количество шагов в решении, величина ответа и многое другое».

Затем они протестировали широкий спектр систем искусственного интеллекта для решения проблем GSM1k, чтобы увидеть, насколько хорошо они работают. И результаты делают чтение интересным.

Оказывается, большое количество систем искусственного интеллекта работают на новом наборе данных значительно хуже, чем на исходном. «При оценке ведущих LLM с открытым и закрытым исходным кодом на GSM1k мы наблюдаем падение точности до 13 процентов», — говорят Чжан и компания.

Команда указывает на несколько систем, которые кажутся особенно уязвимыми, например, французская система искусственного интеллекта Mistral и меньшая система искусственного интеллекта Microsoft Phi.

Аргументированный ответ

Однако другие демонстрируют незначительное снижение производительности или его отсутствие. К ним относятся ChatGPT, Claude и Gemini. Чжан и его коллеги говорят, что эти модели могут быть лучше в математических рассуждениях или что их создатели более осторожны в отношении загрязнения данных.

Команда также попросила эти системы генерировать вопросы из GSM8K. Оказывается, их способность делать это тесно коррелирует с разницей в их способности отвечать на вопросы GSM1k и GSM8k. Это убедительно свидетельствует о том, что модели частично запомнили примеры из GSM8k, говорят Чжан и компания.

Однако это не все плохие новости: «Многие модели, даже наиболее сильно переобученные семейства, демонстрируют явные признаки обобщающего математического рассуждения», заключают они.

Это интересная работа, которая раскрывает ограничения процессов сравнительного анализа, используемых для проверки возможностей систем искусственного интеллекта. Несмотря на то, что эти тесты показывают, что за последние годы произошел значительный прогресс в способности систем ИИ к рассуждению, при интерпретации прогресса необходима осторожность.

Более серьезный вопрос заключается в том, как можно точно протестировать более продвинутые системы искусственного интеллекта, особенно когда наборы данных настолько сложно контролировать, а их способности становятся сверхчеловеческими. Это поднимает вполне реальную возможность того, что в какой-то момент в будущем мы никогда не узнаем истинные возможности этих машин.

Интересно?

Проголосовали: 3

Проголосуйте, чтобы увидеть результаты

2 комментария
Подписаться
Донаты ₽
Комментарии: 2
Отписаться от обсуждения Подписаться на обсуждения
Популярные Новые Старые
DELETE

😀

DELETE

😀

раскрыть ветку (0)
раскрыть ветку (1)

Мнение КПРФ о бюджете страны и сложности момента.

Понятна каждому чрезвычайно сложная нынешняя ситуация, когда страна находится в военном противостоянием не столько с Украиной, сколько со всем «цивилизованным» Западом. И мы – коммунисты прекрасно понимаем.

Цена неуместной шутки. Журналистку уволили за высказывания о пассажирах самолёта, терпящего бедствие.

Недавний инцидент с увольнением журналистки «Москвы 24» Евгении Оболашвили за ее неуместные и бесчеловечные высказывания в адрес пассажиров терпящего бедствие самолета вызвал широкий общественный резонанс.
00:28
Поделитесь этим видео

Жуткая история из Кирова: пенсионер умер во время задержания за кражу настойки за 300 рублей

Жуткая история произошла в Кирове, там 67 - летний пенсионер умер после того как продавщица, грузчик и охранник повалили старика на землю, замотали ему руки и ноги скотчем, а потом и сели на него,...
01:11
Поделитесь этим видео

"Истец отказался от иска": как мой простенький отзыв на иск заставил правообладателя отступить в суде

Здравствуйте, мои дорогие читатели! Сегодня расскажу Вам историю из моей юридической практики. Меня зовут Дарья Алексеевна, я юрист и писательница. Часто пишу не только тексты, но и процессуальные документы,...