Иван Пастух
Иван Пастух Подписчиков: 40

Обнаружение Франкенштейнов: почему люди побеждают ИИ в обнаружении причудливых подделок

2 дочитывания
0 комментариев
Эта публикация уже заработала 0,10 рублей за дочитывания
Зарабатывать

Обнаружение Франкенштейнов: почему люди побеждают ИИ в обнаружении причудливых подделок

В 2020 году автомобиль Tesla в режиме автопилота врезался в перевернутый грузовик на оживленном шоссе на Тайване. Авария была лишь одним из примеров нескольких хорошо документированных сбоев системы искусственного интеллекта (ИИ) в автономных транспортных средствах. Но все же интересно, как система автопилота автомобиля пропустила такой большой объект на дороге. Оказывается, ответ не является большой загадкой для тех, кто работает в этой области.

Системы компьютерного зрения могут распознавать только объекты, на которых они были обучены. Система искусственного интеллекта Tesla, вероятно, была обучена распознавать грузовик, но только если грузовик стоит вертикально. Полуприцеп, лежащий на боку, был в незнакомой ориентации и не соответствовал опытному опыту сети. Как только водитель транспортного средства понял, что происходит, они нажали на тормоза, но было слишком поздно, чтобы избежать аварии.

Обнаружение Франкенштейнов: почему люди побеждают ИИ в обнаружении причудливых подделок

Для водителя-человека не имело значения, как был ориентирован грузовик, потому что мы способны распознавать объекты, полагаясь на конфигурационные связи между локальными особенностями. Но глубокие сверточные нейронные сети — популярная форма искусственного интеллекта для “видения”, которая использует шаблоны, обнаруженные на изображениях и видео, для распознавания объектов, — не способны видеть, как мы, что может быть опасно в некоторых приложениях.

Чтобы лучше понять, почему модели глубокого ИИ не справляются с восприятием формы конфигурации, Сара Гударзи из Бюллетеня поговорила с Джеймсом Х. Элдером, профессором и заведующим кафедрой человеческого и компьютерного зрения в Йоркском университете, который является соавтором недавнего исследования, подробно описанного в iScience, в котором было обнаружено, что глубокие сверточные нейронные сети не чувствительны к объектам, взятымразделить и собрать обратно неправильно. Такое понимание может помочь избежать несчастных случаев, подобных тому, что произошел на Тайване.

Сара Гударзи: Расскажите нам немного о ваших исследованиях того, как глубокие сверточные нейронные сети обрабатывают визуальную информацию.

Джеймс Х. Элдер: Наша лаборатория в Йоркском университете работает над пониманием человеческого визуального восприятия и компьютерного зрения. Итак, мы пытаемся лучше понять, как человеческий мозг обрабатывает изображения, чтобы создать лучший ИИ. Одной из основных визуальных компетенций человеческого мозга и других приматов является способность распознавать объекты, и мы в значительной степени полагаемся на информацию о форме для распознавания объектов. Из десятилетий и столетий исследований мы знаем, что люди, даже маленькие дети, могут распознать объект по простому рисунку или силуэту.

Последние модели глубокого искусственного интеллекта хорошо работают со стандартными базами данных распознавания изображений. (Существует известная база данных под названием ImageNet, которая была представлена еще в конце 90-х - начале 2000-х годов, а затем внесла большой вклад в разработку более мощных систем искусственного интеллекта с глубоким обучением.) Кроме того, было обнаружено, что эти сети достаточно количественно предсказывают реакцию мозга человека и нечеловеческих приматов. Итак, есть идея, что, возможно, это хорошие модели того, как человеческий мозг распознает объекты. Однако из предыдущих исследований мы знаем, что эти сети не так чувствительны к информации о форме, как люди. Они больше полагаются на то, что мы называем ярлыками: небольшие подсказки текстуры или цвета.

Одним из ключевых атрибутов чувствительности к форме человека является чувствительность к форме конфигурации. Вы можете думать о конфигурационной форме как о гештальте (или организованном целом) объекта, так что это неочевидно, если вы смотрите локально на форму, но вы должны каким-то образом интегрировать информацию по всей форме. В этом исследовании мы исследуем различия в том, как люди и модели глубокого ИИ могут обрабатывать и настраивать глобальный гештальт.

Гударзи: Для изучения различий и сходств между людьми и моделями глубокого ИИ в обработке формы объекта вы использовали то, что вы называете Франкенштейнами. Можете ли вы объяснить, что это такое и как люди и модели ИИ их интерпретируют?

Старейшина: Мы хотели разработать стимул, который отделял бы локальные сигналы формы от глобальных сигналов формы. Идея заключалась в том, чтобы как можно меньше разрушать формы, при этом нарушая конфигурацию формы. Мы в основном берем верхнюю половину фигуры и вращаем ее. Например, если фигура представляет собой медведя с носом вправо, а хвост влево, мы поворачиваем верхнюю половину так, чтобы нос теперь был направлен влево, а хвост оставался направленным влево.

Способ, которым мы это делаем, таков, что в форме нет внезапного разрыва. Это выглядит как совершенно хорошая форма — очень гладкая и похожая на объект, который вы могли бы увидеть в мире, если бы не знали об этом. Как человек, вы знаете, что это выглядит неправильно, потому что верхняя половина находится не в том месте. Но кто-нибудь с другой планеты может сказать: “О, это, наверное, одно из ваших животных, верно?” Потому что вы не знаете того, чего не знаете. Это Франкенштейн. Это взято из книги Мэри Шелли и даже больше из фильма, где у нас есть видение того, как доктор Франкенштейн взял части тела из разных источников, а затем как бы сшил их вместе. Мы взяли части одного и того же животного и просто неправильно сшили их.

Оказывается, Франкенштейны являются чрезвычайно хорошим стимулом, потому что они вообще не влияют на модели глубокого ИИ. Им кажется, что все в порядке, и Франкенштейны кажутся вполне приемлемыми. Если бы это был медведь, которого мы превратили во Франкенштейна, модель глубокого ИИ сказала бы: “Это совершенно хороший медведь”. И это был интересный результат, потому что он сильно отличается от того, что видят люди.

Обнаружение Франкенштейнов: почему люди побеждают ИИ в обнаружении причудливых подделок

Гударзи: Это просто потому, что у людей есть весь этот опыт, на который они опираются, а у этих нейронных сетей ИИ нет? Или просто человеческий мозг не использует короткие пути?

Старейшина: Я не уверен, что это такой большой опыт - в смысле просто наличия большего количества данных. Я думаю, что это больше качество задач и решений, которые мы принимаем в нашей жизни. Мы не просто системы распознавания объектов. Вероятная причина, по которой люди так успешны, заключается в том, что у нас очень гибкие когнитивные способности, и мы можем рассуждать о самых разных качествах объектов.

Другое дело, что мы понимаем объекты в контексте нашего трехмерного мира. В нашем мозгу, если вы видите объект, вы понимаете: “Ну, этот объект лежит на полу, и он направлен в эту сторону, и он находится рядом с этими другими объектами”. У вас есть представление о том, где он находится в космосе, вы знаете, насколько он велик, вы знаете его форму, и это просто фундаментально для нас, потому что, конечно, мы живем в нашем собственном трехмерном мире, и даже до того, как мы начнем присваивать ярлыки объектам, у нас есть представление обо всехэти физические качества.

Мы воплощены в трехмерном мире, и мы должны выжить в этом трехмерном мире. Итак, есть явные признаки того, что вместо того, чтобы просто различать эти, скажем, тысячи категорий животных, мы действительно создаем более полную модель мира, который мы видим перед собой в нашей голове. Не то чтобы мы думали об этом когнитивно, но он предназначен для поддержки множества задач по мере их выполнения.

Гударзи: Что происходит, когда глубокие нейронные сети сталкиваются с Франкенштейнами? Что здесь не так?

Элдер: Теоретически, эти сети построены так, что математически они потенциально должны быть способны извлекать эту конфигурационную информацию, потому что вы можете представить себе, что обработка происходит поэтапно. На первом этапе существуют искусственные нейроны, которые просматривают только локальные части фигуры, но по мере продвижения по сети на все более и более высокие этапы нейроны обрабатывают все большие и большие куски формы, пока вы не доберетесь до результата. И эти нейроны потенциально обрабатывают всю форму. Таким образом, теоретически, они могут имитировать человеческое восприятие. Но этим сетям сложно обучиться этому. Итак, если есть более простое решение задачи, для выполнения которой их обучают, они примут это решение. И простой, как правило, более локальный.

Например, если вы играете в покер, и у оппонента дергается глаз, когда у него хорошая рука, это говорит о том, и вы можете использовать это как кратчайший путь, верно? Вам не нужно выполнять всю сложную математику, чтобы понять, как вы должны играть. Аналогичным образом, если есть какой—то небольшой локальный сигнал, который сети могут использовать — например, форму медвежьих лап - чтобы сказать, что это медведь, а не, скажем, лось, тогда они будут склонны полагаться на это больше, чем на глобальную форму. Причина, по-видимому, в том, что трудно обучить сеть, чтобы она стала чувствительной к этим глобальным формам.

Мы пытались изменить архитектуру и внедрить более свежие инновации и модели глубокого ИИ, многие из которых основаны на том, как, по нашему мнению, мозг обрабатывает информацию. Но ни одно из этих нововведений не оказало большого влияния на эту проблему. Чтобы преодолеть такого рода ярлыки, нам нужно заставить сеть выполнять задачи, выходящие за рамки простого распознавания, потому что распознавание восприимчиво к этим ярлыкам. Более сложные вопросы, такие как “в каком состоянии находится животное?” или “как эти разные животные сравниваются по форме?”, Которые определяют форму животного, требуют большего, чем простое обозначение, скажем, медведя.

Способ, которым работает зрительная система человека, когда, например, вы видите животное в лесу, не таков, что вы просто видите эту этикетку перед собой и говорите: “О, это медведь”. У вас есть целый богатый сенсорный опыт в отношении этого животного. Вы можете говорить о размере, форме, возрасте и так далее. Вы создаете целый набор атрибутов. Это большая разница.

Подробнее ➤

Понравилась публикация?
12 / 0
нет
0 / 0
Подписаться
Донаты ₽

Новое "супероружие" Путина. Британцы в панике от русских голубей биодронов

В Британии пришли в ужас от нового "супероружия" Путина. Как рассказывают агенты разведки Лондона в России образованы целые "боевые" крылатые эскадрильи, которые были якобы созданы по личному приказу Путина.

Уничтожение человечества: как по мнению ИИ это надо делать. Жду комментариев

Мы делаем друг с другом одну и ту же ошибку: покупаем удобство в обмен на смысл. Сегодня удобнее оставаться дома, сегодня проще не читать, не отвечать, не жертвовать своим комфортом ради общего блага.

Искусственный интеллект и виртуальная реальность: главные интернет-тренды ноября 2025

В ноябре 2025 года в интернете продолжают активно обсуждать темы искусственного интеллекта и виртуальной реальности. Массовое внедрение генеративных нейросетей, которые теперь создают не только тексты,

Безопасность по-нашему:В Госдуме предложили меры по защите россиян от мошенников в мессенджере МАХ

О, чудо из чудес! Госдума, этот неиссякаемый источник гениальных идей, снова спешит на помощь народу. Напомню: совсем недавно нам с пафосом презентовали мессенджер МАХ — цифровую крепость, цитадель доверия,
Главная
Коллективные
иски
Добавить Видео Опросы