Почему нейросети так плохо рисуют кисти рук?

Ранее в этом месяце Майлз Циммерман, 31-летний программист из Сан-Франциско, возился с Midjourney, инструментом на базе искусственного интеллекта, который генерирует изображения с помощью простой текстовой подсказки, и был потрясен.
Одна из его подсказок, которую он создал с помощью ChatGPT, была чрезвычайно подробной: «Откровенное фото некоторых счастливых 20-летних парней в 2018 году, одетых для вечеринки, веселящихся посреди танца на домашней вечеринке в какая-то городская квартира, сфотографировано Нэн Голдин, снято на Fujifilm Instax Mini 9, вспышка, искренняя, естественная, спонтанная, юношеская, живая, беззаботная — ар 3:2».
Через несколько секунд Midjourney выдал одну за другой изображения привлекательных молодых людей, распускающих волосы на вечеринке.
Сначала Циммерман был поражен уровнем детализации. Лица, кожа, волосы и одежда выглядели фотореалистично — хотя и слегка пластиковыми, как позже заметили некоторые наблюдатели, — а выражения были именно такими, какие он просил. Но чем ближе он смотрел, тем более странными казались картины. У улыбающейся женщины, позирующей для фото с подругой и держащей в руках мыльницу, на левой руке было несколько лишних пальцев. Всего их было девять, если быть точным. В другом было правильное количество цифр, за исключением того, что они были чертовски длинными. Почти у всех было слишком много зубов.
Он разместил фотографии в Twitter, где они быстро стали вирусными.
«Пока я продолжал смотреть, было трудно не рассмеяться вслух над абсурдностью этих рук и зубов», — сказал Циммерман BuzzFeed News в личных сообщениях в Твиттере. «Это не вызвало у меня внутренней реакции, как, я думаю, у многих других, реагирующих в твиттере. Для меня было настолько в характере ИИ создавать эти почти безупречные рендеры с такими глупыми недостатками, что я счел это забавным».
За последние несколько месяцев популярность таких сервисов, как Midjourney, Stable Diffusion и DALL-E 2, резко возросла. Используя простые текстовые подсказки, эти приложения, основанные на радикально новом типе искусственного интеллекта, известном как генеративный ИИ, позволяют любому создать практически любое изображение, которое он хочет, вызывая в равной мере как восторг, так и негативную реакцию.
Программы работают, потому что они « обучены » распознавать отношения между миллиардами изображений, собранных со всего Интернета, и текстовыми описаниями, которые их сопровождают, пока в конце концов программа не «поймет», что слово «собака», например, относится к изображение собаки. Эти изображения и их описания известны как «наборы данных».
Искусство, созданное с использованием ИИ, обученного на таких наборах данных, теперь побеждает в конкурсах и используется создателями, среди прочего, для иллюстрации статей и информационных бюллетеней.
Но, несмотря на стремительный прогресс, генераторы изображений на базе ИИ по-прежнему отвратительны в одном: создании реалистично выглядящих человеческих рук.
Вот что выдали Stable Diffusion, DALL-E 2 и Midjourney, ведущие в мире генераторы изображений на основе искусственного интеллекта, когда я дал им простую подсказку: человеческие руки.



Но почему эти программы так сильно искажают руки (не говоря уже о босых ногах)? Это вопрос, который задавали многие люди.
Чтобы выяснить это, я написал Midjourney по электронной почте; Stability AI, который делает Stable Diffusion; и OpenAI, которая создала DALL-E 2. На мои вопросы ответил только Stability AI.
«Принято считать, что в наборах данных ИИ человеческие изображения отображают руки менее заметно, чем лица», — сказал BuzzFeed News представитель Stability AI. «Кроме того, руки на исходных изображениях, как правило, намного меньше, так как они относительно редко видны в крупном размере».
Чтобы понять больше, я связался с Амелией Вингер-Беарскин, художницей и доцентом ИИ и искусств в Университете Флориды, которая анализирует эстетику ИИ-искусства в своем блоге. «Я одержим этим вопросом!» — воскликнул Вингер-Берскин во время нашего видеозвонка.
По словам Уингера-Беарскина, генеративный искусственный интеллект, обученный на миллиардах изображений, взятых из Интернета, на самом деле не понимает, что такое «рука», по крайней мере, в том, как она анатомически соединяется с человеческим телом.
«Это просто взгляд на то, как представлены руки» на изображениях, на которых он обучался, — сказала она. «Руки на изображениях очень детализированы», — добавляет она. «Обычно они за что-то держатся. Или иногда они держатся за другого человека».
На фотографиях, картинах и скриншотах, на которых ИИ учится, руки могут держаться за драпировку или сжимать микрофон. Они могут махать руками или смотреть в камеру так, что видны лишь несколько пальцев. Или они могут быть сжаты в кулаки, где не видно пальцев.
«На изображениях руки редко бывают такими » , — сказала Уингер-Медвежья Шкура, подняв руки с растопыренными пальцами. «Если бы они были такими на всех изображениях, ИИ смог бы воспроизвести их идеально». ИИ, по ее словам, должен понимать, что значит иметь человеческое тело, как именно с ним связаны руки и каковы их ограничения.
Руки занимают фундаментальное место в мире искусства — отпечатки рук на стенах пещер — самый первый известный нам вид искусства, созданный Homo sapiens — и считаются одними из самых сложных объектов для рисования или раскрашивания. На картинах Древней Греции и средневековой Европы изображения человеческих рук все еще были плоскими и лишенными замысловатости.
Только в эпоху искусства Возрождения, между 14 и 16 веками в Европе, когда такие художники, как Леонардо да Винчи, начали изучать и зарисовывать руки, включая их структурные элементы, такие как кости и связки, человеческие руки стали изображаться во всех их сложность. (Эта эпоха также дала нам одну из самых узнаваемых фресок с участием двух рук — « Сотворение Адама» Микеланджело, на которой Бог изображен в виде бородатого мужчины, протягивающего правую руку, чтобы коснуться вытянутой левой руки Адама.)
«Да Винчи на самом деле был очень одержим руками и провел много-много исследований рук», — сказал Уингер-Беарскин. Между тем, когда ИИ обучается на изображении, «он просто смотрит на это и говорит: «О, в данном случае это только половина большого пальца», потому что остальная часть его скрыта под тканью или цепляется за что-то, и поэтому, когда он воспроизводит его, он несколько деформирован».
Однако однажды генеративный ИИ значительно улучшит рендеринг изображений рук, ног и зубов. «Так и должно быть», — сказал Уингер-Беарскин. «Чтобы ИИ стал полезным инструментом для человечества, он должен понять, что значит быть человеком, и анатомическую реальность человека».
Источник: https://www.buzzfeednews.com/article/pranavdixit/ai-generated-art-hands-fingers-messed-up