LCM-LoRa: Нейронная сеть для генерации изображений в реальном времени
Исследователи из Университета Цинхуа разработали алгоритм LCM-LoRa, который революционизирует генерацию изображений в реальном времени на основе текстовых описаний или эскизов. Следовательно, эта технология знаменует значительный прогресс в этой области.
Популярные модели преобразования текста в изображение, такие как Stable Diffusion, Midjourney и DALLE-3, обычно занимают от нескольких секунд до двух минут для создания изображения. LCM-LoRa (модель скрытой согласованности - адаптация низкого ранга), усовершенствование по сравнению со стабильной диффузией, значительно сокращает время генерации примерно до 100 миллисекунд. Таким образом, эта разработка представляет собой прорыв в эффективности и скорости.
LCM-LoRa ускоряет генерацию изображений за счет сокращения количества необходимых этапов выборки - процессов преобразования исходного текста или изображения в более детализированное и высококачественное изображение. Например, изображения генерируются алгоритмом всего за 4 шага:
LCM-LoRa может обрабатывать только текстовый запрос или комбинацию текстового запроса и эскиза примитивных фигур (таких как прямоугольники, линии и овалы), или изображение, которое нуждается в модификации. Таким образом, она обеспечивает гибкость в выборе типов входных данных.
Этот метод применим не только для генерации двумерных, но и трехмерных сцен, значительно ускоряя разработку видеоигр, спецэффектов в фильмах, а также сред дополненной и смешанной реальности. Более того, сокращение количества этапов выборки подразумевает более низкие требования к вычислительным ресурсам.
Потенциально LCM-LoRa может быть интегрирована с любой моделью преобразования текста в изображение, но в настоящее время авторы протестировали ее только на Stable Diffusion. Вы можете протестировать алгоритм здесь. Код LCM-LoRa доступен публично на GitHub.