Ученые придумали новые подходы для создания реалистичных картинок с помощью нейронных сетей
Команда российских ученых, работающих в МФТИ, Иннополисе и Сколково, совершила научный прорыв в области генеративного моделирования — создании новых изображений, похожих на настоящие фотографии или рисунки. Они разработали новый метод, который значительно ускоряет и упрощает процесс генерации в теории и на практике.
Их результаты опубликованы в материалах конференции NeurIPS 2024. Генеративное моделирование — это область искусственного интеллекта, занимающаяся созданием новых данных, подобных уже существующим. Это могут быть изображения, тексты, музыкальные произведения и многое другое. Генеративные модели находят применение в самых разных областях: от создания реалистичных изображений для игр и фильмов до разработки новых лекарств и материалов. Одна из ключевых технологий в этой области — сопоставление потоков (Flow Matching).
Сопоставление потоков нужно для того, чтобы плавно преобразовать одно распределение данных в другое. Например, превратить набор черно-белых изображений в набор цветных фото, на которых нарисовано то же самое. Сопоставление потоков похоже на создание «реки» или «потока», который течет из одного распределения в другое. Каждый элемент данных при таком подходе представляется собой как бы частичку, которая плывет по этому потоку, плавно изменяя свои свойства. Задача заключается в том, чтобы найти поток, который наилучшим образом преобразует исходные данные в целевые.
В ранних моделях, основанных на сопоставлении потоков, «река» часто имела извилистые русла, а «путешествие» частиц было долгим и сложным. Это приводило к замедлению процесса генерации новых данных. Поэтому ученые искали способы сделать траектории потока максимально прямыми.
Существующие подходы к выпрямлению траекторий имели свои недостатки. Некоторые методы были итеративными, то есть многократно повторяли процесс улучшения «прямоты», накапливая при этом ошибки. Другие методы основывались на упрощенных приближениях, которые не гарантировали нужного результата.
Новый метод оптимального сопоставления потоков, представленный на конференции NeurIPS 2024, решает эти проблемы. Авторы исследования разработали и теоретически обосновали новый подход, который позволяет вычислять поток с прямыми траекториями всего за одну минимизацию функции потерь, используя для этого векторные поля, параметризованные выпуклыми функциями. Вместо того, чтобы позволять точкам блуждать по всем возможным путям, новый подход оптимального сопоставления потоков использует особые «векторные поля», которые задают прямые траектории движения.

Это подобно тому, как строители прокладывают прямую дорогу между двумя пунктами, не допуская изгибов. Эти векторные поля математически связаны с градиентами выпуклых функций , которые задают «инструкции» для движения точек по прямым путям. Это позволяет получить поток с прямыми траекториями и, следовательно, генерировать новые данные намного быстрее и эффективнее, чем с помощью предыдущих методов. Разработанный авторами алгоритм не требует многократных итераций и сложных приближений, что значительно упрощает процесс и повышает точность.
В своем исследовании ученые продемонстрировали валидность доказанной теории и эффективность предложенного ими метода на различных задачах, начиная от простых двумерных примеров и заканчивая довольно сложными задачами перевода изображений.
Новый подход показал лучшие результаты, чем существующие методы, значительно уменьшив погрешность и ускорив генерацию реалистичных изображений.
«Наш подход может быть эффективно использован для решения различных задач, связанных с созданием новых наборов данных и их преобразованием. Например, для создания реалистичных изображений человеческих лиц, превращения эскизов в фотореалистичные картинки, генерации новых текстур и для восстановления ранее поврежденных изображений» — рассказал Александр Гасников, заведующий лабораторией математических методов оптимизации МФТИ.
Разработка нового алгоритма открывает новые возможности для исследований в области генеративного моделирования. Ученые планируют изучить применение его к еще более сложным задачам, а также улучшить сам алгоритм для повышения его скорости и универсальности. Их исследование обещает ускорить развитие технологий, связанных с созданием и преобразованием данных, открывая новые возможности для различных областей науки и техники.
Хотя длительность помех не превышала десяти секунд, это первый известный случай такого рода. Обычно спутникам не хватает мощности для создания радиосигналов той силы, что нужна для подобных помех.
Международная группа ученых выяснила, что постепенное потепление океана лишает морской планктон необходимых для жизни питательных веществ. Этот процесс охватывает огромные водные территории и в будущем может кардинально изменить экосистемы по всей планете.
Американские биотехнологи впервые сообщили об обращении вспять клеточного старения в живых клетках печени человека — не мышиных, не синтетических, а именно человеческих. На волне этого результата компания привлекла 435 миллионов долларов и готовится к клиническим испытаниям.
В 2017 году человечество впервые заметило объект, прилетевший из другой звездной системы. Он оказался странным, почти не похожим ни на астероид, ни на комету, и получил имя Оумуамуа. Затем появился «нормальный» межзвездный странник — комета Борисова. А в 2025-м астрономы обнаружили 3I/ATLAS — объект, который, вероятно, хранит вещество времен рождения чужих миров. Но что изменили в астрономии эти три гостя из межзвездной тьмы?
Астрономы провели длительную радиодиагностику межзвездного объекта 3I/ATLAS и не нашли признаков искусственных технологий. Наблюдение окончательно подтвердило естественную природу ледяного тела, хотя ученые изначально не ожидали сенсации.
Роль личности в истории чаще всего иллюстрируют правителями или полководцами. Но, глядя на современную карту мира, нельзя не признать: она выглядела бы принципиально иначе, если бы не одна крестьянская девушка, которую сожгли в этот день ровно 595 лет назад.
В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
