Ученые придумали новые подходы для создания реалистичных картинок с помощью нейронных сетей
Команда российских ученых, работающих в МФТИ, Иннополисе и Сколково, совершила научный прорыв в области генеративного моделирования — создании новых изображений, похожих на настоящие фотографии или рисунки. Они разработали новый метод, который значительно ускоряет и упрощает процесс генерации в теории и на практике.
Их результаты опубликованы в материалах конференции NeurIPS 2024. Генеративное моделирование — это область искусственного интеллекта, занимающаяся созданием новых данных, подобных уже существующим. Это могут быть изображения, тексты, музыкальные произведения и многое другое. Генеративные модели находят применение в самых разных областях: от создания реалистичных изображений для игр и фильмов до разработки новых лекарств и материалов. Одна из ключевых технологий в этой области — сопоставление потоков (Flow Matching).
Сопоставление потоков нужно для того, чтобы плавно преобразовать одно распределение данных в другое. Например, превратить набор черно-белых изображений в набор цветных фото, на которых нарисовано то же самое. Сопоставление потоков похоже на создание «реки» или «потока», который течет из одного распределения в другое. Каждый элемент данных при таком подходе представляется собой как бы частичку, которая плывет по этому потоку, плавно изменяя свои свойства. Задача заключается в том, чтобы найти поток, который наилучшим образом преобразует исходные данные в целевые.
В ранних моделях, основанных на сопоставлении потоков, «река» часто имела извилистые русла, а «путешествие» частиц было долгим и сложным. Это приводило к замедлению процесса генерации новых данных. Поэтому ученые искали способы сделать траектории потока максимально прямыми.
Существующие подходы к выпрямлению траекторий имели свои недостатки. Некоторые методы были итеративными, то есть многократно повторяли процесс улучшения «прямоты», накапливая при этом ошибки. Другие методы основывались на упрощенных приближениях, которые не гарантировали нужного результата.
Новый метод оптимального сопоставления потоков, представленный на конференции NeurIPS 2024, решает эти проблемы. Авторы исследования разработали и теоретически обосновали новый подход, который позволяет вычислять поток с прямыми траекториями всего за одну минимизацию функции потерь, используя для этого векторные поля, параметризованные выпуклыми функциями. Вместо того, чтобы позволять точкам блуждать по всем возможным путям, новый подход оптимального сопоставления потоков использует особые «векторные поля», которые задают прямые траектории движения.

Это подобно тому, как строители прокладывают прямую дорогу между двумя пунктами, не допуская изгибов. Эти векторные поля математически связаны с градиентами выпуклых функций , которые задают «инструкции» для движения точек по прямым путям. Это позволяет получить поток с прямыми траекториями и, следовательно, генерировать новые данные намного быстрее и эффективнее, чем с помощью предыдущих методов. Разработанный авторами алгоритм не требует многократных итераций и сложных приближений, что значительно упрощает процесс и повышает точность.
В своем исследовании ученые продемонстрировали валидность доказанной теории и эффективность предложенного ими метода на различных задачах, начиная от простых двумерных примеров и заканчивая довольно сложными задачами перевода изображений.
Новый подход показал лучшие результаты, чем существующие методы, значительно уменьшив погрешность и ускорив генерацию реалистичных изображений.
«Наш подход может быть эффективно использован для решения различных задач, связанных с созданием новых наборов данных и их преобразованием. Например, для создания реалистичных изображений человеческих лиц, превращения эскизов в фотореалистичные картинки, генерации новых текстур и для восстановления ранее поврежденных изображений» — рассказал Александр Гасников, заведующий лабораторией математических методов оптимизации МФТИ.
Разработка нового алгоритма открывает новые возможности для исследований в области генеративного моделирования. Ученые планируют изучить применение его к еще более сложным задачам, а также улучшить сам алгоритм для повышения его скорости и универсальности. Их исследование обещает ускорить развитие технологий, связанных с созданием и преобразованием данных, открывая новые возможности для различных областей науки и техники.
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
Последние несколько лет по всему миру выходит множество работ о том, что микрочастицы искусственных полимеров накапливаются в тканях человека и могут быть небезопасны. Мы решили обратиться к академику Алексею Хохлову, чтобы дать трибуну противоположной точке зрения. Выбор между ними предлагаем сделать читателю.
В эпоху искусственного интеллекта и стремительного развития технологий знание языка становится инструментальной компетенцией, а умение работать с учетом культурного контекста — стратегической. В День филолога, кандидат педагогических наук Екатерина Щавелева, заведующая кафедрой иностранных языков и коммуникативных технологий НИТУ МИСИС рассказывает, как гуманитарное образование приобретает новую ответственность и какое будущее у межкультурной коммуникации.
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
Последние несколько лет по всему миру выходит множество работ о том, что микрочастицы искусственных полимеров накапливаются в тканях человека и могут быть небезопасны. Мы решили обратиться к академику Алексею Хохлову, чтобы дать трибуну противоположной точке зрения. Выбор между ними предлагаем сделать читателю.
Астрофизики Южного федерального университета предложили объяснение одной из самых интригующих загадок современной физики — годичных колебаний сигнала в детекторе DAMA/LIBRA, который вот уже почти тридцать лет регистрирует странные сигналы в подземной лаборатории Гран-Сассо в Италии, интерпретируемые как взаимодействие частиц темной материи с обычным веществом.
В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.
Релиз довольно неожиданно перенес время образования протонов и нейтронов в более раннее прошлое Вселенной. К сожалению, из его текста осталось неясным научное обоснование таких фундаментальных изменений в космологии. Также он резко передвинул в прошлое и момент возникновения реликтового излучения.
При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
