Ученые придумали новые подходы для создания реалистичных картинок с помощью нейронных сетей
Команда российских ученых, работающих в МФТИ, Иннополисе и Сколково, совершила научный прорыв в области генеративного моделирования — создании новых изображений, похожих на настоящие фотографии или рисунки. Они разработали новый метод, который значительно ускоряет и упрощает процесс генерации в теории и на практике.
Их результаты опубликованы в материалах конференции NeurIPS 2024. Генеративное моделирование — это область искусственного интеллекта, занимающаяся созданием новых данных, подобных уже существующим. Это могут быть изображения, тексты, музыкальные произведения и многое другое. Генеративные модели находят применение в самых разных областях: от создания реалистичных изображений для игр и фильмов до разработки новых лекарств и материалов. Одна из ключевых технологий в этой области — сопоставление потоков (Flow Matching).
Сопоставление потоков нужно для того, чтобы плавно преобразовать одно распределение данных в другое. Например, превратить набор черно-белых изображений в набор цветных фото, на которых нарисовано то же самое. Сопоставление потоков похоже на создание «реки» или «потока», который течет из одного распределения в другое. Каждый элемент данных при таком подходе представляется собой как бы частичку, которая плывет по этому потоку, плавно изменяя свои свойства. Задача заключается в том, чтобы найти поток, который наилучшим образом преобразует исходные данные в целевые.
В ранних моделях, основанных на сопоставлении потоков, «река» часто имела извилистые русла, а «путешествие» частиц было долгим и сложным. Это приводило к замедлению процесса генерации новых данных. Поэтому ученые искали способы сделать траектории потока максимально прямыми.
Существующие подходы к выпрямлению траекторий имели свои недостатки. Некоторые методы были итеративными, то есть многократно повторяли процесс улучшения «прямоты», накапливая при этом ошибки. Другие методы основывались на упрощенных приближениях, которые не гарантировали нужного результата.
Новый метод оптимального сопоставления потоков, представленный на конференции NeurIPS 2024, решает эти проблемы. Авторы исследования разработали и теоретически обосновали новый подход, который позволяет вычислять поток с прямыми траекториями всего за одну минимизацию функции потерь, используя для этого векторные поля, параметризованные выпуклыми функциями. Вместо того, чтобы позволять точкам блуждать по всем возможным путям, новый подход оптимального сопоставления потоков использует особые «векторные поля», которые задают прямые траектории движения.

Это подобно тому, как строители прокладывают прямую дорогу между двумя пунктами, не допуская изгибов. Эти векторные поля математически связаны с градиентами выпуклых функций , которые задают «инструкции» для движения точек по прямым путям. Это позволяет получить поток с прямыми траекториями и, следовательно, генерировать новые данные намного быстрее и эффективнее, чем с помощью предыдущих методов. Разработанный авторами алгоритм не требует многократных итераций и сложных приближений, что значительно упрощает процесс и повышает точность.
В своем исследовании ученые продемонстрировали валидность доказанной теории и эффективность предложенного ими метода на различных задачах, начиная от простых двумерных примеров и заканчивая довольно сложными задачами перевода изображений.
Новый подход показал лучшие результаты, чем существующие методы, значительно уменьшив погрешность и ускорив генерацию реалистичных изображений.
«Наш подход может быть эффективно использован для решения различных задач, связанных с созданием новых наборов данных и их преобразованием. Например, для создания реалистичных изображений человеческих лиц, превращения эскизов в фотореалистичные картинки, генерации новых текстур и для восстановления ранее поврежденных изображений» — рассказал Александр Гасников, заведующий лабораторией математических методов оптимизации МФТИ.
Разработка нового алгоритма открывает новые возможности для исследований в области генеративного моделирования. Ученые планируют изучить применение его к еще более сложным задачам, а также улучшить сам алгоритм для повышения его скорости и универсальности. Их исследование обещает ускорить развитие технологий, связанных с созданием и преобразованием данных, открывая новые возможности для различных областей науки и техники.
Эмбрионы зебровых амадин изменили архитектуру кровеносной системы своего гипоталамуса под действием предупреждающих криков родителей о высокой температуре. Один лишь звук без реального перегрева сделал сосуды развивающегося мозга более эластичными. Это должно защищать будущего птенца от теплового удара.
Подобно тому, как люди делятся на левшей и правшей, домашние собаки тоже демонстрируют предпочтения в выборе лапы. Ученые разработали серию поведенческих и двигательных тестов для комплексного подхода к определению собак-левшей, правшей и тех, кто одинаково активно использует обе лапы.
Ученые с высокой точностью измерили ключевые параметры нейтринных осцилляций — угол смешивания θ₁₂ и разность квадратов масс нейтрино. Результаты верифицировали несколькими методами.
Сам факт того, что после распада Западной Римской империи возникали новые государства, историкам известен давно. Нет сомнений в существовании королевств готов, франков, лангобардов и других постримских политических образований. Авторы нового исследования сосредоточились на более сложном вопросе. Они попытались выяснить, как именно происходило формирование таких обществ на уровне отдельных людей, семей и общин. Впервые благодаря сочетанию генетических и археологических данных исследователи смогли реконструировать развитие одного постримского политического общества, которое располагалось на территории Паннонии.
Физикам долго не удавалось применить фазовый контраст в электронной микроскопии. Оказалось, что нужно было прекратить искать подходящее вещество для фазовой пластины и обратить внимание на лазеры.
Ученые с высокой точностью измерили ключевые параметры нейтринных осцилляций — угол смешивания θ₁₂ и разность квадратов масс нейтрино. Результаты верифицировали несколькими методами.
Хотя длительность помех не превышала десяти секунд, это первый известный случай такого рода. Обычно спутникам не хватает мощности для создания радиосигналов той силы, что нужна для подобных помех.
В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
