• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
11.09.2025, 11:07
ФизТех
247

Ученые адаптировали ИИ для генерации изображений под российскую культуру

❋ 5.1

Для культурной адаптации моделей искусственного интеллекта коллектив российских ученых составил методику сбора и обработки пар данных текст-изображение. Применение методики позволило обучить модель Kandinsky 3.1 генерации изображений с учетом культурных особенностей народов нашей страны.

Рисунок 3. Изображения, сгенерированные шестью моделями по их описаниям: «Иванушка-дурачок в кафтане и красной шапке летит по небу на маленькой серой лошади, ретро-иллюстрация, книга сказок» (первая строка), «вид Большого театра в Москве, лето, люди» (вторая строка), «пельмени» (третья строка) / © Васильев В. А. и др., журнал «Доклады Российской академии наук. Математика, информатика, процессы управления»

Результаты работы опубликованы в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».

Создание изображений — занятие творческое, требующее от исполнителя особых навыков и эмоционального настроя. Рисовать, к сожалению, умеет не каждый, да и муза — дама капризная, может долго не посещать. Когда человеку сложно справляться с работой, он стремится делегировать ее технике. По этой причине и благодаря новым возможностям, которые открывают технологии искусственного интеллекта и машинного обучения, появились модели генерации изображений по их описаниям, например DALL-E, Midjourney или Stable Diffusion.

Со временем рынок программного обеспечения стал изобиловать графическими редакторами и онлайн-приложениями. Между тем проблема качественного иллюстрирования не исчезла. Ее наличие обусловлено в том числе трудностями перевода и отсутствием адаптации моделей под национальную культуру. Из-за этого полученные с помощью моделей картинки могут не соответствовать запросу пользователя либо, в худшем случае, нечаянно оскорбить его. На результаты генерации, как правило, сильное влияние оказывает англоязычное информационное поле (рисунок 1).

Рисунок 1. Некорректная генерация изображения по тексту: «Буратино, кадр из мультфильма» (слева) и «Винни-Пух, кадр из мультфильма» / © Васильев В. А. и др., журнал «Доклады Российской академии наук. Математика, информатика, процессы управления»

Так как самобытность нации отражается в различных сферах деятельности, ученые выбрали 17 направлений, наиболее значимых для обучения моделей созданию изображений (рисунок 2). Большое внимание уделили особенностям русского языка и литературы, в первую очередь крылатым выражениям и пословицам. Помимо этого были изучены русские традиции и ассоциирующиеся с ними зрительные образы, такие как георгиевская лента — символ Дня Победы, блины и самовар — атрибут Масленицы, Чебурашка — любимый детьми герой сказочной повести Эдуарда Успенского.

Чтобы реализовать методику, ученые вручную обработали около восьми тысяч текстов и иллюстраций к ним из открытых источников в интернете. В процессе обработки и фильтрации были признаны неудовлетворительными и отброшены рисунки, дающие искаженное представление об объекте либо имеющие низкое качество и водяные знаки. Тексты тоже пытались редактировать: удаляли из них многозначные слова и речевые штампы, добавляли имена собственные: названия произведений, имена персонажей. Однако написание нового текста занимало в среднем 4,52 минуты, тогда как корректура существующего — 5,23 минуты, поэтому ученые решили сами излагать сведения об объектах в 2–10 предложениях и переводить их на английский язык. Для устранения ошибок тексты были многократно вычитаны разными лицами.

Рисунок 2. Категории для создания набора данных о культуре России / © Васильев В. А. и др., журнал «Доклады Российской академии наук. Математика, информатика, процессы управления»

В итоге удалось собрать около 200 тысяч пар текст-изображение, несущих отпечаток визуальной составляющей культуры. Данные были использованы в двухэтапном процессе дообучения модели Kandinsky 3.1. Общее число шагов оптимизатора на 416 графических процессорах составило 500 тысяч.

«Одно из основных преимуществ нашей модели над мировыми аналогами заключается в наличии данных о русской культуре,— пояснил Вячеслав Васильев, аспирант кафедры дискретной математики МФТИ.— Благодаря этому модель демонстрирует лучшие результаты при решении практических задач, ориентированных на специфику нашей информационной среды».

С целью проверки информационного наполнения модели Kandinsky 3.1 до и после обучения исследователи по описанию сгенерировали внешний вид нескольких объектов: героев русских сказок и мультфильмов, исторических зданий, блюд национальной кухни. Кроме того, разработчики поставили сравнительный эксперимент и задействовали в нем еще пять моделей (рисунки 3 и 4).

«Так как общепринятых правил и формул для определения культурной адаптации генеративных моделей пока не существует, мы разработали собственную методику оценки,— добавил Вячеслав Васильев.— Для этого привлекли людей, и каждому было предложено, руководствуясь рядом критериев, определить лучшее, на его взгляд, изображение, но при этом не зная, какой моделью оно сгенерировано».

Рисунок 4. Генерация изображения по тексту «Крокодил Гена и Чебурашка, советский мультфильм» моделью Kandinsky 3.1 до и после дообучения / © © Васильев В. А. и др., журнал «Доклады Российской академии наук. Математика, информатика, процессы управления»

Участникам опроса требовалось охарактеризовать рисунки по двум параметрам: соответствие тексту и визуальное качество. Большинство отдали предпочтение рисункам, полученным с помощью модели Kandinsky 3.1. Единственным достойным ее конкурентом назвали DALLE 3. Предыдущая версия Kandinsky 2.2, а также три другие модели: Midjourney 5.2, SDXL и YaART — уступили лидерство.

«Результаты опроса подтвердили эффективность нашей методики сбора данных и обучения модели»,— подвел итог Вячеслав Васильев.

В дальнейшем ученые планируют адаптировать модели для создания видео по тексту, согласно культурным особенностям нашей страны.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
21 января, 19:00
Александр Березин

На острове близ Сулавеси удалось найти следы первой волны успешных выходцев из Африки. Всего через несколько тысяч лет после той миграции они уже рисовали на стенах пещер, куда можно было попасть только через открытое море. Новые данные означают, что антропологам придется снова существенно пересмотреть возможности древних людей.

23 января, 15:09
Илья Гриднев

Крупнейшие живые организмы девонского периода — прототакситы — не относились ни к грибам, ни к растениям, ни к лишайникам. Комплексный химический и структурный анализ помог выявить, что это ранее неизвестная и полностью вымершая ветвь биологической эволюции.

23 января, 15:04
Максим Абдулаев

Австралийские геологи нашли новые доказательства того, что мегалиты попали на равнину Солсбери благодаря сложной логистике древних строителей. Изучив минеральный состав почвы вокруг монумента, исследователи исключили возможность того, что огромные глыбы принесло туда движение ледников.

20 января, 13:40
Александр Березин

Хотя зоологи уже не раз наблюдали использование орудий у относительно близких к людям видов, — от приматов до свиней — коровы до сих пор не были за этим замечены. Теперь ситуация изменилась: оказалось, что они могут использовать многоцелевые орудия по-разному, в зависимости от обстоятельств.

18 января, 11:45
Игорь Байдов

Повторное изучение окаменелости галлюцигении, впервые описанной в 1970-х годах, помогло палеонтологам больше узнать о рационе этого древнего существа. Ответ на вопрос о питании нашли не в ее останках, а на теле предполагаемой добычи.

19 января, 07:55
Игорь Байдов

Растительная диета давно стала золотым стандартом для тех, кто мечтает о долгой и здоровой жизни. Но китайские ученые внесли серьезные коррективы в этот постулат. Они обнаружили, что большинство местных долгожителей, перешагнувших столетний рубеж, регулярно употребляют в пищу мясо. Особенно заметна эта связь у одной специфической группы пожилых людей, что заставляет по-новому взглянуть на диетические рекомендации для самых старших поколений.

12 января, 15:39
Александр Березин

От рыб произошли все наземные позвоночные, включая нас, но как именно рыбы стали главным населением морей — до последнего времени оставалось неясным. Авторы новой научной работы попытались доказать, что причиной этого было вымирание, возможно, вызванное белыми ночами.

20 января, 13:40
Александр Березин

Хотя зоологи уже не раз наблюдали использование орудий у относительно близких к людям видов, — от приматов до свиней — коровы до сих пор не были за этим замечены. Теперь ситуация изменилась: оказалось, что они могут использовать многоцелевые орудия по-разному, в зависимости от обстоятельств.

2 января, 12:27
Адель Романова

Ученые задались вопросом: почему два расположенных по соседству спутника Юпитера такие разные, ведь на Ио повсеместно извергаются вулканы, а Европа полностью покрыта многокилометровой коркой льда. Есть версия, что Ио когда-то тоже была богата водой, но по итогам недавнего исследования это сочли неправдоподобным.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно