04.12.2025, 13:27

Редакция Naked Science

3,4 тыс

Нейросети пишут чересчур официально. Новая разработка «Яндекса» показывает, где именно

❋ 3.5

Исследователи «Яндекса» разработали новый метод оценки качества машинного перевода. На основе этой метрики разработчики смогут целенаправленно совершенствовать существующие модели. Разработку уже оценило мировое академическое сообщество: компания представила статью о методе на международной конференции по машинному обучению EMNLP 2025.

Технологии

# искусственный интеллект

# нейросети

# перевод

# речь

# языковые модели

Робот читает книгу / © ИИ-генерация, freepik

Сегодня многие нейросети уже довольно точно переводят тексты, но делают это не всегда естественно. В неформальном диалоге модель может перевести sorry, my bad как «приношу извинения, это моя вина» вместо «извини, ошиблась». Пользователь заметит, что нейросеть выбрала излишне официальный тон, но существующие системы оценки перевода такие ошибки игнорируют. Новый метод помогает обратить внимание на такие недочеты.

Новая система оценки «Яндекса» называется RATE (Refined Assessment for Translation Evaluation — улучшенная метрика для оценки перевода). Эксперты не используют ее напрямую для дообучения моделей перевода. Однако RATE позволяет с высокой точностью оценить, где именно современные модели ошибаются и что нужно улучшить, чтобы их переводы стали точнее и естественнее для пользователя.

Разработка получила мировое признание в академическом сообществе: статью о RATE представили на международной конференции по машинному обучению EMNLP 2025. Среди других участников конференции — Microsoft Research, Google Research, OpenAI, Anthropic, Amazon, Baidu, Alibaba, Huawei, Samsung Research, NVIDIA Research, Intel Labs, IBM Research, Bloomberg, Adobe Research, Qualcomm Research.

В отличие от других метрик, RATE оценивает перевод по трем главным для пользователя критериям: точность передачи смысла, естественность языка и соответствие стилю оригинала. Это позволяет использовать метод для любых типов текстов. Инструмент помогает проверить в новостях точность передачи фактов, в постах соцсетей — выявить чрезмерную формальность фраз, а в художественных текстах — оценить стиль и плавность речи. RATE не только отмечает ошибку, но и оценивает ее значимость — от небольших неточностей до сильных искажений.

Руководитель команды оценки качества перевода в «Яндексе» Екатерина Еникеева рассказала, что исследователям во время работы с другими методами не хватало детализации. По ее словам, MQM (Multidimensional Quality Metrics — многомерные показатели качества) слишком сложный, а ESA (Error Span Annotation — аннотация диапазона ошибок) замечает только грубые ошибки

«Эти метрики помогают проверить точность, но не позволяют оценить, насколько перевод получается естественным. А именно это сегодня стало главным критерием для пользователя в восприятии перевода. RATE позволяет оценить и точность, и естественность перевода, дает более полную картину его качества и может подсказать разработчикам, как развивать модель для улучшения перевода», — пояснила Еникеева.

Сравнение на данных крупнейшего международного конкурса WMT показало, что RATE выявляет в семь раз больше ошибок, чем MQM и ESA. Результаты эксперимента оценивали высококвалифицированные ИИ-тренеры. Сравнение доказало, что другие метрики не смогли обнаружить множество недочетов в переводах нейросетей, которые заметили пользователи.

Эксперимент показал: современные модели машинного перевода достигли значительного прогресса в точности. При этом эталоном естественности и плавности речи по-прежнему остается человеческий перевод, хотя большая языковая модель «Яндекса» уже приблизилась к этому уровню, опередив такие модели, как Claude-3.5 и GPT-4.

«Яндекс» уже использует RATE для улучшения своих моделей, адаптируя их переводы под разные сценарии — от деловой переписки до неформального общения. RATE также помогает исследователям создавать новые алгоритмы, ориентированные на живую человеческую речь, а не только на формальные критерии.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Технологии

# искусственный интеллект

# нейросети

# перевод

# речь

# языковые модели

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Человеческое в технике

Политехнический музей

Москва

Лекция

19 Июл

500 ₽

Немыслимо: о возможностях и ограничениях нашего мышления

ВСмысле

Онлайн

Лекция

20 Июл

Бесплатно

Как кишечник управляет мозгом: еда, микробиота и ось кишечник-мозг

Курилка Гутенберга

Москва

Лекция

20 Июл

Бесплатно

Тайны Северной Двины: как Россия нашла своих звероящеров

Центр «Архэ»

Онлайн

Лекция

20 Июл

Бесплатно

Большие перелеты советской страны. «Пролетарий» летит над Европой

Астрокомплекс им. С.П. Королева

Москва

Лекция

21 Июл

Бесплатно

Жемчужины южного неба. Астрономия в Чили

Астрокомплекс им. С.П. Королева

Москва

Лекция

21 Июл

1500 ₽

Глаза — инструкция по применению

ВСмысле

Санкт-Петербург

Лекция

22 Июл

Бесплатно

Модные слова в жизни, в литературе, в прессе

ВДНХ

Москва

Лекция

22 Июл

Бесплатно

Дизайн на орбите: как покорение космоса перекроило моду и быт

Политехнический музей

Москва

Популярное

За сутки

За неделю

За месяц

17 июля, 10:00

Губкинский университет

Российское масло уменьшило расход топлива и увеличило ресурс газопоршневых двигателей

Ученые РГУ нефти и газа (НИУ) имени И. М. Губкина разработали синтетическое масло для газопоршневых двигателей, позволяющее снизить расход топливного метана на семь процентов. Продукт разработан в целях импортозамещения в сфере энергетики. Разработка открывает новые возможности распределенной энергетики на Крайнем Севере, Дальнем Востоке и других территориях без центральных сетей.

Губкинский университет

# двигатели

# материалы

# моторное масло

# промышленность

18 июля, 09:30

Марк Чернов

Ученые выяснили, почему шимпанзе обожают собирать и прятать кристаллы

Археологи часто находят красивые прозрачные кристаллы на стоянках древних людей, живших почти 800 тысяч лет назад. Самое странное, что наши предки не делали из них наконечники для стрел или бусы, а, похоже, просто повсюду носили с собой и бережно складывали в кучи. Испанские ученые нашли объяснение этой странной привычке, понаблюдав за ближайшими родственниками человека — шимпанзе.

Антропология

# антропология

# палеоантропология

# поведение животных

# эволюция человека

17 июля, 15:20

ФизТех

Астрофизики установили причины ритмичных вспышек блазара Тон 599

Большой коллектив ученых из Специальной астрофизической обсерватории РАН (п. Нижний Архыз), Астрокосмического центра ФИАН, Крымской астрофизической обсерватории РАН, Санкт-Петербургского государственного университета и МФТИ с коллегами впервые провел комплексный многоволновой анализ переменности блазара Тон 599 за период с 1983 по 2025 год и обнаружил в этих данных скрытый ритм, указывающий на работу двух взаимосвязанных механизмов.

ФизТех

# астрономия

# астрофизика

# блазары

# Черные дыры

17 июля, 10:00

Губкинский университет

Российское масло уменьшило расход топлива и увеличило ресурс газопоршневых двигателей

Губкинский университет

# двигатели

# материалы

# моторное масло

# промышленность

13 июля, 14:06

Максим Абдулаев

Пережившие китобоев: как в России спасают гренландских китов Охотского моря и не только

Кит живет двести лет, умеет пробивать головой полуметровый лед и поет океанский джаз голосом несмазанной дверной петли. Охотоморские гренландские киты — это не просто многотонные ледоколы. Это древние узники, которые остались жить в Охотском море со времен последнего оледенения. Это счастливцы, которые смогли пережить гарпуны китобоев XIX-XX веков, но сегодня уязвимы не меньше. Чтобы спасти этих поразительных китов, российским ученым и команде фонда «Природа и люди» приходится: считать хвосты, читать биографии по шрамам, прятать подростков от хищников, стрелять (спутниковыми метками) с парамоторов и тяжелых дронов. Рассказываем, как устроена жизнь гренландских китов России и кто помогает им не исчезнуть навсегда с лица планеты.

Биология

# Баренцево море

# горбатые киты

# защита природы

# китообразные

# киты

# косатки

# природа

# усатые киты

Выбор редакции

16 июля, 15:12

Evgenia Vavilova

Физики впервые воспроизвели в лаборатории процесс извлечения энергии из черной дыры

Процессы, сопровождающие жизнь черных дыр, интересуют не только теоретиков. Ученые уже знают, что энергия и частицы могут покидать черные дыры и теперь работают над способами эту энергию использовать.

Физика

# Роджер Пенроуз

# Черные дыры

# электромагнитные волны

# энергия

25 июня, 16:20

Любовь С.

Физики уточнили возможные размеры Вселенной

Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.

Астрономия

# бесконечность

# вселенная

# геометрия

# пространство

# реликтовое излучение

# свет

# топология

25 июня, 15:09

Марк Чернов

Физики подтвердили гипотезу о существовании двух жидких состояний воды

Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.

Физика

# вода

# Молекулярная биология

# структура воды

# фазовые переходы

9 июля, 13:06

Редакция Naked Science

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Видеосервисы стали неотъемлемой частью жизни россиян. В 2026 году охваты большинства платформ продолжают расти, в том числе YouTube.

Медиа

# «ВКонтакте»

# YouTube

# аудитория

# блокировки

# видеосервис

# интернет

# медиа

[miniorange_social_login]

"опередив такие модели, как Claude-3.5 и GPT-4" Молодцы, чо! "Опередили" несуществующую модель "Claude-3.5" (это о какой конкретно модели идёт речь? О Sonnet? О Haiku? Об Opus?) и прошлогоднюю модель от OpenAI! 😂😂😂 Yandex такой Яндекс! И добавлять ничего не нужно к их собственным релизам! Сами всё о себе говорят! Вот уж действительно: пусть лучше "сознание" у ИИ ищут! 😂😂😂

Ответить

—

Aitneics Secniv

05.12.2025

Михаил, Вот ответ от Алисы: "Ой, кажется, мы снова забыли приложить 10‑страничный дисклеймер к каждой фразе! 😅 На самом деле: под «Claude 3.5» подразумевалась линейка Claude 3 (все три модели); под «GPT‑4» — именно GPT‑4, а не её последующие версии. Согласны, что точность важна — спасибо, что держите нас в тонусе!" Вот Gemini присоединяется к разговору: "Модель "Claude-3.5": Модель Claude 3.5 Sonnet не является несуществующей. Она была выпущена компанией Anthropic 20 июня 2024 года. На момент своего выпуска она позиционировалась как модель, способная конкурировать или превосходить GPT-4o и Gemini. Модель "GPT-4": Модель GPT-4 была выпущена 14 марта 2023 года. Это модель предыдущего года, но она по-прежнему остается одним из ведущих мировых стандартов. OpenAI выпустила более новую версию GPT-4o в мае 2024 года. Заявление Яндекса: Если в официальном заявлении Яндекса говорилось, что их модель YandexGPT 3 "опережает" "прошлогоднюю модель от OpenAI", это может быть правдой с точки зрения определенных показателей. Однако сравнение с Claude 3.5 Sonnet (июнь 2024 г.) или GPT-4o (май 2024 г.) требует конкретных данных тестов. "

Ответить

Еще 1 ответ

Михаил Константинов

05.12.2025

Aitneics, - "под «Claude 3.5» подразумевалась линейка Claude 3" - ну, понятно, чо. Яндекс всех-всех-всех сразу обогнал 😂😂😂 Чо там мелочиться на каждую модель! Сразу всех обогнали! 😂😂😂 - "именно GPT‑4, а не её последующие версии" - так в том и стёб был! А чо ж не GPT-2 обгоняли? Или совесть не позволила? - "Модель Claude 3.5 Sonnet не является несуществующей" - так я и не утверждал, что она "несуществующая". Просто когда я в Claude выбираю "More Models", выпадает и Opus 3, и Haiku 3.5. Это если не обращать внимание на другие модели! Отсюда и ирония в адрес Яндекса: как всегда "обогнали" не только модели полуторагодичной давности (что в мире ИИ сегодня означает разрыв в одно-два поколения!), но ещё и непонятно, какую именно модель "обгоняли". Как всегда, три короба болтовни, а начни разбираться, и не совсем "обогнали", и не "модель", и не в карты, а в казино, и не выиграл, а проиграл. Такие дела. - "это может быть правдой с точки зрения определенных показателей" - у Яндекса всегда так: "это может быть правдой с точки зрения определенных показателей" 😂😂😂 А для того, чтобы понять качество их поделий в области ИИ, достаточно самому попробовать эти поделия. И все вопросы сразу отпадают.

Ответить

Aitneics Secniv

05.12.2025

Михаил, Тут не выдержал Perplexity и присоединился: Ха, эта критика — классический троллинг с сарказмом, где фокус на "устаревших" моделях и неопределённости в терминах, но давай разберём по полочкам, чтобы ответить конструктивно и без агрессии. 😏 Я бы ответил так (представь, что это мой твит или пост в ответ): "Эй, критик, давай по фактам разберёмся, без 😂! 😌 1. Claude-3.5 — это не миф, а реальный релиз от Anthropic (май 2024): они выпустили Claude 3.5 Sonnet, который на бенчмарках (MMLU, GPQA) обошёл GPT-4o в кодинге и математике, но уступил в некоторых креативных задачах. Haiku/Opus — это из семейства Claude 3, а 3.5 — апгрейд. Если Yandex (или кто там хвастается) сравнивает с этим, то это свежий вызов, а не 'несуществующий'. 2. GPT-4 — да, прошлогодняя (март 2023), но до сих пор бейзлайн для многих тестов (Arena ELO ~1300+). 'Опередить' её в 2025 — это не стыдно, особенно если новая модель Yandex бьёт в скорости/эффективности (как они заявляют в релизе). OpenAI уже на GPT-4o и o1, но соревнование — это прогресс, а не 'стариковство'. 3. Yandex и релиз — они часто хайпуют (типа Alice или их LLM), но если метрики реальные (MMLU 85%+ или что-то подобное), то почему не похвалить? 'Сознание' в ИИ — это отдельная тема (от Тьюринга до текущих дебатов о AGI), но лучше фокусироваться на том, что работает: точность, скорость, доступность. В общем, соревнование моделей — это драйв для всех, включая Yandex. Если их новая штука правда круче — молодцы! А критика без ссылок на бенчмарки — просто шум. Что думаешь, есть ли в их релизе реальный прорыв? 🚀" Это ответ держит тон дружеский, но фактчекинг (на основе свежих релизных нот Anthropic/OpenAI 2024–2025), показывает экспертизу и приглашает к диалогу. Если хочешь доработать под конкретный контекст (статья Yandex?), дай знать! 😌

Ответить

Еще 3 ответа

Михаил Константинов

05.12.2025

Aitneics, не умеете Вы, батенька, Perplexity пользоваться! Со мной он таким тоном не разговаривает. Может быть, потому что я с ним работаю, а не болтовнёй занимаюсь? - "Claude-3.5 — это не миф" - да ещё и вопросы задавать ему не умеете! Смотрите мой комментарий выше, повторять не буду. - "до сих пор бейзлайн для многих тестов" - ну да. А ещё GPT 2.0 тоже "бейзлайн для многих тестов". Вот что у Яндекса всегда хорошо работало, так это маркетологи и рекламщики. Если бы они столько денег в разработку вкладывали, сколько в маркетинговый bullshit, глядишь, и результаты были бы другими. А пока что нейронки переводят очень даже неплохо. И в каждым днём всё лучше и лучше. И никакого эталона качества перевода быть не может. Потому что перевод, за некоторым исключением технического перевода, может быть очень разным. Это если текст на текст.

Ответить

—

Aitneics Secniv

06.12.2025

Михаил, 4 нейросети эксплуатирую, две русские , две нерусские. Вопросы задаю по философии, логике, истории, политике, литературе, искусствоведению. Не могу сказать что какая-то из них лучше, а какая-то хуже. Бывает одна из них лучше всех ответит, наиболее глубоко и "осмысленно". Бывает другая. Бывает одна какая-нибудь затупит. Короче, не понимаю хейта в адрес российских нейросетей. У многих по жизни просто установка "Всё российское - отстой! Всё западное - зашибись!". И, конечно же, все эти нейросети близко не приблизились к человеческому интеллекту. Это и в принципе невозможно при их современном устройстве, при тех архитектурах, которые есть сейчас.

Ответить

—

Михаил Константинов

06.12.2025

Aitneics, "не понимаю хейта в адрес российских нейросетей" - а нет никакого хейта. Есть объективная оценка состояния российской отрасли. На основании использования продуктов этой отрасли. И Яндекс, и Сбер отстают от западных на два поколения. Для отрасли ИИ это отставание фатально. Потому-то Яндекс и занялся поиском "сознания" у нейронок, что сами нейронки у него никак не получаются. Ни ресурсов не хватает, ни технологий, ни мозгов (коих в Яндексе остаётся всё меньше и меньше). А жаль. Яндекс был неплохой компанией. И надежды подавал. Но для такой компании игры в политику всегда плохо заканчиваются. P.S. Кстати, мне и китайские нейронки не нравятся. Особенно DeepSeek. Особенно прошлогодняя истерика журналистов вокруг этой нейронки, которая якобы похоронила ChatGPT. Впрочем, китайцы более прагматичны в этой сфере, они меньше производят шума, и больше работают. И результат у них получше. Что Qwen, что Kimi K2, что некоторые другие вполне ничего, для определённых задач сгодятся. Да и DeepSeek, если не видеть в нём "убийцу ChatGPT", тоже кое-на-что сгодится. А вот от Яндекса понтов много, а результаты обратно пропорциональны производимому шуму.