Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Нейросети пишут чересчур официально. Новая разработка «Яндекса» показывает, где именно
Исследователи «Яндекса» разработали новый метод оценки качества машинного перевода. На основе этой метрики разработчики смогут целенаправленно совершенствовать существующие модели. Разработку уже оценило мировое академическое сообщество: компания представила статью о методе на международной конференции по машинному обучению EMNLP 2025.
Сегодня многие нейросети уже довольно точно переводят тексты, но делают это не всегда естественно. В неформальном диалоге модель может перевести sorry, my bad как «приношу извинения, это моя вина» вместо «извини, ошиблась». Пользователь заметит, что нейросеть выбрала излишне официальный тон, но существующие системы оценки перевода такие ошибки игнорируют. Новый метод помогает обратить внимание на такие недочеты.
Новая система оценки «Яндекса» называется RATE (Refined Assessment for Translation Evaluation — улучшенная метрика для оценки перевода). Эксперты не используют ее напрямую для дообучения моделей перевода. Однако RATE позволяет с высокой точностью оценить, где именно современные модели ошибаются и что нужно улучшить, чтобы их переводы стали точнее и естественнее для пользователя.
Разработка получила мировое признание в академическом сообществе: статью о RATE представили на международной конференции по машинному обучению EMNLP 2025. Среди других участников конференции — Microsoft Research, Google Research, OpenAI, Anthropic, Amazon, Baidu, Alibaba, Huawei, Samsung Research, NVIDIA Research, Intel Labs, IBM Research, Bloomberg, Adobe Research, Qualcomm Research.
В отличие от других метрик, RATE оценивает перевод по трем главным для пользователя критериям: точность передачи смысла, естественность языка и соответствие стилю оригинала. Это позволяет использовать метод для любых типов текстов. Инструмент помогает проверить в новостях точность передачи фактов, в постах соцсетей — выявить чрезмерную формальность фраз, а в художественных текстах — оценить стиль и плавность речи. RATE не только отмечает ошибку, но и оценивает ее значимость — от небольших неточностей до сильных искажений.
Руководитель команды оценки качества перевода в «Яндексе» Екатерина Еникеева рассказала, что исследователям во время работы с другими методами не хватало детализации. По ее словам, MQM (Multidimensional Quality Metrics — многомерные показатели качества) слишком сложный, а ESA (Error Span Annotation — аннотация диапазона ошибок) замечает только грубые ошибки
«Эти метрики помогают проверить точность, но не позволяют оценить, насколько перевод получается естественным. А именно это сегодня стало главным критерием для пользователя в восприятии перевода. RATE позволяет оценить и точность, и естественность перевода, дает более полную картину его качества и может подсказать разработчикам, как развивать модель для улучшения перевода», — пояснила Еникеева.
Сравнение на данных крупнейшего международного конкурса WMT показало, что RATE выявляет в семь раз больше ошибок, чем MQM и ESA. Результаты эксперимента оценивали высококвалифицированные ИИ-тренеры. Сравнение доказало, что другие метрики не смогли обнаружить множество недочетов в переводах нейросетей, которые заметили пользователи.
Эксперимент показал: современные модели машинного перевода достигли значительного прогресса в точности. При этом эталоном естественности и плавности речи по-прежнему остается человеческий перевод, хотя большая языковая модель «Яндекса» уже приблизилась к этому уровню, опередив такие модели, как Claude-3.5 и GPT-4.
«Яндекс» уже использует RATE для улучшения своих моделей, адаптируя их переводы под разные сценарии — от деловой переписки до неформального общения. RATE также помогает исследователям создавать новые алгоритмы, ориентированные на живую человеческую речь, а не только на формальные критерии.
Авторы масштабного исследования рассказали, чем именно нужно питаться в течение дня, чтобы хорошо выспаться ночью. В отличие от предыдущих работ, ученые не полагались на память участников эксперимента, а следили за их питанием через приложение и исследовали сон с помощью медицинских датчиков.
Биологи раскрыли, как бурые медведи могут месяцами лежать без движения и не терять физическую силу. Во время спячки они полностью перестраивают работу клеток, уменьшая количество митохондрий, но усиливая эффективность оставшихся. Ученые хотят перенести медвежьи способности в новые лекарства от атрофии мышц.
Ученые предложили новый способ оценки текущего темпа экспансии Вселенной с помощью едва уловимиого космического гравитационного «гула» от слияний неразличимых компактных объектов. Объединив данные наблюдений наземных интерферометров и статистику не выявленных сигналов, астрофизики получили уточненные ограничения параметра, вокруг которого разгорается один из самых острых споров в современной космологии.
В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.
В мире оказалось гораздо больше диких пчел, чем кто-либо мог предположить. Ученые впервые оценили, сколько видов пчел существует на Земле, и обнаружили, что показатель превышает 26 тысяч — примерно на четверть больше, чем считалось.
Разное отношение домашних животных к хозяевам давно стало предметом споров, обсуждений и шуток. Ученые из Венгрии показали, что собаки демонстрируют по отношению к человеку уровень альтруизма, сходный с детским, тогда как кошки ищут в партнерстве с человеком прежде всего свою выгоду.
Астрономы недавно проанализировали базу данных о падающих на Землю объектах и пришли к выводу, что два из них прибыли из межзвездного пространства. Известна не только дата, но и место падения каждого из них.
«Любить лишь можно только раз», — писал поэт Сергей Есенин, а герои культовых сериалов приходили к выводу, что «настоящая» влюбленность случается в жизни максимум дважды. Однако ни один из этих тезисов не подкреплен научными данными. Американские исследователи подошли к вопросу иначе: опросили более 10 тысяч человек и вывели среднее число сильных влюбленностей, возможных в течение жизни.
В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Последние комментарии