Нейросети пишут чересчур официально. Новая разработка «Яндекса» показывает, где именно
Исследователи «Яндекса» разработали новый метод оценки качества машинного перевода. На основе этой метрики разработчики смогут целенаправленно совершенствовать существующие модели. Разработку уже оценило мировое академическое сообщество: компания представила статью о методе на международной конференции по машинному обучению EMNLP 2025.
Сегодня многие нейросети уже довольно точно переводят тексты, но делают это не всегда естественно. В неформальном диалоге модель может перевести sorry, my bad как «приношу извинения, это моя вина» вместо «извини, ошиблась». Пользователь заметит, что нейросеть выбрала излишне официальный тон, но существующие системы оценки перевода такие ошибки игнорируют. Новый метод помогает обратить внимание на такие недочеты.
Новая система оценки «Яндекса» называется RATE (Refined Assessment for Translation Evaluation — улучшенная метрика для оценки перевода). Эксперты не используют ее напрямую для дообучения моделей перевода. Однако RATE позволяет с высокой точностью оценить, где именно современные модели ошибаются и что нужно улучшить, чтобы их переводы стали точнее и естественнее для пользователя.
Разработка получила мировое признание в академическом сообществе: статью о RATE представили на международной конференции по машинному обучению EMNLP 2025. Среди других участников конференции — Microsoft Research, Google Research, OpenAI, Anthropic, Amazon, Baidu, Alibaba, Huawei, Samsung Research, NVIDIA Research, Intel Labs, IBM Research, Bloomberg, Adobe Research, Qualcomm Research.
В отличие от других метрик, RATE оценивает перевод по трем главным для пользователя критериям: точность передачи смысла, естественность языка и соответствие стилю оригинала. Это позволяет использовать метод для любых типов текстов. Инструмент помогает проверить в новостях точность передачи фактов, в постах соцсетей — выявить чрезмерную формальность фраз, а в художественных текстах — оценить стиль и плавность речи. RATE не только отмечает ошибку, но и оценивает ее значимость — от небольших неточностей до сильных искажений.
Руководитель команды оценки качества перевода в «Яндексе» Екатерина Еникеева рассказала, что исследователям во время работы с другими методами не хватало детализации. По ее словам, MQM (Multidimensional Quality Metrics — многомерные показатели качества) слишком сложный, а ESA (Error Span Annotation — аннотация диапазона ошибок) замечает только грубые ошибки
«Эти метрики помогают проверить точность, но не позволяют оценить, насколько перевод получается естественным. А именно это сегодня стало главным критерием для пользователя в восприятии перевода. RATE позволяет оценить и точность, и естественность перевода, дает более полную картину его качества и может подсказать разработчикам, как развивать модель для улучшения перевода», — пояснила Еникеева.
Сравнение на данных крупнейшего международного конкурса WMT показало, что RATE выявляет в семь раз больше ошибок, чем MQM и ESA. Результаты эксперимента оценивали высококвалифицированные ИИ-тренеры. Сравнение доказало, что другие метрики не смогли обнаружить множество недочетов в переводах нейросетей, которые заметили пользователи.
Эксперимент показал: современные модели машинного перевода достигли значительного прогресса в точности. При этом эталоном естественности и плавности речи по-прежнему остается человеческий перевод, хотя большая языковая модель «Яндекса» уже приблизилась к этому уровню, опередив такие модели, как Claude-3.5 и GPT-4.
«Яндекс» уже использует RATE для улучшения своих моделей, адаптируя их переводы под разные сценарии — от деловой переписки до неформального общения. RATE также помогает исследователям создавать новые алгоритмы, ориентированные на живую человеческую речь, а не только на формальные критерии.
Исследователи опросили более 60 тысяч испытуемых из разных стран и выяснили: чем больше человек зациклен на себе, тем холоднее он к своему партнеру. Правда, снижение накала страстей не всегда плохо, у этого есть и положительные стороны.
Во время раскопок в римском лагере в Йорке (Англия) нашли стеклянную колбу, поразительно напоминающую древнеегипетские флаконы для кохля — традиционную черную подводку для глаз. Не исключено, что это средство макияжа пользовалось популярностью и у римских солдат.
В популярной литературе сверхмассивные черные дыры чаще всего представляют как разрушители звезд и планет. Авторы новой работы попробовали рассчитать, что на самом деле происходит в окрестностях таких объектов и пришли к противоположному выводу.
Вначале Reuters опубликовал статью о взаимоотношениях SpaceX и Пентагона, которую миллиардер --- традиционно для его отношений с этим изданием — назвал фейком. Опровергая ее тезисы, он обнародовал информацию, не представленную ранее публично.
Исследователи опросили более 60 тысяч испытуемых из разных стран и выяснили: чем больше человек зациклен на себе, тем холоднее он к своему партнеру. Правда, снижение накала страстей не всегда плохо, у этого есть и положительные стороны.
Провинция Цзянсу была процветающим центром медицинской практики в Китае во времена династии Мин (1368-1644 годы нашей эры). Микроскопический анализ крошечных частиц на поверхности хирургических ножниц и пинцета из гробницы китайского врача помог выявить следы вещества, получаемого из ядовитого растения, которое, по мнению исследователей, применялось как местная анестезия во время операций.
В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Последние комментарии