Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Нейросети пишут чересчур официально. Новая разработка «Яндекса» показывает, где именно
Исследователи «Яндекса» разработали новый метод оценки качества машинного перевода. На основе этой метрики разработчики смогут целенаправленно совершенствовать существующие модели. Разработку уже оценило мировое академическое сообщество: компания представила статью о методе на международной конференции по машинному обучению EMNLP 2025.
Сегодня многие нейросети уже довольно точно переводят тексты, но делают это не всегда естественно. В неформальном диалоге модель может перевести sorry, my bad как «приношу извинения, это моя вина» вместо «извини, ошиблась». Пользователь заметит, что нейросеть выбрала излишне официальный тон, но существующие системы оценки перевода такие ошибки игнорируют. Новый метод помогает обратить внимание на такие недочеты.
Новая система оценки «Яндекса» называется RATE (Refined Assessment for Translation Evaluation — улучшенная метрика для оценки перевода). Эксперты не используют ее напрямую для дообучения моделей перевода. Однако RATE позволяет с высокой точностью оценить, где именно современные модели ошибаются и что нужно улучшить, чтобы их переводы стали точнее и естественнее для пользователя.
Разработка получила мировое признание в академическом сообществе: статью о RATE представили на международной конференции по машинному обучению EMNLP 2025. Среди других участников конференции — Microsoft Research, Google Research, OpenAI, Anthropic, Amazon, Baidu, Alibaba, Huawei, Samsung Research, NVIDIA Research, Intel Labs, IBM Research, Bloomberg, Adobe Research, Qualcomm Research.
В отличие от других метрик, RATE оценивает перевод по трем главным для пользователя критериям: точность передачи смысла, естественность языка и соответствие стилю оригинала. Это позволяет использовать метод для любых типов текстов. Инструмент помогает проверить в новостях точность передачи фактов, в постах соцсетей — выявить чрезмерную формальность фраз, а в художественных текстах — оценить стиль и плавность речи. RATE не только отмечает ошибку, но и оценивает ее значимость — от небольших неточностей до сильных искажений.
Руководитель команды оценки качества перевода в «Яндексе» Екатерина Еникеева рассказала, что исследователям во время работы с другими методами не хватало детализации. По ее словам, MQM (Multidimensional Quality Metrics — многомерные показатели качества) слишком сложный, а ESA (Error Span Annotation — аннотация диапазона ошибок) замечает только грубые ошибки
«Эти метрики помогают проверить точность, но не позволяют оценить, насколько перевод получается естественным. А именно это сегодня стало главным критерием для пользователя в восприятии перевода. RATE позволяет оценить и точность, и естественность перевода, дает более полную картину его качества и может подсказать разработчикам, как развивать модель для улучшения перевода», — пояснила Еникеева.
Сравнение на данных крупнейшего международного конкурса WMT показало, что RATE выявляет в семь раз больше ошибок, чем MQM и ESA. Результаты эксперимента оценивали высококвалифицированные ИИ-тренеры. Сравнение доказало, что другие метрики не смогли обнаружить множество недочетов в переводах нейросетей, которые заметили пользователи.
Эксперимент показал: современные модели машинного перевода достигли значительного прогресса в точности. При этом эталоном естественности и плавности речи по-прежнему остается человеческий перевод, хотя большая языковая модель «Яндекса» уже приблизилась к этому уровню, опередив такие модели, как Claude-3.5 и GPT-4.
«Яндекс» уже использует RATE для улучшения своих моделей, адаптируя их переводы под разные сценарии — от деловой переписки до неформального общения. RATE также помогает исследователям создавать новые алгоритмы, ориентированные на живую человеческую речь, а не только на формальные критерии.
За последние 10 тысяч лет направленный естественный отбор способствовал эволюции почти 500 генов в ДНК жителей Западной Евразии, что повлияло на их внешний вид и восприимчивость к различным заболеваниям, установили авторы нового исследования.
Ученые продолжают исследовать фундаментальные частицы на неделимость. На этот раз на БАК исследовали кварки и не нашли у них признаков составной частицы.
Очень часто научные задачи основаны на поиске закономерностей в огромном количестве исходных данных. Заметить их трудно, часто процесс интерпретации информации зависит от субъективного взгляда исследователя. Использование нейросетей в этом вопросе может привести к ряду серьезных успехов.
Энтомологи сравнили устойчивость коммерческих и диких гибридных медоносных пчел к главному паразиту ульев — клещу варроа. Полевые и лабораторные тесты показали, что гибриды заражаются в пять раз реже, поскольку их личинки не нравятся паразитам. Пчела-гибрид выживает без регулярных химических обработок и, что важно для пчеловодов, сохраняет миролюбивый характер.
Британские океанологи выяснили, что шум от сейсморазведки подавляет общение финвалов. Во время стрельбы из пневматических пушек количество китовых песен падало в среднем на 70 процентов. Исследование показывает, что антропогенный шум заставляет морских млекопитающих замолкать или спешно покидать привычные акватории.
За последние 10 тысяч лет направленный естественный отбор способствовал эволюции почти 500 генов в ДНК жителей Западной Евразии, что повлияло на их внешний вид и восприимчивость к различным заболеваниям, установили авторы нового исследования.
Марсоход «Персеверанс» обнаружил в камнях на кромке кратера Езеро спектральные признаки минерала корунда, из которого на Земле образуются рубины и сапфиры. Такие спектры на Красной планете зарегистрировали впервые. Теперь ученые пытаются понять, при каких процессах он мог там сформироваться, ведь условия на Марсе заметно отличаются от тех, в которых корунд обычно образуется на Земле.
Четыре человека, летящие к Луне, столкнулись с целым рядом мелких неприятностей — от низкой температуры в начале работы до поломки мочевыводящей системы туалета на вторые сутки и необходимости взамен пользоваться пакетами. К счастью, пока самые крупные сложности удалось компенсировать. Но все они вместе могут сдвинуть ситуацию к решению, о котором Naked Science уже говорил в нашем видеоподкасте о миссии: не исключено, что при высадке астронавтов на Луне их корабль состыкуют со Starship не на окололунной, а уже на околоземной орбите.
Когда международная экспедиционная группа, исследующая море Уэдделла в Антарктиде на борту ледокола «Поларштерн», попыталась укрыться от шторма, ученые и экипаж судна удивились внезапному появлению острова, не обозначенного ни на одной морской карте.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Последние комментарии