Когда человек слушает чью-то речь, мозг не просто преобразовывает звуки в слова, а непрерывно строит смысл, предсказывает последующие слова, соотносит услышанное с тем, что уже сказано. Все это происходит за доли секунды и преимущественно без сознательного участия человека.
Обычно восприятие речи изучают с помощью метода вызванных потенциалов. Участнику несколько раз предъявляют один и тот же стимул: звук, слово или специальную фразу — и записывают электрические потенциалы мозга в ответ на них. Затем сигнал усредняют по всем повторениям, чтобы убрать случайный шум и выделить устойчивую реакцию. Но такие условия далеки от того, как человек воспринимает реальную речь. Естественную речь изучали с помощью сложных моделей, которые показывают, как мозг отслеживает звуки, слова и смысл в непрерывном потоке. Но эти результаты трудно напрямую сопоставить с ответами на отдельные слова и фразы.
Ученые из НИУ ВШЭ и Института высшей нервной деятельности и нейрофизиологии РАН проверили, можно ли адаптировать подход вызванных потенциалов к восприятию цельной истории. В эксперименте участвовали 27 здоровых взрослых. Пока испытуемые слушали через наушники пятиминутную аудиозапись научно-популярного текста о ежиках, исследователи регистрировали активность их мозга с помощью магнитоэнцефалографии (МЭГ) — метода, который улавливает сверхслабые магнитные поля, возникающие при работе нейронов. Исследование опубликовано в журнале Frontiers in Human Neuroscience. Исследование выполнено при поддержке гранта РНФ.
Затем полученные сигналы усредняли не по отдельным словам, а по семантическим категориям. Исследователи сравнивали реакцию на слова, близкие и далекие от предыдущего контекста по смыслу. Отдельно они проанализировали два типа слов: те, что несут основное содержание фразы (существительные, глаголы, прилагательные), и служебные слова (предлоги, союзы и частицы). Смысловую близость слов оценивали с помощью языковой модели fastText.
«Модель представляет слова как точки в многомерном пространстве и позволяет оценить, насколько новое слово близко по смыслу к тем, что уже прозвучали. Например, если в рассказе уже говорится о ежах, их детенышах и образе жизни, то «ежата», «живут» и «маленький» будут семантически близкими к контексту, а «белобрюхий», «родственник» или «ферма» — более далекими. Эти группы мы и сравнивали», — комментирует эксперт Научно-учебной лаборатории когнитивных исследований факультета социальных наук НИУ ВШЭ Наталия Жожикашвили.
Выяснилось, что, по сравнению с семантически близкими словами, семантически далекие вызывали более поздний ответ над левыми височными сенсорами — через 616–666 миллисекунд после начала слова. Авторы предполагают, что эта волна может быть связана с P600-подобной активностью — поздним компонентом мозгового ответа, который возникает, когда слово трудно сразу встроить в общий смысл фразы. В исследованиях на английском языке мозг реагировал на семантическую удаленность слова раньше — примерно через 380–600 миллисекунд после начала слова. Авторы предполагают, что это связано с морфологической сложностью русского: обилием падежей, суффиксов и окончаний.
На служебные слова мозг реагировал дважды. Первый всплеск активности наблюдался через 166–312 миллисекунд. По мнению авторов, это говорит о том, что мозг быстро распознает грамматическую роль таких слов. Второй всплеск — через 470–654 миллисекунды, — скорее всего, отражает предсказание: получив союз или предлог, мозг начинает готовиться к следующему слову, заранее активируя подходящие по смыслу и грамматике варианты. Контрольный анализ частично подтвердил это: слова, следовавшие за служебными, вызывали ранний мозговой ответ — через 48–98 миллисекунд. Однако авторы отмечают, что эффект может быть связан не только с прогнозированием, но и с акустическим началом следующего слова.
Результаты показывают, что метод вызванных потенциалов можно применять к непрерывной аудиальной речи на русском языке. Это приближает исследование речи к реальным условиям и может быть полезно для изучения языковых нарушений, например дислексии.
«У детей с дислексией нарушена обработка не только письменной, но и звуковой речи. Неинвазивный метод вроде МЭГ позволяет исследовать речевую обработку без устных ответов участника. В перспективе такие методы можно использовать для более точной диагностики речевых нарушений», — комментирует ведущий научный сотрудник Центра нейроэкономики и когнитивных исследований НИУ ВШЭ Ольга Мартынова.
