С точки зрения науки

Алгебра гармонии: что скрывают великие произведения литературы

Художественная литература – область, бесконечно далекая от науки? Это и в самом деле так… для читателей. А вот специалисты-литературоведы куда менее категоричны. Как теория графов поможет узнать, кто победит в «Игре престолов», и каким образом программисты раскрыли тайну Джоан Роулинг?

Автора, автора!

История, развернувшаяся в 2013 году вокруг детективного романа «Зов кукушки», оказалась куда более захватывающей, чем сам сюжет об убийстве красавицы-супермодели. Автор книги, отставной военный Роберт Гэл­брайт, отправил свое дебютное произведение нескольким издателям, но получал отказ за отказом. Глава объединения Orion Publishing впоследствии вспоминала: «Мне роман показался хорошо написанным, но каким-то тихим. Сильно меня в нем ничего не зацепило». Наконец на роман обратило внимание небольшое издательство Sphere Books. Так бы весь тираж и остался лежать на складе, если бы не репортеры. Никто уже не помнит, каким образом журналисты газеты The Sunday Times обнаружили роман Гэлбрайта, но именно они первыми поняли: под скромной обложкой может скрываться сенсация. 

Надо сказать, что журналистские расследования – конек The Sunday Times. В 1970-х газету прославила статья, разоблачавшая британскую фирму-производитель талидомида. Препарат для беременных женщин, считавшийся абсолютно безопасным, на деле способствовал появлению на свет детей с врожденными уродствами. Компания-производитель Distillers создала трастовый фонд помощи пострадавшим детям, но его размер был ничтожным по сравнению с активами фирмы. На это и обратили внимание журналисты The Sunday Times. Статья вызвала столько обсуждений в СМИ, что компании пришлось увеличить размер фонда в полтора раза. 

Итак, у The Sunday Times был солидный опыт поиска сенсаций, и в случае с начинающим писателем интуиция сработала безошибочно. Автор – отставной военный, его герой – такой же отставной военный, ныне занятый частным сыском. Очевидно, оба большую часть жизни носили форму. Тогда откуда такие познания в области моды? Героиня Гэлбрайта примеряет в бутике не просто плащ, а тренч с блестками, и не просто облегающее платье, а платье с потайным корсетом на косточках. Конечно, у автора могли быть сведущие в моде консультанты, но сомнения уже зародились. Сотрудники газеты тут же сообщили о своих подозрениях в социальных сетях. 

Тут же, как в классическом детективе, появился анонимный «доброжелатель». В комментариях он сообщил, что так называемый Роберт Гэлбрайт не кто иной, как знаменитая Джоан Роулинг, автор «Гарри Поттера». Разоблачители из The Sunday Times взялись за дело. Обнаружилось, что Sphere Books входит в тот же издательский конгломерат, который годом раньше напечатал первую книгу Роулинг для взрослых («Случайная вакансия»), а также – что обеими книгами занимался один и тот же литературный агент. Это было уже что-то, но улик явно не хватало: через руки литагентов проходят сотни рукописей ежегодно, а в объединение Little, Brown and Company входит дюжина издательств. И тогда на помощь журналистам пришли лингвисты и разработчики компьютерных программ для стилометрии.

©depositphotos  

Неповторимый стиль

Стилометрия – это набор методов исследования стилистики текста. Такой анализ использует прежде всего средства статистики. Манера письма и выбора лексики у каждого из нас индивидуальна, как отпечатки пальцев, поэтому, чтобы получить более-менее достоверное представление о художественном «почерке» человека, нужно учесть множество параметров. Стилометрические программы измеряют среднюю длину слов, предложений и абзацев, считают соотношение используемых частей речи – чего в тексте больше: глаголов или существительных? Если у слова есть синонимы, алгоритмы отслеживают, какой из них писатель выбирает чаще всего. Например, как он выразится, говоря о чем-нибудь большом: «огромное» или «гигантское»? В процессе анализа программа составляет частотный словарь, то есть собирает слова, которые автор текста использует особенно часто. И так далее, и так далее – программа, которая анализировала «Зов кукушки», учитывает сотни тысяч различных параметров. 

Когда статистический портрет текста готов, алгоритм сравнивает его с такими же портретами других текстов предполагаемого автора. Чтобы проверить, не прячется ли за псевдонимом Джоан Роулинг, программе «скормили» последний том цикла о Гарри Поттере («Гарри Поттер и Дары Смерти», вышел в 2007 году) и реалистический роман «Случайная вакансия» (издан в 2012 году). Затем «Зов кукушки» сравнили с несколькими детективными романами современников. Выяснилось, что у книг Роулинг и Гэлбрайта действительно куда больше общего, чем у всех изученных детективщиков. Совпало множество черт, от особенностей использования предлогов до увлечения античными цитатами. 

Можно ли считать стилометрический анализ стопроцентным доказательством авторства? Нет, как нельзя считать результаты анализа ДНК до конца исчерпывающим доказательством вины осужденного (в конце концов, в деле всегда может быть замешан близкий родственник). Специалисты учитывают всю совокупность факторов. В случае с Джоан Роулинг улик было достаточно – журналисты связались с литературным агентом писательницы, и летом 2013 года она призналась: Роберта Гэлбрайта не существует. По словам писательницы, псевдоним понадобился ей, чтобы собрать честные мнения издателей о своем детективном дебюте. 

История «Зова кукушки» кажется слишком уж драматичной, сразу возникает мысль: кто же был тот анонимный информатор, с которого все началось? Вполне возможно, что Роулинг и ее агент срежиссировали весь сюжет от начала до конца. Пусть так, ведь все остались в выигрыше: читатели получили новую книгу, издательство – доход, а лингвисты и программисты – простор для новых исследований. 

Джоан Роулинг / ©Википедия  

Социальная сеть «Престолов»

Точным наукам под силу не только вычислить автора произведения, они могут быть незаменимы в изучении сюжета книги. В апреле 2016 это продемонстрировали профессор математики из Миннесоты Эндрю Беверидж и его студент Джи Шан. Они, как и многие из нас, задавались вопросом: кто из персонажей «Песни льда и пламени» Джорджа Мартина и сериала «Игра престолов» доберется до финала цикла? Мартин знаменит своей жестокостью, в первых пяти книгах полегли десятки полюбившихся читателям героев. Всего в цикле семь романов, и оставшиеся два наконец расскажут, кому достанется Железный трон Семи Королевств, а кто хотя бы доживет до последней страницы – в мире «Престолов» это само по себе достижение. 

В качестве метода Беверидж и Шан выбрали network science, раздел теории графов. Граф в математике – это совокупность непустого множества вершин и наборов связей между ними. Говоря проще, теория графов изучает, как именно строится сеть связей между объектами определенного типа. Какие из интересующих объектов взаимодействуют между собой, какие «собирают» вокруг себя много других объектов, а какие остаются практически в одиночестве. У теории графов много практических применений. Например, ее используют в геоинформационных системах для поиска наиболее удобных маршрутов. 

Материалом для исследования стал третий том цикла «Буря мечей». Шан и Беверидж поясняют: в этой книге сюжет успел набрать обороты, а герои – рассредоточиться по обширной карте вымышленных земель и завязать достаточное количество контактов. На основе текста «Бури мечей» ученые построили социальный граф (социальную сеть): объектами («вершинами») стали 107 персонажей романа. В книге 12 рассказчиков, каждый из них упоминает десятки других героев. За единичную «связь» действующих лиц (эта связь называется ребром графа) математики приняли ситуацию, когда имена двух героев упоминались в пределах 15 слов друг от друга. Это совсем не означает, что персонажи дружат, но они явно каким-то образом взаимодействуют. 

©HBO  

Кто займет Железный трон?

Социальная сеть вымышленных героев обладала чертами, которые встречаются и в «настоящих» графах, описывающих социальные связи реальных людей. Она включает несколько «подсетей» с большой плотностью связей, формирующихся вокруг самых влиятельных, часто упоминаемых героев. Визуально граф практически повторяет карту Семи Королевств. Например, плотная «подсеть», объединенная вокруг повелительницы драконов Дейенерис, расположена в отдалении от основного массива связей, поскольку и сама героиня находится вдали от большинства персонажей, на другом континенте. 

Беверидж и Шан выделили семь основных «сообществ», сложившихся вокруг главных героев. Кто же из них самый влиятельный, у кого больше всего шансов победить в финальной схватке? Можно рассмотреть этот вопрос с психологической точки зрения, учитывая особенности характера персонажей. Можно сравнить стратегии поведения и выбрать самую выгодную. Теория графов предлагает свой метод решения: подсчитать, кто из героев окружен наибольшим количеством социальных связей и чаще всего взаимодействует с другими лицами. Выяснилось, что в мире «Престолов» влияние не всегда совпадает с богатством и титулами: одни из самых активных персонажей – незаконнорожденный Джон Сноу и дочь несправедливо осужденного Десницы (советника) короля Санса Старк. Центральной «вершиной» графа стал полюбившийся многим Тирион Ланнистер, вовлеченный во множество политических интриг. 

По словам Эндрю Бевериджа и Джи Шана, их исследование продемонстрировало возможности network science и подтвердило многие ожидания фанатов «Песни льда и пламени». Неизбежно возникают вопросы: если связи персонажей статистически описаны и это позволяет делать выводы о развитии сюжета, какова степень свободы автора при написании следующих книг? И в какой момент сюжет обретает собственную логику и становится сильнее своего создателя? 

Герои «Песни льда и пламени» / ©networkscience  

Голос Молли Блум

Математические методы позволяют анализировать не только отдельные книги, но и целые литературные направления. Такую работу недавно проделала команда польских ученых. Они исследовали произведения, в которых важную роль играет поток сознания, – прием, характерный для литературы модернизма. Это направление появилось в конце XIX века, сменив эпоху классического романа. Писатель-модернист – уже не носитель абсолютной истины, реальность в этих произведениях сплетается из множества точек зрения. Чтобы передать эту многогранность, понадобились новые выразительные средства, и одним из них стал поток сознания. 

Прием передает внутреннюю речь и особенности мышления героя в предельно естественном, «необработанном» виде. В тексте смешиваются обрывки фраз, связанные зачастую не логически, а ассоциативно. Мысли почти бессвязно перетекают одна в другую, внезапно «вспыхивают» воспоминания. Вот как начинается монолог Молли Блум, завершающая глава «Улисса» Джеймса Джойса: 

«Да потому что такого с ним никогда не было требовать завтрак себе в постель скажи-ка пару яиц с самой гостиницы Городской герб когда все притворялся что слег да умирающим голосом строил из себя принца чтоб заинтриговать эту старую развалину миссис Риордан воображал будто с ней дело в шляпе а она нам и не подумала отказать ни гроша все на одни молебны за свою душеньку скряга какой свет не видал жалась себе на денатурат потратить четыре пенса все уши мне прожужжала о своих болячках да еще эта вечная болтовня о политике и землетрясениях и конце света нет уж дайте сначала нам чуть-чуть поразвлечься упаси господи если б все женщины были вроде нее сражалась против декольте и купальников которых кстати никто ее не просил носить…». 

На финальных страницах «Улисса» нет ни одного знака препинания. Молли думает о старых знакомых, напевает песенки, вспоминает, что надо бы пересыпать пальто нафталином. Точно так же мимоходом она задумывается о том, что такое истинная любовь. Из этого хаоса мыслей и впечатлений складывается неповторимый голос героини, ее взгляд на события. 

Казалось бы, при чем тут математика? Изначально польские исследователи поставили себе цель изучить, как соотносится длина предложений в текстах разных эпох, от Библии до «Властелина колец». Обилие коротких «рубленых» предложений делает повествование сухим, чересчур длинные предложения сложны для восприятия. Исследование должно было прояснить, как авторы располагают длинные и короткие предложения в тексте, создавая ритм произведения. Основной характеристикой текста в работе польских ученых стала изменчивость длины предложения, (англ. sentence length variability, SLV). Они исследовали этот показатель в 113 текстах (длиной не менее 5 000 предложений) на семи языках – английском, французском, немецком, русском, польском, итальянском и испанском. Ученые «перевели» тексты книг на язык математики: от каждого предложения осталось лишь количество слов в нем, таким образом каждый текст превратился в последовательность чисел, означающих количество слов в предложении. 

Мультифракталы ХХ века

Оказалось, что во всех текстах встречаются фрактальные структуры, а в некоторых – и мультифрактальные. Фрактал – множество, обладающее свойством самоподобия (такой объект в целом имеет ту же форму, что и одна или несколько его частей). Обычно, говоря о фракталах, имеют в виду монофракталы: для их описания достаточно одного показателя самоподобия (фрактальной размерности). Для описания мультифрактала нужен фрактальный спектр, в который входит ряд показателей самоподобия, присущих разным элементам этой структуры. С помощью мультифракталов описывают, например, поведение финансовых рынков. 

Фрактальные структуры обнаружили во всех изученных текстах. А вот почти все произведения, в которых нашли мультифракталы со сложным спектром показателей самоподобия, относились к модернистской и постмодернистской литературе ХХ века и содержали поток сознания. Так строили свои тексты Джеймс Джойс, Вирджиния Вулф, Хулио Кортасар. Исключением оказался, как ни странно, Новый Завет – в нем также немало мультифракталов. Практически идеальной мультифрактальной структурой обладает экспериментальный роман Джойса Finnegans Wake (название чаще всего переводят как «Поминки по Финнегану»). При этом многие произведения, в которых критики видели черты потока сознания, не прошли «проверку» математическим методом. Например, роман Айн Рэнд «Атлант расправил плечи» практически не содержит мультифрактальных структур. 

Мультифрактальность в литературе / ©Nature

Есть ли у этого исследования практическое применение? Несомненно. Сами ученые говорят, что их метод поможет более объективно относить тексты к определенному литературному направлению. Исследование количественных характеристик дополнит привычные методы атрибуции по времени создания произведения и общности литературно-эстетических принципов. Эта возможность пригодится и литературоведам, и их электронным «коллегам» – алгоритмам организации в онлайн-библиотеках и корпусах текстов (это большие собрания текстов, собранных и обработанных по определенным правилам, они служат материалом для лингвистических исследований). Кроме того, такой анализ поможет определить, можно ли считать некоторые литературные приемы «маркером» конкретного направления. Например, поток сознания можно определенно (с учетом небольших исключений) отнести к характерным чертам модернизма. 

Еще одна сфера, в которой востребованы такие исследования, – разработки искусственного интеллекта. Многие компании работают над созданием алгоритмов, которые смогут сами создавать тексты, анализируя большой объем информации. Подобные программы уже существуют: например, в информационном агентстве Associated Press робот-новостник пишет небольшие заметки о доходах компаний на основе их отчетов. Вряд ли программы когда-нибудь полностью заменят журналистов, но писать для газет и журналов роботы определенно будут. Требования к ним, в общем-то, останутся такими же, как и к людям: писать информативно и нескучно. 

Изначальная цель исследования польских ученых заключалась в том, чтобы определить, как должны чередоваться длинные и короткие предложения, чтобы текст не выглядел сухим, «канцелярским», и в то же время легко воспринимался. Такие работы выявляют закономерности, которые могут научить электронных журналистов излагать информацию последовательно и удобно для читателя. 

Это далеко не все методы применения математических операций для изучения художественной литературы. Достаточно вспомнить о теории игр, которую используют исследователи конфликтов в драматургии, или о работах Андрея Колмогорова, посвященных стиховедению. Все эти исследования говорят о том, что разные области науки тесно связаны между собой, они активно заимствуют методы и материалы друг у друга. Возможно, в будущем люди и не вспомнят, что когда-то существовало деление на «физиков» и «лириков».  

Комментарии

  • Особенно забавно выглядят потуги Роулинг "пробиться самостоятельно" )) Тетенька все никак не может смириться с простой мыслью - она плод раскрутки, а на самом деле книжки у ней слабенькие.

  • Пора понять что человек по сути биоКОМПЬЮТЕР! Обучаемый, самобучаемый, со своим антивирусом, тараканами-вирусами, зомбируемо-програмируемый, подражаемо-модничающий...
    А литература деградирует в сторону блаблашни, мастурбации и прочих псевдомодных извращений. Это как объяснения художественой ценности "Квадрата" Малевича, или дуба Толстого...