Люди спутали ИИ-поэзию со стихами классиков и оценили ее выше

Полина Меньшова

2 года назад

Люди не отличили стихи, написанные нейросетью, от произведений классической и современной поэзии

Языковые модели для общения с человеком или создания текстов на естественных языках стремительно развиваются. Согласно последним исследованиям, искусственный интеллект начал врать и манипулировать собеседником, хотя алгоритм запрещал ему это делать, а бот ChatGPT-4 смог пройти пятиминутный тест Тьюринга — в 54% случаев убедить участников эксперимента, что они общаются с человеком, а не с компьютером.

Специалисты из Питтсбургского университета провели исследование, в результате которого люди впервые спутали стихи, сгенерированные искусственным интеллектом, с творчеством английских и американских поэтов-классиков. Научную статью об этом опубликовал журнал Scientific Reports.

Исследование включало в себя два эксперимента. В первом из них 1634 взрослых случайным образом распределили между 10 английскими и американскими поэтами. Это были представители как классической, так и современной литературы: Джеффри Чосер, Уильям Шекспир, Сэмюэл Батлер, Джордж Гордон Байрон, Уолт Уитмен, Эмили Дикинсон, Томас Стернз Элиот, Аллен Гинзберг, Сильвия Плат и Доротея Ласки.

Участникам эксперимента в случайном порядке показывали 10 стихотворений, пять из которых были написаны одним из поэтов, а пять — моделью ChatGPT3.5 «в стиле этого поэта». Люди предполагали, человек ли, по их мнению, создал каждое стихотворение, оценивали свою уверенность в ответе по шкале от 0 до 100 и по желанию аргументировали мнение. Кроме того, они сообщили демографическую информацию о себе, в том числе рассказали, интересуются ли поэзией и хорошо ли в ней разбираются.

Во втором эксперименте участвовали 696 участников, которым показывали одни и те же пять ИИ-стихотворений и пять работ настоящих поэтов. При этом одной группе говорили, что все тексты написал человек, второй — что их сгенерировала ChatGPT3.5, а третьей группе не говорили ничего. Участники исследования должны были поставить каждому стихотворению оценку по семибалльной шкале от «крайне плохо» до «чрезвычайно хорошо» по следующим критериям:

— формальные качества (ритм, рифма),

— эмоциональная составляющая (передает ли стихотворение какую-то эмоцию, трогает ли),

— креативность (оригинальность, остроумие),

— эстетические особенности (красота, лиризм),

— глубина (степень, в которой стихотворение раскрывает некую тему).

Согласно результатам экспериментов, люди были склонны машинную поэзию считать человеческой, и наоборот. При этом более высокие оценки по форме, содержанию и другим критериям получали в основном ИИ-произведения. Если раньше поэзия была одной из сфер, в которых искусственный интеллект было сложно перепутать с человеком, то теперь возможности генеративных моделей значительно расширились.

Когда люди оценили качество прочитанных стихов, первые пять позиций заняли тексты, сгенерированные ChatGPT3.5 / © Brian Porter et al., Scientific Reports

Исследователи предположили, что ошибочное отнесение классических и современных стихов к машинному творчеству, а текстов ИИ — к работам людей связано с тем, что ожидания участников эксперимента от языковых моделей не соответствуют действительности. По словам респондентов, сложность стихов, написанных человеком, они принимали за бессвязность искусственного интеллекта, а относительную простоту и ясность контента ИИ — за отличительную особенность текста, который не может быть написан компьютером.