Историк технологий объяснил, почему бесполезно спрашивать нейросети об их ошибках
Когда модели искусственного интеллекта ошибаются и выдают неверный ответ на запрос, пользователи пытаются выяснить причину этой ошибки, задавая вопрос самому ИИ-помощнику. Историк технологий Бендж Эдвардс объяснил, почему делать так нет смысла и как это связано с устройством нейросетей.
Так называемый «искусственный интеллект» стал привычной частью повседневной жизни, качественно выполняя самые разные задачи. Например, авторы недавних научных работ создали ИИ-переводчик со 100 языков, точность которого оказалась на 23% выше, чем у аналогов, а также выяснили, что люди не только путают нейросетевую поэзию со стихами классиков, но и отдают ей предпочтение.
Считая искусственный интеллект напарником, пользователи часто советуются с ним так же, как с помощником-человеком, однако это заведомо проигрышная стратегия. Колонка специалиста в сфере ИИ Бенджа Эдвардса о логике работы нейросетей и их способностях оценивать самих себя появилась в издании Ars Technica.
Прежде всего автор подчеркнул, что стоит помнить: ChatGPT, Perplexity и другие генеративные модели — не то же, что «личности» с определенным типом мышления, системными знаниями и способностями к анализу собственных действий. Это алгоритмы, которые несколько месяцев или лет обучались на огромных массивах данных и тренировались выполнять одну и ту же задачу — генерацию некоторой последовательности (текста, кода на каком-то языке программирования и так далее), соответствующей найденным в обучающих данных закономерностям и запросу пользователя.
При этом нейросеть не работает с запросом как человек. Сначала она превращает текст в токены — мелкие смысловые единицы (части слов, слова). Затем каждый токен представляется в виде вектора в многомерном пространстве признаков. Положение токена в этом пространстве определяется тем, как часто он встречается рядом с другими токенами в обучающих текстах. Слова из одной тематической области (например, «компьютер» и «монитор») оказываются в пространстве близко, а из разных («компьютер» и «помидор») — далеко.
Когда пользователь отправляет запрос, модель преобразует его токены в векторы, пропускает их через механизм внимания (attention), который оценивает связи между ними, а затем на основе этой многомерной статистики предсказывает следующий токен. Каждый ответ генеративной языковой модели — не вдумчивый анализ содержания запроса, а результат сложных векторных вычислений, цель которых — исходя из обучающих данных последовательно подбирать токены, наиболее вероятные в конкретном контексте. Следовательно, ответить, почему нейросеть сгенерировала что-то, что не соответствует действительности, она не сможет.
Получится ли у искусственного интеллекта проанализировать данные о собственной архитектуре и сделать «выводы» о своих способностях? Скорее, нет. Если вы сформулируете запрос как «Почему ты решила уравнение неправильно?», то нейросеть, не имея доступа к коду, определяющему ее функционирование, сформулирует ответ на основе информации об известных ограничениях предыдущих моделей ИИ. Если же вы добавите в запрос название и версию модели (например, отправите GPT-4o mini следующий текст: «Почему модель GPT-4o mini неправильно решает уравнения?»), то вероятность получить релевантный ответ повысится. Однако он все равно не объяснит ошибку конкретно в вашем уравнении и останется обоснованным предположением, а не результатом саморефлексии.
Кроме того, как отметил Бендж Эдвардс, даже если нейросети обучаются предсказывать собственное поведение при стандартных обстоятельствах (например, «Ты умеешь писать тексты на русском языке?»), то в более сложных ситуациях точность ответов снижается. Получается, что модели искусственного интеллекта могут заявлять о невозможности выполнить задание, которое они выполнить способны, и наоборот — говорить, что легко справятся с задачей, которая им не по силам.
При этом нейросеть необязательно ориентируется только на смысл слов, содержащихся в запросе. Она также может оценивать их стилистические и эмоциональные характеристики и опираться на них. Именно поэтому в ответ на вопрос «Ты только что все уничтожила?» модель с большей вероятностью подтвердит опасения — не потому, что она проанализировала ситуацию и сообщила о собственных действиях, а потому, что сгенерировала текст, соответствующий эмоциональному фону запроса.
Важно также помнить, что ChatGPT и прочие сервисы, в которых пользователь ведет диалог с ИИ-ассистентом, — не отдельные модели, а организованные системы из нескольких нейросетей, каждая из которых в значительной степени «не подозревает» о существовании или возможностях других. Например, компания OpenAI, создавшая ChatGPT, отделяет в этом сервисе модерацию текста от его генерации. Это значит, что модели, создающие ответ, не могут предсказать, что из него удалится на этапе модерации и какие инструменты для этого будут использоваться. Ситуация почти такая же, как если бы мы спросили один из отделов компании о возможностях отдела, с которым он никогда не взаимодействовал.
Таким образом, несмотря на схожесть ответов нейросетей с человеческими, создаются эти два типа текстов совершенно по-разному. Чтобы использовать искусственный интеллект грамотно, стоит помнить о логике его работы.
Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.
Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.
Ученые нашли способ «увидеть» свойства горизонта событий черной дыры — области, из которой не может вырваться даже свет. Анализ гравитационных волн от недавнего сигнала слияния космических «монстров» помог выявить признаки, напрямую связанные с этой границей. Открытие может стать новым инструментом для изучения самых экстремальных объектов во Вселенной.
Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.
Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.
Паразитические организмы иногда не учитывают, что сами могут оказаться целью паразита более высокого уровня. Сосредотачивая все свои силы на инфицировании и размножении, они остаются беззащитными перед агрессивным специализированным нахлебником.
Хотя длительность помех не превышала десяти секунд, это первый известный случай такого рода. Обычно спутникам не хватает мощности для создания радиосигналов той силы, что нужна для подобных помех.
Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.
Вначале Reuters опубликовал статью о взаимоотношениях SpaceX и Пентагона, которую миллиардер --- традиционно для его отношений с этим изданием — назвал фейком. Опровергая ее тезисы, он обнародовал информацию, не представленную ранее публично.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно

Последние комментарии