Дмитрий Сошников: «Модель искусственного интеллекта начинает вести себя как человек»

МАИ

2 года назад

— Вы занимаетесь темой искусственного интеллекта вот уже более 30 лет. Расскажите, какие самые масштабные изменения произошли в этой сфере за это время?

— Основное изменение — это смещение в сторону машинного обучения. Потому что изначально, когда разрабатывались планы по созданию искусственного интеллекта, существовало два магистральных подхода.

Первый подход, когда мы извлекаем знания из человека, пытаемся понять, как человек размышляет, и затем моделируем этот процесс на компьютере. Так появился классический искусственный интеллект, и долгое время первые успехи наблюдались именно в этом направлении. В частности, создавались экспертные системы, которые позволяли предсказывать какие-то тенденции на основании имеющихся данных. Больших коммерческих успехов тогда еще не было, потому что делать это было слишком сложно и дорого.

Между прочим, базовые технологии классического искусственного интеллекта продолжают использовать и сейчас. Например, в предсказаниях, какая тема будет более популярна для какой аудитории. Этот выбор тем тоже можно делать на основе анализа данных искусственным интеллектом. Если мы правильно соберем данные от аудитории – кто и что посмотрел – и попытаемся выстроить портреты пользователей, то этими достаточно классическими методами сможем значительно повысить эффективность своего труда. Я думаю, этим много кто пользуется. Во все социальные сети автоматически встроены алгоритмы, которые дают индивидуальные рекомендации пользователям. Эта базовая технология повсеместно и давно используется, хотя за кадром мы ее не видим и редко вспоминаем.

Второй подход – это когда мы создаем модель внутри компьютера, в нее загружаем множество данных. Обучаясь на них, она сама начинает вести себя как человек. По этому пути пошли уже в XX1 веке, и он был связан с бурным развитием интернета и облачных технологий. Дело в том, что для машинного обучения нужно много данных и вычислительных ресурсов. Данных становилось все больше благодаря интернету.

Вычислительных ресурсов становилось все больше, потому что придумали облачные технологии. Чтобы обучить какую-то модель, лаборатории уже не нужно было покупать свое дорогостоящее оборудование – вычислительные мощности можно было арендовать. Это положило начало развитию машинного обучения. В 2012 году впервые удалось эффективно применить сверточную нейросеть для создания изображений, что резко повысило точность их распознавания и классификации.

В 2015 году впервые была достигнута такая же точность классификации изображений, как у человека. После генерации изображений стали бурно развиваться другие направления – генерация текста и речи. Очень быстро эта технология дошла до такого уровня, что нейросеть даже думать в некотором смысле стала сама. Это очень значимый переход.

И этот переход больше всего меня вдохновляет, потому что уже сейчас мы подходим к такому моменту, когда модель искусственного интеллекта начинает вести себя как человек. Если взять говорящую модель ChatGPT или YandexGPT, она говорит почти как мы. Это очень интересно, потому что, создавая такие модели, мы открываем какую-то грань себя. А как нам еще это сделать?

Мы не можем сейчас так хорошо разобраться в устройстве мозга, чтобы понимать, как он работает – это слишком сложно. А строя такие упрощенные модели, пытаясь собрать что-то сами, мы можем понять человечество как говорящую систему. В самом деле, мы загружаем в компьютерную модель речь, и она, просто умножая числа, начинает разумно говорить. Все это приближает нас к пониманию того, как устроены мы сами.

— Еще одним трендом в развитии нейросетей стали оснащенные ими чат-боты.

— Сами чат-боты появились еще до генеративных сетей. Их можно строить по принципу «мы понимаем, что человек скажет один из 10 возможных вариантов, и потому для каждого варианта прописываем свои ответы». Все ассистенты первого поколения, такие как Siri, «Алиса», были построены по такому принципу. И они были достаточно полезными, хотя чат-боты такого типа и не выглядели как живой человек, и общаться с ними было не интересно. Но таких не слишком сообразительных ботов можно было поставить на первую линию техподдержки.

Они могли записать все показания пользователя, собрать их в таблицу и передать живому оператору полную картину того, что происходит, избавляя его от необходимости задавать рутинные вопросы. Сейчас разрабатываются чат-боты нового поколения. Им уже не прописывается четкая логика, потому что ботами будет управлять генеративный ИИ. Он сам решает, что ответить пользователю, и с такими ботами общаться будет интереснее, потому что они могут дать намного более содержательные ответы.

— Какие наиболее распространенные инструменты искусственного интеллекта доступны российскому пользователю и как правильно с ними работать?

— Для генерации текстов проще всего начать пользоваться GigaChat’ом от «Сбера». Он доступен в виде удобного чат-бота в Telegram, с которым можно разговаривать. Он умеет генерировать и изображения. Но я обычно для изображений использую отдельный инструмент Leonardo AI. У него есть возможность генерировать 10–20 картинок в день бесплатно, обычно мне этого хватает.

Если же ориентироваться на лидеров индустрии, то это ChatGPT, но здесь есть сложности с доступом. Из российских продуктов – это конкурирующие нейросети «Яндекса» и «Сбера». Они находятся примерно на одном уровне. У «Яндекса» есть «Алиса», ей нужно сказать: «Алиса, давай придумаем что-нибудь», чтобы она вошла в режим генерации. Но ее недостаток в том, что она неохотно разговаривает на некоторые темы. Она часто говорит: «Я не буду это придумывать, это слишком неправильно».

Когда она только появилась, я дал ей такое задание: «Алиса, давай придумаем сказку про грустного мальчика, который плакал целый день», на что получил ответ: «Такое придумывать нельзя, потому что это слишком грустная история, она кого-нибудь расстроит». Это существенный недостаток, потому что, как правило, самое интересное находится на каких-то пограничных эмоциональных рубежах. Но сама модель YandexGPT более открытая. Правда, у нее нет такой точки, откуда ею легко было бы попользоваться, как GigaChat’ом в Telegram.

Пользуясь нейросетями, не нужно думать, что они прямо сейчас заменят человека. Да и, по правде говоря, нам же и самим не хотелось бы, чтобы нас заменили, нам хочется самим что-то делать. Нейросеть способна решать нестандартные задачи, но только совместно с нами, потому что только человек знает, что ему нужно в конечном итоге.

Например, текстовая нейросеть просто генерирует правдоподобный текст. Но совместно с человеком она может в этот мыслительный процесс попасть. Человек должен задавать ей вопросы так, чтобы нейросеть смогла сделать что-то полезное. В таком случае она генерирует, а человек выступает ее критическим партнером.

Простой пример. Часто бывает так, что нейросеть генерирует изображения человека с анатомическими ошибками, например с шестью пальцами на руке. В этом случае возможны варианты действий: человек может либо перегенерить картинку целиком и дождаться, пока не будет достигнут положительный результат, либо обвести руку и попросить исправить только эту область, либо сгенерировать изображение человека, скажем, с руками за спиной. Так что в целом нейросети сегодня — это уже очень полезный инструмент, пусть пока и не совершенный.

Материал подготовлен при поддержке Минобрнауки России.