Site icon Naked Science

«Языковой ИИ» GPT-4 выйдет на следующей неделе с поддержкой изображений и видео

GPT-4 выйдет в марте 2023

©Metro-Goldwyn-Mayer

Громкая новость прозвучала как бы невзначай из уст Андреаса Брауна (Andreas Braun), технического директора Microsoft Germany. Как пишет издание Heise Online, он выступал на мероприятии AI in Focus — Digital Kickoff в четверг, 9 марта. Во время презентации представители компании рассказывали о больших языковых моделях (LLM) вроде серии GPT как о прорывных технологиях, которые радикально меняют рынок. В числе прочего зашла речь и о партнерстве Microsoft с OpenAI.

Именно в этом контексте Браун анонсировал «надвигающийся релиз GPT-4 на следующей неделе». Правда, каких-либо деталей и подробностей о революционной нейросети он не сообщил. Лишь в общих чертах обрисовал наиболее заметные эволюционные изменения алгоритма.

В первую очередь модель будет поддерживать «буквально все языки». Логично предположить, что не вообще все семь с лишним тысяч существующих языков мира, но первые несколько десятков самых популярных точно реализованы. По словам Брауна, нейросети можно будет поставить задачу на немецком и получить ответ на итальянском. Речь идет не о переводе на лету, а о формулировании текста сразу в требуемой языковой среде.

Во-вторых, GPT-4 стал мультимодальным, то есть способен обрабатывать не только «чистый» текст, но и распознавать его в аудио, изображениях и видео. Из сообщений прессы не до конца ясно, но складывается впечатление, что модель сможет выдавать ответ в той же форме.

Пожалуй, наиболее любопытный элемент мероприятия, связанный с GPT-4, — небольшие намеки на практическое применение модели. Браун, опять же, не вдавался в подробности, но рассказал, что этот искусственный интеллект уже проходит тестирование в различных приложениях для клиентов Microsoft Azure.

Например, для одной из компаний создали решение, подводящее итог телефонного разговора. Это сэкономит крупному call-центру порядка 500 рабочих часов операторов в день. Создание прототипа на основе GPT-4 заняло менее двух часов и потребовало усилий всего одного разработчика.

Применение языковой модели бизнес-клиентами рассматривается в трех основных направлениях: обработка голосовых запросов по телефону, помощь в документообороте, а также ответы на вопросы клиентов, требующие обращения к закрытым от посторонних знаниям. Фактически это автоматизация целого класса задач, которые сейчас выполняют сотни тысяч операторов центров поддержи пользователей.

Напомним, GPT (Generative Pre-trained Transformer) — семейство нейросетевых алгоритмов для обработки естественного языка, разработанных компанией OpenAI. С конца 2015 года эта фирма выпустила несколько продуктов, среди которых наиболее известны DALL-E, GPT-3, ChatGPT (на базе GPT-3.5) и Codex. В 2019 году Microsoft предоставила компании финансирование в размере миллиарда долларов, а к январю 2023-го эта сумма, по разным оценкам, выросла еще на 10 миллиардов.

Exit mobile version