• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
27.12.2023
Егор Быковский
3
8 696

Чего ожидать от нейросетей в будущем? Разговор с руководителем научного отдела «Яндекса» Артемом Бабенко

5.5

В декабре 2023 года «Яндекс» стал единственной российской компанией, вошедшей в рейтинг мировых лидеров в области развития искусственного интеллекта. Этот список был составлен компанией Epoch AI вместе с учеными из Массачусетского технологического института. Naked Science решил побеседовать с Артемом Бабенко, главой Yandex Research, и узнать, что позволило российской компании попасть в этот престижный рейтинг и каких свершений в области ИИ нам стоит вскоре ожидать.

Артем Бабенко, глава Yandex Research / © Yandex / Автор: Ptolemocratia Acerronius

[Naked Science]: Артем, расскажи немного о себе. На кого ты учился, сколько лет занимаешься научными исследованиями, сколько из них в «Яндексе»? В каких проектах ты работал до «Яндекса»? Какую должность занимаешь сейчас?

[Артем Бабенко]: Я «физтех» — окончил МФТИ по специальности «прикладная физика и математика». До начала моей научной деятельности занимался разработкой, работал в ШАД (Школа анализа данных «Яндекса») и там же и преподавал. В команду Yandex Research пришел в 2013 году, а в 2019 занял должность ее руководителя.

[NS]: А сам Yandex Research когда появился на свет?

[АБ]: В 2011 году. То есть проекту уже больше 10 лет.

[NS]: Сколько в команде Yandex Research сейчас людей?

[АБ]: Нас около тридцати человек. При этом у нас есть как штатные сотрудники, так и резиденты. Резиденты чаще всего — студенты, аспиранты без опыта. Мы буквально выращиваем новые научные кадры. У нас работают люди из ведущих университетов страны — МФТИ, ВШЭ, МГУ и других.

[NS]: Судя по тому, что пишут многие СМИ, машинное обучение и искусственный интеллект стали почти синонимами. Но ведь это не одно и то же? Одно скорее подмножество другого? Давай проясним эти термины.

[АБ]: Мне видится, что все люди, которые используют эти термины, на самом деле оснащают их разными смыслами. Я скажу про свои. Мне кажется, что это будет достаточно хорошее разграничение. Искусственный интеллект — зонтичный термин, который объединяет под собой все задачи, связанные с тем, чтобы научить компьютер делать то, что умеет делать человек. Это распознавание картинок и умение их рисовать, распознавание звука, генерация речи, самая разная работа с текстом. А машинное обучение — это набор методов, которыми можно решать задачи построения искусственного интеллекта. Но были и другие подходы к решению таких задач, не связанные с машинным обучением. Просто история их похоронила. Машинное обучение оказалось лучше. 

[NS]: Можешь их кратко перечислить — те подходы, которые не связаны? Что было похоронено?

[АБ]: Скажем, ключевые слова. Были амбиции — написать так называемые экспертные системы, основанные на базах знаний, которые построены на формальной логике. Машинное обучение эти методы вытеснило, оказалось гораздо более перспективным. 

При этом машинное обучение не ограничивается задачей догнать и перегнать человека в решении чего-либо. Машинное обучение может работать с данными не только мультимедийной природы, которые человеку комфортны (картинки, звук, речь), но и с теми, с которыми ему тяжело работать. 

Например, классическая задача в «Яндексе» — ранжирование. Нужно по каким-то числовым данным выяснить, например, сколько времени человек провел на конкретной странице, как быстро он кликнул на первую ссылку, на следующую ссылку в поисковой выдаче. И предложить ему какое-то рекламное объявление. Это задача, которая тоже решается машинным обучением. 

Мне это видится так: задача — создание искусственного интеллекта, машинное обучение — набор методов к этой задаче.

[NS]: У меня и, возможно, у многих складывается впечатление, что машинное обучение «выпрыгнуло» на рынок, и в СМИ по крайней мере, как чертик из табакерки. Вот его не было — и вот оно в полный рост. Если взять метрику его упоминаний в поиске того же «Яндекса», там будет даже не волна — цунами.

Часть команды Yandex Research / © Yandex

[АБ]: Я отвечу так: это именно впечатление, что какой-то резкий скачок был. Скорее сейчас просто появился интерес со стороны СМИ и широкой аудитории. Я пришел в «Яндекс» в 2009 году, и на тот момент машинное обучение уже вовсю использовалось (тогда это был градиентный бустинг). Я думаю, мысль, что машинное обучение — залог успеха нашего бизнеса, была уже с начала 2000-х. 

Что касается основных этапов развития машинного обучения внутри «Яндекса», то они были всегда завязаны на мировые тренды. В начале 2010-х случился сдвиг парадигмы в сторону глубоких нейросетей, тогда же в «Яндексе» начали переход от градиентного бустинга к нейросетям. Сначала во всем, что касается мультимедиа, потом и в других данных. Какого-то отличия от того, как это происходило в мировом сообществе, нет. Мы всегда шли бок о бок. Иногда у нас что-то получается сделать быстрее. Мы публикуем про это статью, и мировое сообщество нас догоняет.

[NS]: Вот ты говоришь: «Нас иногда догоняет мировое сообщество». А до этого речь шла о том, что компания движется, в общем, в соответствии с мировыми трендами в этой области. Но там же и обратная связь мощная? Некоторые движутся только вместе с трендами, а кто-то их определяет.

[АБ]: Конечно.

[NS]: И в какой же степени «Яндекс» сейчас их определяет?

[АБ]: Я отвечу так: нам регулярно удается публиковать статьи или наборы данных (их в сообществе называют бенчмарками), которые успешно влияют на то, куда идет мировое сообщество. И сейчас этого гораздо больше, чем в начале 2010-х, уверен на сто процентов. Ну и уж тем более больше, чем в нулевые.

[NS]: Кажется, что не так давно искусственным интеллектом (и, в частности, машинным обучением) занимались только академические организации. В какой момент лидерство перешло к научным отделам корпораций? Или, на самом деле, сейчас существует этакая синергия и академическая наука никуда не делась?

[АБ]: Я считаю, что лидерство перешло к отделам корпораций. Думаю, это случилось в момент, когда залогом успеха в науке стали два фактора. Первый — доступ к большим объемам данных, которые есть в первую очередь у корпораций. Второй — наличие большого количества вычислительных мощностей, которые также присутствуют в большей мере у корпораций. И этот сдвиг случился в районе 2011-2012 годов. Наверное, с этого момента и до сих пор разрыв между корпорациями и академией увеличивается. Условный ChatGPT вышел из корпораций, и все ключевые разработки — от топ-5-10 основных техногигантов: OpenAI, Google, Microsoft. На самом деле, именно они определяют тренды.

 В каком смысле синергия присутствует? Очень часто ученые могут работать и в академии, и в корпорации. И, вдохновляясь задачами, которые стоят в корпорации, ученый может предлагать их резидентам-аспирантам для того, чтобы они ими и в университете занимались. Таким образом получается взаимовыгодное сотрудничество.

[NS]: Зачем успешному исследователю, который работает в корпорации, давно уже обогнавшей всю академическую науку, вообще нужна академическая наука? Только черпать оттуда кадры? Или для чего-то еще она нужна?

[АБ]: Я про себя могу сказать, зачем мне академическая наука. Я могу ответить на вопрос, например, зачем я пишу статьи. Я хочу вносить свой вклад в мировое научное сообщество, и все мои коллеги заряжены этой идеей. Потому что мы понимаем: есть области, в которых мы разбираемся лучше остальных и действительно можем двинуть понимание сообщества по каким-то вопросам вперед.

[NS]: То есть вы для себя определяете это как миссию, не работу?

[АБ]: Точно. И, конечно, наука для меня — действительно источник наукоориентированной молодежи, у которой есть амбиция вырасти в ученых. Будет это академический или индустриальный ученый — вопрос вторичный. Я могу взрастить человека до самостоятельного исследователя. Вот и вторая причина.

[NS]: Ты ученый, сотрудник громадной корпорации. Интересы корпорации и «академии» по определению должны иногда отличаться. А ты их, получается, сочетаешь. Есть ли какой-то лайфхак? Может быть, понимание науки как миссии и есть способ сопряжения?

[АБ]: Я руковожу коллективом из 30 человек. И про каждого человека я понимаю, что его больше драйвит. Они все ученые. Но кого-то больше мотивирует, что его разработка будет работать в каком-то из сервисов «Яндекса». А кого-то больше драйвит мысль: я сейчас это придумаю, напишу крутую статью, и все мировые ученые будут ее читать и вдохновляться моими идеями…

[NS]: …и на конференции все обалдеют? Да, понятно.

[АБ]: Да-да. В моем коллективе есть люди и такого склада, и другого склада. Это органично получается. Логично работать в Yandex Research, если ты чувствуешь, что твоя научная позиция будет какую-то синергию иметь с «Яндексом» как с компанией. Если ты хочешь заниматься биоинформатикой, допустим, тебе в Yandex Research делать нечего. Это просто разумный выбор и карьерный шаг.  У нас удачно сочетаются как интересы бизнеса — потому что есть ощутимые успехи за счет того, что пришел конкретный ученый, вник в конкретный сервис и своей научной экспертизой ему помог; так и интересы научного сообщества — потому что мы публикуем статьи про настоящее, про реальные задачи, которые интересны ученым, а не только бизнесу.

[NS]: Какие текущие исследования ты считаешь наиболее перспективными и значимыми? 

[АБ]: Первое направление — все, что связано с генеративными моделями в компьютерном зрении. Яркий и передовой проект в этой области — «Шедеврум». 

У генеративных моделей много проблем. В первую очередь это их  дороговизна. Их очень дорого обучать и применять. Мы сейчас занимаемся разработкой более эффективных алгоритмов, которые в целом позволят снизить стоимость этих процессов. 

Но помимо дороговизны у них есть и еще одна серьезная проблема. Сообщество не до конца понимает весь потенциал их применения. Мы изучаем новые способы их использования. В прошлом году у нас была очень интересная статья, которая показывала, что на самом деле генеративные модели можно использовать не только для генеративных задач (создавать картинки, тексты, музыку), но и для дискриминативных. Например, с их помощью можно не только создать картинку, но и что-то про нее понять. Скажем, определить к какому она классу принадлежит, сегментировать ее. Инструмент получает какие-то неожиданные сценарии использования, и это здорово. 

Второе направление, с которым мы сейчас работаем, — графовые нейросети. Их практическую пользу сообщество также пока не до конца понимает. Недавно мы внедрили графовые нейросети в антифрод «Яндекса», и это, безусловно, показательный кейс. 

Третье направление — все, что связано с табличным deep learning. Это такие задачи, у которых нет какой-то мультимедийной структуры, то есть это не картинки, звук или текст. Это максимально общие задачи, в которых данные представлены разными типами значений: количество переходов, кликов, проведенное время и так далее. «Яндекс» всегда инвестировал в такие модели, потому что это цифры, а бизнес-метрики измеряются именно цифрами. 

Эта область чуть ли не последняя, которую еще не захватили нейросети. И мы в Yandex Research считаем это недосмотром научного сообщества и активно продвигаем новые решения. На самом деле, мы лидеры в области табличного deep learning. На нас равняются, нас приглашают спикерами на международные конференции.

[NS]: Какие основные проблемы в области машинного обучения и искусственного интеллекта ты бы мог отметить в целом? Даже не обязательно те, которыми вы занимаетесь. И на каких бы хотелось сосредоточиться больше всего?

[АБ]: Во-первых, это эффективность использования передовых моделей машинного обучения и искусственного интеллекта. Доступность этих моделей, дороговизна их обучения и применения пока очень сильно ограничивают спектр их применения обычными людьми, небольшими бизнесами. Повысить доступность таких передовых моделей без потери в качестве — суперважная задача. На этом хочется сконцентрироваться, причем не только моей команде, но и много еще кому. 

Во-вторых, всем уже очевидно, что эти модели будут все больше влиять на реальную жизнь людей. Поэтому нужно перестать относиться к ним как к черному ящику.

Yandex Research изучает компьютерное зрение, технологии обработки языка и речи, системы поиска и рекомендаций. Исследования Yandex Research помогают совершенствовать продукты «Яндекса»

[NS]: Давай тогда резюмируем: какие у вас будут ближайшие интересные исследования, над чем вы сейчас работаете, что в планах, чего нам ожидать? Каких новых свершений?

[АБ]: Чего ожидать? Генеративных диффузионных моделей для компьютерного зрения, доступных в каждом доме, на каждом девайсе. И работающих быстро и качественно. А еще — больших языковых моделей. Но таких, которые доступны не только пяти технологическим гигантам в мире, а каждому желающему на его смартфоне или ноутбуке. И графовые нейросети станут не простой игрушкой для ученых, а общепризнанным практическим инструментом. Вот тебе такой список наших ближайших задумок — того, о чем мы мечтаем.

[NS]: Про то, на каких проблемах в целом сосредоточен Yandex Research, мы уже немного поговорили. А вот что интересно: в какой степени вы сами себе ставите задачи, а что вам поручает корпорация?

[АБ]: Мы сами себе их ставим. Опыт показывает, что говорить ученому: «исследуй то-то» — не работает. Свобода научного поиска должна быть. Конечно, мы общаемся очень много с подразделениями в сервисах, чтобы понимать, что им нужно. Для нас это источник постановки новых задач, которыми мы можем заинтересоваться.

Артем Бабенко, глава Yandex Research / © Yandex

[NS]: Я сам когда-то работал в «Яндексе» и знаю, что это очень большая корпорация, десятки тысяч человек. А Yandex Research — он такой маленький. Для технологической корпорации, кажется, это совсем немного — всего 30 человек. Может, нужно уже чуть подрасти?

[АБ]: То, что есть сейчас, — уже хорошо. Будет больше — будет лучше. Хороший ученый всегда ценится. Корпорация в целом и моя команда в частности всегда ему рады. Мы действительно будем рады росту. Мы очень многое для этого делаем: и нанимаем новых исследователей, уже взрослых, и сами взращиваем молодежь, будучи научными руководителями аспирантов из НИУ ВШЭ и Физтеха.

Какими должны быть исследователи, которые приходят к нам? Здесь я поговорю про две категории людей. Первая — взрослые исследователи. От них мы ожидаем прежде всего умения и желания продуцировать свою научную повестку: самому идентифицировать белые пятна в науке и адресовать их, предлагать научные гипотезы, проверять их экспериментально, и в случае успеха либо публиковать статью, либо внедрять свои решения в сервис. 

Вторая категория людей, с которыми мы тоже готовы работать, — молодежь, заинтересованная в научном руководстве, пока без опыта в науке. На этом этапе достаточно хорошего качественного базового образования (бакалавриат ведущих московских вузов, по крайней мере, его обеспечивает) и желания развиваться в науке по этому карьерному треку. С такими людьми мы готовы работать.

[NS]: Расскажи про ваши партнерства с вузами и другими компаниями.

[АБ]: В России наш ключевой партнер — ВШЭ. Как я уже говорил, мы в постоянном поиске резидентов, и этот вуз — наш основной источник аспирантов. А еще мы набираем резидентов из МФТИ, Сколтеха, ШАД. Мы смотрим на эту программу как на инвестиции в молодежь. Резидентство — не аудиторный курс, где есть домашние задания, лекции и так далее. Это «обучение в бою». 

Если говорить про мировые высшие учебные заведения, с которыми у нас выходили совместные статьи, то есть успешные завершенные исследования в этом году, то это ETH в Цюрихе (Швейцарская высшая техническая школа. — NS), Институт науки и технологий (IST) в Австрии, Berkeley (Калифорнийский университет. — NS) и Стэнфорд.

С некоторыми крупными компаниями мы в этом году тоже сотрудничали. Делали совместные исследования с NeurIPS Challenge, где главным организатором выступил Microsoft, и с Hugging Face.

[NS]: Мы начали разговор с отличной новости, что «Яндекс» вошел в число мировых лидеров в области развития искусственного интеллекта. Может быть, какой-нибудь корпоратив устроили в честь этого? Как отмечали внутри?

[АБ]: Мы об этом знали и так. Мы же давно понимаем, что мы молодцы и все эти институты рады с нами работать. Мы знаем, что они читают наши статьи. Мы видим, что они цитируют их и как-то продолжают те направления исследований, по которым мы публиковались. Сказать, что для нас это было как-то грандиозно, нельзя. Нас больше обрадовало даже не то, что мы попали в этот рейтинг, а то, с кем вместе мы туда попали. Потому что я знаю, какие сейчас огромные инвестиции в этой области у наших коллег по индустрии. И вот мы там. Ну окей, классно. Я написал в чат отдела, мне огонечек поставили в Telegram, вот и весь праздник (смеется).

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Позавчера, 14:20
Игорь Байдов

Один из самых знаменитых археологических памятников мира — Стоунхендж — начали возводить на территории современного графства Уилтшир в Англии еще в каменном веке. На протяжении полутора тысяч лет Стоунхендж достраивали и перестраивали, изменяя при этом его планировку. Авторы нового исследования еще раз проанализировали маршрут камней, из которых сложено мегалитическое сооружение, и рассказали, зачем его могли перестроить между 2620-2480 годами до нашей эры, когда в центре сооружения появился Алтарный камень.

Позавчера, 14:38
Юлия Трепалина

Группа морских биологов, зоологов и специалистов по изучению китов из Франции и с Мадагаскара недавно выяснила значение некоторых вокализаций детенышей горбатых китов. В частности, исследователи узнали, каким особым образом малыши дают своим мамам понять, что проголодались.

19 декабря
Evgenia

Группа ученых утверждает, что количество фундаментальных констант зависит от типа пространства-времени, в котором формулируются использующие их теории. В релятивистском пространстве-времени весь набор констант можно сократить до определяющей время — секунды.

18 декабря
Игорь Байдов

Команда американских астрономов изучила околоземный астероид 2024 PT5, который почти на два месяца стал временным спутником нашей планеты, и установила его природу. Похоже, он представляет собой отколовшуюся лунную породу. По мнению авторов новой научной работы, в космосе дрейфует скрытая популяция таких объектов, все они ожидают своего открытия.

16 декабря
Полина Меньшова

Человек и животные осваивают навыки, обучаясь на собственном опыте. Однако ученым из США удалось без явного обучения и физических манипуляций внести в мозг шаблон активности. Это позволило людям усвоить информацию и заставило по-другому воспринимать визуальные образы.

17 декабря
ПНИПУ

Черная плесень — это не только эстетически непривлекательные пятна в квартире или доме. Ее вред не заканчивается с выброшенным в мусорное ведро испорченным продуктом. Всего один квадратный метр грибка производит более одного миллиарда спор в день. Они проникают в воздух, которым мы дышим, незаметно подрывая здоровье. Ученые Пермского Политеха рассказали, что это за вид плесени, зачем ее используют при производстве конфет, как предотвратить появление грибка в жилище, чем для аллергиков и астматиков микроорганизмы особенно опасны, что такое мукормикоз и почему нельзя есть заплесневевший сыр даже после удаления пораженного участка.

28 ноября
Елизавета Александрова

Обсерватории постоянно улавливают «мигающие» радиосигналы из глубин Вселенной. Чаще всего их источниками оказываются нейтронные звезды, которые за это и назвали пульсарами. Но к недавно обнаруженному источнику GLEAM-X J0704-37 они, по мнению астрономов, отношения не имеют.

25 ноября
Полина Меньшова

Многие одинокие люди считают, что окружающие не разделяют их взглядов. Психологи из США решили проверить, так ли это на самом деле, и обнаружили общую особенность у людей с недостаточным количеством социальных связей.

3 декабря
Елизавета Александрова

Американская лунная программа «Артемида» предусматривает экспедиции длительностью от нескольких дней до долгих недель и даже месяцев, но луномобиля для передвижения экипажа по поверхности спутника Земли на сегодня нет. Поэтому космическое агентство США продумывает план действий на случай, если астронавты окажутся далеко от базы и кто-то из них внезапно не сможет идти самостоятельно.

[miniorange_social_login]

Комментарии

3 Комментария
Wolik Mich
23.08.2024
-
0
+
Хотелось бы узнать, в свете последних событий и с учётом что специалистов из YR везде сразу возьмут, как с текучестью кадров? Особенно после "ковидного" периода.
-
0
+
Все же стоило привести и сам рейтинг, который послужил поводом для интервью. А то "Яндекс задает мировые тренды..." "мировое сообщество нас иногда догоняет..." уж очень амбициозно звучит для второго места с конца списка 😏 https://epochai.org/blog/who-is-leading-in-ai-an-analysis-of-industry-ai-research
-
0
+
Любопытно, что проблема безопасности ИИ вообще не затронута... Ни интервьюер не спросил, ни сам учёный не упомянул...
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно