Data Science
Евгений Бурнаев: «В Data Science нет единого набора навыков — они зависят от задач»
Data Science или наука о данных входит в самые перспективные сферы XXI века. Что она из себя представляет, где ее уже успешно применяют и какие навыки необходимо прокачать, чтобы попасть в эту область, — об этом «Каравану знаний» рассказал Евгений Бурнаев, доцент Центра Сколтеха по научным и инженерным вычислительным технологиям для задач с большими массивами данных CDISE, кандидат физико-математических наук.
Евгений Бурнаев
Имеет степень магистра прикладной физики и математики Московского физико-технического института. Руководил лабораторией интеллектуального анализа данных и предсказательного моделирования в ИППИ РАН. Принимал участие в проектах Airbus, SAFT, IHI, Sahara Force India Formula 1 team, и др. В настоящее время Евгений руководит научной группой Advanced Data Analytics in Science and Engineering в Сколтехе. Основные направления исследований связаны с разработкой моделей и методов обучения глубоких нейросетей для задач предиктивной аналитики и 3D компьютерного зрения, в т.ч. и для задач обработки медицинских снимков.
Лауреат премии Правительства Москвы молодым ученым в номинации «Передача, хранение, обработка, защита информации» по теме «Разработка методов предсказательной аналитики в задачах обработки индустриальных, биомедицинских и экономических данных». Лауреат премии Яндекса им. Ильи Сегаловича за вклад в развитие научного сообщества и подготовку молодых ученых 2020 года.
Как Data Science стала популярной
Этому способствовало несколько причин.
Во-первых, стали доступны большие вычислительные мощности. Сейчас они относительно дешево стоят. Во-вторых, за последние 10-15 лет резко возросли возможности программного и аппаратного обеспечения для сбора, хранения, передачи и быстрого доступа к данным.
Рост стал возможен благодаря алгоритмам. Например, в распознавании изображений их можно настроить, чтобы они понимали, что находится на изображении, как предметы на картинке взаимодействуют друг с другом и др. В таких узкоспециализированных задачах алгоритм может превзойти человека: точность распознавания изображений алгоритмами в 2014-2015 гг. достигла 95-99%, в то время как у человека — 95%.
Третий компонент — большие и доступные объемы данных, которые нужны алгоритмам для построения предиктивных моделей. В 2012-2014 гг. были собраны большие выборки различных данных. Например, популярный ImageNet — датасет, состоящий из миллиона фотографий. Их разметили сначала вручную люди, то есть описали, что изображено на каждой из фотографий. Причем не условно — кошка, собака, а детально, на классы — собака такой породы, кошка такой и т. д. Поэтому в ImageNet несколько тысяч классов.
Появление такого датасета позволило обучать сложные сетевые модели, содержащие большое количество настраиваемых параметров. Применение алгоритмов вкупе с существующими вычислительными возможностями, а именно, используя специальные модели графических карт для глубокого обучения, повысило точность классификации изображений на датасете ImageNet.
Эти три фактора вызвали большой интерес: люди увидели, что ряд задач можно решать с гораздо более высокой точностью. Они увидели, что есть приложение и в бизнесе — возможность создания удобных сервисов для людей и для производства, которые принесут деньги. Поэтому в Data Science ринулись инвесторы и ученые, и за последние 10 лет эта область получила импульс.
Помимо общего хайпа популярность Data Science подогревается наличием разных приложений. Взять те же Google Translate или Яндекс.Переводчик. Лет десять назад Google Translate переводил не очень хорошо — он был основан на других статистических принципах. Сейчас же, если текст достаточно прямолинейный, не содержит сложных поэтических конструкций и в целом похож на технический документ, Google Translate справляется с ним намного лучше. Да и на бытовые темы с иностранцем поговорить через него возможно: я, например, в Китае так разговаривал с таксистом.
Где применяют Data Science
Помимо self-driving cars, систем слежения за людьми и приложений для редактирования фото у Data Science есть масса других полезных применений.
Рассмотрим пример из медицины, мы занимаемся им с коллегами. Допустим, у человека эпилепсия. Врач делает МРТ-скан его мозга, чтобы понять, где есть органическое поражение, которое приводит к болезни, и спланировать операцию. На просмотр такой вещи может потребоваться несколько часов. Поскольку МРТ по сути является трехмерной фотографией, которая фиксирует плотность веществ, а фотографии можно распознать с помощью технологии компьютерного зрения, то можно автоматизировать подсказки врачам, промаркировать области, где потенциально может находиться источник эпилепсии, и следовательно помочь врачу. В целом, направление обработки медицинских снимков сейчас хорошо развивается.
Автоматизация на производстве существовала и раньше в том или ином виде, когда появились первые АСМТП (автоматизированные системы мониторинга технологических параметров) и другие сборы данных с датчиков на крупных промышленных установках. Сейчас же за счет новых алгоритмов, вычислительных мощностей и систем сбора это можно делать быстрее и точнее.К примеру, при той же выплавке стали. На некоторых этапах ее производства в нее добавляют легирующие элементы для улучшения свойств. Чтобы получить сталь определенной марки, нужно какое-то конкретное количество этих добавок. Кроме того нужно следить за издержками — стоимость легирующих добавок довольна высокая. Исходя из рекомендованных справочниками значений и своего опыта, люди могут на глаз прикинуть, сколько нужно легирующих добавок. Но не всегда верно. Поэтому можно автоматизировать этот процесс: на каждом этапе измерять химический состав текущей продукции, в зависимости от этого рекомендовать оператору объем добавок и следовательно значительно сэкономить. При этом решение все равно остается за оператором — его не выкидывают из цепочки принятия решений. Скорее у него появляется второе мнение, которое позволяет предоставить более эффективные рекомендации и снизить затраты на производство.
Другой пример предсказательного обслуживания, которым я много занимался в начале трудового пути, — авиастроение. По данным с датчиков на том или ином агрегате, например, истории поломок на схожих самолетах, параметрам телеметрии, которые снимаются во время полета, можно эффективнее понять, когда тот или иной самолет или вспомогательная силовая установка выйдут из строя, и соответственно планировать обслуживание.
В нефтегазовой сфере тоже существует много задач. Типичный пример: во время разведки и планирования проводят большое математическое моделирование. На основе данных каротажа и тестов при бурении необходимо принять решения о проницаемости, как будет происходить добыча, сколько можно добыть нефти. Для этого используют различные модели физики процессов, так как вычислительно они работают достаточно долго. Соответственно если у вас какое-то количество вычислений было, можно уже на их основе строить модели машинного обучения поверх моделей физических.
Скажем, для обработки данных керна — куска породы, который достают с глубины на пробу перед основным бурением. Для этого делают КТ-сканирование керна — фактически 3D-фотографию. По ней можно понять уровни пористости и проницаемости, влияющие на извлекаемость нефти. Здесь применяют методы компьютерного зрения и прогнозирование проницаемости.
Еще один пример: допустим, вы бурите скважину. Буровое долото должно идти строго в определенном пласте. При этом датчики каротажа находятся не на буровом долоте, а за метров двадцать из-за агрессивной среды. В какой-то момент долото может пойти в не том направлении — в глину, например, где нефти нет. Вы поймете, что ушли в другой пласт только после того, как пробурите. Датчики же, хоть и с запаздыванием, покажут, где находится долото, и помогут спрогнозировать процесс на некоторое количество шагов вперед.
В сельском хозяйстве обработка данных при дистанционном зондировании поможет вам оценить масштаб зарослей сорняков или скорость созревания посевов. Процесс этот строится следующим образом: вы ставите в сельхозугодье метеорологические станции, которые собирают данные о погодных условиях. При этом нужны интеллектуальные компоненты, подтверждающие валидность данных, то есть отслеживающие поломки на датчиках. Далее на основе собранных данных вы строите модель, которая будет прогнозировать что происходит в этой местности, и из нее вы выстраиваете систему рекомендаций для конечного пользователя: ему необходимо получить конкретную информацию в удобном и понятном виде.
Что нужно знать, чтобы попасть в Data Science
Набор навыков и необходимая база знаний в Data Science зависит от задач.
Когда базу данных собирают на платформе, для нее нужно проработать удобный интерфейс, систему доступа, визуализацию и другие вещи. Для этого нужно чисто IT — разработка front-end и back-end.
Далее все это необходимо интегрировать в систему заказчика — такая работа на стыке IT и бизнес-процессов, плюс надо понимать предметную область хотя бы немного.
Есть также дата-инженер, который понимает методы и специфику области, то есть что предсказательные модели могут или нет, какая у них надежность и другие вещи. Этот человек интегрирует в систему эти модели, чтобы они принимали данные и выдавали прогнозы. Прогнозы далее надо представить в виде удобных графиков, понятных заказчику.
И еще есть дата-сайентист. Он умеет программировать, но в большей степени понимает, какие методы применять для решения тех или иных задач. В каких-то ситуациях он сам придумывает свой метод. В крупных компаниях это редко происходит, там обычно берут существующие математические аппараты и библиотеки. Но иногда требуются собственные методы для сложных задач.
Поэтому от дата-сайентиста требуется не только знание IT, но и хорошая математическая подготовка — знание основ теории вероятности, линейной алгебры, линейных вычислительных методов, оптимизации, математической статистики, методов машинного обучения, которые применяют в выбранной области, и, конечно же, большая практика решения прикладных задач. Пригодится и умение взаимодействовать с заказчиком, потому что все равно придется объяснять возможности и пределы выполнения задания.
Это я перечислил основные роли. Есть, конечно, еще менеджер, который осуществляет взаимодействие с заказчиком по организационным вопросам.
В целом для всех специализаций помимо математики необходимы программирование, в частности Python, и английский как основной язык науки. Физика тоже не лишняя: многие физические концепции и идеи попадаются в работе.