Data Science — наука о данных
Data Science (наука о данных) - это область применения передовых методов аналитики и научных принципов для извлечения ценной информации из данных для принятия бизнес-решений, стратегического планирования и других целей. Она приобретает все большее значение для бизнеса: Выводы, которые дает наука о данных, помогают организациям повысить операционную эффективность, выявить новые возможности для бизнеса, улучшить маркетинг и программы продаж, а также получить другие преимущества. В конечном счете, они могут привести к конкурентным преимуществам перед конкурентами.
Наука о данных включает в себя различные дисциплины - например, проектирование данных, подготовку данных, добычу данных, предиктивную аналитику, машинное обучение и визуализацию данных, а также статистику, математику и программирование. В основном этим занимаются квалифицированные специалисты по анализу данных, хотя могут привлекаться и аналитики данных более низкого уровня. Кроме того, многие организации сегодня частично полагаются на гражданских специалистов по анализу данных - группу, в которую могут входить специалисты по бизнес-аналитике (BI), бизнес-аналитики, пользователи данных, инженеры данных и другие работники, не имеющие формального образования в области науки о данных.
В этом исчерпывающем руководстве по науке о данных объясняется, что это такое, почему она важна для организаций, как она работает, какие преимущества дает бизнесу и какие проблемы ставит перед ним. Вы также найдете обзор приложений, инструментов и методов науки о данных, а также информацию о том, чем занимаются специалисты по науке о данных и какие навыки им необходимы. Во всем руководстве есть гиперссылки на соответствующие статьи TechTarget, в которых более подробно рассматриваются затронутые здесь темы, а также предлагаются мнения и советы экспертов по инициативам в области науки о данных.
Важность Data Science
Наука о данных играет важную роль практически во всех аспектах бизнес-операций и стратегий. Например, она предоставляет информацию о клиентах, которая помогает компаниям создавать более эффективные маркетинговые кампании и целевую рекламу для увеличения продаж продукции. Она помогает управлять финансовыми рисками, выявлять мошеннические операции и предотвращать поломки оборудования на производственных предприятиях и других промышленных объектах. Она помогает блокировать кибератаки и другие угрозы безопасности в ИТ-системах.
С операционной точки зрения инициативы в области науки о данных могут оптимизировать управление цепочками поставок, товарными запасами, сетями дистрибуции и обслуживанием клиентов. На более фундаментальном уровне они указывают путь к повышению эффективности и снижению затрат. Наука о данных также позволяет компаниям создавать бизнес-планы и стратегии, основанные на обоснованном анализе поведения клиентов, тенденций рынка и конкуренции. Без этого предприятия могут упустить возможности и принимать ошибочные решения.
Наука о данных также жизненно важна в областях, выходящих за рамки обычных деловых операций. В здравоохранении она используется для диагностики заболеваний, анализа изображений, планирования лечения и медицинских исследований. Академические институты используют науку о данных для контроля успеваемости студентов и улучшения маркетинга для потенциальных студентов. Спортивные команды анализируют результаты игроков и планируют стратегии игры с помощью науки о данных. Государственные учреждения и организации, занимающиеся вопросами государственной политики, также являются крупными пользователями.
Процесс и жизненный цикл Data Science
Проекты в области науки о данных включают в себя ряд этапов сбора и анализа данных. В статье, описывающей процесс науки о данных, Дональд Фармер, директор аналитической консалтинговой компании TreeHive Strategy, описал шесть основных этапов:
Определите связанную с бизнесом гипотезу для проверки.
Собрать данные и подготовить их к анализу.
Экспериментировать с различными аналитическими моделями.
Выбрать лучшую модель и проверить ее на данных.
Представить результаты руководителям компаний.
Развернуть модель для постоянного использования со свежими данными.
Фармер отметил, что этот процесс действительно делает науку о данных научным занятием. Однако, по его словам, в корпоративных предприятиях работа в области науки о данных "всегда будет наиболее полезной для прямолинейных коммерческих реалий", которые могут принести пользу бизнесу. В результате, добавил он, специалисты по науке о данных должны сотрудничать с заинтересованными сторонами бизнеса в проектах на протяжении всего жизненного цикла аналитики.
Преимущества Data Science
Выделяют потенциальные преимущества для бизнеса, которые включают повышение рентабельности инвестиций, рост продаж, повышение эффективности операций, ускорение вывода продукции на рынок, а также повышение вовлеченности и удовлетворенности клиентов.
В целом, одним из главных преимуществ науки о данных является расширение возможностей и содействие принятию более эффективных решений. Организации, которые инвестируют в нее, могут учитывать количественные, основанные на данных доказательства в своих бизнес-решениях. В идеале, такие решения, основанные на данных, приведут к повышению эффективности бизнеса, экономии затрат и улучшению бизнес-процессов и рабочих процессов.
Конкретные преимущества науки о данных для бизнеса зависят от компании и отрасли. Например, в организациях, ориентированных на клиентов, наука о данных помогает определить и уточнить целевую аудиторию. Отделы маркетинга и продаж могут использовать данные о клиентах для повышения коэффициента конверсии и создания персонализированных маркетинговых кампаний и рекламных предложений, обеспечивающих рост продаж.
В других случаях преимущества включают снижение мошенничества, более эффективное управление рисками, более прибыльные финансовые операции, увеличение времени безотказной работы производства, улучшение работы цепочки поставок, усиление защиты кибербезопасности и улучшение результатов лечения пациентов. Data science также позволяет анализировать данные в режиме реального времени по мере их получения.
Использование Data Science
К общим приложениям, которыми занимаются специалисты по науке о данных, относятся прогнозирование, распознавание образов, выявление аномалий, классификация, категоризация и анализ настроений, а также разработка таких технологий, как рекомендательные системы, системы персонализации и инструменты искусственного интеллекта (ИИ), такие как чат-боты и автономные транспортные средства и машины.
Эти приложения определяют широкий спектр вариантов использования в организациях, включая следующие:
- клиентская аналитика
- выявление мошенничества
- управление рисками
- биржевая торговля
- целевая реклама
- персонализация сайта
- обслуживание клиентов
- предиктивное обслуживание
- логистика и управление цепочками поставок
- распознавание образов
- распознавание речи
- обработка естественного языка
- кибербезопасность
- медицинская диагностика
Сложности в Data Science
Наука о данных по своей сути сложна из-за передового характера аналитики, которую она включает. Огромные объемы данных, которые обычно анализируются, повышают сложность и увеличивают время, необходимое для завершения проектов. Кроме того, специалисты по анализу данных часто работают с большими массивами данных, которые могут содержать различные структурированные, неструктурированные и полуструктурированные данные, что еще больше усложняет процесс анализа.
Общие проблемы
Эти препятствия относятся к числу проблем, с которыми сталкиваются команды специалистов по науке о данных.
Одна из самых больших проблем - устранение предвзятости в наборах данных и аналитических приложениях. Сюда входят как проблемы с самими базовыми данными, так и те, которые специалисты по анализу данных неосознанно закладывают в алгоритмы и прогнозные модели. Такие предубеждения могут исказить результаты анализа, если их не выявить и не устранить, создавая ошибочные выводы, которые приводят к неверным бизнес-решениям. Что еще хуже, они могут оказать вредное воздействие на группы людей - например, в случае расовых предубеждений в системах ИИ.
Поиск нужных данных для анализа - еще одна проблема. В отчете, опубликованном в январе 2020 года, аналитик Gartner Афраз Джаффри и четверо его коллег из консалтинговой компании также назвали выбор правильных инструментов, управление развертыванием аналитических моделей, количественную оценку бизнес-ценности и поддержание моделей в рабочем состоянии в качестве значительных препятствий.
Чем занимаются специалисты по науке о данных и какие навыки им необходимы?
Основная роль специалистов по исследованию данных заключается в анализе данных, часто больших объемов, в попытке найти полезную информацию, которой можно поделиться с руководителями компаний, менеджерами и работниками, а также с правительственными чиновниками, врачами, исследователями и многими другими. Специалисты по анализу данных также создают инструменты и технологии ИИ для применения в различных приложениях. В обоих случаях они собирают данные, разрабатывают аналитические модели, а затем обучают, тестируют и запускают модели на основе этих данных.
В результате специалисты по анализу данных должны обладать сочетанием навыков подготовки данных, интеллектуального анализа данных, прогнозного моделирования, машинного обучения, статистического анализа и математики, а также опытом работы с алгоритмами и кодирования - например, навыками программирования на таких языках, как Python, R и SQL. Многие из них также занимаются созданием визуализации данных, приборных панелей и отчетов для иллюстрации результатов анализа.
Ключевые характеристики специалистов по анализу данных
Специалисты по анализу данных должны обладать целым рядом профессиональных и личных качеств.
В дополнение к техническим навыкам от специалистов по анализу данных требуется набор более мягких навыков, включая знание бизнеса, любознательность и критическое мышление. Еще одним важным навыком является способность представлять данные и объяснять их значение в понятной для бизнес-пользователей форме. Это включает в себя умение рассказывать о данных, сочетая визуализацию данных и повествовательный текст в подготовленной презентации.
Команда специалистов по Data Science
Многие организации создают отдельную команду или несколько команд для работы с наукой о данных. Как объясняет писательница Мэри К. Пратт в статье о том, как создать команду специалистов по науке о данных, эффективная команда - это не только сами специалисты по науке о данных. В нее также могут входить следующие должности:
Инженер по данным. В обязанности входит настройка конвейеров данных и помощь в подготовке данных и развертывании моделей, работа в тесном сотрудничестве с data scientist.
Аналитик данных. Это должность более низкого уровня для специалистов по аналитике, которые не имеют такого опыта или продвинутых навыков, как специалисты по анализу данных.
Инженер машинного обучения. Эта работа, ориентированная на программирование, связана с разработкой моделей машинного обучения, необходимых для приложений в области науки о данных.
Разработчик визуализации данных - BI. Этот специалист работает с учеными, изучающими данные, над созданием визуализаций и приборных панелей, используемых для представления результатов анализа бизнес-пользователям.
Бизнес-аналитик. Также называемый переводчиком аналитики, это новая должность, которая служит связующим звеном с бизнес-подразделениями и помогает планировать проекты и сообщать о результатах.
Архитектор данных. Архитектор данных разрабатывает и контролирует внедрение базовых систем, используемых для хранения и управления данными для аналитических целей.
Группой обычно руководит директор по науке о данных, менеджер по науке о данных или ведущий специалист по науке о данных, который может подчиняться главному специалисту по данным, главному аналитику или вице-президенту по аналитике; главный специалист по науке о данных - еще одна руководящая должность, появившаяся в некоторых организациях. Некоторые команды специалистов по науке о данных централизованы на уровне предприятия, другие децентрализованы в отдельных бизнес-подразделениях или имеют гибридную структуру, сочетающую эти два подхода.
Бизнес-аналитика в сравнении с Data Science
Как и наука о данных, базовая бизнес-аналитика и отчетность призваны помочь в принятии оперативных решений и стратегическом планировании. Однако BI в основном фокусируется на описательной аналитике: Что произошло или происходит сейчас, на что организация должна отреагировать или что предпринять? Аналитики BI и пользователи самообслуживания BI в основном работают со структурированными транзакционными данными, которые извлекаются из операционных систем, очищаются и преобразуются, чтобы сделать их согласованными, и загружаются в хранилище данных или март данных для анализа. Мониторинг производительности бизнеса, процессов и тенденций является распространенным вариантом использования BI.
Наука о данных включает в себя более сложные аналитические приложения. В дополнение к описательной аналитике, она включает в себя предиктивную аналитику, которая прогнозирует будущее поведение и события, а также предписывающую аналитику, которая стремится определить наилучший курс действий по анализируемому вопросу.
Неструктурированные или полуструктурированные типы данных - например, файлы журналов, данные датчиков и текст - широко распространены в приложениях науки о данных, наряду со структурированными данными. Кроме того, специалисты по анализу данных часто хотят получить доступ к необработанным данным до их очистки и консолидации, чтобы они могли проанализировать весь набор данных или отфильтровать и подготовить их для конкретных аналитических целей. В результате необработанные данные могут храниться в озере данных на базе Hadoop, облачной службе хранения объектов, базе данных NoSQL или другой платформе больших данных.
Технологии, приемы и методы Data Science
Наука о данных в значительной степени опирается на алгоритмы машинного обучения. Машинное обучение - это форма расширенной аналитики, в которой алгоритмы изучают наборы данных и затем ищут в них закономерности, аномалии или идеи. В нем используется комбинация контролируемых, неконтролируемых, полуконтролируемых методов и методов обучения с подкреплением, причем алгоритмы получают разный уровень подготовки и контроля со стороны специалистов по анализу данных.
Существует также глубокое обучение, более продвинутое ответвление машинного обучения, которое в основном использует искусственные нейронные сети для анализа больших наборов немаркированных данных. В другой статье Шмельцер из Cognilytica объясняет взаимосвязь между наукой о данных, машинным обучением и ИИ, подробно описывая их различные характеристики и то, как они могут быть объединены в аналитических приложениях.
Прогнозирующие модели - еще одна ключевая технология науки о данных. Специалисты по анализу данных создают их путем применения алгоритмов машинного обучения, интеллектуального анализа данных или статистики к наборам данных для прогнозирования бизнес-сценариев и вероятных результатов или поведения. В предиктивном моделировании и других приложениях расширенной аналитики часто используется выборка данных для анализа репрезентативного подмножества данных - метод добычи данных, призванный сделать процесс анализа более управляемым и менее трудоемким.
Общие статистические и аналитические методы, которые используются в проектах по науке о данных, включают следующее:
- классификация, которая разделяет элементы в наборе данных на различные категории;
- регрессия, которая выстраивает оптимальные значения связанных переменных данных в линию или плоскость;
- кластеризация, которая объединяет точки данных, имеющие сходство или общие атрибуты.
Инструменты и платформы для Data Science
Для специалистов по анализу данных доступны многочисленные инструменты, которые они могут использовать в процессе анализа, включая как коммерческие варианты, так и варианты с открытым исходным кодом:
- платформы данных и аналитические движки, такие как Spark, Hadoop и базы данных NoSQL;
- языки программирования, такие как Python, R, Julia, Scala и SQL;
- инструменты статистического анализа, такие как SAS и IBM SPSS;
- платформы и библиотеки машинного обучения, включая TensorFlow, Weka, Scikit-learn, Keras и PyTorch;
- Jupyter Notebook, веб-приложение для обмена документами с кодом, уравнениями и другой информацией;
- инструменты и библиотеки для визуализации данных, такие как Tableau, D3.js и Matplotlib.
Кроме того, поставщики программного обеспечения предлагают разнообразный набор платформ для науки о данных с различными характеристиками и функциональностью. Сюда входят аналитические платформы для квалифицированных специалистов по науке о данных, платформы для автоматизированного машинного обучения, которые могут использоваться и обычными специалистами по науке о данных, а также центры управления рабочими процессами и совместной работы для команд специалистов по науке о данных. В список поставщиков входят Alteryx, AWS, Databricks, Dataiku, DataRobot, Domino Data Lab, Google, H2O.ai, IBM, Knime, MathWorks, Microsoft, RapidMiner, SAS Institute, Tibco Software и другие.
Как отрасли используют Data Science
Прежде чем стать поставщиками технологий, Google и Amazon были первыми пользователями науки о данных и аналитики больших данных для внутренних приложений, наряду с другими интернет-компаниями и компаниями электронной коммерции, такими как Facebook, Yahoo и eBay. Сейчас наука о данных широко распространена в организациях всех типов. Вот несколько примеров ее использования в различных отраслях:
Развлечения. Наука о данных позволяет службам потокового вещания отслеживать и анализировать то, что смотрят пользователи, что помогает определять новые телешоу и фильмы, которые они выпускают. Алгоритмы, основанные на данных, также используются для создания персонализированных рекомендаций на основе истории просмотров пользователя.
Финансовые услуги. Банки и компании, выпускающие кредитные карты, добывают и анализируют данные для выявления мошеннических операций, управления финансовыми рисками по кредитам и кредитным линиям, а также оценки портфеля клиентов для выявления возможностей повышения продаж.
Здравоохранение. Больницы и другие медицинские учреждения используют модели машинного обучения и дополнительные компоненты науки о данных для автоматизации анализа рентгеновских снимков и помощи врачам в диагностике заболеваний и планировании лечения на основе предыдущих результатов лечения пациентов.
Производство. В производстве наука о данных используется для оптимизации управления цепочками поставок и распределения, а также для предиктивного технического обслуживания, позволяющего обнаружить потенциальные поломки оборудования на заводах до их возникновения.
Розничная торговля. Розничные компании анализируют поведение клиентов и модели покупок, чтобы обеспечить персонализированные рекомендации по товарам и целевую рекламу, маркетинг и промоакции. Наука о данных также помогает им управлять товарными запасами и цепочками поставок для поддержания товаров на складе.
Транспорт. Компании по доставке, грузоперевозчики и поставщики логистических услуг используют науку о данных для оптимизации маршрутов и графиков доставки, а также выбора оптимальных видов транспорта для перевозки грузов.
Путешествия. Наука о данных помогает авиакомпаниям при планировании полетов для оптимизации маршрутов, расписания экипажей и загрузки пассажиров. Алгоритмы также определяют переменные цены на перелеты и гостиничные номера.
Другие области применения науки о данных, такие как кибербезопасность, обслуживание клиентов и управление бизнес-процессами, широко распространены в различных отраслях.
Будущее Data Science
Поскольку наука о данных становится все более распространенной в организациях, ожидается, что граждане, занимающиеся изучением данных, будут играть все большую роль в аналитическом процессе. В своем отчете "Магический квадрант 2020", посвященном платформам для науки о данных и машинного обучения, компания Gartner заявила, что необходимость поддержки широкого круга пользователей науки о данных "все больше становится нормой". Одним из вероятных результатов этого является более широкое использование автоматизированного машинного обучения, в том числе опытными специалистами по анализу данных, стремящимися оптимизировать и ускорить свою работу.
Gartner также отметил появление операций машинного обучения (MLOps) - концепции, которая адаптирует практику DevOps из разработки программного обеспечения для лучшего управления разработкой, развертыванием и обслуживанием моделей машинного обучения. Методы и инструменты MLOps направлены на создание стандартизированных рабочих процессов, позволяющих более эффективно планировать, создавать и внедрять модели в производство.
Другие тенденции, которые будут влиять на работу специалистов по исследованию данных в будущем, включают в себя растущее стремление к объяснимому ИИ, который предоставляет информацию, помогающую людям понять, как работают модели ИИ и машинного обучения и насколько можно доверять их результатам при принятии решений, а также связанное с этим внимание к принципам ответственного ИИ, призванным обеспечить справедливость, беспристрастность и прозрачность технологий ИИ.