Что такое Data Science? Руководство для начинающих

Когда мир вошел в эпоху больших данных, потребность в их хранении также выросла. Это была основная задача и проблема для предприятий отрасли до 2010 года. Основное внимание было уделено созданию  решений для хранения данных. Теперь, когда Hadoop и другие структуры успешно решили проблему хранения, фокус сместился на обработку этих данных. Data Science — это секретный соус. Все идеи, которые вы видите в голливудских научно-фантастических фильмах, действительно могут стать реальностью благодаря Data Science. Наука о данных — это будущее искусственного интеллекта. Поэтому очень важно понять, что такое Data Science и как она может повысить ценность вашего бизнеса.

В этом блоге я расскажу о следующих темах.

  • Необходимость в Data Science.
  • Что такое Data Science?
  • Чем она отличается от Business Intelligence (бизнес-аналитики BI) и анализа данных (Data Analysis)?
  • Жизненный цикл Data Science с примерами.

В конце этого блога вы сможете понять, что такое Data Science и ее роль в извлечении значимых идей из сложных и больших наборов данных по всему миру.

Давайте поймем зачем нам нужна Data Science

Традиционно данные, которые у нас были, являлись в основном структурированными и небольшими по размеру, их можно было проанализировать с помощью простых инструментов BI. В отличие от структурированных данных в традиционных системах, сегодня большая часть данных неструктурирована или полуструктурирована. Давайте посмотрим на тенденции данных в приведенном ниже графике, который показывает, что к 2020 году более 80% данных будут неструктурированы.

Неструктурированные данные
Неструктурированные данные

Эти данные генерируются из разных источников, таких как финансовые журналы, текстовые файлы, мультимедиа, датчики и инструменты. Простые инструменты BI не способны обрабатывать этот огромный объем и разнообразие данных. Вот почему нам нужны более сложные и передовые аналитические инструменты и алгоритмы для обработки, анализа и отображения значимых идей.
Это не единственная причина, по которой технология Data Science стала настолько популярной. Давайте углубимся и посмотрим, как она используется в разных областях.

  • Как насчет того, сможете ли вы понять точные требования своих клиентов к существующим данным, таким как история просмотра посетителей, история покупок, возраст и доход. Без сомнения, у вас были все эти данные ранее, но теперь с огромным количеством и разнообразием их вы можете более эффективно обучать модели и рекомендовать продукт своим клиентам с большей точностью. Разве это не удивительно, поскольку это принесет больше преимуществ вашей организации?
  • Давайте рассмотрим другой сценарий, чтобы понять роль Data Science в принятии решений. Как насчет того, если ваш автомобиль использовал элементы ИИ чтобы отвезти вас домой? Автопилот собирает данные от датчиков, радаров, камер и лазеров, чтобы создать карту окружения. Основываясь на этих данных, он принимает решения, например, когда ускоряться, когда нужно обгонять, где нужно сделать чередование с использованием передовых алгоритмов машинного обучения.
  • Давайте посмотрим, как Data Science может использоваться в интеллектуальной аналитике. Рассмотрим пример прогнозирования погоды. Данные о кораблях, самолетах, радарах, спутниках могут собираться и анализироваться для создания моделей. Эти модели не только прогнозируют погоду, но также помогают прогнозировать возникновение любых стихийных бедствий. Это поможет вам заранее принять необходимые меры и спасти много драгоценных жизней.

Давайте посмотрим на нижеприведенную инфографику, чтобы увидеть все области, где Data Science производит впечатляющие результаты.

В каких областях Data Science поражает воображение
В каких областях Data Science поражает воображение

Теперь, когда вы поняли необходимость в Data Science, давайте поймем, что это такое.

Что такое Data Science?

Использование термина Data Science становится все более распространенным явлением, но что оно означает? Какие навыки вам нужны, чтобы стать Data Scientist’ом? В чем разница между BI и Data Science? Как принимаются решения и прогнозы в области Data Science? Вот некоторые из вопросов, на которые будет дан ответ.

Во-первых, давайте посмотрим, что такое Data Science. Data Science — это сочетание различных инструментов, алгоритмов и принципов машинного обучения с целью обнаружения скрытых шаблонов из необработанных данных. Как это отличается от того, что статистики делают в течение многих лет?

Ответ заключается в различии между объяснением и предсказанием.

Различия Data Scientist и Data Analyst
Различия Data Scientist и Data Analyst

Как видно из приведенного выше графика, аналитик данных обычно объясняет, что происходит, обрабатывая историю данных. С другой стороны, Data Scientist не только делает анализ, но и использует различные усовершенствованные алгоритмы машинного обучения, чтобы идентифицировать появление конкретного события в будущем. Data Scientist будет рассматривать данные со многих точек зрения, иногда таких, которые ранее не были известны.

Таким образом, наука о данных в основном используется для принятия решений и прогнозов с использованием predictive causal analytics, prescriptive analytics (прогноз и принятие решений) и машинного обучения.

Predictive causal analytics. Если вы хотите модель, которая может предсказать возможности конкретного события в будущем, вам необходимо применить предиктивную аналитику. Скажем, если вы предоставляете деньги в кредит, то вероятность того, что клиенты будут оплачивать платежи по кредиту вовремя, вызывает у вас беспокойство. Здесь вы можете создать модель, которая может выполнять аналитику в истории платежей клиента, чтобы предсказать, будут ли будущие платежи своевременными или нет.

Prescriptive analytics. Если вам нужна модель, которая обладает интеллектом принятия собственных решений и возможностью изменять ее с помощью динамических параметров, для этого вам, безусловно необходимо аналитическое прогнозирование. Это относительно новое поле деятельности — предоставление консультаций. Другими словами, оно не только прогнозирует, но и предлагает ряд предписанных действий и связанных с ними результатов.

Лучший пример для этого — автомобиль с автопилотом от Google, о котором я уже говорил ранее. Данные, собранные на транспортных средствах, могут использоваться для обучения автомобилей с самообслуживанием. Вы можете запускать алгоритмы на этих данных, чтобы использовать ИИ. Это позволит вашему автомобилю принимать решения, например, когда нужно повернуть, какое взять направление, когда замедлить или ускорить ход.

Machine learning for making predictions. Если у вас есть транзакционные данные финансовой компании и вам нужно построить модель для определения будущей тенденции, то наилучшим вариантом будут алгоритмы машинного обучения. Это подпадает под парадигму обучения с учителем. Оно называется с учителем, потому что у вас уже есть данные, на основе которых вы можете обучать свои машины. Например, модель обнаружения мошенничества может быть обучена с использованием исторической записи мошеннических покупок.

Machine learning for pattern discovery. Если у вас нет параметров, на основе которых вы можете делать прогнозы, вам нужно выяснить скрытые шаблоны в наборе данных, чтобы иметь возможность делать значимые прогнозы. Это не что иное, как обучение без учителя, поскольку у вас нет предопределенных категорий для группировки. Наиболее распространенным алгоритмом, используемым для обнаружения паттернов, является кластеризация.

Допустим, вы работаете в телефонной компании, и вам нужно создать сеть, разместив вышки в регионе. Затем вы можете использовать метод кластеризации, чтобы найти те вышки, которые гарантируют, что все пользователи получат оптимальную мощность сигнала.

Давайте посмотрим, как соотношение вышеописанных подходов отличается для Data Analysis, а также для Data Science. Как вы можете видеть на изображении ниже, анализ данных включает описательную аналитику и прогнозирование. С другой стороны, Data Science — это больше о Predictive Causal Analytics и машинном обучении.

Отличия в подходах Data Analysis и Data Science
Отличия в подходах Data Analysis и Data Science

Я уверен, что вы, возможно, слышали и о Business Intelligence (BI). Часто наука о данных смешивается с BI. Я сформулирую несколько кратких и четких различий между ними, которые помогут вам лучше их понять.

Бизнес-аналитика (BI) и наука о данных

  • В BI в основном анализируют предыдущие данные, чтобы найти ответ задним числом и используют интуицию для описания тенденций бизнеса. BI позволяет вам принимать данные из внешних и внутренних источников, обрабатывать их, делать запросы и создавать информационные панели для ответа на такие вопросы, как ежеквартальный анализ доходов или бизнес-проблем. BI может оценить влияние определенных событий в ближайшем будущем.
  • Data Science — это более перспективный подход, исследовательский подход с уделением особого внимания анализу прошлых или текущих данных и прогнозированию будущих результатов с целью принятия обоснованных решений. Он отвечает на открытые вопросы о событиях «что» и «как».
    Давайте посмотрим на некоторые различия.
Features Business Intelligence (BI) Data Science
Data Sources  Structured
(Usually SQL, often Data Warehouse)
 Both Structured and Unstructured( logs, cloud data, SQL, NoSQL, text)
Approach Statistics and Visualization Statistics, Machine Learning, Graph Analysis, Neuro- linguistic Programming (NLP)
Focus Past and Present Present and Future
Tools Pentaho, Microsoft BI, QlikView, R RapidMiner, BigML, Weka, R

Это все о том, что такое Data Science, теперь давайте рассмотрим жизненный цикл Data Science.

Общая ошибка, допущенная в проектах Data Science, это работа над сбором и анализом данных, не понимая требований без правильного определения бизнес-проблемы. Поэтому для вас очень важно следить за всеми этапами жизненного цикла Data Science, чтобы обеспечить бесперебойную работу проекта.

Жизненный цикл Data Science

Ниже приведен краткий обзор основных этапов жизненного цикла Data Science:

Жизненный цикл Data Science
Жизненный цикл Data Science
  • Фаза 1 — Открытие: перед началом проекта важно понять различные спецификации, требования, приоритеты и необходимый бюджет. Вы должны обладать способностью задавать правильные вопросы. Здесь вы оцениваете, есть ли у вас необходимые ресурсы с точки зрения людей, технологии, времени и данных для поддержки проекта. На этом этапе вам также необходимо создать бизнес-задачу и сформулировать первоначальные гипотезы (IH) для тестирования.
  • Фаза 2 — Подготовка данных: на этом этапе вам нужна аналитическая «песочница», в которой вы можете выполнять аналитику на протяжении всего проекта. Перед моделированием вам необходимо исследовать и предварительно обработать данные. Кроме того, вы будете выполнять ETLT (extract, transform, load and transform), чтобы получить данные в песочнице. Давайте посмотрим на порядок статистического анализа ниже.
Статистический анализ
Статистический анализ

Вы можете использовать R для очистки, преобразования и визуализации данных. Это поможет вам выявить выбросы и установить связь между переменными. После того, как вы очистили и подготовили данные, пришло время сделать исследовательскую аналитику. Давайте посмотрим, как вы можете этого достичь.

  • Фаза 3 — Планирование модели: Здесь вы определяете методы и техники для выявления отношений между переменными. Эти отношения задают основу для алгоритмов, которые вы будете реализовывать на следующем этапе. Вы будете применять Explorative Data Analytics (EDA), используя различные статистические формулы и инструменты визуализации.

Давайте посмотрим на различные инструменты планирования модели.

Инструменты моделирования
Инструменты моделирования

R имеет полный набор возможностей моделирования и обеспечивает хорошую среду для создания интерпретирующих моделей.
Службы SQL Analysis могут выполнять аналитику в базе данных, используя общие функции интеллектуального анализа данных и основные интеллектуальные модели.
SAS / ACCESS можно использовать для доступа к данным из Hadoop и для создания повторяемых и многоразовых диаграмм потоков.
Хотя на рынке присутствует множество инструментов, R или Python являются наиболее часто используемыми инструментами.

Теперь, когда вы получили представление о характере ваших данных и решили использовать алгоритмы. На следующем этапе вы примените алгоритм и создадите модель.

  • Фаза 4 — Создание модели: На этом этапе вы разрабатывайте наборы данных для целей обучения и тестирования. Вы рассматривайте, достаточно ли ваших существующих инструментов для запуска моделей, или для этого потребуется более надежная среда (например, быстрая и параллельная обработка). Вы будете анализировать различные методы обучения, такие как классификация, ассоциация и кластеризация, чтобы построить модель.

Вы можете добиться создания модели с помощью следующих инструментов.

Инструменты для создания моделей
Инструменты для создания моделей
  • Фаза 5 — Реализация: На этом этапе вы предоставляете окончательные отчеты, брифинги, коды и технические документы. Кроме того, иногда экспериментальный проект также реализуется в производственной среде в режиме реального времени. Это обеспечит вам четкое представление о производительности и других связанных ограничениях в малом масштабе перед полным развертыванием.
  • Фаза 6 — Информирование о результатах: Теперь важно оценить, удалось ли достичь своей цели, которую вы планировали на первом этапе. Итак, на последнем этапе вы делаете все основные выводы, сообщаете заинтересованным сторонам и определяете, являются ли результаты проекта успешными или неудачными на основе критериев, разработанных на первом этапе.

Теперь я возьму пример из практики, чтобы объяснить вам различные этапы, описанных выше.

Пример: профилактика диабета

Что, если мы сможем предсказать возникновение диабета и предпринять соответствующие меры заранее, чтобы предотвратить его?
В этом случае мы прогнозируем появление диабета, используя весь жизненный цикл, о котором мы говорили ранее. Давайте рассмотрим различные шаги.

Шаг 1:

Во-первых, мы собираем данные на основе истории болезни пациента, как описано в Фазе 1. Вы можете обратиться к приведенным ниже примерам.

Данные
Данные

Как вы можете видеть, у нас есть различные атрибуты, как указано ниже.
Атрибуты:

npreg — Количество беременности
glucose  — Концентрация глюкозы в плазме
bp — Кровяное давление
skin — Толщина кожи трицепса
bmi — Индекс массы тела
ped — Функция родословной диабета
age — Возраст
income  — Доход

Шаг 2:

Теперь, как только у нас появились данные, нам необходимо очистить и подготовить их для анализа.
Эти данные имеют множество несоответствий, таких как отсутствующие значения, пустые столбцы, неожиданные значения и неправильный формат данных, которые необходимо очистить.
Здесь мы организовали данные в одну таблицу под разными атрибутами, что делает ее более структурированной.
Давайте посмотрим на примеры ниже.

Очистка данных
Очистка данных

Эти данные имеют много несоответствий.

В столбце npreg слово «one» написано словами, тогда как оно должно быть в числовой форме.
В столбце bp одно из значений — 6600, что невозможно (по крайней мере для людей), поскольку bp не может доходить до такого огромного значения.
Как вы можете видеть, столбец «income» пуст, в этом случае не имеет смысла прогнозировать диабет. Поэтому иметь его здесь избыточно и это нужно удалить из таблицы.
Таким образом, мы очистим и обработаем данные, удалив выбросы, заполнив нулевые значения и нормализуя типы данных. Если вы помните, это наш второй этап, который представляет собой предварительную обработку данных.
Наконец, мы получаем чистые данные, как показано ниже, которые можно использовать для анализа.

Очищенные данные
Очищенные данные

Шаг 3:

Теперь давайте сделаем некоторый анализ, как обсуждалось ранее в Фазе 3.

Сначала мы загрузим данные в аналитическую песочницу и применим к ней различные статистические функции. Например, R имеет такие функции, как describe, которое дает нам количество отсутствующих значений и уникальных значений. Мы также можем использовать summary функцию, которая даст нам статистическую информацию, такую как средние, медианные, диапазонные, минимальные и максимальные значения.
Затем мы используем методы визуализации, такие как гистограммы, линейные графики, полевые диаграммы (histograms, line graphs, box plots), чтобы получить представление о распределении данных.

Data Science визуализация
Data Science визуализация

Шаг 4:

Теперь, основываясь на представлениях, полученных на предыдущем шаге, наилучшим образом подходит для этой проблемы — дерево решений (decision tree).

Поскольку у нас уже есть основные атрибуты для анализа, такие как npreg, bmi и т. Д., Поэтому мы будем использовать метод обучения с учителем для создания модели.
Кроме того, мы использовали дерево решений, потому что оно учитывает все атрибуты за один раз, например, те, которые имеют линейную связь, а также те, которые имеют нелинейную взаимосвязь. В нашем случае мы имеем линейную зависимость между npreg и age, тогда как существует нелинейная связь между npreg и ped.
Модели дерева решений очень надежны, так как мы можем использовать различную комбинацию атрибутов для создания различных деревьев, а затем, наконец, реализовать ту, которая имеет максимальную эффективность.
Давайте посмотрим на наше дерево решений.

Дерево решений
Дерево решений

Здесь самым важным параметром является уровень глюкозы, поэтому это наш корневой узел. Теперь текущий узел и его значение определяют следующий важный параметр. Это продолжается до тех пор, пока мы не получим результат в терминах pos или neg. Pos означает, что тенденция к диабету является положительной, а neg отрицательной.

Шаг 5:

На этом этапе мы проведем небольшой пилотный проект, чтобы проверить, соответствуют ли между собой  наши результаты. Мы также будем искать ограничения производительности, если таковые имеются. Если результаты неточны, нам нужно перепланировать и перестроить модель.

Шаг 6:

Как только мы выполним проект успешно, мы будем делиться результатами для полного развертывания.

Data Scientist’у проще сказать, чем сделать. Итак, давайте посмотрим, что вам нужно, чтобы быть им. Data Science требует навыков в основном из трех основных областей, как показано ниже.

Data Science умения и навыки
Data Science умения и навыки

Как вы можете видеть на приведенном выше графике, вам нужно приобрести различные умения и навыки. Вы должны хорошо разбираться в статистике и математике для анализа и визуализации данных. Само собой разумеется, машинное обучение формирует стержень науки о данных и требует от вас быть разбирающимся в этой области. Кроме того, вам необходимо иметь четкое представление о сфере, в которой вы работаете, для четкого понимания бизнес-задач. Ваша задача здесь не заканчивается. Вы должны быть способны реализовать различные алгоритмы, которые требуют хороших навыков программирования. Наконец, после того, как вы приняли определенные ключевые решения, вам важно передать их заинтересованным сторонам. Таким образом, хорошая коммуникация, безусловно, добавит очков к вашим навыкам.

В конце концов, не будет ошибкой говорить, что будущее принадлежит Data Scientist’ам. Прогнозируется, что к концу 2018 года потребуется около миллиона специалистов в этой области. Все больше и больше данных предоставят возможности для принятия ключевых бизнес-решений. Скоро мы изменим то, как мы смотрим на мир, наполненный данными вокруг нас. Поэтому Data Scientist должен быть высококвалифицированным и мотивированным специалистом, чтобы решать самые сложные задачи.

Перевод статьи Hemant Sharma «What Is Data Science? A Beginner’s Guide To Data Science» (Edureka)

Spread the love

Оставьте первый комментарий

Оставить комментарий