3 урока от Питера Норвига, директора по машинному обучению в Google

Spread the love

Data Science, Machie Learning и аналитика считаются одними из самых популярных карьерных путей. Спрос на квалифицированных специалистов по Data Science в промышленности, научных кругах и правительстве быстро растет. Постоянный «поток данных» привлекает много профессионалов с различными знаниями, такими как физика, математика, статистика, экономика и инженерия. Перспективы работы очень воодушевляющие. По прогнозам IBM, к 2020 году спрос на исследователя данных возрастет на 28%.

Data Science — это такое широкое поле, которое включает в себя несколько подразделов:

  • подготовка и исследование данных;
  • представление и преобразование данных;
  • визуализация и представление данных;
  • прогнозная аналитика;
  • машинное обучение и т.д.

У начинающих учить основы науки о данных, могут возникнуть следующие вопросы:

Сколько времени нужно, чтобы изучить основы науки о данных?

Каковы некоторые ресурсы для изучения науки о данных?

Мотивация для выбора вышеупомянутого названия основана на представлении Питера Норвига о количестве времени, которое требуется, чтобы стать экспертом в программировании. Если вы еще не читали эту статью Питера Норвига (директор по машинному обучению в Google) «Учите себя программированию за 10 лет», ссылка на статью.
Суть в том, что вам не нужно 10 лет для изучения Data Science, но изучение в спешке, безусловно не поможет. Чтобы стать специалистом по данным, нужны время, усилия, энергия, терпение и стремление.
Питер Норвиг считает, что обучение требует времени, терпения и преданности делу. Остерегайтесь статей, книг или веб-сайтов, которые сообщают вам, что вы можете изучить Data Science за 4 недели или за 1 месяц. Если вы заинтересованы в изучении основ науки о данных, будьте готовы потратить необходимое количество времени и энергии, чтобы освоить не только поверхностные, но и глубокие концепции науки о данных.

3 урока Питера Норвига «Научись программировать за десять лет»

1) Требуются время, усилия, энергия, терпение и стремление овладеть основами науки о данных.
Data Science — это очень междисциплинарная область, требующая глубокого знания математики, статистики, программирования и других связанных с этим навыков анализа данных, визуализации, построения моделей, машинного обучения и т.д. Где можно это все изучить?
(i) Профессиональный сертификат в области наук о данных (HarvardX, edX):
Включает в себя следующие курсы, все из которых преподаются с использованием R (вы можете бесплатно пройти аудиторские курсы или приобрести сертификат):
Data Science: R Basics;
Data Science: Visualization;
Data Science: Probability;
Data Science: Inference and Modeling;
Data Science: Productivity Tools;
Data Science: Wrangling;
Data Science: Linear Regression;
Data Science: Machine Learning;
Data Science: Capstone
(ii) Аналитика: основные инструменты и методы (Georgia TechX, edX):
Включает в себя следующие курсы, все из которых преподаются с использованием R, Python и SQL (вы можете провести бесплатный аудит или приобрести сертификат):
Introduction to Analytics Modeling;
Introduction to Computing for Data Analysis;
Data Analytics for Business.
(iii) Прикладной Data Science на Python (Университет Мичигана, Coursera):
Включает в себя следующие курсы, все из которых преподаются с использованием python (большинство курсов можно получить бесплатно, для некоторых требуется покупка сертификата):
Introduction to Data Science in Python;
Applied Plotting, Charting & Data Representation in Python;
Applied Machine Learning in Python;
Applied Text Mining in Python;
Applied Social Network Analysis in Python.
(iv) Учебники по Data Science
Изучение из учебника дает более тонкие и глубокие знания помимо того, что вы получаете от онлайн-курсов. Эта книга представляет собой прекрасное введение в науку о данных и машинное обучение, «Python Machine Learning» Sebastian Raschka. Автор объясняет фундаментальные понятия в машинном обучении и им очень легко следовать. Все, что вам нужно, это базовая линейная алгебра и навыки программирования, чтобы читать книгу. Есть также много других превосходных учебников по Data Science, таких как «Python for Data Analysis» Wes McKinney, «Applied Predictive Modeling», Kuhn & Johnson, «Data Mining: Practical Machine Learning Tools and Techniques», Ian H. Witten, Eibe Frank & Mark A. Hall и другие.
(v) Нетворкинг с изучающими Data Science
Можно многому научиться из еженедельных групповых бесед на различные темы, объединившись с другими в области науки о данных. Пообщайтесь с другими, поделитесь своим кодом на GitHub, продемонстрируйте свои навыки в LinkedIn, это действительно поможет вам в короткие сроки освоить множество новых концепций и инструментов. Вы также познакомитесь с новыми способами работы, а также с новыми алгоритмами и технологиями.
2. Понимание теоретических основ науки о данных так же важно, как и практические навыки работы с данными, Data Science интенсивно использует математику и требует знаний в следующих областях:
(i) Statistics and Probability
(ii) Multi-variable Calculus
(iii) Linear Algebra
(iv) Optimization and Operational Research
Узнайте больше о математических темах, на которые вы можете сосредоточиться из Essential Math Skills for Machine Learning.

3. Избегайте использования моделей машинного обучения в качестве инструментов для черного ящика. Большой опыт в Data Science позволяет специалисту по данным строить надежные прогностические модели. Например, перед построением модели вы можете спросить себя:
(i) Каковы переменные предиктора?
(ii) Что является целевой переменной? Является ли моя целевая переменная дискретной или непрерывной?
(iii) Должен ли использовать классификацию или регрессионный анализ?
(iv) Как мне обработать пропущенные значения в моем наборе данных?
(v) Должен ли использовать нормализацию или стандартизацию при приведении переменных к одному и тому же масштабу?
(vi) Должен ли использовать анализ основных компонентов или нет?
(vii) Как настроить гиперпараметры в моей модели?
(viii) Как я могу оценить свою модель для обнаружения отклонений в наборе данных?
(ix) Должен ли я использовать «ансамбль» методы, когда тренирую с использованием разных моделей?
(х) Как выбрать окончательную модель?
Различие между хорошей и плохой моделью машинного обучения зависит от способности человека понимать все ее детали, включая знания о различных гиперпараметрах, и о том, как эти параметры можно настроить для получения модели с наилучшей производительностью. Использование любой модели машинного обучения в качестве черного ящика без полного понимания тонкостей приведет к ее фальсификации.
Таким образом, Data Science является одной из самых быстрорастущих областей в наше время. Цифровая революция создала гигантское количество информации. Компании, организации и правительство ежедневно производят тонны на тонны данных. Спрос на высококвалифицированных специалистов по обработке данных будет только расти. Это подходящее время, чтобы тратить свое время на освоение основ Data Science. При этом остерегайтесь статей, книг или веб-сайтов, которые сообщают вам, что вы можете изучить науку о данных за 4 недели или за месяц. Не спешите. Внимательно и взвешенно подойдите к изучению.

Benjamin Obi Tayo Ph.D. Physicist, Data Scientist, Educator, Writer.

Добавить комментарий