Распространенные проблемы data scientist и как их решить

Распространенные проблемы data scientist
Spread the love

Есть много замечательных мыслей о работе data scientist. Но, как и в любом деле, здесь есть некоторые сложности, особенно если ваша компания не использует правильный подход к Big Data.

Хорошей новостью является то, что некоторые из этих проблем можно решить или избежать. Давайте рассмотрим некоторые распространенные проблемы на работе (полученные из Интернет) и то, как мы можем их избежать или управлять ими.

Необоснованные ожидания руководства

Часто говорят, что моделирование данных — это 90 процентов сбора / очистки данных и 10 процентов построения моделей. Огромная головная боль, когда у кого-то есть блестящая идея и для ее реализации есть последняя минута.

Иногда это вина самих сотрудников, но обычно это неаккуратный менеджмент, решающий в самую последнюю секунду, что то, о чем они только что подумали, очень и очень важно. «Подождите, мы будем включать историю социальных сетей в наш анализ частоты автомобильных аварий? Я не видел его в списке переменных. Не составит труда это реализовать!»

Люди, занимающиеся моделированием данных, вздыхают при таких запросах, потому что это обычно означает несколько дней сбора дополнительных данных и задержку в (возможно, уже определенном) графике моделирования. Сотрудники должны общаться с менеджментом и устанавливать какую-то дату (дедлайн) «без дополнительных корректировок», чтобы такого не происходило. Но это, вероятно, все равно произойдет. (Блог GrokInFullness)

Жалобы на необоснованные запросы и ожидания от менеджмента довольно распространены среди исследователей данных. К счастью, часто можно улучшить положение с помощью навыков общения, установив четкие ожидания и немного научившись этому.

Во многих случаях проблема связана с тем, что менеджер или член команды не понимает последствий того, что он просит. Это распространенная проблема в большинстве технических областей, где изменения, которые кажутся непрофессионалу незначительными, на самом деле могут потребовать гораздо более сложной работы за кулисами. Предполагая, что ваш менеджер или коллега не является профаном, однако, установление четких ожиданий до начала проекта (включая точки разграничения, после которых внесение изменений или дополнений значительно задержит результаты) может иметь большое значение.

Когда вы получаете такой ответ, лучшим подходом будет оставаться позитивным и ориентированным на решения, но также иметь четкое представление о том, что возможно. Рассмотрим ответ типа «Да, мы определенно можем добавить в модель эти показатели социальных сетей. Я предполагаю, что это добавит три-пять дней ко времени завершения нашего проекта, потому что нам нужно будет собрать и очистить эти данные, а затем настроить нашу модель, чтобы это учесть».

«У нас есть данные за прошлую неделю, можете ли вы предсказать следующие 6 месяцев?» Это распространенная проблема в работе при моделировании. Клиенты собирают несколько строк данных в электронных таблицах и ожидают, что ИИ совершит магию наблюдения за хрустальным шаром в глубинах будущего. Иногда это становится довольно странным, когда клиенты признаются в отсутствии данных, а затем искренне задаются вопросом, может ли машинное обучение заполнить эти пробелы.

— Гейнс Кесари, соучредитель и руководитель аналитики в Gramener (Towards Data Science)

Ожидается, что исследователи, работающие с данными, получат неверные, мало или вообще не получат данных и превратят их в значимые, действенные прогнозы — это еще одна проблема, с которой мы можем столкнуться. Менеджеры, возможно, прочитали статьи о силе машинного обучения и искусственного интеллекта и пришли к выводу, что любые данные могут быть переданы в алгоритм и превращены в ценный бизнес-анализ.

Конечно, мы знаем, что это неправда — ваш анализ и прогнозы могут быть настолько хорошими, насколько данные, с которыми вы работаете. Конечно, есть статистические методы, которые могут помочь нам заполнить пробелы в наборе данных, но нет волшебного алгоритма, который точно прогнозировал бы объем продаж за шесть месяцев, когда он учился только за неделю данных.

Лучший способ это решить проблему на ранней стадии. Присоединяйтесь к компании, которая уже собирает большие объемы хороших данных, или начните работать над улучшением сбора и хранением данных вашей компании. Кроме того, вы можете сделать все возможное, чтобы установить реалистичные ожидания в начале каждого проекта на основе данных, которые, как вы знаете, будут вам доступны.

Неправильное понимание значения данных

Люди, которые не понимают, что данные — это не истина, это только данные. Это даже не информация, пока кто-то не обернет ее какой-то контекст!

— Александр М Джекл, специалист по обработке данных, технолог, стратег и архитектор (Quora)

Это проблема, которая может затронуть любого, включая нас, поэтому вы можете столкнуться с этим в менеджменте, в команде или даже в своем собственном мышлении, если вы не будете осторожны. Попытки на рабочем месте развивать культуру, основанную на данных, могут иногда уходить в область им поклонения и вы можете легко забыть, что данные могут быть правильно поняты только в контексте.

Обеспечение этого контекста является частью работы data scientist. Если источник сбора данных может быть предвзятым, например, это контекст, который вы должны учитывать при анализе с самого начала. Также необходимо учитывать более широкий контекст, например рыночные тренды. Когда коллеги и менеджеры склонны доверять цифрам, несмотря ни на что, ваша задача — понять слабые стороны, предубеждения и контексты по которым были сформировали эти цифры.

Обвинения в плохих новостях

В зависимости от культуры работы, если вы являетесь специалистом по данным и рекомендуете действия, основанные на полученных вами идеях, вы можете получить повышение по службе, бонус или быть уволенным.

— Аммар Джавад, менеджер по продуктам в Hotels.com, Quora

Одна из опасностей заключается в том, что вам иногда приходится быть носителем плохих новостей. Если ваш анализ обнаруживает серьезные проблемы в компании или рисует менее радужную картину того, куда движется фирма, представление этой информации руководству может быть неудобным. И хотя исследователи данных почти никогда не являются причиной этих проблем, плохой менеджер может все равно выразить свое недовольство вами.

В некоторой степени это проблема, которую вы, возможно, сможете смягчить, улучшив общение и установив ожидания. Но в конечном итоге, если ваш начальник просит вас покопаться в данных компании, а затем обвиняет вас в том, что им не нравится то, что вы нашли, возможно, пришло время обновить ваше резюме. Работа в среде, где вас будут атаковать за выполнение вашей работы — это не то что вам нужно.

Необходимость убеждать менеджмент

Если вы не работаете в компании, которая ставит науку о данных на передний план при принятии решений, каждый проект будет упражнением в защите всего, что вы делаете. Вам постоянно нужно убеждать лиц, принимающих решения, в том, что ваша работа может иметь реальный эффект. Я бы предпочел тратить меньше времени на то, чтобы убедить людей, что какой-то проект по науке о данных должен быть инициирован, а больше времени на работу над самим проектом.

— Хакон Хапнес Странд, старший консультант по науке данных на Webstep, Quora

Это очень распространенная проблема, с которой вы, скорее всего, столкнетесь в своей карьере в области данных. Согласно недавнему исследованию, почти две трети менеджеров не доверяют данным, предпочитая полагаться на интуицию. А те, кто доверяет данным, как правило, являются менеджерами среднего звена, которые не всегда могут влиять на широкомасштабные стратегические решения. С практической точки зрения это означает, что ученые, работающие с данными, могут столкнуться с проблемой, пытаясь убедить руководство в ценности нового проекта, и они также могут столкнуться с проблемами, когда руководство фактически будет действовать в соответствии со своими результатами.

Именно по этой причине навыки общения так важны для любой роли, связанной с наукой о данных. Ваши аналитические результаты не окажут никакого влияния на итоговые показатели вашей компании, если вы не сможете заставить руководство действовать на их основе. Быть убедительным означает общаться четко, хорошо визуализировать ваши данные и сохранять их простыми. Если вы не уверены в том, насколько хорошо вы это делаете, запустите презентацию у друга или родственника без каких-либо технических или статистических данных. Они, вероятно, скажут вам, что это здорово, но обратите внимание на то, какие вопросы они задают (это то, что вы недостаточно прояснили) и какие выводы они делают из презентации. Это должно дать вам представление о том, какие области вашей презентации могут нуждаться в улучшении.

Тем не менее, также важно помнить, что руководству, возможно, придется сопоставлять другие факторы с рекомендациями данных, и данные не всегда выигрывают. «Уолл Стрит джорнал» задокументировал громкий пример этого: команда данных Netflix обнаружила, что рекламные изображения Грейс и Фрэнки работали лучше всего, когда в них не фигурировала звезда шоу Джейн Фонда. Затем руководителям пришлось сопоставить потенциальную выгоду этой информации (больше кликов на шоу) с потенциальными будущими затратами на раздражение Джейн Фонда.

Хорошей новостью является то, что убедительное управление должно стать легче, если вы сделаете это один или два раза, при условии, что эти проекты будут успешными. То же исследование, которое показало, что большинство менеджеров не доверяют большим данным, также показало, что, по словам автора исследования доктора Назима Таскина, «как только менеджер получает хорошие результаты, он укрепляет уверенность в более регулярном применении аналитических инструментов».

Коммуникации — это ключ

Повторяющееся решение здесь — это общение. Ваши навыки работы с данными, ваше отличное резюме и портфолио могут быть тем, что вам помогло, но отличные коммуникативные навыки являются ключом к тому, чтобы сохранить их и сделать вашу повседневную жизнь в качестве data scientist более приятной.

Common Workplace Problems for Data Scientists, and How to Address Them, Michael Nystrom

Добавить комментарий