Топ 5 трендов обработки и хранения данных в 2021

  •  219 /
Поделиться

Как и в любой другой сфере, 2020 год перевернул мир данных. Когда COVID закрыл предприятия и отправил сотрудников на работу из дома, компаниям пришлось быстро адаптироваться к «новым нормам».
Облако стало абсолютной необходимостью, поскольку организации перешли к работе удаленно. Управление данными и безопасность стали большим приоритетом, поскольку каждый имел доступ к данным из разных мест и систем. Умный ИИ стал привлекательным теперь, когда исторические модели потеряли смысл. Короче говоря, организации осознали, что им нужно быстро вносить изменения. Инвестиции в данные росли, и организации стремились обновить свои системы и создать идеальный стек данных.
С 2020 годом в зеркале заднего вида мы с нетерпением ждем нового и, надеюсь, лучшего года. Что 2021 год принесет миру данных? Как будет развиваться инфраструктура данных, чтобы идти в ногу со всеми последними инновациями и изменениями?
В этом году мы увидим несколько новых тенденций в области данных: появление новых вакансий и структур качества данных, рост современного стека данных и современных решений для метаданных, а также конвергенцию Data lakes(озер) и Warehouses (хранилищ данных).

1. Data lakes и warehouses будут сближаться

За последнее десятилетие архитекторы данных разработали операции с данными вокруг двух ключевых единиц:
Data lakes дешевое хранилище для хранения огромных объемов необработанных или даже неструктурированных данных. Архитектура озера данных обычно отлично подходит для использования в специальных исследованиях и анализе данных.
Warehouses — традиционные хранилища данных с оптимизированной скоростью вычислений и обработки. Это полезно для отчетности и бизнес-аналитики, что делает Warehouses предпочтительной системой для аналитических команд.

Сегодня многие компании по-прежнему используют обе системы — Data lakes для всех своих данных, а также специализированные Warehouses для аналитики и отчетов.

Хотя мы еще не достигли этого, мы начинаем видеть, как две экосистемы сходятся, поскольку озера данных и хранилища добавляют больше возможностей.
Хранилища данных, такие как Snowflake, уже разделяют затраты на хранение и вычисления, резко сокращая расходы, связанные с хранением всех ваших данных в хранилищах данных. Сделав еще один шаг вперед, некоторые игроки в хранилища данных начали добавлять поддержку полуструктурированных данных (semi-structured data).

С другой стороны, игроки в озера данных, такие как Databricks, начали продвигаться к концепции «data lakehouse» и недавно объявили о поддержке SQL analytics и ACID transactions.

2. «Современный стек данных» становится мейнстримом.

Начиная с 2020 года термин «современный стек данных» использовался везде, где бы вы ни находились в мире данных. Он относится к новой, лучшей в своем классе современной архитектуре для работы с огромными объемами данных.
Одна из ключевых особенностей современного стека данных — мощная облачная платформа. Первоначально ориентированный на облачные хранилища данных, он также начинает включать в себя cloud data lakes и соответствующие data lakes движки.

Сегодня под современным стеком данных понимается набор инструментов для каждой части рабочего процесса с данными:

Прием данных (Data ingestion): Fivetran, Stitch, Hevodata.
Хранилище данных (Data warehousing): Snowflake, BigQuery.
Озера данных (Data lakes): Amazon S3.
Обработка озера данных (Data lake processing): Presto, Dremio, Databricks, Starburst
Трансформация данных (Data transformation): dbt, Matillion
Управление метаданными (Metadata management): Atlan
Инструменты бизнес-аналитики (BI tools): Looker

3. Metadata 3.0 возрождение управления метаданными

По мере развития современного стека данных компании приступили к реализации амбициозных проектов по обновлению своей инфраструктуры данных и сортировке основных потребностей в данных (например, получение данных, завершение проектов миграции в облако и установка новых инструментов бизнес-аналитики). Хотя они раскрыли большой потенциал, они также создали хаос .
Контекстные вопросы, такие как «Что на самом деле означает название этого столбца?» и «Почему цифры продаж на панели управления снова неверны?» убейте ловкость команд, которые в остальном движутся с головокружительной скоростью.
Хотя это не новые вопросы, мы находимся на пороге новых революционных решений. Поскольку современные платформы данных объединяются вокруг пяти основных игроков (AWS, Azure, Google Cloud Platform, Snowflake и Databricks), а сами метаданные становятся большими данными, существует значительный потенциал для внедрения интеллектуальных средств и автоматизации в пространство метаданных.

В ближайшие 24–36 месяцев мы увидим рост одной или нескольких современных платформ управления метаданными, созданных для современного стека данных, которые решают задачи обнаружения данных, каталогизации данных, происхождения и наблюдаемости.

4. Появляются новые роли: инженер-аналитик (Analytics Engineer) и руководитель платформы данных (Data Platform Leader).

В 2020 году выросли две роли, которые стали более популярными, чем когда-либо прежде.

1. Data Platform Leader
Организации все больше осознают, что должна быть центральная группа, отвечающая за разработку платформ данных, которые помогают остальной части организации лучше выполнять свою работу. И, естественно, этой команде нужен лидер.
В прошлом этим занимались более традиционные роли, такие как специалисты по хранилищам данных или архитекторы данных. Теперь стало обычным делом иметь руководителя по данным, который возглавляет инициативу по работе с данными во всей организации. У этих людей разные титулы, например, «руководитель платформы данных» или «директор платформы данных».
Руководители платформ данных обычно наблюдают за модернизацией (или настройкой с нуля для стартапов) стека данных компании. Это включает в себя настройку облачного озера данных и хранилища, внедрение инфраструктуры управления данными, выбор инструмента бизнес-аналитики и многое другое.
Эта новая роль связана с новым важным ключевым показателем эффективности : принятие конечными пользователями . Это относится к способности лидера побудить людей и группы внутри организации использовать данные (и платформы данных) в своих повседневных рабочих процессах. Это долгожданное изменение, поскольку оно объединяет стимулы тех, кто решает, в какие информационные продукты инвестировать, с теми, кто в конечном итоге использует эти продукты.
2. Analytics Engineer
У каждого аналитика, с которым я разговаривал за последнее десятилетие, было одно серьезное разочарование: зависимость от инженеров по обработке данных для производства и настройки конвейеров данных.
Подъем мощного SQL на основе построения трубопровода инструментов, таких как DBT и DataForm изменил это к лучшему. Предоставляя аналитикам сверхспособности, они передают весь процесс преобразования данных в руки аналитиков.
Результатом стало появление термина «инженер-аналитик», который описывает бывших аналитиков, которые теперь владеют всем стеком данных, начиная с приема и преобразования и заканчивая предоставлением пригодных для использования наборов данных остальной части бизнеса.

5. Рост Data quality frameworks.

Качество данных — это область, в которой не было особых инноваций за последние два десятилетия. Однако в последнее время он добился значительных успехов, и различные аспекты качества данных включаются в стек данных.

Data quality profiling
Профилирование данных — это процесс анализа данных для понимания их содержания и структуры, проверки их качества и определения того, как их можно использовать в будущем.
Профилирование может происходить несколько раз в течение жизненного цикла актива данных, начиная от поверхностных до углубленных оценок. Он включает в себя расчет недостающих значений , минимумов и максимумов , медианы и режима , частотного распределения и других ключевых статистических показателей, которые помогают пользователям понять качество базовых данных.
Хотя профилирование качества данных обычно представляло собой отдельный продукт в стеке данных, компании все чаще включают его в современные каталоги данных , позволяя конечным пользователям понимать свои данные и доверять им.

Правила качества данных для бизнеса
Качество данных — это не только статистическое понимание данных. Это также касается того, заслуживают ли данные доверия, в зависимости от бизнес-контекста.
Например, ваши продажи обычно не должны увеличиваться более чем на 10% в неделю. 100% -ный всплеск продаж должен предупредить нужного члена команды и остановить работу конвейера данных, а не дойти до панели управления, которую использует генеральный директор!

Эта потребность в интеллектуальных предупреждениях побудила организации привлечь бизнес-группы к процессу написания проверок качества данных.

Для групп данных по-прежнему нет отличного способа сотрудничать с бизнес-партнерами по проверке качества данных, но я ожидаю, что в ближайшие годы в этой сфере будет много инноваций. В будущем мы увидим более умные решения, которые автоматически генерируют бизнес-правила качества данных на основе тенденций в данных.

Тесты качества данных в конвейерах данных
Третий способ повышения качества данных — это запись их в сам конвейер данных. Это заимствует принципы из «модульных тестов» в мире разработки программного обеспечения.
Программная инженерия уже много лет включает фреймворки для модульного тестирования. Они автоматически проверяют каждую отдельную единицу кода, чтобы убедиться, что она готова к использованию. Тесты качества данных в конвейере имитируют структуры модульного тестирования, чтобы обеспечить такую ​​же уверенность и скорость инженерии данных.
Это помогает командам выявлять проблемы с качеством данных, вызванные изменениями исходных данных, прежде чем они повлияют на рабочие процессы и отчеты организации.

Вы согласны или не согласны с этими тенденциями? Оставьте комментарий со своими мыслями!

Перевод The Top 5 Data Trends for CDOs to Watch Out for in 2021. Prukalpa. Towards data science

[Всего: 1   Средний:  5/5]

Добавить комментарий