DataOps

DataOps — набор практик, процессов и технологий, который сочетает, интегрированный и ориентированный на процесс, взгляд на данные с автоматизацией и методами гибкой инженерии программного обеспечения для улучшения качества, скорости, сотрудничества и продвижения культуры непрерывного улучшения в области анализа данных.[1] Хотя DataOps начинался как набор самых лучших практик, к настоящему моменту он созрел для того, чтобы стать новым и независимым подходом к анализу данных.[2] DataOps применяется ко всему циклу жизни данных[3], начиная с подготовки данных и до предоставления отчётности, и признает взаимосвязь между отделом аналитики данных и отделом информационных технологий.[4]

DataOps включает методологию Agile для сокращения время цикла разработки аналитики в соответствии с целями бизнеса.[3]

DevOps фокусируется на непрерывной доставке используя по запросу IT ресурсы и автоматизируя тестирование и развертывание программного обеспечения. Это объединение разработки программного обеспечения и IT операций позволило улучшить скорость, качество, предсказуемость и масштаб инженерии программного обеспечения и его развертывания. Заимствуя методы DevOps, DataOps стремится привнести те же улучшения в анализ данных.[4]

DataOps использует статистическое управление процессами (statistical process control (SPC)) для мониторинга и контроля конвейера аналитики данных. При применении SPC, поток данных, протекающих через работающую систему, непрерывно контролируется и проверяется на работоспособность. При появлении аномалии, команда анализа данных может быть уведомлена с помощью автоматизированного сигнала тревоги.[5]

DataOps не привязан к конкретной технологии, архитектуре, инструменту, языку или фреймворку. Инструменты, поддерживающие DataOps продвигают сотрудничество, оркестровку, качество, безопасность, доступность и легкость использования.[6]

История

DataOps был впервые представлен Ленни Либманном, пишущим редактором журнала InformationWeek, 19 июня 2014 года в блог-посте на информационном хабе IBM Big Data & Analytics Hub, озаглавленном «3 причины, почему DataOps необходим для успеха больших данных» («3 reasons why DataOps is essential for big data success»).[7] Позднее термин DataOps был популяризован Энди Палмером и Стеф Локком.[8][4] DataOps является сокращением от «Data Operations».[3] 2017 год был знаменательным годом для DataOps со значительным развитием экосистемы, охватом аналитики, увеличением количества поисковых запросов, обзорам, публикациям, и количеству проектов с открытым исходным кодом.[9] По мнению компании Gartner в 2018 году DataOps находился в цикле хайпа Управления данными.[10]

DataOps наследует от DevOps, Agile, и производства

Цели и философия

Прогноз роста объема данных составляет 32% совокупного среднегодового темпа роста (CAGR) до 180 Зеттабайт к 2025 году. (Источник: IDC).[6] DataOps стремиться предоставить инструменты, процессы, и организационные структуры для того, чтобы справиться с этим значительным увеличением данных.[6] Автоматизация упрощает повседневную потребность в управлении большими интегрированными базами данных, освобождая команды, занимающиеся данными для разработки новой аналитики более действенным и эффективным способом.[11][4] DataOps стремиться увеличить скорость, надежность, и качество анализа данных.[12] Он ставит акцент на коммуникацию, сотрудничество, интеграцию, автоматизацию, измерение и сотрудничество между учеными в области данных, аналитиками, ETL инженерами, специалистами по информационным технологиям (IT) и специалистами обеспечения и управления качеством.

Реализация

Тоф Уитмор из компании Blue Hill Research предлагает следующие лидерские DataOps принципы для департамента информационных технологий:[2]

  • «Установить измерения прогресса и производительности на каждом этапе потока данных. Там, где возможно, измерить время циклов потоков данных на соответствие стандарту.»
  • Определить правила абстрактного семантического слоя. Убедиться, что все „разговаривают на одном и том же языке“ и прийти к соглашению, что является данными (и метаданными), а что нет.
  • Проверять глазами: включить непрерывное улучшение циклов обратной связи, предназначенных для людей. Потребители должны иметь возможность доверять данным, а это может произойти только с возрастанием проверки.
  • Автоматизировать такое множество этапов потока данных какое только возможно включая бизнес-аналитику (BI), науку о данных, и аналитику.
  • Используя информацию о проверки производительности, найти узкие места и оптимизировать их после этого. Для этого в процессе могут потребоваться инвестиции в оборудование, или автоматизация процесса, занимающегося наукой о данных, который прежде выполнялся людьми.
  • Установить дисциплину управления, с особым вниманием к двухстороннему контролю за данными, владению данными, прозрачности, и всестороннему отслеживанию происхождения данных во время всего рабочего процесса.
  • Спроектировать процесс с учётом роста и расширяемости. Модель потока данных должна быть спроектирована для вмещения объемов и разнообразия данных. Следует убедиться, что имеющиеся технологии, с учётом роста данных предприятия, имеют доступную для масштабирования стоимость.»

События

  • Data Opticon[13]
  • Data Ops Summit[14]
  • Data Ops Online Champion[15]

Ссылки

  1. Ereth, Julian (2018). "DataOps-Towards a Definition" (PDF). Proceedings of LWDA 2018: 109. Архивировано (PDF) 25 января 2023. Дата обращения: 8 февраля 2023.
  2. 1 2 DataOps – It’s a Secret (англ.). www.datasciencecentral.com. Дата обращения: 5 апреля 2017. Архивировано 30 июня 2017 года.
  3. 1 2 3 "What is DataOps (data operations)? - Definition from WhatIs.com". SearchDataManagement (англ.). Архивировано 26 октября 2021. Дата обращения: 8 февраля 2023.
  4. 1 2 3 4 "From DevOps to DataOps, By Andy Palmer - Tamr Inc". Tamr Inc. (англ.). 2015-05-07. Архивировано 12 июля 2018. Дата обращения: 8 февраля 2023.
  5. DataKitchen Lean Manufacturing Secrets that You Can Apply to Data Analytics. Medium (7 марта 2017). Дата обращения: 24 августа 2017. Архивировано 24 августа 2017 года.
  6. 1 2 3 What is DataOps? | Nexla: Scalable Data Operations Platform for the Machine Learning Age (амер. англ.). www.nexla.com. Дата обращения: 7 сентября 2017. Архивировано 7 сентября 2017 года.
  7. "3 reasons why DataOps is essential for big data success". IBM Big Data & Analytics Hub (англ.). Архивировано 26 октября 2020. Дата обращения: 8 февраля 2023.
  8. Mango Solutions: #DataOps - it's a thing (honest) (англ.), Архивировано 28 июня 2021, Дата обращения: 28 июня 2021
  9. DataKitchen 2017: The Year of DataOps. data-ops (19 декабря 2017). Дата обращения: 24 января 2018. Архивировано 25 января 2018 года.
  10. Gartner Hype Cycle for Data Management Positions Three Technologies in the Innovation Trigger Phase in 2018 (англ.). Gartner. Дата обращения: 19 июля 2019. Архивировано 19 июля 2019 года.
  11. "5 trends driving Big Data in 2017". CIO Dive (англ.). Архивировано 8 февраля 2023. Дата обращения: 8 февраля 2023.
  12. "Unravel Data Advances Application Performance Management for Big Data". Database Trends and Applications (англ.). 2017-03-10. Архивировано 8 февраля 2023. Дата обращения: 8 февраля 2023.
  13. DataOpticon - YouTube. www.youtube.com. Дата обращения: 28 июня 2021. Архивировано 28 июня 2021 года.
  14. DataOps Summit. www.dataopssummit-sf.com. Дата обращения: 28 июня 2021. Архивировано из оригинала 2 июля 2021 года.
  15. Intelligence, Corinium Global DataOps Champions Online 2021 | Corinium (англ.). dco-dataops.coriniumintelligence.com. Дата обращения: 28 июня 2021. Архивировано 28 июня 2021 года.