DataOps — набор практик, процессов и технологий, который сочетает, интегрированный и ориентированный на процесс, взгляд на данные с автоматизацией и методами гибкой инженерии программного обеспечения для улучшения качества, скорости, сотрудничества и продвижения культуры непрерывного улучшения в области анализа данных.[1] Хотя DataOps начинался как набор самых лучших практик, к настоящему моменту он созрел для того, чтобы стать новым и независимым подходом к анализу данных.[2] DataOps применяется ко всему циклу жизни данных[3], начиная с подготовки данных и до предоставления отчётности, и признает взаимосвязь между отделом аналитики данных и отделом информационных технологий.[4]
DataOps включает методологию Agile для сокращения время цикла разработки аналитики в соответствии с целями бизнеса.[3]
DevOps фокусируется на непрерывной доставке используя по запросу IT ресурсы и автоматизируя тестирование и развертывание программного обеспечения. Это объединение разработки программного обеспечения и IT операций позволило улучшить скорость, качество, предсказуемость и масштаб инженерии программного обеспечения и его развертывания. Заимствуя методы DevOps, DataOps стремится привнести те же улучшения в анализ данных.[4]
DataOps использует статистическое управление процессами (statistical process control (SPC)) для мониторинга и контроля конвейера аналитики данных. При применении SPC, поток данных, протекающих через работающую систему, непрерывно контролируется и проверяется на работоспособность. При появлении аномалии, команда анализа данных может быть уведомлена с помощью автоматизированного сигнала тревоги.[5]
DataOps не привязан к конкретной технологии, архитектуре, инструменту, языку или фреймворку. Инструменты, поддерживающие DataOps продвигают сотрудничество, оркестровку, качество, безопасность, доступность и легкость использования.[6]
DataOps был впервые представлен Ленни Либманном, пишущим редактором журнала InformationWeek, 19 июня 2014 года в блог-посте на информационном хабе IBM Big Data & Analytics Hub, озаглавленном «3 причины, почему DataOps необходим для успеха больших данных» («3 reasons why DataOps is essential for big data success»).[7] Позднее термин DataOps был популяризован Энди Палмером и Стеф Локком.[8][4] DataOps является сокращением от «Data Operations».[3] 2017 год был знаменательным годом для DataOps со значительным развитием экосистемы, охватом аналитики, увеличением количества поисковых запросов, обзорам, публикациям, и количеству проектов с открытым исходным кодом.[9] По мнению компании Gartner в 2018 году DataOps находился в цикле хайпа Управления данными.[10]
Цели и философия
Прогноз роста объема данных составляет 32% совокупного среднегодового темпа роста (CAGR) до 180 Зеттабайт к 2025 году. (Источник: IDC).[6] DataOps стремиться предоставить инструменты, процессы, и организационные структуры для того, чтобы справиться с этим значительным увеличением данных.[6] Автоматизация упрощает повседневную потребность в управлении большими интегрированными базами данных, освобождая команды, занимающиеся данными для разработки новой аналитики более действенным и эффективным способом.[11][4] DataOps стремиться увеличить скорость, надежность, и качество анализа данных.[12] Он ставит акцент на коммуникацию, сотрудничество, интеграцию, автоматизацию, измерение и сотрудничество между учеными в области данных, аналитиками, ETL инженерами, специалистами по информационным технологиям (IT) и специалистами обеспечения и управления качеством.
Реализация
Тоф Уитмор из компании Blue Hill Research предлагает следующие лидерские DataOps принципы для департамента информационных технологий:[2]
«Установить измерения прогресса и производительности на каждом этапе потока данных. Там, где возможно, измерить время циклов потоков данных на соответствие стандарту.»
Определить правила абстрактного семантического слоя. Убедиться, что все „разговаривают на одном и том же языке“ и прийти к соглашению, что является данными (и метаданными), а что нет.
Проверять глазами: включить непрерывное улучшение циклов обратной связи, предназначенных для людей. Потребители должны иметь возможность доверять данным, а это может произойти только с возрастанием проверки.
Автоматизировать такое множество этапов потока данных какое только возможно включая бизнес-аналитику (BI), науку о данных, и аналитику.
Используя информацию о проверки производительности, найти узкие места и оптимизировать их после этого. Для этого в процессе могут потребоваться инвестиции в оборудование, или автоматизация процесса, занимающегося наукой о данных, который прежде выполнялся людьми.
Установить дисциплину управления, с особым вниманием к двухстороннему контролю за данными, владению данными, прозрачности, и всестороннему отслеживанию происхождения данных во время всего рабочего процесса.
Спроектировать процесс с учётом роста и расширяемости. Модель потока данных должна быть спроектирована для вмещения объемов и разнообразия данных. Следует убедиться, что имеющиеся технологии, с учётом роста данных предприятия, имеют доступную для масштабирования стоимость.»