Наука о данных (англ. data science; иногда даталогия — datalogy[1]) — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных.
Рассматривается как академическая дисциплина[2], а с начала 2010-х годов, во многом благодаря популяризации концепции «больших данных»[3], — и как практическая межотраслевая сфера деятельности, притом специализация исследователя данных (англ. data scientist — «учёного по данным») с начала 2010-х годов считается одной из самых привлекательных, высокооплачиваемых и перспективных профессий[4][5].
История
Началом формирования выделенной дисциплины считается 1966 год, когда был учреждён Комитет по данным для науки и техники (CODATA)[6], а первое введение термина data science относится к книге Петера Наура 1974 года, в которой он явно определил науку о данных как дисциплину, изучающую жизненный цикл цифровых данных — от появления до преобразования для представления в других областях знаний[7] (существует мнение, что Наур употреблял термин «data science» ещё в конце 1960-х[8]).
Однако, только в 1990-е годы термин, обозначающий дисциплину, получил широкое употребление[9][6] и только в начале 2000-х стал общепризнанным прежде всего благодаря статье статистика Bell Labs Уильяма Кливленда[англ.] (по состоянию на 2012 год — профессор статистики в Университете Пердью), в которой он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы[10][11].
В 2002 году Комитетом по данным для науки и техники начат выпуск журнала CODATA Data Science Journal, содержащего в названии наименование дисциплины, а в январе 2003 года вышел первый номер The Journal of Data Science Колумбийского университета.
Очередной взлёт широкого интереса к науке о данных относится к появлению парадигмы «больших данных», которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. С 2011 года O’Reilly проводит серию крупных конференций по науке о данных — Strata[12], корпорация EMC начиная с 2011 года проводит ежегодной саммит по науке о данных[13]. McKinsey в 2011 году спрогнозировал спрос в США на 440—490 тыс. новых специалистов с «глубокими аналитическими навыками по работе с большими данными» к 2018 году и дефицит в 50 % — 60 % в таких специалистах при сохранении образовательных трендов[14], в связи с этим прогнозом во многом был подогрет интерес к созданию учебных программ[15].
В 2012 году профессия data scientist неоднократно отмечается как одна из самых привлекательных (англ. sexy) и перспективных в современном мире, утверждается, что такие специалисты будут играть ключевую роль в организациях, за счёт возможностей получения конкурентных преимуществ благодаря анализу, быстрой обработке и извлечению закономерностей в данных, прежде всего, в технологических отраслях[16][5].
С 2013 учебного года Университет Данди, Оклендский университет, Университет Южной Калифорнии запустили магистерские программы по науке о данных, а бизнес-школа Имперского колледжа Лондона — программу подготовки «магистров наук по науке о данных и менеджменту» (англ. MSc Data Science & Management)[17]. В том же году Вашингтонский университет, Университет Калифорнии в Беркли и Нью-Йоркский университет получили грант в размере $37,8 млн на развитие науки о данных, в рамках которого в течение пяти лет должны будут, в том числе, выстроить учебные программы и создать возможности для академической карьеры в данной области[18].
Содержание
Основная практическая цель профессиональной деятельности в науке о данных — обнаружение закономерностей в данных[19], извлечение знаний из данных в обобщённой форме[20]. Для объяснения навыков, необходимых для деятельности в этой области, часто используется диаграмма Венна[21], на которой навыки, требуемые специалисту, отражены на пересечении сфер общепредметного опыта (англ. substantive expertise), практического опыта в информационных технологиях (hacking skills) и знания математической статистики[22].
В качестве эпистемологической особенности дисциплины указывается приоритет практической применимости результатов, то есть, успешности предсказаний, перед их причинностью, тогда как в традиционных исследовательских областях существенно объяснение природы явления[23]. В сравнении с классической статистикой, на методах которой во многом основывается наука о данных, в ней подразумевается исследование сверхбольших разнородных массивов цифровой информации и неразрывная связь с информационными технологиями, обеспечивающими их обработку[24]. В сравнении с деятельностью в области проектирования и работы с базами данных, где предполагается предварительное проектирование модели данных, отражающей взаимосвязи предметной области и последующее исследование загруженных данных относительно простыми (арифметическими) методами, в науке о данных предполагается опора на аппарат математической статистики, искусственного интеллекта, машинного обучения, зачастую без предварительной загрузки данных в модели. В сравнении с профессией аналитика, основная цель деятельности которого в описании явлений на основе накопленных данных относительно простыми пользовательскими средствами (вроде электронных таблиц или средств класса Business Intelligence), профиль специалиста по науке о данных в меньшей степени требует концентрации на содержании предметных областей, но требует более глубоких знаний в математической статистике, машинном обучении, программировании, и в целом более высокого образовательного уровня (магистры, кандидаты наук, Ph.D в сравнении с бакалаврами и специалистами)[25].
Академические программы
В курсе введения в науку о данных Вашингтонского университета, опубликованном в системе Coursera, выделены следующие разделы[26]:
- модели данных: отношения, «ключ — значение», деревья, графы, изображения, тексты;
- реляционная алгебра и параллельное выполнение запросов;
- NoSQL-системы и хранилища «ключ-значение»;
- компромиссы между SQL-, NoSQL- и NewSQL-системами;
- проектирование алгоритмов для Hadoop (и для MapReduce в общем случае);
- базовый статистический анализ: семплирование, регрессии;
- введение в data mining: кластеризация, ассоциативные правила, деревья решений;
- приложения: социальные сети, биоинформатика, анализ текста.
Блок науки о данных программы магистерской программы по «науке о данных и менеджменту» Имперского колледжа Лондона включает подготовительный курс «продвинутой статистики» (англ. advanced statistics). Непосредственно в курс по науке о данных входят следующие дисциплины:
После курсов по науке о данных и основам менеджмента в программе предусмотрен прикладной курс, разбитый на два потока, в финансово-технологический поток включены управление рисками, управление активами и производные финансовые инструменты, а в консалтинговый — обработка больших массивов данных (англ. large datasets), сетевой анализ, эконометрический анализ, приложения в сфере услуг и консалтинге, энергетике, здравоохранении, политике.[17]
Программа Университета Данди делает упор на «большие данные», прежде всего, в противовес «табличной обработке», и фокусируется на интеллектуальном анализе данных, моделировании баз данных и хранилищ, статистике, в рамках программы изучаются языки SQL, MDX, R, Erlang, Java, инструменты Hadoop и NoSQL[27].
Примечания
- ↑ Пресс, 2012, The term “data science” (together with “Datalogy”)….
- ↑ Смит, 2006.
- ↑ Дхар, 2013.
- ↑ Дэвенпорт, 2012.
- ↑ 1 2 Пресс, 2012.
- ↑ 1 2 Смит, 2006, p. 164.
- ↑ Наур, 1974, «Data science is the science of dealing with data, once they have been established, while the relation of data to what they represent is delegated to other fields and sciences».
- ↑ Пресс, 2012, The term “data science” (together with “Datalogy”) was first suggested by Peter Naur in the late 1960s.
- ↑ Журавлёва, 2012, «По мнению Ф. Д. Смита, наука о данных до 1990 г. не имела названия, а начала развиваться с 1966 г., когда был учрежден междисциплинарный комитет Международного совета науки по данным для науки и техники».
- ↑ Кливленд, 2001.
- ↑ Пресс, 2012, The term “data science” … was proposed by William S. Cleveland in 2001 as a new academic discipline, extending the field of statistics to incorporate “advances in computing with data.”.
- ↑ Archive of Past O’Reilly Conferences (англ.). O'Reilly Media (2012). Дата обращения: 2 января 2013. Архивировано 26 января 2013 года.
- ↑ Simon Piff. Notes from the Data Science Summit: Making Sense of Big Data (англ.). Document at a Glance. IDC (1 июля 2012). Дата обращения: 8 декабря 2012. Архивировано из оригинала 26 января 2013 года.
- ↑ Manyika, James et al. Big data: The next frontier for innovation, competition, and productivity (англ.) (PDF). McKinsey Global Institute, June, 2011. McKinsey (9 августа 2011). Дата обращения: 12 ноября 2011. Архивировано 11 декабря 2012 года.
- ↑ Steven Overly. As demand for big data analysts grows, schools rush to graduate students with necessary skills (англ.). Washington Post (16 сентября 2013). — «That demand was spelled out in a June 2011 report from the McKinsey Global Institute». Дата обращения: 31 декабря 2013. Архивировано 13 марта 2016 года.
- ↑ Дэвенпорт, 2012, «Goldman is a good example of a new key player in organizations: the „data scientist.“ It’s a high-ranking professional with the training and curiosity to make discoveries in the world of big data».
- ↑ 1 2 MSc Data Science & Management (англ.). Business School. Imperial College (1 января 2013). Дата обращения: 18 января 2013. Архивировано 29 января 2013 года.
- ↑ UW, Berkeley, NYU collaborate on $37.8M data science initiative (англ.). University of Washington (12 ноября 2013). Дата обращения: 31 декабря 2013. Архивировано 25 декабря 2013 года.
- ↑ Жуков, 2013, с. 5.
- ↑ Дхар, 2013, Data science is the study of the generalizable extraction of knowledge from data.
- ↑ Впервые опубликована Дрю Конвеем (Drew Conway) в 2010 году
- ↑ Жуков, 2013.
- ↑ Дхар, 2013, A common epistemic requirement in assessing whether new knowledge is actionable for decision making is its predictive power, not just its ability to explain the past.
- ↑ Дхар, 2013, The short answer is data science is different from statistics <…> in several important ways <…> To start, the raw material, the “data”, part of data science, is increasingly heterogeneous and unstructured — text, images, video — often emanating from networks with complex relationships between their entities <…> most data generated by humans and computers today is for consumption by computers; that is, computers increasingly do background work for each other and make decisions automatically. This scalability in decision making has become possible because of big data that serves as the raw material for the creation of new knowledge.
- ↑ Жуков, 2013, с. 8.
- ↑ Bill Howe. Introduction to Data Science (неопр.). Coursera (8 декабря 2012). Дата обращения: 8 декабря 2012. Архивировано 5 ноября 2012 года.
- ↑ MSc in Data Science (англ.). School of Computing. Dundee University (1 января 2013). — «A data scientist is a person who excels at manipulating and analysing data, particularly large data sets that don’t fit easily into tabular structures (so-called “Big Data”)». Дата обращения: 18 января 2013. Архивировано из оригинала 22 января 2013 года.
Литература
- Наур, Петер. 1.8. A Basic Principle of Data Science // Concise Survey of Computer Methods. — Lund, 1974. — 397 p. — (Studentlitteratur). — ISBN 91-44-07881-1.
- William S. Cleveland. Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics (англ.) // International Statistical Review : Journal. — Willey & Sons, 2001. — Vol. 69, issue 1. — P. 21—26. — ISSN 1751-5823. — doi:10.1111/j.1751-5823.2001.tb00477.x. Архивировано 5 мая 2012 года.
- Mike Lukides. What is data science? The future belongs to the companies and people that turn data into products (англ.). Radar. O’Reilly Media (2 июня 2010). Дата обращения: 2 января 2013. Архивировано 26 января 2013 года.
- Steve Lohr. For Today’s Graduate, Just One Word: Statistics (англ.). The New York Times (5 августа 2009). Дата обращения: 2 января 2013. Архивировано 26 января 2013 года.
- F. Jack Smith. Data Science as An Academic Discipline (англ.). Data Science Journal, Volume 5, 19, p. 163—164. CODADA (19 октября 2006). Дата обращения: 2 января 2013. Архивировано из оригинала 26 января 2013 года.
- Thomas H. Davenport, D. J. Patil. Data Scientist: The Sexiest Job of the 21st Century (англ.). Harvard Business Review. Harvard University Press (1 октября 2012). Дата обращения: 2 января 2013. Архивировано 26 января 2013 года.
- Gil Press. Data Scientists: The Definition of Sexy (англ.). Forbes (27 сентября 2012). Дата обращения: 2 января 2013. Архивировано 26 января 2013 года.
- Vasant Dhar. Data Science and Prediction (англ.) // Communications of the ACM. — 2013. — Vol. 56, no. 12. — P. 64—73. — ISSN 0001-0782. — doi:10.1145/2500499.
- Леонид Жуков. Профессия Data scientist (рус.) (PDF). Материалы конференции «Большие данные в национальной экономике». Открытые системы (28 октября 2013). Дата обращения: 31 декабря 2013.
- Журавлёва Е. Ю. Эпистемический статус цифровых данных в современных научных исследованиях (рус.). Вопросы философии, № 2, 2012, с. 113—123 (1 марта 2012). Дата обращения: 4 декабря 2012.