Вели́кі да́ні (англ.Big Data) в інформаційних технологіях — набори інформації (як структурованої, так і неструктурованої) настільки великих розмірів, що традиційні способи та підходи (здебільшого засновані на рішеннях класу бізнесової аналітики та системах управління базами даних) не можуть бути застосовані до них[1]. Альтернативне визначення називає великими даними феноменальне прискорення нагромадження даних та їх ускладнення[1]. Важливо також відзначити те, що часто під цим поняттям у різних контекстах можуть мати на увазі як дані великого об'єму, так і набір інструментів та методів (наприклад, засоби масово-паралельної обробки даних системами категорії NoSQL, алгоритмами MapReduce, чи програмними каркасами проекту Hadoop).
Мета та переваги
Кінцевою метою цієї обробки є отримання результатів, які легко сприймаються людиною та є ефективними в умовах безперервного росту й розподілення інформації по численних вузлах обчислювальної мережі.
Для характеристики великих даних використовують «три V»: їх обсяг (англ.volume), швидкість накопичення нових даних та їх обробки (англ.velocity) та різноманіття типів даних, які можуть оброблятися (англ.variety)[1].
До основних переваг використання технології можна віднести:
отримання якісно нових знань шляхом комплексного аналізу усієї інформації у єдиному аналітичному сховищі;
Критика великих даних пов'язана з тим, що їх зберігання не завжди приводить до отримання вигоди, а швидкість оновлення даних і «актуальний» часовий інтервал не завжди розумно порівнянні[джерело?].
Історія
Сама по собі концепція «великих даних» не нова, вона виникла в часи мейнфреймів та пов'язаних з ними наукових комп'ютерних обчислень, оскільки наукомісткі обчислення завжди відрізнялися складністю і зазвичай нерозривно пов'язані з необхідністю обробки великих обсягів інформації[джерело?].
Авторство терміна «великі дані» належить Кліффорду Лінчу[en], редакторові журналу Nature, який зібрав матеріали про явище вибухового зростання обсягу та різноманітності даних та підготував у вересні 2008 року спеціальний випуск журналу, де показав феномен великих даних; термін був запропонований за аналогією з подібними в діловому англомовному середовищі метафорами «велика нафта» чи «велика руда»[2].
Великий галас навколо цієї теми виник після того, як в червні 2011 рокуконсалтингова компанія McKinsey випустила доповідь «Великі дані: наступний рубіж в інноваціях, конкуренції та продуктивності», в якому оцінила потенційний ринок великих даних в мільярди доларів[1]. В тому ж році аналітична компанія Gartner відзначає великі дані як тренд номер два в інформаційно-технологічній інфраструктурі, поступаючись лише віртуалізації[3].
У 2012 році адміністрація президента США виділила 200 мільйонів доларів для того, щоб різні американські відомства організовували конкурси з впровадження технологій великих даних в життя. Якщо в 2009 році американські венчурні фонди вклали в галузь всього 1,1 мільярда доларів, то в 2012 — вже 4,5 мільярда доларів[1].
У 2015 роціаналітична компанія Gartner вилучила великі дані зі своєї діаграми Gartner Hype Cycle, пояснивши це рішення тим, що ці технології перестали бути «hype» і стали нормою для корпоративного ІТ: «сьогодні всі дані — великі»[4].
Планувалось, що у 2017 році в Україні з'явиться онлайн-курс з великих даних на платформі Prometheus[5], проте станом на червень 2020 року курс ще не стартував[6].
Приклади застосування
Серед відомих випадків застосування великих даних можна назвати перемогу Барака Обами на президентських виборах 2012 року. Аналітики виборчого штабу Обами активно використовували big data для аналізу настроїв виборців та коригування програми кандидата. Великі дані також є одним з ключових інструментів роботи Агентства національної безпеки США — у дата-центрі, що знаходиться у штаті Юта аналізуються дані, які АНБ збирає про користувачів в інтернеті[5].
Соціальні мережі та геолокаційні сервіси представляють величезні обсяги інформації, аналіз якої є дуже важливим для прикладних задач містобудування, таких як проектування транспорту, аналіз суспільної думки, виявлення та координація надзвичайних ситуацій тощо[7].
Медицина
Медичні Великі дані допомагають запобігти розвитку хвороби на ранній стадії завдяки аналізу серцево-судинного тиску, пульсу, дихання та рівня цукру в крові[8].
У Великій Британії методи big data прийняті «на озброєння» Міністерством охорони здоров'я[en]. Аналізуючи інформацію про те, які рецепти виписують медики, аналітики міністерства намагаються оцінювати потреби британців в ліках та оптимізувати доставки препаратів в різні частини країни[5].
У 2013 році завдяки електронній медкартці, де зберігалась уся інформація про пацієнта, вчені знайшли залежність між мозковою деградацією та цукровим діабетом[8].
Засоби масової інформації
Щоб зрозуміти, як медіа використовують великі дані, спочатку необхідно надати певний контекст механізму, який використовується для медіапроцесу. Нік Кулдрі та Джозеф Туроу припустили, що медіа та рекламники підходять до великих даних як до багатьох корисних точок інформації про мільйони людей. Схоже, галузь відходить від традиційного підходу до використання певних медіа-середовищ, таких як газети, журнали чи телевізійні шоу, і натомість залучає споживачів за допомогою технологій, які досягають цільових людей у оптимальний час і в оптимальних місцях. Кінцева мета полягає в тому, щоб подати або передати повідомлення або вміст, який (з точки зору статистики) відповідає мисленню споживача. Наприклад, видавничі середовища дедалі більше адаптують повідомлення (рекламу) і контент (статті), щоб вони звернулися до споживачів, які були виключно зібрані за допомогою різноманітних дій з аналізу даних.[9]
Орієнтація на споживачів (для реклами маркетологами)
Збір даних
Журналістика даних: видавці та журналісти використовують інструменти великих даних, щоб надати унікальну та інноваційну інформацію та інфографіку.
Віртуалізація великих даних — це спосіб збирання інформації з кількох джерел в одному шарі. Зібраний шар даних є віртуальним: на відміну від інших методів, більшість даних залишаються на місці та беруться за потреби безпосередньо з вихідних систем[10].
Методи і техніка аналізу великих даних
Міжнародна консалтингова компанія McKinsey, що спеціалізується на розв'язанні задач, пов'язаних зі стратегічним управлінням, виділяє 11 методів і технік аналізу, що застосовуються до великих даних.
Сукупність методів виявлення у даних раніше невідомих, нетривіальних, практично корисних знань, необхідних для прийняття рішень. До таких методів, зокрема, належать: навчання асоціативним правилам (association rule learning), класифікація (розгалуження на категорії), кластерний аналіз, регресійний аналіз, виявлення і аналіз відхилень тощо.
Набір технік, що дозволяють інтегрувати різнорідні дані з розмаїття джерел з метою проведення глибинного аналізу (наприклад, цифрова обробка сигналів, обробка природньої мови, включно з тональним аналізом).
Включаючи кероване і некероване навчання — використання моделей, побудованих на базі статистичного аналізу чи машинного навчання для отримання комплексних прогнозів на основі базових моделей.
Мережевий аналіз, оптимізація, у тому числі генетичні алгоритми (genetic algorithm — евристичні алгоритми пошуку, що використовуються для розв'язання задач оптимізації і моделювання шляхом випадкового підбору, комбінування і варіації потрібних параметрів з використанням механізмів, аналогічних натуральному відбору у природі).
Метод, що дозволяє будувати моделі, що описують процеси так, як вони би проходили у дійсності. Імітаційне моделювання можна розглядати як різновид експериментальних випробувань.
Аналіз часових рядів, A/B-тестування A/B testing, split testing — метод маркетингового дослідження; при його використанні контрольна група елементів порівнюється із набором тестових груп, у яких один чи кілька показників були змінені, щоб з'ясувати, які зі змін покращують цільовий показник.
Подання інформації у вигляді малюнків, діаграм, з використанням інтерактивних можливостей і анімації, як для отримання результатів, так і для використання у якості вихідних даних для подальшого аналізу. Дуже важливий етап аналізу великих даних, що дозволяє показати найважливіші результати аналізу у найбільш зручному для сприйняття вигляді.