Аналіз відеоконтенту (англ.Video content analysis або video content analytics, VCA), також відомий як аналіз відео або відеоаналітика (VA) ― це можливість автоматичного аналізу відео для виявлення та визначення часових і просторових подій.
Ця технічна можливість використовується в широкому діапазоні областей, включаючи розваги[1], пошук[en] та перегляд[en] відео,[2] охорону здоров'я, роздрібну торгівлю, автомобільну промисловість, транспорт, розумний дім, виявлення полум'я та диму, безпеку.[3]Алгоритми можуть бути реалізовані як програмне забезпечення на машинах загального призначення, або як апаратні засоби в спеціалізованих блоках обробки відео.
У відеоаналітиці можна реалізувати багато різних функцій. Video Motion Detection ― це одна з найпростіших форм, де виявляється рух відносно фіксованої фонової сцени. Більш розширені функції включають відстеження відео[4] та оцінку егоемоцій.[5]
Кілька статей надають огляд модулів, які беруть участь у розробці відеоаналітичних додатків.[7][8] Це список відомих функцій та їх короткий опис.
Функція
Опис
Дінамічне маскування
Блокування частини відеосигналу на основі самого сигналу, наприклад, через проблеми конфіденційності.
Виявлення полум'я та диму
IP-камери з інтелектуальною технологією відеоспостереження можуть використовуватися для виявлення полум'я та диму за 15 — 20 секунд або навіть менше завдяки вбудованому чіпу DSP. Чіп обробляє алгоритми, які виконують зняті відеозаписи на предмет характеристик полум'я та диму, таких як колірна гамма, коефіцієнт мерехтіння, форма, малюнок та напрямок руху.
Виявлення руху використовується для визначення наявності відповідного руху в спостережувальній сцені.
Розпізнавання форми
Розпізнавання форми використовується для розпізнавання форм у вхідному відео, наприклад кола або квадратів. Ця функція зазвичай використовується в більш розширених функціях, таких як виявлення об'єктів.
Виявлення об'єктів використовується для визначення наявності типу об'єкта чи сутності, наприклад людини чи автомобіля. Інші приклади включають виявлення вогню та диму.
Визначення стилю використовується в налаштуваннях, де створено відеосигнал, наприклад для кіновиробництва. Виявлення стилю визначає стиль виробничого процесу.[9]
Виявлення несанкціонованого доступу
Виявлення несанкціонованого доступу використовується для визначення того, чи була підроблена камера або вхідний сигнал.
Спільне виявлення об'єктів, класифікація та сегментація цілей в одній або декількох пов'язаних відеорядах.
Комерційні програми
VCA — відносно нова технологія, у середині 2000-х років багато компаній випустили продукти, покращені за допомогою VCA.[10][11][12] Попри те, що існує багато застосувань, репутація різних рішень VCA сильно відрізняється. Такі функціональні можливості, як виявлення руху, підрахунок людей[en] та виявлення зброї, доступні у вигляді готових комерційних продуктів[en] та, як вважають, мають пристойний послужний список (наприклад, навіть таке безкоштовне програмне забезпечення, як Dsprobotics Flowstone, може обробляти аналіз руху та кольору). У відповідь на пандемію COVID-19 багато виробників програмного забезпечення запровадили нові методи аналізу громадського здоров'я, такі як розпізнавання масок або відстеження соціальної дистанції.[13][14][15]
У багатьох областях VCA реалізується в системах відеоспостереження, або розподілених по камерах (на кордоні), або централізованих у спеціальних системах обробки. Відеоаналітика та Smart CCTV — комерційні терміни для VCA у сфері безпеки. У Великій Британії BSIA розробили керівництво по впровадженню VCA у сфери безпеки.[16] На додаток до відеоаналітики та як доповнення до неї також може використовуватися аудіоаналітика.[17]
Виробники програмного забезпечення для керування відео постійно розширюють асортимент доступних модулів відеоаналітики. За допомогою нової технології відстеження підозрюваних можна легко відстежувати всі переміщення цього суб'єкта: звідки вони прийшли, коли, куди і як рухалися. У певній системі спостереження технологія індексування здатна визначати місцеперебування людей зі схожими характеристиками, які перебували в полі зору камер протягом певного проміжку часу. Зазвичай система знаходить безліч різних людей зі схожими характеристиками та представляє їх у вигляді знімків. Оператору потрібно лише натиснути ті зображення та об'єкти, які потрібно відстежити. Протягом хвилини або близько того можна відстежити всі рухи конкретної людини та навіть створити покрокове відео цих рухів.
Kinect — це додатковий периферійний пристрій для ігрової консолі Xbox 360, який використовує VCA для часткового введення користувача.[18]
У роздрібній торгівлі VCA використовується для відстеження покупців всередині магазину.[19] Таким чином можна отримати теплову карту магазину, що корисно для оптимізації дизайну магазину та маркетингу. Інші програми включають в себе час очікування під час перегляду продуктів і виявлення вилучених/залишених товарів.
Поліція та криміналісти аналізують відеозаписи з камер відеоспостереження під час розслідування злочинів. Поліція використовує програмне забезпечення, наприклад Kinesense[en], яке виконує аналіз відеоконтенту для пошуку ключових подій у відео та пошуку підозрюваних. Опитування показали, що до 75 % випадків пов'язані з відеоспостереженням. Поліція використовує програмне забезпечення для аналізу відеоконтенту, а також пошуку важливих подій у довгих відео.[21][22]
Академічні дослідження
Аналіз відеоконтенту — це частина комп'ютерного зору і, відповідно, штучного інтелекту. Дві основні академічні ініціативи — це TRECVID,[23] який використовує невелику частину відеоматеріалів i-LIDS, та тестові дані PETS.[24] Вони зосереджені на таких функціях, як відстеження, виявлення залишеного багажу та віртуальне огородження. Порівняльні набори відеоданих, такі як UCF101 [Архівовано 31 грудня 2021 у Wayback Machine.][25], дозволяють проводити дослідження розпізнавання дій[en], включаючи тимчасову та просторову візуальну[en]увагу за допомогою згорткової нейронної мережі та довготривалої короткочасної пам'яті. Програмне забезпечення для аналізу відео також поєднується із відеозаписами з нагрудних камер та камер на приладовій панелі, щоб легше редагувати відзнятий матеріал для публічного оприлюднення та ідентифікувати події і людей на відео.[26]
ЄС фінансує проєкт РП7 під назвою P-REACT[27] для інтеграції аналітики відеоконтенту у вбудованих системах із базами даних поліції та транспортної безпеки.[28]
Штучний інтелект для відеоспостереження використовує програмне забезпечення, яке аналізує аудіо та зображення з камер відеоспостереження, щоб розпізнавати людей, транспортні засоби, об'єкти та події. Програма для підрядників безпеки — це програмне забезпечення для визначення зон обмеженого доступу в межах огляду камери (наприклад, огороджена територія, автостоянка, але не тротуар або громадська вулиця за межами ділянки) і програма для часу доби (наприклад, після закриття бізнесу) для майна, що охороняється камерою спостереження. Штучний інтелект надсилає сповіщення, якщо виявляє порушника набору «правил», згідно з яким нікому не дозволяється перебувати в цій зоні в цей час доби.