У комп'ютернім баченнімаксима́льно стабі́льні екстре́мумні о́бласті (МСЕО, англ.maximally stable extremal regions, MSER) використовують як метод виявляння плям на зображеннях. Цю методику запропонували Матас[cs] зі співавт.[1] для пошуку відповідностей[en] між елементами на двох зображеннях з різними точками огляду. Цей метод виділяння вичерпного числа відповідних елементів зображень допомагає у широкобазовому зіставлянні (англ.wide-baseline matching), що дало кращі алгоритми стереозіставляння та розпізнавання об’єктів[en].
Терміни та визначення
Зображення це відображення . Екстремумні області на зображеннях визначені добре, якщо:
цілком упорядкована (має скрізь визначене, антисиметричне та транзитивне бінарне відношення ).
Визначено відношення суміжності . Позначуватимемо, що дві точки суміжні, через .
Область це суміжна (або зв'язна) підмножина . (Для будь-яких існує така послідовність , що .) Зауважте, що за цього визначення область може містити «діри» (наприклад, кільцеподібна область зв'язна, але її внутрішній круг це не частина ).
(Зовнішня) межа області, що означає, що межа області це набір пікселів, суміжних щонайменше з одним пікселем , але не належних до . Знов-таки, у випадку областей з «дірами» межа області не зобов'язана бути зв'язною підмножиною (кільце має внутрішню та зовнішню межі, що не перетинаються).
Екстремумна область це така область, що або для будь-якого (область максимальної яскравості), або для будь-якого (область мінімальної яскравості). Оскільки цілком впорядкована, ми можемо переформулювати ці умови як для області максимальної яскравості, та для області мінімальної яскравості відповідно. У цьому вигляді ми можемо використовувати поняття порогового значення яскравості, яке розділює область та її межу.
Максимально стабільна екстремумна область Нехай це така екстремумна область, що всі точки на ній мають яскравість, меншу за . Зауважте, що для всіх додатних . Екстремумна область максимально стабільна тоді й лише тоді, коли має локальний мінімум в . (Тут позначує потужність). тут параметр методу.
Це рівняння перевіряє області, які лишаються стабільними над певним числом порогів. Якщо область не значно більша за область , то область беруть за максимально стійку.
Це поняття можливо простіше пояснити порогуванням. Усі пікселі нижче певного порогу «чорні», а вище або рівні — «білі». Для заданого первинного зображення, якщо породжують таку послідовність зображень результатів порогування , що кожне зображення відповідає зростальному порогу t, то спочатку буде видно біле зображення, а потім з'являтимуться й ростимуть «чорні» плями, що відповідають локальним мінімумам яскравості. Максимальну стабільну екстремумну область знайдено, коли розмір однієї з цих чорних областей виявляється таким самим (або майже таким самим), як на попередньому зображенні.
Ці «чорні» плями згодом зливатимуться, доки не почорніє все зображення. Множина всіх зв'язних складових у цій послідовності це множина всіх екстремумних областей. У цьому сенсі поняття МСЕО пов'язане з поняттям дерева складових зображення.[2] Дерево складових справді забезпечує простий спосіб втілення МСЕО.[3]
Екстремумні області
Екстремумні області (англ.extremal regions) в цьому контексті мають дві важливі властивості, відповідно до яких ця множина замкнена відносно…
неперервного перетворення координат зображення. Це означає, що вона афінноінваріантна, й викривлювання чи скошування зображення не мають значення.
монотонного перетворення яскравостей зображення. Цей підхід, звісно, чутливий до ефектів природного освітлення, таких як зміна денного світла та рухливі тіні.
Переваги МСЕО
Оскільки ці області визначають виключно функцією яскравості в цій області та на її зовнішній межі, це веде до багатьох ключових характеристик цих областей, що роблять їх корисними. У широкому діапазоні порогових значень локальне перетворення у бінарний вигляд стабільне в певних областях, і має перелічені нижче властивості.
Коваріантність щодо (безперервного) перетвореннязі збереженням суміжностів області зображення
Стабільність: обирають лише області, опора (англ.support) яких майже однакова в якомусь діапазоні порогових значень.
Багатомасштабне виявляння без жодного згладжування, виявляється як тонка, так і велика структура. Зауважте, проте, що виявляння МСЕО в піраміді масштабів покращує відтворюваність та кількість відповідностей над змінами масштабу.[4]
Множину всіх екстремумних областей можливо злічити в гіршому випадку , де це число пікселів у зображенні.[5]
Порівняння з іншими виявлячами областей
Миколайчик зі співавт.[6] дослідили шість виявлячів областей (гаррісів афінний, гессіанний афінний, МСЕО, області на основі контурів, екстремумів яскравості, та опуклісні області[en]). Нижче наведено підсумок продуктивності МСЕО у порівнянні з іншими п'ятьма.
Густина областей — у порівнянні з іншими, МСЕО пропонують найбільшу різноманітність, виявляючи близько 2600 областей для сцени з текстурованим розмиттям, та 230 для сцени зі зміною освітлення, і різноманітність в цілому вважають доброю. Також, у цій перевірці МСЕО мали відтворюваність 92 %.
Розмір області — МСЕО, як правило, виявляли багато малих областей порівняно з великими, які частіше затулені, або не охоплюють пласку частину сцени. Хоча великі області може бути дещо легше зіставляти.
Зміна точкиогляду — МСЕО перевершують п'ять інших виявлячів областей як на первинних зображеннях, так і на зображеннях із повторюваними текстурними мотивами.
Зміна масштабу — після гессіанного афінного виявляча, МСЕО посідають друге місце за змінами масштабу та обертанням у площині.
Розмиття — МСЕО виявилися найчутливішими до такого типу змін у зображенні, єдиної області, у якій цей тип виявляння невправний. Проте зауважте, що в цьому оцінюванні не використовували виявляння з багатьма роздільностями, яке, як було показано, покращує відтворюваність за розмиття.
Зміна освітлення — МСЕО показали найвищу оцінку відтворюваності для цього типу сцен, решта теж мають добру робастність.
МСЕО послідовно показували найвищий результат у багатьох перевірках, доводячи, що вони надійний виявляч областей.[6]
Втілення
Первинний алгоритм Матаса зі співавт.[1] займає від числа пікселів . Він працює, спершу впорядковуючи пікселі за яскравістю. Це займає часу, з використанням BINSORT. Після впорядкування пікселі позначують на зображенні, а перелік зростальних та об'єднуваних складових та їхніх площ підтримують за допомогою алгоритму неперетинних множин. Це займає часу. На практиці ці кроки дуже швидкі. У процесі цього зберігають площу кожної зв'язаної складової як функцію яскравості, створюючи структуру даних. Злиття двох складових розглядають як припинення існування меншої складової й вставляння всіх її пікселів до більшої. Серед екстремумних областей «максимально стабільні» ті, що відповідають порогам, де відносна зміна площі як функція відносної зміни порогу перебуває в локальному мінімумі, тобто МСЕО це частини зображення, де локальне перетворення на бінарне зображення стабільне протягом великого діапазону порогів.[1][6]
Дерево складових — це набір усіх зв'язаних складових порогових значень зображення, впорядкованих за включенням. Ефективні (квазілінійні незалежно від діапазону ваг) алгоритми для його обчислення існують. Таким чином, ця структура пропонує простий спосіб втілення МСЕО.[3]
Пізніше Ністер та Стівеніус запропонували метод, справді (якщо вага це малі цілі числа) щонайгірше ,[5] також набагато швидший на практиці. Він подібний алгоритмові Ф. Салембієра зі співавт.[7]
Робастний широкобазовий алгоритм
Мета цього алгоритму — зіставляти МСЕО, щоби встановлювати точки відповідності між зображеннями. Спершу області МСЕО обчислюють на зображенні яскравості (МСЕО+) й на інвертованому зображенні (МСЕО−). Області вимірювання обирають у кількох масштабах: розмір фактичної області, 1,5×, 2× та 3× масштабована опукла оболонка області. Зіставляння виконують робастним чином, тому краще підвищувати відмітність великих областей, не зазнаючи серйозного впливу затуляння чи непланарності попереднього зображення області. Вимірювання, зроблене з майже пласкої ділянки сцени, зі стабільним інваріантним описом, називають «добрим вимірюванням» (англ.'good measurement'). Нестабільні вимірювання, або ті, що перебувають на непласких поверхнях або розривах, називають «зіпсованими вимірюваннями» (англ.'corrupted measurements'). Робастну подібність обчислюють так: Для кожного в області знаходять областей з іншого зображення з відповідним -м вимірюванням , найближчим до , і здійснюють голосування, що пропонує відповідність кожній з . Голоси підсумовують за всіма вимірюваннями, й за допомогою аналізу ймовірностей можливо обирати «добрі вимірювання», оскільки «зіпсовані вимірювання», ймовірно, розподілять свої голоси випадковим чином. Застосовуючи RANSAC до центрів тяжіння областей, можливо обчислювати грубу епіполярну геометрію. Обчислюють афінне перетворення між парами потенційно відповідних областей, відповідності визначають його з точністю до обертання, яке потім визначають епіполярними лініями. Потім області фільтрують, й обирають ті, кореляція трансформованих зображень яких перевищує порогове значення. Знову застосовують RANSAC з вужчим порогом, й оцінюють остаточну епіполярну геометрію за восьмиточковим алгоритмом.
Цей алгоритм можливо перевіряти тут (зіставляння, обмежені епіполярною або гомографічною геометрією): WBS Image Matcher
Використання для виявляння тексту
Чень використовував алгоритм МСЕО для виявлення тексту, поєднуючи його з контурами Кенні. Контури Кенні використовують, щоби допомогти впоратися зі слабкістю МСЕО до розмиття. Спершу застосовують МСЕО до відповідного зображення, щоби визначити області символів. Щоби покращити області МСЕО, будь-які пікселі за межами, утвореними контурами Кенні, видаляють. Відділювання останніх, забезпечуване контурами, значно підвищує зручність використання МСЕО для виділяння розмитого тексту.[8]
Альтернативним використанням МСЕО у виявлянні тексту є праця Ши з використанням графової моделі. Цей метод, знов-таки, застосовує МСЕО до зображення для створення попередніх областей. Потім їх використовують для побудови графової моделі на основі відстані положення та відстані кольору між кожними МСЕО, що розглядають як вузол. Далі вузли розділюють на передній план і тло за допомогою функцій витрат. Однією з функцій витрат є співвідношення відстані від вузла до переднього плану та тла. Інша штрафує вузли за значну відмінність від сусіда. Коли їх мінімізовано, граф розрізають[en], щоби відокремити текстові вузли від нетекстових.[9]
Нейман, щоб уможливити виявляння тексту в загальній сцені, використовує алгоритм МСЕО в різноманітних проєкціях. На додачу до проєкції яскравості відтінків сірого він використовує канали червоного, синього та зеленого кольорів для виявлення областей тексту, що відрізняються за кольором, але не обов'язково за яскравістю відтінків сірого. Цей метод дозволяє виявляти більше тексту, ніж за допомогою лише функцій МСЕО+ та МСЕО−, за які йшлося вище.[10]
Розширення та пристосування
Алгоритм МСЕО було пристосовано для кольорових зображень шляхом заміни порогового значення функції яскравості агломераційним кластеруванням на основі градієнтів кольорів.[11]
Алгоритм МСЕО можливо використовувати для виявляння областей на основі кольору, а не яскравості. Це зроблено Чавесом шляхом створення функції яскравості для червоного, зеленого та синього кольорів у просторі кольорів HSV. Потім алгоритм МСЕО виконують п'ять разів; над трьома псевдояскравостями кольорів, а відтак і над яскравостями відтінків сірого за допомогою стандартних функцій МСЕО+ та МСЕО−.[12]
Алгоритм МСЕО можливо використовувати для відстежування кольорових об'єктів, виконуючи виявляння МСЕО на відстані Махаланобіса до розподілу кольорів.[3]
Виявляючи МСЕО в різних роздільностях, можливо покращити робастність до розмиття та зміни масштабу.
VLFeat, відкрита бібліотека комп'ютерного бачення мовою C (з інтерфейсом MEX[en] для MATLAB), включно зі втіленням МСЕО
OpenCV, відкрита бібліотека комп'ютерного бачення мовами C/C++, включно зі втіленням лінійночасових МСЕО
Дослідження відтворюваності виявлячів, двійкові файли Крістіана Миколайчика (Win/Linux для обчислення МСЕО/гаррісового афінного… . Двійковий код, використаний в його дослідженні відтворюваності.
↑Shi, Cunzhao; Wang, Chunheng; Xiao, Baihua; Gao, Song (15 січня 2013). Scene Text Detection Using Graph Model Built Upon Maximally Stable Extremal Regions. Pattern Recognition Letters. 34 (2): 107—116. doi:10.1016/j.patrec.2012.09.019. (англ.)
↑Neumann, Lukas; Matas, Jiri (2011). A Method for Text Localization and Recognition in Real-World Images. Accv 2010: 770—783. (англ.)