El reconeixement d'acció per trajectòries denses és un tipus de descriptor visual que captura la informació de moviment espaciotemporal del vídeo.[1]
Motivació
Avui en dia la recuperació de les dades i la gestió intel·ligent de les dades de vídeo s'està convertint en un dels temes de recerca actius en el camp de la visió per computador més importants perquè tenim un ràpid augment en la quantitat de vídeos i arxius digitals generats dia a dia. Referent al camp de l'anàlisi de vídeo, la recerca està sent enfocada al reconeixement d'acció o moviment i la interpretació de les accions fetes pels humans. L'anàlisi d'activitat humana ha rebut una considerable atenció en les últimes dues dècades, aquesta anàlisi és important en moltes aplicacions de visió per computador, inclosos vigilància per vídeo, la recuperació de vídeo basat en el contingut, etc.
L'anàlisi de característiques locals són una forma popular i exitosa per al reconeixement d'accions. Per dur-ho a terme s'han estat utilitzant diversos detectors de punts d'interès com:
Detector de Harris: detector de córners o cantonades, la idea bàsica és que mitjançant una petita finestra de MxN píxels desplaçada per sobre de la imatge detectem les cantonades allà on hagi un gran canvi d'aparença en diferents direccions.
Filtre Gabor: detector emprat per a la detecció de contorns i regions prominents; per aconseguir-ho es convoluciona amb la imatge un filtre inspirat en el laplacià el qual busca els creuaments per zero de la derivada de segon ordre per detectar els contorns.
Matriu hessiana: l'anàlisi amb matrius hessianes és molt utilitzada per a la detecció de regions que sobresurten, és a dir, les regions que difereixen en propietats com la brillantor o el color respecte a les regions circumdants s'agrupen formant "taques" (reconeixement de regions). La raó principal és proporcionar informació complementària sobre les regions, que no s'obté de detectores de contorns o de cantonada.
Aquests mètodes són intuïtius per al domini espacial (2D) i el temporal (1D), per tant, extrapolar-ho a un espai en 3D pot ser també bastant intuïtiu, no obstant, aquesta manera de treballar no és gaire efectiva, ja que en definitiva s'està detectant només els punts més rellevants de la imatge i s'hauría d'implementar alguna altra eina per poder treballar de manera més robusta. Alguns mètodes recents mostren molts bons resultats per al reconeixement d'accions mitjançant l'aprofitament de la informació produïda pel moviment de les trajectòries.
Trajectòries denses
Una representació densa garanteix una bona cobertura de primer pla de moviment, així com del context circumdant. Com a descriptor, s'extreuen les característiques de les trajectòries per caracteritzar la forma i coordenades (mostreig dens), l'aparença (histogrames de gradient orientat) i el moviment (histogrames de flux òptic). A més, s'introdueixen amb un altre descriptor anomenat MBH (histograma de moviment limitat) el qual limita el moviment que volem analitzar.
Mostreig dens
La idea principal del mostreig dens,[2] de l'anglès "Dense Sampling" és mostrejar la imatge mitjançant una quadricula de 'W' píxels. Això garanteix que tots els punts característics estiguin cobertes per igual en cada posició. L'objectiu és fer un seguiment de tots aquests punts mostrejats a través del vídeo. Un cop obtinguts els requadres de la quadricula aquests es refinen i es processen per a obtenir la informació que hi ha en el seu interior, posteriorment s'eliminen aquells requadres de la quadricula que no contenen informació.
Descripció de les trajectòries
Els punts característics es rastregen en cada escala espacial per separat, és a dir, per a cada trama Ft s'analitza el flux òptic (wt = ut + vt) on ut i vt són els components horitzontals i verticals del flux òptic; posteriorment, a la següent trama Ft+T es tornarà a analitzar per determinar la seva trajectòria. Un cop el flux òptic és analitzat, els punts poden ser rastrejats densament sense cap cost addicional. A conseqüència les trames són concatenades formant trajectòries (Pt, Pt+1, Pt+2...). Com en el vídeo tindrem seccions de la imatge que no es moguin, dins d'aquestes trames analitzades tindrem trajectòries estàtiques, és a dir, trajectòries que no contindran informació de moviment, aquestes seran eliminades en un post-procés on també seran eliminades aquelles que efectuïn un moviment molt brusc i per tant el més probable és que la informació de moviment sigui errònia.
Descriptors de moviment i estructura
A més de la informació de la trajectòria, també es defineix l'aparença i la informació del moviment mitjançant diferents descriptors.
Histogrames de flux i gradient
L'histograma de gradients orientats (HOG, de l'anglès Histograms of Oriented Gradients) i l'histograma de flux òptic (HOF, de l'anglès Histograms of Optical Flow) estan donant excel·lents resultats respecte altres descriptors de reconeixement d'acció. L'HOG es focalitza en l'aparença estàtica del punt d'interès. La tècnica té en compte l'orientació del gradient en diferents àrees de la imatge, l'algoritme es basa en el fet que la forma d'un objecte en la imatge pot ser descrit mitjançant la distribució dels gradients i l'orientació dels píxels. L'HOF, en canvi, es focalitza en el moviment local del punt característic, és a dir, té el propòsit d'analitzar el patró de moviment aparent dels objectes no estàtics. Cadascun d'aquests dos descriptors per separat són febles, però en conjunt, és a dir, combinant el patró de moviment (flux)i la informació del gradient (aparença o forma) són altament robustos i cometen pocs errors.
Histogrames de límits de moviments
El flux òptic representa el moviment absolut entre dos trames, aquest conté moviment de moltes fonts (moviment de càmera, moviment del fons...). Si es considera el moviment de la càmera com a moviment d'acció s'obtindrà una lectura errònia del moviment i per tant posteriorment es durà a terme una mala classificació. Per solucionar aquest problema es va proposar el descriptor MBH (Histogrames de Moviment Limitat, de l'anglès Motion Boundary Histogram). Aquest, té com a propòsit detectar les accions produïdes pels humans processant per separat els components verticals i horitzontal del flux òptic els quals són guardats en un histograma. En definitiva MBH està representant el gradient del flux òptic, per tant, aquest podrà discriminar quins píxels o punts no contenen la informació de moviment produïda per una acció humana i d'aquesta manera puguin ser retirats.
Referències
↑Heng Wang, Alexander Kl¨aser, Cordelia Schmid, Liu Cheng-Lin. «Action Recognition by Dense Trajectories». Institute of Automation, Chinese Academy of Sciences, 07-04-2011. [Consulta: 28 novembre 2014].
↑Heng Wang, Alexander Kl¨aser, Cordelia Schmid, Cheng-Lin Liu. «[url=https://hal.inria.fr/hal-00725627/PDF/RR-8050.pdf Dense trajectories and motion boundary descriptors for action recognition]», 25-01-2013. [Consulta: 28 novembre 2014].