El seguiment d'objectes és el procés d'estimar en el temps la ubicació d'un o més objectes mòbils mitjançant la utilització d'una càmera. La ràpida millora en qualitat i resolució dels sensors d'imatge, juntament amb el dramàtic increment quant a la potència de càlcul a l'última dècada, han afavorit la creació de nous algorismes i aplicacions mitjançant el seguiment d'objectes.
El seguiment d'objectes pot ser un procés lent a causa de la gran quantitat de dades contingues en un vídeo. A més, la possible necessitat d'utilitzar tècniques de reconeixement d'objectes per realitzar el seguiment incrementa la seva complexitat.
Disseny d'un seguidor d'objectes
Les càmeres de vídeo capturen informació sobre els objectes d'interès en forma de conjunt de píxels. Al modelar la relació entre l'aspecte de l'objecte d'interès i el valor dels píxels corresponents, un seguidor d'objectes estima la ubicació d'aquest objecte en el temps. La relació entre l'objecte i la projecció de la seva imatge és molt complexa i pot dependre de més factors que no només la posició de l'objecte en si mateix, el que implica que el seguiment d'objectes sigui una tasca difícil.
Els principals reptes que s'han de tenir en compte en el disseny d'un seguidor d'objectes estan relacionats amb la similitud d'aspecte entre l'objecte d'interès i la resta d'objectes en l'escena, així com la variació d'aspecte del mateix objecte. Atès que l'aspecte tant de la resta d'objectes com el fons pot ser similar a al de l'objecte d'interès, això pot interferir en la seva observació. En aquest cas, les característiques extretes d'aquestes àrees no desitjades poden ser difícils de diferenciar de les que esperem que l'objecte d'interès generi. Aquest fenomen es coneix amb el nom de clutter.
Dificultats del seguiment
A més del repte de seguiment que causa el clutter, el seguiment es veu dificultat pels canvis d'aspecte de l'objectiu en el pla de la imatge que es deuen a un o més dels següents factors:
Canvis de posició. L'objecte mòbil d'interès varia el seu aspecte quan es projecta sobre el pla de la imatge, per exemple, en girar.
Il·luminació ambient. La direcció, la intensitat i el color de la llum d'ambient influeixen en l'aspecte de l'objecte d'interès. Tanmateix, els canvis en la il·luminació global són sovint un repte en les escenes a l'aire lliure.
Soroll. El procés d'adquisició d'imatges introdueix en el senyal de la imatge un cert grau de soroll que depèn de la qualitat del sensor. Les observacions de l'objecte d'interès poden ser malmeses i, per tant, afectar el rendiment del seguidor.
Oclusions. Pot ésser que un objecte d'interès no sigui ben observat quan és parcialment o totalment oclòs per altres objectes en l'escena. Les oclusions són generalment degudes a:
un objecte d'interès movent-se darrere d'un objecte estàtic, com per exemple una columna.
altres objectes que es mouen en l'escena de manera que entorpeixen la visió d'un objecte d'interès.
Representació de l'objecte
En un escenari de seguiment, un objecte pot ser definit com a qualsevol cosa que sigui d'interès per al seu posterior anàlisi. Els objectes poden ser representats per les seves formes i aparences. A continuació es descriuen les representacions de forma de l'objecte més utilitzats:
Punts. L'objecte està representat per un punt, és a dir, per un centroide o per un conjunt de punts. En general, la representació de punts és adequada per al seguiment d'objectes que ocupen petites regions en una imatge.
Formes geomètriques primitives. La forma de l'objecte és representada per un rectangle, una el·lipse, etc. El moviment d'aquestes representacions és generalment modelat per la translació, afí, o la transformació projectiva (homografia). Encara que les formes geomètriques primitives són més adequades per a la representació d'objectes rígids simples, també s'utilitzen per al seguiment d'objectes no rígids.
Silueta de l'objecte i contorn. El la representació del contorn defineix el límit d'un objecte. La regió dins del contorn s'anomena la silueta de l'objecte. Aquestes representacions són adequades pel seguiment de formes complexes no rígides.
Models articulats de forma. Els objectes articulats estan formats per parts del cos que estan unides per articulacions. Per exemple, el cos humà és un objecte articulat amb el tors, cames, mans, cap i peus units per articulacions. La relació entre aquestes parts es regeix pels models de moviment cinemàtic. Per tal de representar un objecte articulat, es poden modelar els components utilitzant cilindres o el·lipses.
Models esquelètics. L'esquelet de l'objecte es pot extreure mitjançant la transformació de l'eix mitjà a la silueta de l'objecte. La representació de l'esquelet es pot utilitzar per modelar objectes articulats i rígids.
També hi ha diverses maneres de representar les característiques d'aspecte dels objectes. S'ha de tenir en compte que les representacions de forma també es poden combinar amb les d'aspecte per dur a terme el seguiment. Algunes de les representacions d'aspecte més comunes són:
La densitat de probabilitat de l'aspecte dels objectes. Les estimacions de densitat de probabilitat de l'aspecte dels objectes poden ser paramètriques o no paramètriques. Aquesta densitat de probabilitat (color, textura) pot ser calculada a partir de les regions de la imatge especificada pels models de forma (regió interior d'una el·lipse o un contorn).
Plantilles. Les plantilles estan formades amb formes geomètriques simples o siluetes. Un dels avantatges de les plantilles és que aporta tant la informació espacial com la d'aspecte. Les plantilles, però, només codifiquen l'aspecte dels objectes generats a partir d'una única vista. Per tant, només són adequades per seguir objectes les posicions dels quals no variïn considerablement al llarg del seguiment.
Models actius d'aspecte. Els models actius d'aspecte es generen mitjançant el modelatge simultani de la forma de l'objecte i el seu aspecte. En general, la forma de l'objecte es defineix per un conjunt de punts de referència. Similar a la representació basada en el contorn, els punts de referència poden residir a la frontera de l'objecte o, alternativament, poden residir dins de la regió d‘aquest. Per a cada punt de referència, s'emmagatzema un vector d'aspecte en forma de color, textura, o magnitud del gradient. Els models actius d'aspecte requereixen una fase d'entrenament on tant la forma com el seu aspecte associats són coneguts a partir d'un conjunt de mostres.
Models d'aspecte multivista. Aquests models codifiquen diferents punts de vista d'un objecte. Un mètode per representar els diferents punts de vista d'un objecte és generar un subespai de les projeccions donades.
Selecció de característiques
Seleccionar les característiques adequades té un paper fonamental en el seguiment. En general, la característica visual més desitjada és la singularitat perquè els objectes es poden distingir fàcilment en l'espai de característiques. Els detalls de les característiques visuals més comuns són els següents:
Color. En el processament d'imatges, s'utilitza normalment l'espai de color RGB (vermell, verd i blau) per representar aquesta característica. Tot i això, l'espai RGB no és un espai de color percentualment uniforme i, per tant, s'han utilitzat una gran varietat d'espais de color en el seguiment. El color aparent d'un objecte es veu influenciat principalment per dos factors físics:
La distribució d'energia espectral de la font.
Les propietats de reflectància de la superfície de l'objecte.
Vores. Els límits dels objectes solen generar forts canvis en la intensitat de la imatge. La detecció de vores s'utilitza per identificar aquests canvis. Una propietat important de les vores és que són menys sensibles als canvis d'il·luminació en comparació amb les característiques de color. Els algorismes que fan un seguiment dels límits dels objectes solen utilitzar les vores com a característica representativa.
Flux òptic. El flux òptic és un camp dens de desplaçament de vectors que defineix la translació de cada píxel en una regió. Es calcula mitjançant la restricció de brillantor constant i és generalment utilitzat com a característica de la segmentació basada en moviment, així com en aplicacions de seguiment.
Textura. La textura és una mesura de la variació d'intensitat d'una superfície que quantifica les propietats com per exemple la suavitat i regularitat. En comparació amb el color, la textura requereix una etapa de processament per generar els descriptors. Similars a les característiques de límits, les característiques de textura són menys sensibles als canvis d'il·luminació en comparació amb el color.
Detecció de la imatge
Cada mètode de seguiment requereix un mecanisme de detecció d'objectes, ja sigui en cada fotograma, o quan el primer objecte apareix en el vídeo. Un mètode comú per a la detecció d'objectes és l'ús de la informació d'un sol fotograma. No obstant això, alguns mètodes de detecció d'objectes fan ús de la informació temporal calculada a partir d'una seqüència d'imatges per reduir així el nombre de falses deteccions. Aquesta informació temporal es calcula generalment amb la tècnica frame differencing, que posa de manifest les regions canviants en trames consecutives. Un cop es tenen en compte les regions de l'objecte en la imatge, és llavors tasca del seguidor realitzar la correspondència d'objecte d'un fotograma a un altre per generar els seguiment. Els mètodes més populars en el context del seguiment d'objectes són:
Els detectors de punts són utilitzats per trobar els punts d'interès en imatges que tenen una textura expressiva en les seves respectives localitats. Els punts d'interès s'han utilitzat durant molt de temps en el context del moviment i en els problemes de seguiment. Una qualitat desitjable quant als punts d'interès és la seva invariància als canvis d'il·luminació i al punt de vista de la càmera.
Sostracció del fons
La detecció d'objectes es pot aconseguir mitjançant la construcció d'una representació de l'escena anomenada model de fons i després trobant les desviacions del model per a cada fotograma entrant. Qualsevol canvi significatiu en una regió de la imatge del model de fons representa un objecte en moviment. Els píxels que constitueixen les regions en procés de canvi són marcats per al seu posterior processament. En general, un algorisme de components connectats s'aplica per obtenir regions connectades que corresponen als objectes. Aquest procés es coneix com la sostracció de fons.
Segmentació
L'objectiu dels algorismes de segmentació de la imatge és dividir la imatge en regions percentualment similars. Cada algorisme de segmentació aborda dos problemes, els criteris per a una bona partició i el mètode per aconseguir la partició eficient. Existeixen diferents tècniques de segmentació d'objectes en moviment que es poden separar en dos grans grups: les basades en moviments i les basades en característiques espaciotemporals.
Tècniques basades en moviment
Aquestes tècniques fan ús principalment de la informació de moviment. Dins d'aquest grup podem distingir dos tipus: les que treballen amb el moviment en dos dimensions (2D) i les que ho fan en tres (3D).
Dins de les tècniques en dos dimensions trobem:
Tècniques basades en les discontinuïtats de flux òptic. Aquesta tècnica realitza la segmentació basada en el desplaçament o en el flux òptic. Aquest desplaçament o flux òptic d'un píxel és un vector de moviment que representa el moviment entre el píxel en una imatge i el píxel corresponent en la següent imatge.
Tècniques basades en al detecció de canvis. El principal objectiu d'aquests algorismes és la detecció dels píxels de l'objecte i els píxels de fons. Els algorismes de detecció assumeixen que el fons és normalment estacionari o té u moviment simple global i que a més el canvis entre imatges consecutives són deguts al moviment.
Els models de moviment en 2D són simples, però menys realistes. Com a conseqüència, els sistemes de segmentació en 3D són els més utilitzats a la pràctica. Dins dels mètodes en tres dimensions es poden distingir dos algorismes diferents:
El SFM generalment maneja escenes 3D que contenen informació rellevant de profunditat, mentre que en els mètodes paramètrics no s'assumeix aquesta profunditat. Una altra diferència important entre ambdós algorismes és que en el SFM s'assumeix un moviment rígid, mentre que en els algorismes paramètrics només s'assumeix rigidesa de moviment en parts de l'escena.
Tècniques espaciotemporals
Els mètodes de segmentació basats únicament en moviment són sensibles a les inexactituds de l'estimació de moviment. Per solucionar aquests problemes, en els mètodes espaciotemporals es proposa complementar el moviment mitjançant l'ús de la informació espacial. Hi ha dos enfocaments dominants:
Basats en límits. Aquests mètodes es basen en l'extracció de marges molt prominents per segmentar els objectes d'interès. Les característiques de marges també s'han utilitzat en el context de models actius de contorn.
Basats en regions. Aquesta tècnica se centra en un conjunt de regions o particions inicials generalment definides amb característiques espacials o espaciotemporals. L'objectiu d'aquesta partició és proporcionar un major suport sobre el qual es derivarà el moviment. Utilitzant la informació de tota la regió, el moviment s'utilitza per guiar el procés de segmentació.
Tècniques de seguiment d'objectes
El seguiment d'objectes és una tasca molt important dins del camp del processament de vídeo. L'objectiu principal de les tècniques de seguiment d'objectes és generar la trajectòria d'un objecte a través del temps, posicionant aquest dins de la imatge. Podem fer una classificació de tècniques segons tres grans grups: seguiment de punts, seguiment de nucli (kernel) i seguiment de siluetes.
Tècniques de seguiment de punts
Els objectes detectats en imatges consecutives són cadascun representats per un o diversos punts i l'associació d'aquests està basada en l'estat de l'objecte en la imatge anterior, que pot incloure posició i moviment. Es requereix un mecanisme extern que detecti els objectes de cada fotograma. Aquesta tècnica pot presentar problemes en escenaris on l'objecte presenti oclusions i a les entrades i sortides d'aquests. Les tècniques de seguiment de punts es poden classificar també en dos grans categories:
Deterministes. Determinen el cost de corresponèndia a través d'una predicció futura del comportament de l'objecte a partir de l'anterior. Aquest cost es defineix usualment com una combinació de les següents restriccions:
Proximitat.
Velocitat màxima.
Canvis de velocitat petits.
Moviment comú.
Rigidesa.
Uniformitat per proximita.
Estadístics. Aquests mètodes solucionen els problema de seguiment considerant les observacions i les incerteses del model per a l'estimació de l'estat de l'objecte que se està seguint. Utilitzen l'espai d'estats per modelar les propietats de l'objecte tals com la posició, la velocitat i l'acceleració. Les observacions consisteixen normalment en la posició de l'objecte dins de la imatge, que s'obté mitjançant mecanismes de detecció. Alguns dels mètodes utilitzats són:
Filtre per a la probabilitat conjunta de les dades
Seguiment de múltiples hipòtesis
Tècniques de seguiment del nucli (kernel)
Les tècniques de seguiment del nucli realitzen un càlcul del moviment de l'objecte, el qual és representat per una regió inicial, d'una imatge a la següent. El moviment de l'objecte s'expressa en general en forma de moviment paramètric (translació, rotació, afí...) o mitjançant el camp de flux calculat en els següents fotogrames. Podem distingir dues categories:
Seguiment utilitzant plantilles i models d'aparença basats en densitat de probabilitat. El mètode que més s'utilitza en aquesta categoria és l'anomenat template matching.
Seguiment basat en models multivista. S'utilitza quan l'aspecte de l'objecte canvia dràsticament i com a conseqüència es perd el seguiment d'aquest objecte.
Tècniques de seguiment de siluetes
Aquestes tècniques es realitzen mitjançant l'estimació de la regió de l'objecte en cada imatge utilitzant la informació que conté. Aquesta informació pot ser en forma de densitat d'aspecte o de models de forma que són generalment presentats amb mapes de vores. Disposa de dos mètodes:
Correspondència de forma. Es busca la silueta de l'objecte i el seu model associat dins de la imatge actual.
Seguiment del contorn. Evolucionen un contorn inicial en un fotograma anterior a la nova posició en el fotograma actual.
Aplicacions
El seguiment d'objectes d'interès en vídeo és la base de moltes aplicacions que van des de la producció de vídeo fins a vigilància remota, i des de la robòtica fins als jocs d'immersió interactiva. Els seguidors de vídeo s'utilitzen per millorar la comprensió de conjunts de dades de vídeo d'aplicacions mèdiques i de seguretat; per augmentar la productivitat al reduir la quantitat de mà d'obra que és necessària per completar una tasca i per permetre la interacció natural amb màquines.
Mitjans de comunicació i realitat augmentada. El seguiment d'objectes és un element important en la postproducció i captura de moviment per a les indústries del cinema i la televisió.
Aplicacions mèdiques i investigació biològica. En general, el seguiment d'objectes ha estat cada vegada més utilitzat per sistemes mèdics per ajudar en el diagnòstic i accelerar la tasca del cirurgià. El seguiment d'objectes pot estimar la posició de determinats teixits tous o d'instruments com per exemple agulles durant la cirurgia.
Vigilància i intel·ligència de negocis. El seguiment d'objectes és una eina adient, utilitzada en al vigilància automàtica de vídeo per a la seguretat, la vida assistida i aplicacions d'intel·ligència de negocis.
Tele-col·laboració i jocs interactius. Les càmeres web estàndard ja inclouen el programari de seguiment que localitza i segueix la cara d'un usuari per videoconferències des de l'escriptori. D'altra banda, el seguiment d'ulls s'utilitza per estimular el contacte visual entre els assistents d'una reunió i així millorar l'eficàcia de la interacció en videoconferència. El seguiment d'objectes també està canviant la manera d'enviar control a les màquines. Aquesta modalitat d'interacció natural s'utilitza en jocs interactius.
Instal·lacions d'arts i espectacles. El seguiment de vídeo s'utilitza cada vegada més a es instal·lacions d'art i a actuacions on la interacció és possible gràcies a l'ús de càmeres de vídeo i sovint pels sistemes de projecció. La interactivitat pot ser utilitzada per millorar la narrativa d'una obra o per crear accions inesperades o reaccions de l'entorn.
D. Zhang and G. Lu (2001). Segmentation of moving objects in image sequence: A review. Circuits, Systems and Signal Process. vol. 20, no. 2, pp. 143–183, 2001.
A. Yilmaz. Object Tracking by Asymmetric Kernel Mean Shift with Automatic Scale and Orientation Selection. Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on. 2007.
A. Yilmaz, O. Javed, and M. Shah, 2006. Object tracking: A survey. ACM Comput. Surv. 38, 4, Article 13 (Dec. 2006)