La xarxa neuronal amb retard de temps (amb acrònim anglès TDNN) [1] és una arquitectura de xarxa neuronal artificial multicapa el propòsit de la qual és 1) classificar patrons amb invariància de desplaçament i 2) modelar el context a cada capa de la xarxa.
La classificació invariant per desplaçament significa que el classificador no requereix una segmentació explícita abans de la classificació. Per a la classificació d'un patró temporal (com ara la parla), el TDNN evita així haver de determinar els punts inicial i final dels sons abans de classificar-los.
Per al modelatge contextual en un TDNN, cada unitat neuronal de cada capa rep entrada no només de les activacions/característiques de la capa inferior, sinó d'un patró de sortida de la unitat i el seu context. Per als senyals de temps, cada unitat rep com a entrada els patrons d'activació al llarg del temps de les unitats següents. Aplicat a la classificació bidimensional (imatges, patrons de freqüència de temps), el TDNN es pot entrenar amb invariància de desplaçament a l'espai de coordenades i evita una segmentació precisa a l'espai de coordenades.
El TDNN es va introduir a finals de la dècada de 1980 i es va aplicar a una tasca de classificació de fonemes per al reconeixement automàtic de la parla en senyals de parla on la determinació automàtica de segments precisos o límits de característiques era difícil o impossible. Com que el TDNN reconeix els fonemes i les seves característiques acústiques/fonètiques subjacents, independentment de la posició en el temps, va millorar el rendiment respecte a la classificació estàtica.[2][3] També es va aplicar a senyals bidimensionals (patrons temps-freqüència en la parla,[4] i patró espacial de coordenades en OCR [5]).
Applications més importants
Reconeixement de veu
Els TDNN solien resoldre problemes de reconeixement de parla que es van introduir l'any 1989 [6] i que inicialment es van centrar en el reconeixement de fonemes invariants al canvi. La parla es presta molt bé als TDNN, ja que els sons parlats rarament tenen una longitud uniforme i la segmentació precisa és difícil o impossible. Mitjançant l'exploració d'un so sobre el passat i el futur, el TDNN és capaç de construir un model per als elements clau d'aquest so de manera invariant en el temps. Això és especialment útil, ja que els sons s'estenen mitjançant la reverberació.[7][8] Els grans TDNN fonètics es poden construir de manera modular mitjançant la formació prèvia i la combinació de xarxes més petites.[9]
Reconeixement de la parla amb vocabulari gran
El reconeixement de la parla de vocabulari gran requereix el reconeixement de seqüències de fonemes que formen paraules subjectes a les limitacions d'un vocabulari de pronunciació ampli. La integració de TDNN en grans reconeixements de parla de vocabulari és possible introduint transicions d'estats i cerca entre fonemes que formen una paraula. La xarxa neuronal multiestatal amb retard de temps (MS-TDNN) resultant es pot entrenar discriminant des del nivell de paraula, optimitzant així tota la disposició cap al reconeixement de paraules en lloc de la classificació de fonemes.[10][11][12]
↑Christoph Bregler, Hermann Hild, Stefan Manke, Alexander Waibel, Improving Connected Letter Recognition by Lipreading, IEEE Proceedings International Conference on Acoustics, Speech, and Signal Processing, Minneapolis, 1993.