Xarxa neuronal amb retard de temps

Diagrama TDNN.

La xarxa neuronal amb retard de temps (amb acrònim anglès TDNN) [1] és una arquitectura de xarxa neuronal artificial multicapa el propòsit de la qual és 1) classificar patrons amb invariància de desplaçament i 2) modelar el context a cada capa de la xarxa.

La classificació invariant per desplaçament significa que el classificador no requereix una segmentació explícita abans de la classificació. Per a la classificació d'un patró temporal (com ara la parla), el TDNN evita així haver de determinar els punts inicial i final dels sons abans de classificar-los.

Per al modelatge contextual en un TDNN, cada unitat neuronal de cada capa rep entrada no només de les activacions/característiques de la capa inferior, sinó d'un patró de sortida de la unitat i el seu context. Per als senyals de temps, cada unitat rep com a entrada els patrons d'activació al llarg del temps de les unitats següents. Aplicat a la classificació bidimensional (imatges, patrons de freqüència de temps), el TDNN es pot entrenar amb invariància de desplaçament a l'espai de coordenades i evita una segmentació precisa a l'espai de coordenades.

El TDNN es va introduir a finals de la dècada de 1980 i es va aplicar a una tasca de classificació de fonemes per al reconeixement automàtic de la parla en senyals de parla on la determinació automàtica de segments precisos o límits de característiques era difícil o impossible. Com que el TDNN reconeix els fonemes i les seves característiques acústiques/fonètiques subjacents, independentment de la posició en el temps, va millorar el rendiment respecte a la classificació estàtica.[2][3] També es va aplicar a senyals bidimensionals (patrons temps-freqüència en la parla,[4] i patró espacial de coordenades en OCR [5]).

Applications més importants

Reconeixement de veu

Els TDNN solien resoldre problemes de reconeixement de parla que es van introduir l'any 1989 [6] i que inicialment es van centrar en el reconeixement de fonemes invariants al canvi. La parla es presta molt bé als TDNN, ja que els sons parlats rarament tenen una longitud uniforme i la segmentació precisa és difícil o impossible. Mitjançant l'exploració d'un so sobre el passat i el futur, el TDNN és capaç de construir un model per als elements clau d'aquest so de manera invariant en el temps. Això és especialment útil, ja que els sons s'estenen mitjançant la reverberació.[7][8] Els grans TDNN fonètics es poden construir de manera modular mitjançant la formació prèvia i la combinació de xarxes més petites.[9]

Reconeixement de la parla amb vocabulari gran

El reconeixement de la parla de vocabulari gran requereix el reconeixement de seqüències de fonemes que formen paraules subjectes a les limitacions d'un vocabulari de pronunciació ampli. La integració de TDNN en grans reconeixements de parla de vocabulari és possible introduint transicions d'estats i cerca entre fonemes que formen una paraula. La xarxa neuronal multiestatal amb retard de temps (MS-TDNN) resultant es pot entrenar discriminant des del nivell de paraula, optimitzant així tota la disposició cap al reconeixement de paraules en lloc de la classificació de fonemes.[10][11][12]



Referències

  1. Alexander Waibel, Tashiyuki Hanazawa, Geoffrey Hinton, Kiyohito Shikano, Kevin J. Lang, Phoneme Recognition Using Time-Delay Neural Networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. - 339 March 1989.
  2. Alexander Waibel, Tashiyuki Hanazawa, Geoffrey Hinton, Kiyohito Shikano, Kevin J. Lang, Phoneme Recognition Using Time-Delay Neural Networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. - 339 March 1989.
  3. Alexander Waibel, Phoneme Recognition Using Time-Delay Neural Networks, SP87-100, Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE), December, 1987,Tokyo, Japan.
  4. John B. Hampshire and Alexander Waibel, Connectionist Architectures for Multi-Speaker Phoneme Recognition Arxivat 2016-04-11 a Wayback Machine., Advances in Neural Information Processing Systems, 1990, Morgan Kaufmann.
  5. Stefan Jaeger, Stefan Manke, Juergen Reichert, Alexander Waibel, Online handwriting recognition: the NPen++recognizer, International Journal on Document Analysis and Recognition Vol. 3, Issue 3, March 2001
  6. Alexander Waibel, Phoneme Recognition Using Time-Delay Neural Networks, SP87-100, Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE), December, 1987,Tokyo, Japan.
  7. Vijayaditya Peddinti, Daniel Povey, Sanjeev Khudanpur, A time delay neural network architecture for efficient modeling of long temporal contexts, Proceedings of Interspeech 2015
  8. David Snyder, Daniel Garcia-Romero, Daniel Povey, A Time-Delay Deep Neural Network-Based Universal Background Models for Speaker Recognition, Proceedings of ASRU 2015.
  9. Alexander Waibel, Hidefumi Sawai, Kiyohiro Shikano, Modularity and Scaling in Large Phonemic Neural Networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, December, December 1989.
  10. Patrick Haffner, Alexander Waibel, Multi-State Time Delay Neural Networks for Continuous Speech Recognition Arxivat 2016-04-11 a Wayback Machine., Advances in Neural Information Processing Systems, 1992, Morgan Kaufmann.
  11. Christoph Bregler, Hermann Hild, Stefan Manke, Alexander Waibel, Improving Connected Letter Recognition by Lipreading, IEEE Proceedings International Conference on Acoustics, Speech, and Signal Processing, Minneapolis, 1993.
  12. Stefan Jaeger, Stefan Manke, Juergen Reichert, Alexander Waibel, Online handwriting recognition: the NPen++recognizer, International Journal on Document Analysis and Recognition Vol. 3, Issue 3, March 2001