In teoria dei segnali, il cepstrum è il risultato della trasformata di Fourier applicata allo spettro in decibel di un segnale. Il suo nome deriva dal capovolgimento delle prime quattro lettere della parola "spectrum". È stato definito nel 1963 (Bogert et al.):
- verbalmente: il cepstrum di un segnale è la trasformata di Fourier del logaritmo della trasformata di Fourier del segnale. A volte viene chiamato lo spettro dello spettro.
dove x è il segnale, X il cepstrum, e indica la trasformata di Fourier.
- algoritmicamente: segnale → trasformata di Fourier (FT)→ logaritmo → fase istantanea → trasformata di Fourier → cepstrum
Molti testi definiscono il processo come:
cioè il cepstrum è la trasformata inversa di Fourier del logaritmo dello spettro. Questa non è la definizione originale del primo articolo pubblicato sull'argomento, ma ha preso il sopravvento. Le operazioni sul cepstrum vengono chiamate analisi di quefrenza.
Applicazioni
Il grafico del cepstrum serve ad analizzare le velocità di cambiamento del contenuto spettrale di un segnale. Originariamente venne inventato per analizzare terremoti ed esplosioni oltre che analizzare le risposte ai segnali radar.
Attualmente è uno strumento molto efficace per discriminare la voce umana nell'informatica musicale. Per queste applicazioni lo spettro viene prima trasformato attraverso le bande di frequenza della scala mel. Il risultato sono i coefficienti spettrali Mel o MFCCs. È usato per l'identificazione della voce e gli algoritmi di pitch detection (ricerca dell'altezza di una nota). Recentemente è preso in considerazione per ricerche di music retrieval.
Un risultato del cepstrum è separare l'energia che viene dalle corde vocali dal resto dell'energia proveniente dal tratto che percorre l'aria dalla laringe all'esterno per produrre la voce.
Concetti cepstrali
La variabile indipendente del cepstrum è chiamata quefrenza. La quefrenza è una misura di tempo, ma non nel senso proprio di segnale che evolve nel dominio del tempo. Per esempio se la frequenza di campionamento di un segnale audio è di 44100 Hz e c'è un alto picco nel cepstrum la cui quefrenza è di 100 campioni, il picco indica la presenza di un pitch (altezza di una nota) alla frequenza di 44100/100 = 441 Hz. Questo picco appare nel cepstrum perché le armoniche nello spettro sono periodiche e il periodo corrisponde all'altezza (pitch) della nota.
Liftering
Sempre per giocare con l'anagramma delle parole, un filtro che opera nel dominio della quefrenza viene chiamato lifter (dal capovolgimento delle lettere della parola inglese filter). Un lifter passa basso è simile ad un filtro passa basso in frequenza. Si implementa moltiplicando il segnale per una finestra nel dominio del cepstrum e quando il risultato è riconvertito nel dominio del tempo il segnale assume un carattere più smooth (più morbido/armonioso).
Convoluzione
Un'importante proprietà del dominio cepstrale è che la convoluzione di due segnali può essere espressa dalla somma dei loro cepstrum:
Il cepstrum nell'analisi vocale
Il cepstrum è utilizzato per separare la parte di segnale che contiene le informazioni di eccitazione (relative a parole ed altezza/pitch del suono) dalla funzione di trasferimento attuata dalla laringe (che contiene il timbro della voce).
L'azione di lifter (filtraggio nel dominio della quefrenza) ha come obiettivo appunto la separazione del segnale di eccitazione (parte alta della quefrenza) dalla funzione di trasferimento (parte bassa della quefrenza)[1].
Note
Bibliografia
- D. G. Childers, D. P. Skinner, R. C. Kemerait, "The Cepstrum: A Guide to Processing," Proceedings of the IEEE, Vol. 65, No. 10, October 1977, pp. 1428–1443.
- Dispense del corso di Informatica Musicale dell'Università di Padova del professor DePoli, Cap.5 ([1]), pubblicate sotto licenza Creative Commons Attribuition-NonCommercial-ShareAlike
- B. P. Bogert, M. J. R. Healy, and J. W. Tukey: "The quefrency alanysis of time series for echoes: cepstrum, pseudo-autocovariance, cross-cepstrum, and saphe cracking". Proceedings of the Symposium on Time Series Analysis (M. Rosenblatt, Ed) Chapter 15, 209-243. New York: Wiley, 1963.