Le sous-échantillonnage de la chrominance est une méthode de réduction de volume des images numériques. Il consiste à diminuer le nombre d'échantillons à traiter : on parle de décimation. Il peut être suivi d'une étape de compression d'image ou de compression vidéo. Ces étapes sont souvent nécessaires afin d'adapter un signal vidéo à son mode d'enregistrement ou de transmission. La vision humaine présentant une sensibilité moindre à la couleur qu'à la luminosité, on conserve généralement moins d'informations de chrominance que de luminance sans pour autant dégrader la qualité perçue de l'image. Il est cependant possible de sous-échantillonner la luminance.
Vidéo analogique
Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?
En vidéo analogique, la bande passante allouée aux signaux de chrominance est souvent deux fois moins grande que celle allouée à la luminance. Ce résultat est obtenu par filtrage passe-bas des signaux de chrominance après l'opération de matriçage.
Vidéo numérique
Structures d'échantillonnage
Chaque pixel de l'image peut être reconstitué à partir de ces trois composantes : la luminance Y', la chrominance bleu ou différence bleu (Cb) et la chrominance rouge (Cr). Cependant, on diminue souvent le nombre d'échantillons pour réduire le nombre d'informations à transmettre : un échantillon pourra être utilisé pour plusieurs pixels. Pour quantifier le sous-échantillonnage, on se représente une région de quatre pixels de largeur sur 2 pixels de hauteur et on indique une série de 3 nombres J:a:b (par exemple 4:2:2).
J est le nombre d'échantillons de luminance (Y') par ligne (toujours identique sur les deux lignes de J pixels). Habituellement, 4.
a est le nombre d'échantillons de chrominance (Cb, Cr) sur la première ligne de pixels.
b est le nombre d'échantillons de chrominance (Cb, Cr) sur la deuxième ligne de pixels.
Un quatrième nombre est parfois ajouté, J:a:b:α (par exemple, 4:2:2:4), pour permettre la transmission ou l'enregistrement d'un canal alpha.
α est le nombre d'échantillons alpha horizontal ; il peut être omis si la composante alpha n'est pas présente et est égal à J lorsqu'il est présent.
Pour calculer le rapport de débit requis par rapport à 4:4:4 (ou 4:4:4:4), il faut additionner tous les facteurs et diviser le résultat par 12 (ou 16, si alpha est présent).
L'utilisation du chiffre 4 comme référence a pour origine le choix historique de la fréquence d'échantillonnage fixée à 4 fois la fréquence de la sous-porteuse pour les signaux composites numériques[1], aujourd'hui obsolètes. Les fréquences de la sous-porteuse étaient de 4,43 MHz pour les signaux PAL et 3,58 MHz pour les signaux NTSC. Les fréquences d'échantillonnage pour les signaux numériques correspondants furent choisies à respectivement 17,73 MHz et 14,32 MHz. Puis la fréquence d'échantillonnage fut choisie à 13,5 MHz lors de l'élaboration de l'ITU-R BT 601 destinée à la numérisation des vidéos en définition standard (SDTV)[2]. Vinrent ensuite les signaux respectant les normes haute définition (HDTV) dont l'ITU-R BT 709 qui fixa la fréquence d'échantillonnage à 5,5 × 13,5 = 74,25 MHz. Ceci explique pourquoi on a pu lire parfois des notations sous la forme 22:11:11, les coefficients 4:2:2 ayant été multipliés par 5,5, au début du passage à la télévision à haute définition.
4:4:4 (Y'CbCr ou R'G'B')
La structure 4:4:4 est principalement utilisée dans le monde du cinéma et par les productions audiovisuelles les plus exigeantes car elle ne présente aucun sous-échantillonnage. Chaque pixel est défini totalement, ce qui facilite les travaux sur l'image comme les incrustations. Dans ce cas, on peut aussi bien transmettre les composantes R', G', B' sans matriçage que les composantes Y', Cb et Cr. Le problème de cette structure est son débit très élevé ce qui entraîne un coût des matériels de traitement et d'enregistrement et de montage.
Exemples
Interfaces
UHD-SDI : pas de compression / Standard : SMPTE ST 2081, ST 2082 et ST 2083 (exemple[3] : 7680 × 4320 / 100 i/s / 4:4:4:4 / Quantification : 10 bits / Débit 192 Gbit/s).
Formats d'enregistrements
HDCAM SR[4] : 1920×1080 / 4:4:4 / Quantification : 10 bits / Codec : MPEG-4 Part 2 / Débit : de 440 à 880 Mbit/s / norme : SMTPE 409M.
L'enregistrement en 4:4:4 peut aussi s'effectuer via un enregistreur externe (Gemini 4:4:4 ou Cinedeck Extreme) branché à une caméra compatible 4:4:4 (Sony PMW-F3 ou F35b par exemple).
4:2:2
Les deux composantes de chrominance sont échantillonnées à la moitié de la fréquence d'échantillonnage de luminance : il y a deux fois moins d'échantillons, la résolution de chrominance horizontale est réduite de moitié. Cela réduit le débit d'un tiers, avec peu ou pas de différence visuelle. Beaucoup de formats vidéo numériques haut de gamme et d'interfaces utilisent cette structure.
Serial Digital Interface (SDI) : pas de compression / Standard : SMPTE 259M (exemple : 720×576 / 4:2:2 / Quantification : 10 bits / Débit : 270 Mbit/s).
HD-SDI : pas de compression / Standard : SMPTE 292M (exemple : 1920×1080 / 4:2:2 / Quantification : 10 bits / Débit : 1485 Mbit/s).
3G-SDI : pas de compression / Standard : SMPTE 424M (exemple : 1920×1080 / 4:2:2 / Quantification : 10 bits / Débit : 2970 Mbit/s).
UHD-SDI : pas de compression / Standard : SMPTE ST 2081, ST 2082 et ST 2083 (exemple : 3840 × 2160 / 4:2:2 / Quantification : 10 bits / Débit : 6 Gbit/s).
La structure 4:2:0 est un sous-échantillonnage utilisé généralement par le grand public, mais il peut aussi être utilisé par un professionnel s'il ne veut pas faire de travaux importants sur l'image comme une incrustation ou un étalonnage de couleurs. Une incrustation effectuée en 4:2:0 présentera des artefacts comme un effet escalier sur le contour de la découpe.
DV en PAL : 720×576 / 4:2:0 / Quantification : 8 bits
4:1:1
Cette structure d'échantillonnage est peu utilisée. Quelques formats d'enregistrement l'utilisent néanmoins.
Exemples
DV en NTSC : 720×480
D-7
4:2:1
Bien que ce mode soit techniquement défini[réf. nécessaire], très peu de codecs logiciels et matériels utilisent ce mode d'échantillonnage.
3:1,5:1,5
Cette structure ne concerne que des formats d'enregistrement. Le chiffre 3 signifie que trois échantillons de luminance, obtenus par interpolation, sont enregistrés à partir de 4 qui ont été captés et qui devront être restitués. Pour des définitions 1920×1080, 1440×1080 échantillons de luminance et 720×1080 échantillons de chaque chrominance sont enregistrés.
Exemples
(Panasonic) DVCPRO HD[4] : 1440×1080 / 3:1,5:1,5 / Quantification : 8 bits / Codec : intra DV / Débit : 100 Mbit/s / Standard : SMTPE 370M + 371M.
Certains de ces formats sont tout de même présentés comme enregistrant des structures 4:2:2 alors qu'un sous échantillonnage horizontal est effectué.
3:1,5:0
La résolution est divisée par deux verticalement par rapport à la structure 3:1,5:1,5.
Certains de ces formats sont tout de même présentés comme enregistrant des structures 4:2:0 alors qu'un sous échantillonnage horizontal global est effectué.
3:1:1
Pour des définitions 1920×1080, 1440×1080 échantillons de luminance et 480×1080 échantillons de chaque chrominance sont enregistrés.
Le sous-échantillonnage de la chrominance a été développé dans les années 1950 par Alda Bedford pour le développement de la télévision couleur par RCA (Radio Corporation of America). La séparation luminance/chrominance a été développée dès 1938 par Georges Valensi.
Bedford a montré que l'œil humain a une résolution élevée pour le noir et blanc, un peu moins pour le "milieu de gamme" des couleurs comme le jaune ou le vert, et beaucoup moins pour les couleurs des extrémités du spectre (le rouge et le bleu). Ces connaissances ont permis à RCA de développer un système qui néglige la qualité du signal bleu (après être venu de la caméra), et qui conserve la plupart du signal vert et une partie du rouge ; ce qui est un sous-échantillonnage de la chrominance dans l’espace de couleur YIQ[réf. nécessaire], et qui est à peu près analogue au sous-échantillonnage 4:2:1, en ce sens qu'il diminue la résolution pour la luminance, le jaune/vert et le rouge/bleu[pas clair].
Références
↑(en) Charles Poynton, Digital Video and HD : Algorithms and Interfaces, Amsterdam/Boston/London etc., Elsevier, , 1re éd., 692 p. (ISBN1-55860-792-7, lire en ligne), p. 91
↑(en) Charles Poynton, Digital Video and HD : Algorithms and Interfaces, Amsterdam/Boston/London etc., Elsevier, , 1re éd., 692 p. (ISBN1-55860-792-7, lire en ligne), p. 97
↑ abcdefghijk et lJean-Noël GOUYET et Francis Mahieu, « TVHD Formats de compression. Formats-conteneurs », Techniques de l'ingénieur, no TE5681, (lire en ligne)