Qué es 4:4:4, 4:2:2 y 4:2:0 o color subsampling

Es posible que en algún momento hayas escuchado acerca de los términos luminancia y crominancia, aunque no hayas entendido exactamente que significado tenían esos conceptos ni cuál eran sus funciones específicas. Ambos términos son usados, además, cuando se necesita hacer un subsampling o submuestreo de color.

Cuando se leen los conjuntos de dígitos 4:4:4, 4:2:2 y 4:2:0 significa que a través de estas notaciones se está expresando una fórmula de vídeo relacionada al submuestreo de croma (también llamado submuestreo de crominancia). Estas combinaciones de números pueden encontrarse en fotos y vídeos, es por eso que se hace necesario saber para qué sirven.

Antes de analizar estas notaciones, hay que considerar que tanto los contenidos en fotos como en vídeos provocan que se haga más lenta su distribución, relacionadas a los límites que ofrece la banda ancha.

Ante este escenario, y para lograr una mayor compresión y velocidad de transferencia en contenidos audiovisuales, se recurre al submuestreo de crominancia (subsampling), muy usado en diversos formatos de contenidos, como discos Blu-ray y servicios de streaming.

Índice de contenidos

¿Qué es el submuestreo de croma o subsampling?

El submuestreo cromático (submuestreo de color o subsampling en inglés) es una técnica con la cual se comprime la información de color que contiene una señal para favorecer a la información contenida en la luminancia. De esta forma, el ancho de banda queda reducido, pero sin perjudicar la calidad de esta imagen comprimida.

Hace varios años, con la introducción del vídeo digital, los vídeos pesaban mucho, lo que provocaba que fuera difícil la tarea de transmisión y almacenamiento de los mismos. Tratando de buscar una solución para estos problemas de tamaño, se llegó al submuestreo de crominancia.

Si investigamos la composición de todo vídeo digital, hallaremos dos principales componentes a los que llamamos luminancia y crominancia.

El primer término, que también conocemos brillo o contraste, abarca todas las diferencias que vemos entre las zonas más oscuras y más claras en el vídeo.

Por su parte, la crominancia es el componente de la saturación de color del vídeo. Debido a que la visión de un ser humano tiene más sensibilidad al contraste (luminancia) que a la saturación del color (crominancia), se decidió que había una parte del vídeo que podía ser comprimida sin que se afectara la calidad de la misma.

Por lo tanto, para que sea más fácil la gestión de los vídeos digitales, se implementó la técnica de compresión. Esto significa que una señal de vídeo en color verdadero (4:4:4) en la que encontramos la totalidad de información de rojo, verde y azul en cada píxel, esto va a quedar comprimido si se aplica el submuestreo cromático, haciendo que sea más ligera su transferencia y que requiera menos ancho de banda cuando ya se ha eliminado el color.

Una vez comprimida la imagen, la calidad de los blancos y negros no será menor que la calidad de los colores, ya que como bien se indicó, la visión del ser humano tiene menos capacidad para asimilar la crominancia. De esta forma, luego del subsampling, el vídeo tendrá más información de luminancia que de crominancia.

Con esto es posible mantener la calidad de la imagen al mismo tiempo que se hace una reducción significativa de su tamaño hasta en un 50%. En algunos formatos como el YUV, la cantidad de luminancia solo llega a un tercio del total, por lo que hay un amplio margen para reducir la crominancia y conseguir así una mayor compresión.

Teniendo en cuenta que hay ciertas limitaciones en las velocidades que constituyen las bandas anchas de internet y el HDMI, por ejemplo, esta compresión logra que un vídeo digital pueda ser transmitido con mayor eficiencia.

Tanto los monitores CRT como los LCD y los CCD (dispositivo de carga acoplada) utilizan componentes para capturar los colores rojo, verde y azul. Sin embargo, en un vídeo digital se hace una diferenciación entre luma y croma justamente para poder hacer una compresión y que sea más liviano para la transmisión.

Existen varios métodos de submuestreo de croma que utilizan distintas notaciones que pasaremos a explicar brevemente, remarcando que el primer número es para la luma y el segundo y tercer número para la croma.

Métodos de submuestreo de color / subsampling

4:4:4

Esta es la resolución completa y original, en la que no hay ningún tipo de compresión, con el primer número indicando la luminancia (4) y los siguientes dos números (4:4) utilizados para los componentes de croma Cb y Cr. Esta notación 4:4:4 es usada habitualmente para las imágenes RGB, aunque también se usa para el espacio de color YCbCr.

4:2:2

En el primer número vemos una resolución completa de la luma, mientras que vemos una mitad de resolución para la crominancia. Esta notación es la estándar en imágenes y lleva una compresión que no afecta la calidad de imagen. Se usa para formatos de vídeo DVCpro50 y Betacam Digital, entre otros.

4:1:1

Nuevamente, tenemos una luma de resolución completa, mientras que ahora tenemos aún menos crominancia: solo un cuarto. Este es el esquema de submuestreo que usan los formatos NTSC DV y PAL DVCPro.

4:2:0

Esta notación nos indica que la resolución de la luma es completa (4), mientras que tiene una media resolución en dirección vertical y horizontal para los componentes de croma. En realidad, el 4:2:0 es un muestreo cromático bastante difícil que incluye gran cantidad de variantes teniendo en cuenta si el vídeo es entrelazado o progresivo, o si está siendo utilizado por MPEG2 o PAL DV.

Con este muestreo de 4:2:0 se obtiene una resolución de color de 1/4, al igual que como sucede con el muestreo de 4:1:1. Sin embargo, en el primer caso se comprime el color de forma horizontal y vertical, mientras que en la segunda notación la compresión es horizontal.

Submuestreo de color en 1920 x 1080

A la HDTV analógica le sucedió la HDTV digital, una tecnología de mayor calidad y resolución. Sin embargo, también trajo un gran reto para los ingenieros, ya que tuvieron que crear una forma que hiciera posible que esta nueva tecnología pudiera ser usada en los sistemas presentes en aquel momento, principalmente PAL y NTSC.

En consecuencia, todos los esfuerzos tuvieron que ir dirigidos a hacer posible una compatibilidad entre PAL y NTSC. El nuevo estándar de HDTV debía ser compatible tanto para PAL como para NTSC, entre sus principales características.

Las variaciones que sufrió este estándar a lo largo de los años fueron muchas, hasta que finalmente se fijó en 1125 líneas verticales, contando con 1080 de estas dedicadas exclusivamente a la imagen. En aquel momento, la tasa máxima para 1080 era de 29,97 fps (NTSC), mientras que para 720 era de 59,94 fps (NTSC).

Estos son algunos de los valores de submuestreo cromático más usados en los diferentes formatos de vídeo digital de mayor popularidad:

HDCAM: 3:1:1
NTSC: 4:1:1
PAL, DV, DVCAM, HDTV: 4:2:0
Vídeo de internet: 4:2:0
Calidad de transmisión HDTV: 4:2:2
Sin comprimir (información completa): 4:4:4:4

¿Un submuestreo de 3:1:1 es mejor que 4:2:2?

En el antiguo formato HDCAM de 1080p se usaba un 3:1:1, mientras que la resolución de 720p tenía y sigue teniendo un submuestreo de 4:2:2. ¿Pero cuál de estos era el mejor?

Si solo nos basamos en los datos, es una respuesta sencilla: 4:2:2 es el doble de 3:1:1 en cuanto a muestreo de color, por lo que podríamos afirmar claramente que el mejor en este caso es 4:2:2.

Sin embargo, esta no puede ser una respuesta absoluta, debido a que en las notaciones 4×4 del muestreo de color no se considera qué tamaño tiene la imagen.

Por lo tanto, ¿cuál de estas notaciones es mejor? ¿Una imagen que contiene mucha información de color u otra con menos información pero con mejor color de muestra? No existe una respuesta clara.

La intención de este análisis tenía como objetivo que veamos que una imagen tiene como trasfondo mucha más información y complejidad de lo que se ve superficialmente.

Por supuesto, teniendo siempre en cuenta que usamos una muestra de una imagen a 4:4:4, ya que esta es una notación completa en la que se obtiene la mejor frecuencia de muestreo.

Subsampling 4:4:4 vs 4:2:2 vs 4:2:0

El número 4, que es el primer número desde la izquierda, nos indica el tamaño de la muestra.

En cuanto a los dos números que preceden a este, están relacionados a la información de croma. Estos dependen del primer número (el 4) y se encargan de definir el muestreo horizontal y vertical, respectivamente.

Una imagen con un componente cromático de 4:4:4:4 no está nada comprimida, lo que significa que no sufrió ningún submuestreo y que por lo tanto contiene de forma completa los datos sobre luminancia y color.

Analizando una matriz de píxeles de cuatro por dos, vemos que 4:2:2 contiene la mitad del croma que encontramos en una señal 4:4:4, mientras que analizando una matriz 4:2:0 observamos que contiene aún menos: solo un cuarto de información cromática.

La frecuencia de muestreo horizontal en una señal 4:2:2 será solo de la mitad (2), mientras que su muestreo vertical será completo (4). En cambio, en una señal 4:2:0, solo hay muestreo cromático en la mitad de los píxeles de la primera fila, ignorando completamente los píxeles de la segunda fila de la señal.

Calculando el tamaño de los datos del subsampling

Existe un cálculo bastante sencillo con el que podemos saber exactamente cuánta información es la que se perdió después de haber hecho un submuestreo de color. El cálculo es el siguiente:

Como ya hemos indicado, la máxima calidad para una muestra es 4+4+4 = 12

Esto significa que una imagen con el color completo es 4:4:4 = 4+4+4 = 12, en donde encontramos un 100% de calidad, sin ninguna compresión. A partir de este punto, la calidad de una muestra puede variar de la siguiente manera:

4:2:2 = 4+2+2 = 8, que es el 66,7% de 4:4:4 (12)
4:2:0 = 4+2+0 = 6, que es el 50% de 4:4:4 (12)
4:1:1 = 4+1+1 = 6, que es el 50% de 4:4:4 (12)
3:1:1 = 3+1+1 = 5, que es el 42% de 4:4:4 (12)

Por consiguiente, si una señal con el color completo de 4:4:4 tiene un tamaño de 24 MB, significa que una señal de 4:2:2 presentará un tamaño de unos 16 MB, mientras que una de 4:2:0 tendrá 12 MB de tamaño y una señal de 3:1:1 ocupará 10 MB.

Con esto ya podemos comprender por qué motivo el submuestreo cromático es tan importante y continúa existiendo. Para sectores como internet y la televisión es fundamental debido a que reduce el tamaño de los archivos y por lo tanto necesita menos recursos de ancho de banda.

Conclusión acerca de subsampling

Con el submuestreo cromático podemos comprimir un archivo de imagen para reducir de esta manera su tamaño. Con esto se logra que se requiera menos ancho de banda para transmitirlo, sin que se pierda a simple vista la calidad de la imagen. Esto quiere decir que luego de un submuestreo de color o subsampling, no se advierten visualmente imperfecciones importantes.

En la actualidad, la muestra 4:2:0 es fundamental para las plataformas de contenidos audiovisuales, por lo que sin esta técnica de compresión, seguramente hubiera sido mucho más difícil y caro poder acceder a servicios como los contenidos 4K de Amazon y Netflix.

Fuente