MPEG-2

MPEG-2 – grupa standardów stratnej kompresji ruchomych obrazów i dźwięku zatwierdzona przez MPEG (ang. Moving Picture Experts Group) w 1994 roku. Od roku 1995 jest zatwierdzonym standardem ISO/IEC nr 13818.

Patenty na MPEG-2 zasadniczo wygasły w 2018 roku, a standardy przeszły do domeny publicznej[1].

Charakterystyka

MPEG-2 jest standardem ogólnego kodowania ruchomych obrazów i związanych z nimi informacji audio. Format ten opisuje połączenie metod stratnej kompresji wideo i stratnej kompresji danych audio, które umożliwiają przesyłanie sygnału audio-wideo w telewizji cyfrowej oraz zapis na nośnikach danych (w szczególności optycznych jak DVD i Blu-ray, czy taśmowych jak DV). MPEG-2 jest szeroko stosowany jako format cyfrowych sygnałów telewizyjnych, które są transmitowane przez TV satelitarną, naziemną oraz kablową. Określa on także format filmów i innych programów, które są dystrybuowane na DVD i podobnych nośnikach danych. MPEG-2 powstał z powodu braków i niedociągnięć standardu MPEG-1.

Specyfikacja MPEG-2 opisuje:

  1. dwa kontenery multimedialne – MPEG-2 TS (ang. Transport Stream) dla transmisji i MPEG-2 PS (ang. Program Stream) dla zapisu na nośnikach
  2. metody cyfrowego zapisu obrazu ruchomego, przy czym standard zawiera ogólną listę algorytmów kompresji o różnym stopniu złożoności obliczeniowej
  3. metody cyfrowego zapisu dźwięku jedno-, dwu- lub wielokanałowego (5.1)

Wszystkie dekodery MPEG-2 są kompatybilne ze starszym standardem MPEG-1.

Historia

Prace nad MPEG-2 rozpoczęły się w roku 1990. Członkowie grupy MPEG uznali, że potrzebny jest standard pozwalający na uzyskanie wyraźnie wyższej jakości obrazu niż ta, którą oferował dostępny wtedy MPEG-1. Stary standard pozwalał na zapis z maksymalną przepływnością 1,5 Mbit/s dającą w efekcie jakość zbliżoną do systemu VHS i nie oferował metod zapisu obrazu z przeplotem. Dodatkowym ograniczeniem MPEG-1 było wsparcie dla maksymalnie dwukanałowego dźwięku. Wprowadzenie MPEG-2 pozwoliło na zaoferowanie dużo wyższej jakości obrazu dzięki wyższym przepływnościom oraz usprawnieniom w dziedzinie kompresji, takim jak zastosowanie DCT i mechanizmów kompensacji ruchu[2][3].

Podział na części

  • Część 1. – System – opisuje synchronizację i zwielokrotnienia obrazu i dźwięku.
  • Część 2. – Film – kodek kompresji dla sygnałów video (również jako ITU-T Rec. H.262).
  • Część 3. – Audio – kodek kompresji dla kodowania sygnałów audio.
  • Część 4. – Opisuje procedury testowania zgodności.
  • Część 5. – Opisuje systemy do symulacji oprogramowania.
  • Część 6. – Opisuje rozszerzenia dla DSM-CC (Digital Storage Media Command and Control).
  • Część 7. – Advanced Audio Coding (AAC).
  • Część 8. – Przedłużenie czasu rzeczywistego interfejsów.
  • Część 9. – Zgodność rozszerzeń dla DSM-CC.
  • Część 10. – Zarządzanie Własności Intelektualnej (IPMP)

Kompresja wideo

Kamera HDTV generuje surowy strumień video z 149.299.200 bajtów na sekundę dla 24 fps wideo. Ten strumień musi być skompresowany, aby zmieścić obraz audio i wideo na nośnikach DVD. Kompresja wideo jest praktyczna, ponieważ dane na zdjęciach często są redukowane w czasie i przestrzeni. Na przykład w tle obrazu może być niebieskie niebo i to tło obrazu może się utrzymywać w wielu klatkach. Ponadto można usunąć niektóre dane z klatki wideo bez zauważalnego pogorszenia jakości obrazu, mieszcząc się w dość wąskim zakresie czułości ludzkiego oka.

Kamery używane w transmisji telewizyjnej generują 25 zdjęć na sekundę (w Europie) lub 29,97 zdjęcia na sekundę (w Ameryce Północnej). Telewizja cyfrowa wymaga, aby obrazy audio i wideo mogły być przetwarzane przez sprzęt komputerowy. Każdy element obrazu (blok) jest reprezentowany przez jedną liczbę jasności i dwie liczby określające barwę. Tak więc każde cyfrowe zdjęcie jest początkowo reprezentowane przez trzy prostokątne tablice liczb.

Często stosowaną metodą zmniejszenia ilości danych jest rozdzielenie obrazu na dwa pola: górne pole z informacją o liniach nieparzystych i dolne pole z informacją o liniach parzystych. Po zdekodowaniu dwa pola wyświetlane są na przemian: jedno pole (nieparzyste) jest przekładane między wierszami drugiego pola (parzystego). Format ten nazywa się przeplatanym. Ludzkie oko nie rozpoznaje niektórych szczegółów barw, dlatego często część z nich się usuwa. Format barw 04:02:02 wskazuje, że połowa wartości barw została usunięta; format 04:02:00 wskazuje, że usunięto ich trzy czwarte. Format barw 04:04:04 wskazuje na to, że żadne z barw nie zostały usunięte. MPEG-2 pozwala na zastosowanie każdej z trzech opcji.

MPEG-2 określa, że klatki mogą być skompresowane w trzy rodzaje: klatki intra-frames (I-frame), klatki inter-frames (P-frame), oraz klatki bidirection (B-frame).

Klatki typu I są skompresowaną wersją jednej nieskompresowanej klatki (RAW). Korzystają z niezdolności oka do wykrycia określonych zmian w obrazie. W przeciwieństwie do klatek typu P i B, zawartość klatki typu I nie zależy od danych z poprzedzającej lub następującej klatki. Mówiąc w skrócie, surowe klatki dzieli się na bloki 8 × 8 pikseli. Dane z każdego bloku są przetwarzane przez transformację kosinusową. Wynikiem jest macierz o współczynniku 8 × 8.  Transformacja przekształca obraz bez zmieniania informacji w bloku, a oryginalny blok może być dokładnie odtworzony przy zastosowaniu odwrotnej transformacji kosinusowej. Zaletą tego rozwiązania jest to, że obraz może zostać uproszczony przez próbkowanie współczynników.

Zazwyczaj w standardzie MPEG-4 co 15 klatka to klatka typu I. Klatki P i B układają się w sposób IBBPBBPBBPBB (I) w celu utworzenia grupy obrazów (GOP), jednak standard układania się klatek jest elastyczny i może wyglądać inaczej.

Makrobloki

Klatki typu P stanowią lepszy sposób kompresji niż klatki typu I, ponieważ korzystają z danych z poprzednich klatek typu I lub P. Do generowania klatki P zrekonstruowany jest poprzedni punkt odniesienia. Obraz jest skompresowany w ten sposób, że jest dzielony na części: 16 × 16 pikseli, nazywanych makroblokami. Następnie dla każdego z tych makrobloków, konstruowany jest punkt odniesienia, tzn. poszukiwany jest makroblok, który jest najlepiej skompresowany. Offset jest zakodowany jako wektor ruchu. Przeważnie przesunięcie wynosi zero. Ale jeśli obraz jest w ruchu, offset może wynosić ok. 23 pikseli w prawo i 4 piksele w górę. Przyrównanie ze sobą dwóch makrobloków często nie jest idealne. Do skorygowania tego kodowanie pobiera różnicę między dwoma sąsiadującymi blokami makrobloków i następnie oblicza wartość współczynnika, który opisuje tę różnicę.

Przetwarzanie klatek typu B jest podobne do przetwarzania klatek typu P. Klatka typu B zazwyczaj bardziej kompresuje obraz niż klatka typu P. Klatki B nigdy nie są klatkami odniesienia.

Telewizja cyfrowa

MPEG-2 jest jednym z dwóch, oprócz MPEG-4, w praktyce używanych formatów telewizji cyfrowej w krajach, gdzie stosowany jest standard DVB. W krajach Ameryce Północnej stosowany z kolei jest standard ATSC A/53, w którym MPEG-2 w wariancie MP@ML używany jest do kodowania obrazu wideo[4].

HDV

Ścieżka wideo oraz opcjonalnie ścieżka dźwięku w zapisie standardu HDV (DV dla wysokiej rozdzielczości) jest kodowana w MPEG-2. Całość jest z kolei umieszczana w kontenerze MPEG-2 TS[5].

XDCAM

Urządzenia firmy Sony z rodziny XDCAM SD[6], XDCAM HD[7], XDCAM EX[8] oraz XDCAM HD422[9] zapisują ścieżki wideo zakodowane w MPEG-2.

Profile i poziomy

System MPEG-2 został zaprojektowany dla szerokiego spektrum zastosowań, od urządzeń mobilnych do telewizji HDTV i profesjonalnej obróbki materiałów wysokiej jakości. Dla wielu spośród tych zastosowań, obsługa pełnego standardu z jego wieloma mechanizmami kompresji byłaby niepotrzebna, lub wręcz niemożliwa. Jako rozwiązanie tego problemu, standard definiuje różne profile i poziomy, które oznaczają konkretne podzbiory metod kompresji oraz określone zakresy rozdzielczości i przepływności.

Konkretne urządzenia obsługujące standard MPEG-2 określają swoją zgodność ze standardem z dokładnością do profilu i poziomu. Przykładowo odtwarzacz HD-DVD może obsługiwać profil główny (ang. main profile) i poziom wysoki (ang. high level), co oznaczane jest zwyczajowo MP@HL. Najczęściej spotykanym zestawieniem jest MP@ML (profil główny, poziom główny).

Poniższe tabele przedstawiają główne cechy każdego z profili i poziomów.

Profile MPEG-2
Skrót Nazwa Typy klatek obrazu Kolorymetria Format obrazu
SP Simple profile I, P 4:2:0 4:3 lub 16:9
MP Main profile I, P, B 4:2:0 4:3 lub 16:9
SNR SNR Scalable profile I, P, B 4:2:0 4:3 lub 16:9
Spatial Spatially Scalable profile I, P, B 4:2:0 4:3 lub 16:9
HP High profile I, P, B 4:2:2 lub 4:2:0 4:3 lub 16:9
Poziomy MPEG-2
Skrót Nazwa Klatkaż (FPS) Maksymalna rozdzielczość pozioma Maksymalna rozdzielczość pionowa Maksymalna przepływność dla Main profile (Mbit/s)
LL Low Level 23.976, 24, 25, 29.97, 30 352 288 4
ML Main Level 23.976, 24, 25, 29.97, 30 720 576 15
H-14 High 1440 23.976, 24, 25, 29.97, 30, 50, 59.94, 60 1440 1152 60
HL High Level 23.976, 24, 25, 29.97, 30, 50, 59.94, 60 1920 1152 80

Zobacz też

Przypisy

  1. OSNews.com [online], mobile.osnews.com [dostęp 2018-01-24] [zarchiwizowane z adresu 2017-12-26].
  2. Standard przetwarzania danych cyfrowych MPEG-2. [dostęp 2009-12-16]. [zarchiwizowane z tego adresu (2009-07-07)].
  3. P.N. Tudor: MPEG-2 VIDEO COMPRESSION. [dostęp 2009-12-16]. [zarchiwizowane z tego adresu (2006-09-02)]. (ang.).
  4. ATSC Published Standards. [dostęp 2010-05-26]. [zarchiwizowane z tego adresu (2010-05-27)]. (ang.).
  5. HDV Format Main Specification. [dostęp 2009-12-17]. [zarchiwizowane z tego adresu (2012-06-03)]. (ang.).
  6. Sony XDCAM SD family. [dostęp 2009-12-17]. (ang.).
  7. Sony XDCAM HD and HD422 family. [dostęp 2009-12-17]. (ang.).
  8. Sony XDCAM EX family. [dostęp 2009-12-17]. (ang.).
  9. Sony XDCAM HD422 family. [dostęp 2009-12-17]. (ang.).

Linki zewnętrzne