MPEG-2 – grupa standardówstratnej kompresji ruchomych obrazów i dźwięku zatwierdzona przez MPEG (ang.Moving Picture Experts Group) w 1994 roku. Od roku 1995 jest zatwierdzonym standardem ISO/IEC nr 13818.
Patenty na MPEG-2 zasadniczo wygasły w 2018 roku, a standardy przeszły do domeny publicznej[1].
Charakterystyka
MPEG-2 jest standardem ogólnego kodowania ruchomych obrazów i związanych z nimi informacji audio. Format ten opisuje połączenie metod stratnej kompresji wideo i stratnej kompresji danych audio, które umożliwiają przesyłanie sygnału audio-wideo w telewizji cyfrowej oraz zapis na nośnikach danych (w szczególności optycznych jak DVD i Blu-ray, czy taśmowych jak DV).
MPEG-2 jest szeroko stosowany jako format cyfrowych sygnałów telewizyjnych, które są transmitowane przez TV satelitarną, naziemną oraz kablową. Określa on także format filmów i innych programów, które są dystrybuowane na DVD i podobnych nośnikach danych.
MPEG-2 powstał z powodu braków i niedociągnięć standardu MPEG-1.
Specyfikacja MPEG-2 opisuje:
dwa kontenery multimedialne – MPEG-2 TS (ang. Transport Stream) dla transmisji i MPEG-2 PS (ang. Program Stream) dla zapisu na nośnikach
metody cyfrowego zapisu obrazu ruchomego, przy czym standard zawiera ogólną listę algorytmów kompresji o różnym stopniu złożoności obliczeniowej
metody cyfrowego zapisu dźwięku jedno-, dwu- lub wielokanałowego (5.1)
Wszystkie dekodery MPEG-2 są kompatybilne ze starszym standardem MPEG-1.
Historia
Prace nad MPEG-2 rozpoczęły się w roku 1990. Członkowie grupy MPEG uznali, że potrzebny jest standard pozwalający na uzyskanie wyraźnie wyższej jakości obrazu niż ta, którą oferował dostępny wtedy MPEG-1. Stary standard pozwalał na zapis z maksymalną przepływnością 1,5 Mbit/s dającą w efekcie jakość zbliżoną do systemu VHS i nie oferował metod zapisu obrazu z przeplotem. Dodatkowym ograniczeniem MPEG-1 było wsparcie dla maksymalnie dwukanałowego dźwięku. Wprowadzenie MPEG-2 pozwoliło na zaoferowanie dużo wyższej jakości obrazu dzięki wyższym przepływnościom oraz usprawnieniom w dziedzinie kompresji, takim jak zastosowanie DCT i mechanizmów kompensacji ruchu[2][3].
Podział na części
Część 1. – System – opisuje synchronizację i zwielokrotnienia obrazu i dźwięku.
Część 2. – Film – kodek kompresji dla sygnałów video (również jako ITU-T Rec. H.262).
Część 3. – Audio – kodek kompresji dla kodowania sygnałów audio.
Część 4. – Opisuje procedury testowania zgodności.
Część 5. – Opisuje systemy do symulacji oprogramowania.
Część 6. – Opisuje rozszerzenia dla DSM-CC (Digital Storage Media Command and Control).
Część 7. – Advanced Audio Coding (AAC).
Część 8. – Przedłużenie czasu rzeczywistego interfejsów.
Część 9. – Zgodność rozszerzeń dla DSM-CC.
Część 10. – Zarządzanie Własności Intelektualnej (IPMP)
Kompresja wideo
Kamera HDTV generuje surowy strumień video z 149.299.200 bajtów na sekundę dla 24 fps wideo. Ten strumień musi być skompresowany, aby zmieścić obraz audio i wideo na nośnikach DVD. Kompresja wideo jest praktyczna, ponieważ dane na zdjęciach często są redukowane w czasie i przestrzeni. Na przykład w tle obrazu może być niebieskie niebo i to tło obrazu może się utrzymywać w wielu klatkach. Ponadto można usunąć niektóre dane z klatki wideo bez zauważalnego pogorszenia jakości obrazu, mieszcząc się w dość wąskim zakresie czułości ludzkiego oka.
Kamery używane w transmisji telewizyjnej generują 25 zdjęć na sekundę (w Europie) lub 29,97 zdjęcia na sekundę (w Ameryce Północnej). Telewizja cyfrowa wymaga, aby obrazy audio i wideo mogły być przetwarzane przez sprzęt komputerowy. Każdy element obrazu (blok) jest reprezentowany przez jedną liczbę jasności i dwie liczby określające barwę. Tak więc każde cyfrowe zdjęcie jest początkowo reprezentowane przez trzy prostokątne tablice liczb.
Często stosowaną metodą zmniejszenia ilości danych jest rozdzielenie obrazu na dwa pola: górne pole z informacją o liniach nieparzystych i dolne pole z informacją o liniach parzystych. Po zdekodowaniu dwa pola wyświetlane są na przemian: jedno pole (nieparzyste) jest przekładane między wierszami drugiego pola (parzystego). Format ten nazywa się przeplatanym. Ludzkie oko nie rozpoznaje niektórych szczegółów barw, dlatego często część z nich się usuwa. Format barw 04:02:02 wskazuje, że połowa wartości barw została usunięta; format 04:02:00 wskazuje, że usunięto ich trzy czwarte. Format barw 04:04:04 wskazuje na to, że żadne z barw nie zostały usunięte. MPEG-2 pozwala na zastosowanie każdej z trzech opcji.
MPEG-2 określa, że klatki mogą być skompresowane w trzy rodzaje: klatki intra-frames (I-frame), klatki inter-frames (P-frame), oraz klatki bidirection (B-frame).
Klatki typu I są skompresowaną wersją jednej nieskompresowanej klatki (RAW). Korzystają z niezdolności oka do wykrycia określonych zmian w obrazie. W przeciwieństwie do klatek typu P i B, zawartość klatki typu I nie zależy od danych z poprzedzającej lub następującej klatki. Mówiąc w skrócie, surowe klatki dzieli się na bloki 8 × 8 pikseli. Dane z każdego bloku są przetwarzane przez transformację kosinusową. Wynikiem jest macierz o współczynniku 8 × 8. Transformacja przekształca obraz bez zmieniania informacji w bloku, a oryginalny blok może być dokładnie odtworzony przy zastosowaniu odwrotnej transformacji kosinusowej. Zaletą tego rozwiązania jest to, że obraz może zostać uproszczony przez próbkowanie współczynników.
Zazwyczaj w standardzie MPEG-4 co 15 klatka to klatka typu I. Klatki P i B układają się w sposób IBBPBBPBBPBB (I) w celu utworzenia grupy obrazów (GOP), jednak standard układania się klatek jest elastyczny i może wyglądać inaczej.
Makrobloki
Klatki typu P stanowią lepszy sposób kompresji niż klatki typu I, ponieważ korzystają z danych z poprzednich klatek typu I lub P. Do generowania klatki P zrekonstruowany jest poprzedni punkt odniesienia. Obraz jest skompresowany w ten sposób, że jest dzielony na części: 16 × 16 pikseli, nazywanych makroblokami. Następnie dla każdego z tych makrobloków, konstruowany jest punkt odniesienia, tzn. poszukiwany jest makroblok, który jest najlepiej skompresowany. Offset jest zakodowany jako wektor ruchu. Przeważnie przesunięcie wynosi zero. Ale jeśli obraz jest w ruchu, offset może wynosić ok. 23 pikseli w prawo i 4 piksele w górę. Przyrównanie ze sobą dwóch makrobloków często nie jest idealne. Do skorygowania tego kodowanie pobiera różnicę między dwoma sąsiadującymi blokami makrobloków i następnie oblicza wartość współczynnika, który opisuje tę różnicę.
Przetwarzanie klatek typu B jest podobne do przetwarzania klatek typu P. Klatka typu B zazwyczaj bardziej kompresuje obraz niż klatka typu P. Klatki B nigdy nie są klatkami odniesienia.
Telewizja cyfrowa
MPEG-2 jest jednym z dwóch, oprócz MPEG-4, w praktyce używanych formatów telewizji cyfrowej w krajach, gdzie stosowany jest standard DVB. W krajach Ameryce Północnej stosowany z kolei jest standard ATSCA/53, w którym MPEG-2 w wariancie MP@ML używany jest do kodowania obrazu wideo[4].
Ścieżka wideo oraz opcjonalnie ścieżka dźwięku w zapisie standardu HDV (DV dla wysokiej rozdzielczości) jest kodowana w MPEG-2. Całość jest z kolei umieszczana w kontenerze MPEG-2 TS[5].
Urządzenia firmy Sony z rodziny XDCAM SD[6], XDCAM HD[7], XDCAM EX[8] oraz XDCAM HD422[9] zapisują ścieżki wideo zakodowane w MPEG-2.
Profile i poziomy
System MPEG-2 został zaprojektowany dla szerokiego spektrum zastosowań, od urządzeń mobilnych do telewizji HDTV i profesjonalnej obróbki materiałów wysokiej jakości. Dla wielu spośród tych zastosowań, obsługa pełnego standardu z jego wieloma mechanizmami kompresji byłaby niepotrzebna, lub wręcz niemożliwa. Jako rozwiązanie tego problemu, standard definiuje różne profile i poziomy, które oznaczają konkretne podzbiory metod kompresji oraz określone zakresy rozdzielczości i przepływności.
Konkretne urządzenia obsługujące standard MPEG-2 określają swoją zgodność ze standardem z dokładnością do profilu i poziomu. Przykładowo odtwarzacz HD-DVD może obsługiwać profil główny (ang. main profile) i poziom wysoki (ang. high level), co oznaczane jest zwyczajowo MP@HL. Najczęściej spotykanym zestawieniem jest MP@ML (profil główny, poziom główny).
Poniższe tabele przedstawiają główne cechy każdego z profili i poziomów.