Transferový strojový překlad

Pyramida Bernarda Vauquoisie ukazuje srovnání hloubky intermediální reprezentace; nejhlubší je u interlingválního strojového překladu na vrcholu, mělčí u transferového překladu, u přímého slovníkového překladu téměř chybí.

Transferový strojový překlad je jeden z přístupů ke strojového překladu (MT). Do nástupu překladových systémů využívajících neuronové sítě kolem roku 2017 se jednalo o jednu z nejpoužívanějších metod strojového překladu. Na rozdíl od jednodušší přímé metody strojového překladu rozkládá transferový systém překlad do tří kroků: analýzy textu ve zdrojovém jazyce pro určení jeho gramatické struktury, přenos výsledné struktury do struktury vhodné pro generování textu v cílovém jazyce, a nakonec generování tohoto textu. Transferové systémy strojového překladu jsou tedy schopné využívat znalosti zdrojového a cílového jazyka.[1]

Design

Transferový i interlingvální strojový překlad vycházejí ze stejné myšlenky: pro překlad je nezbytné mít intermediální (zprostředkující) reprezentaci, která zachycuje „význam“ původní věty, aby bylo možné vygenerovat správný překlad. V interlingválním MT tato intermediální reprezentace musí být nezávislá na zdrojovém a cílovém jazyce, zatímco v transferových MT mohou být obsaženy některé závislosti na těchto jazycích.

Různé transferové systémy strojového překladu pracují různě, ale obecně se řídí stejným přístupem: aplikují sadu lingvistických pravidel, která jsou definována jako přiřazení mezi strukturou zdrojového jazyka, a strukturou cílového jazyka. První stupeň zahrnuje morfologickou a syntaktickou (někdy též sémantickou) analýzu vstupního textu pro vytvoření vnitřní reprezentace. Z této reprezentace je generován překlad při použití dvojjazyčných slovníků a gramatických pravidel.

S touto strategií překladu je možné získat překlady v docela vysoké kvalitě, s přesností okolo 90%[ujasnit] (i když je výsledek vysoce závislý na dvojici jazyků, například na vzdálenosti mezi těmito dvěma jazyky).

Funkce

V systému strojového překladu založeném na pravidlech je původní text nejdříve analyzován morfologicky a syntakticky pro získání syntaktické reprezentace. Tato reprezentace pak může být zjemněna na abstraktnější úroveň položením důrazu na složky relevantní pro překlad a zanedbáním ostatních typů informací. Proces přenosu pak konvertuje tuto cílovou reprezentaci (stále v původním jazyce) na reprezentaci stejné úrovně abstrakce v cílovém jazyce. Tyto dvě reprezentace se nazývají „intermediální“ reprezentace. Na reprezentaci v cílovém jazyce se pak aplikují opačné transformace v opačném pořadí.

Analýza a transformace

Pro získání výsledného překladu mohou být použity různé metody analýzy a transformace. Mohou být použity i statistické přístupy, takže výsledkem je hybridní systém. Zvolené metody a důraz závisí z větší části na návrhu systému, většina systémů však zahrnuje alespoň následující stupně:

  • Morfologická analýza. Povrchové tvary vstupního textu jsou klasifikovány jako na slovní druhy (například substantivum, sloveso, atd.) a podkategorie (číslo, rod, čas, atd.). V této fázi jsou typicky vytvořeny všechny možné „analýzy“ každého povrchového tvaru, spolu s jeho lemmatem.
  • Lexikální kategorizace. Mnoho slov v textu má více než jeden význam, což způsobuje nejednoznačnost analýzy. Lexikální kategorizace se snaží určit správný význam podle vstupního kontextu. Obvykle při tomu využívá značkování slovních druhů a zjednoznačnění významu slova.
  • Lexikální přenos. V zásadě jde o slovníkový překlad; lemma ve zdrojovém jazyce (případně s informací o významu) je vyhledáno v překladovém slovníku a je vybrán překlad.
  • Strukturální přenos. Zatímco předchozí stupně pracují se slovy, tento stupeň pracuje s většími celky, například frázemi. Mezi typické vlastnosti tohoto stupně patří shoda rodu a čísla a přerovnání slov nebo frází.
  • Morfologické generování. Z výstupu strukturálního přenosu se generují povrchové tvary cílového jazyka.

Typy překladu

Systémy transferového strojového překladu se vyznačují fází „převodu“ (přenosu) intermediální reprezentace textu ve výchozím jazyce do intermediální reprezentace textu v cílovém jazyce. Tento přenos se může uskutečňovat v jedné ze dvou úrovní lingvistické analýzy nebo někde mezi nimi. Tyto úrovně jsou:

  • Povrchový (syntaktický) přenos. Tuto úroveň charakterizuje přenos „syntaktické struktury“ ze zdrojového do cílového jazyka. Je vhodný pro jazyky stejné skupiny nebo stejného typu, například mezi románskými jazyky jako je španělština, katalánština, francouzština, italština, atd.
  • Hloubkový (sémantický) přenos. Tato úroveň konstruuje sémantickou reprezentaci, která je závislá na zdrojovém jazyce. Tato reprezentace se může skládat z řady struktur, které reprezentují význam. V těchto transferových systémech se typicky vytvářejí predikáty. Překlad také typicky vyžaduje strukturální přenos. Tato úroveň se používá pro převod mezi vzdálenějšími jazyky (například španělština-angličtina nebo španělština-baskičtina, atd.)

Odkazy

Reference

V tomto článku byl použit překlad textu z článku Transfer-based machine translation na anglické Wikipedii.

  1. JURAFSKY, Daniel; MARTIN, James H., 2009. Speech and Language Processing. [s.l.]: Pearson. Dostupné online. S. 906–908. 

Související články