Dịch máy thống kê

Dịch máy thống kê (SMT) là một phương pháp dịch máy, trong đó các bản dịch được tạo ra trên cơ sở các mô hình thống kê có các tham số được bắt nguồn từ việc phân tích các cặp câu song ngữ. Các phương pháp tiếp cận thống kê tương phản với các phương pháp tiếp cận dựa trên luật trong dịch máy cũng như với dịch máy dựa trên ví dụ.

Những ý tưởng đầu tiên của dịch máy thống kê đã được giới thiệu bởi Warren Weaver vào năm 1949 [1], bao gồm cả những ý tưởng của việc áp dụng lý thuyết thông tin của Claude Shannon. Dịch máy thống kê được tái giới thiệu vào năm 1991 bởi các nhà nghiên cứu làm việc tại Trung tâm nghiên cứu Thomas J. Watson của IBM[2] và đã góp phần đáng kể trong sự hồi sinh việc quan tâm đến dịch máy trong những năm gần đây. Ngày nay nó là phương pháp dịch máy được nghiên cứu nhiều nhất.

Cơ sở

Ý tưởng đằng sau dịch máy thống kê đến từ lý thuyết thông tin. Tài liệu được dịch theo phân bố xác suất trong đó là ngôn ngữ đích (ví dụ, Tiếng Việt) dịch từ là ngôn ngữ nguồn (ví dụ, Tiếng Anh).

Các vấn đề của mô hình phân phối xác suất đã được tiếp cận theo một số cách. Một cách tiếp cận trực quan là áp dụng định lý Bayes, đó là , trong đó là xác suất để chuỗi nguồn (f) là bản dịch của chuỗi đích e, xác suất này gọi là mô hình dịch, và là xác suất chuỗi e thực sự xuất hiện trong ngôn ngữ đích, xác suất này gọi là mô hình ngôn ngữ. Phân tích này giúp tách các vấn đề thành hai bài toán con. Bản dịch tốt nhất được tìm bằng cách chọn ra bản có xác suất cao nhất:

.

Để áp dụng phương pháp này một cách đầy đủ, cần thực hiện việc tìm kiếm trên tất cả các chuỗi của ngôn ngữ đích. Khối lượng tìm kiếm này rất lớn, và nhiệm vụ thực hiện tìm kiếm hiệu quả là công việc của một bộ giải mã dịch máy, sử dụng nhiều kỹ thuật để hạn chế không gian tìm kiếm nhưng vẫn giữ chất lượng dịch thuật chấp nhận được. Kỹ thuật đánh đổi giữa chất lượng và thời gian tính toán cũng có thể được tìm thấy trong nhận dạng tiếng nói.

Do hệ thống dịch không thể lưu trữ tất cả các chuỗi nguồn và bản dịch của chúng, một tài liệu thường được dịch từng câu một, nhưng ngay cả việc lưu tất cả câu cũng không khả thi. Mô hình ngôn ngữ thường được tính xấp xỉ bằng mô hình n-gram, và cách tiếp cận tương tự đã được áp dụng cho mô hình dịch, nhưng có thêm sự phức tạp do độ dài câu và thứ tự từ khác nhau trong các ngôn ngữ.

Các mô hình dịch thống kê ban đầu thường dùng mô hình lấy cơ sở theo từ (mô hình 1-5 mô hình Markov ẩn của IBM của Stephan Vogel [3] và Mô hình 6 của Franz-Joseph Och [4]), nhưng những tiến bộ đáng kể đã được thực hiện từ khi có mô hình lấy cơ sở theo cụm từ[5]. Các công trình nghiên cứu gần đây đã kết hợp cú pháp hoặc cấu trúc bán-cú pháp để làm tăng chất lượng dịch [6].

Dịch máy thống kê trên cơ sở từ

Trong dịch máy thống kê trên cơ sở từ, các đơn vị cơ bản của bản dịch là một từ trong ngôn ngữ tự nhiên. Một ví dụ về một hệ thống dịch máy thống kê trên cơ sở từ là phần mềm tự do Giza++ (giấy phép GPL), dùng để tập huấn cho các mô hình dich IBM, mô hình HMM và mô hình 6 [4].

Dịch máy thống kê trên cơ sở từ không sử dụng rộng rãi ngày nay, thay vào đó là dịch máy thống kê trên cơ sở cụm từ. Hầu hết các hệ thống dựa trên cụm từ vẫn còn sử dụng Giza++ để gióng hàng câu, trích rút ra các cặp câu song ngữ và mô hình ngôn ngữ [7]. Vì những ưu thế của Giza++, hiện nay có một số nỗ lực đưa áp dụng tính toán phân tán trực tuyến cho phần mềm này[8].

Dịch máy thống kê trên cơ sở cụm từ

Dịch máy thống kê trên cơ sở cụm từ có mục đích là để giảm bớt các hạn chế của dịch máy thống kê trên cơ sở từ bằng cách dịch cụm từ, trong đó độ dài cụm từ nguồn và cụm từ đích có thể khác nhau. Các cụm từ trong kỹ thuật này thường không cụm từ theo nghĩa ngôn ngữ học mà là các cụm từ được tìm thấy bằng cách sử dụng phương pháp thống kê để trích rút từ các cặp câu. Việc sử dụng các cụm từ theo nghĩa ngôn ngữ học (tức là dựa trên cú pháp, xem phân loại cú pháp) làm giảm chất lượng của dịch máy bằng phương pháp này[9].

Dịch máy thống kê trên cơ sở cú pháp

Dịch máy thống kê trên cơ sở cú pháp dựa trên ý tưởng của dịch các đơn vị cú pháp (phân tích cây của câu), hơn là những từ đơn hay cụm từ (như trong dịch máy thống kê trên cơ sở cụm từ). Ý tưởng này đã xuất hiện từ lâu, tuy nhiên phiên bản thống kê của ý tưởng này chỉ được hình thành khi có những bộ phân tích ngẫu nhiên mạnh mẽ trong những năm 1990.

Lợi ích

Những lợi ích thường xuyên được trích dẫn của dịch máy thống kê trên mô hình truyền thống là:

  • Sử dụng tốt hơn các nguồn tài nguyên
    • Có rất nhiều ngôn ngữ tự nhiên có đủ dữ liệu ở định dạng máy đọc được.
    • Nói chung, hệ thống SMT không bị bó hẹp vào một cặp ngôn ngữ cụ thể nào.
    • Dịch máy dựa trên luật đòi hỏi việc xây dựng các quy tắc ngôn ngữ, có thể tốn kém, và thường không khái quát được cho các ngôn ngữ khác.
  • Các bản dịch tự nhiên

Vấn đề

Gióng hàng câu

Trong khi phương pháp dịch máy thống kê dựa trên những cặp câu song ngữ, thì một câu trong ngôn ngữ này có thể được dịch ra nhiều câu khác nhau trong ngôn ngữ khác và ngược lại. Việc gióng hàng câu có thể được thực hiện thông qua các thuật toán gióng hàng Gale-Church.

Từ ghép

Thành ngữ

Tùy thuộc vào bộ cặp câu sử dụng, các thành ngữ có thể không được dịch thoát nghĩa hay theo nghĩa bóng, ẩn nghĩa của chúng. Ví dụ, bằng cách sử dụng bộ cặp câu Canada Hansard, "hear" luôn được dịch là "Bravo!" vì trong từ "Hear, hear!" trong ngữ cảnh họp quốc hội được dịch là "Bravo!". [10]

Hình thái học

Khác biệt trong thứ tự từ

Thứ tự từ trong các ngôn ngữ là khác nhau. Một số ngôn ngữ có thể được phân loại bằng cách đặt tên theo thứ tự điển hình của chủ ngữ (S), động từ (V) và đối tượng (O) trong một câu và có thể có các ngôn ngữ theo dạng, chẳng hạn, SVO hoặc VSO. Ngoài ra còn có thêm sự khác biệt trong thứ tự từ, ví dụ, khi có những yếu tố ngữ pháp phụ trợ, ví dụ thứ tự từ của câu hỏi khác câu khẳng định.

Để giải quyết vấn đề sắp xếp thứ tự từ, nhiều bản dịch ứng với các thứ tự từ khác nhau có thể được sinh ra, sau đó các bản dịch này được xếp hạng về xác suất xuất hiện, với sự giúp đỡ của mô hình ngôn ngữ, và bản dịch có xác suất cao nhất có thể được lựa chọn.

Cú pháp

Từ nằm ngoài kho từ vựng

Hệ thống dịch máy thống kê lưu trữ các cụm từ một cách độc lập, không có mối quan hệ nào giữa các cụm từ. Những cụm từ không có trong dữ liệu sẽ không được dịch. Vấn đề này sẽ gặp phải khi thiếu dữ liệu, hoặc hệ thống được sử dụng trong lĩnh vực kiến thức mới.

Xem thêm

Tham khảo

  1. ^ W. Weaver (1955). Translation (1949). In: Machine Translation of Languages, MIT Press, Cambridge, MA.
  2. ^ P. Brown, S. Della Pietra, V. Della Pietra, and R. Mercer (1993). The mathematics of statistical machine translation: parameter estimation. Computational Linguistics, 19(2), 263-311.
  3. ^ S. Vogel, H. Ney and C. Tillmann. 1996. HMM-based Word Alignment in StatisticalTranslation. In COLING ’96: The 16th International Conference on Computational Linguistics, pp. 836-841, Copenhagen, Denmark.
  4. ^ a b F. Och and H. Ney. (2003). A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29(1):19-51
  5. ^ P. Koehn, F.J. Och, and D. Marcu (2003). Statistical phrase based translation. In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics (HLT/NAACL).
  6. ^ D. Chiang (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05).
  7. ^ P. Koehn, H. Hoang, A. Birch, C. Callison-Burch, M. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A. Constantin, E. Herbst. 2007. Moses: Open Source Toolkit for Statistical Machine Translation. ACL 2007, Demonstration Session, Prague, Czech Republic
  8. ^ Q. Gao, S. Vogel, "Parallel Implementations of Word Alignment Tool", Software Engineering, Testing, and Quality Assurance for Natural Language Processing, pp. 49-57, June, 2008
  9. ^ Philipp Koehn, Franz Josef Och, Daniel Marcu: Statistical Phrase-Based Translation (2003)
  10. ^ W. J. Hutchins and H. Somers. (1992). An Introduction to Machine Translation, 18.3:322. ISBN 0-12-36280-X

Liên kết ngoài

Read other articles:

Periparus ater Adult British coal tit, P. a. britannicus(note greenish-grey back)Rekaman Status konservasiRisiko rendahIUCN22735965 TaksonomiKerajaanAnimaliaFilumChordataKelasAvesOrdoPasseriformesFamiliParidaeGenusPeriparusSpesiesPeriparus ater (Linnaeus, 1758) Tata namaSinonim taksonParus ater Linnaeus, 1758ProtonimParus ater DistribusiRange of P. ater     Resident      Non-breeding EndemikNeora Valley National Park (en), Mahananda Wildlife S...

 

Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Liga Singapura 2023 – berita · surat kabar · buku · cendekiawan · JSTOR Artikel ini perlu dikembangkan agar dapat memenuhi kriteria sebagai entri Wikipedia.Bantulah untuk mengembangkan artikel ini. Jika ...

 

Artikel utama: Liga Champions UEFA 2006–2007 Babak grup Liga Champions UEFA 2006–2007 berlangsung antara 12 September dan 6 Desember 2006. Semua unggulan pengundian di Pot 1 dan Pot 2 lolos, pertama kali terjadi sejak format 32 tim dan 16 tim maju diperkenalkan pada 1999–2000. Struktur penempatan Pemenang grup dan runner-up melaju ke babak gugur Tim peringkat ketiga memasuki Piala UEFA di babak 32 besar Pot 1 Tim Koef. BarcelonaTH 127.006 Milan 129.020 Real Madrid 120.006 Inter Milan 11...

British television quiz show For other uses, see Tipping point (disambiguation). Tipping PointGenreGame showCreated by Hugh Rycroft Matthew Boulby Richard Osman Presented byBen ShephardTheme music composerMarc SylvanCountry of originUnited KingdomOriginal languageEnglishNo. of series 13 (Regular) 9 (Lucky Stars) 4 (Best Ever Finals) No. of episodes 1,525 (Regular; as of 8 March 2024) 82 (Lucky Stars; as of 3 September 2023) 11 (Specials; as of 26 December 2023) 33 (Best Ever Finals; as of 15 ...

 

Theresianum Theresianum (bahasa Jerman: Stiftung Theresianische Akademie) adalah sekolah harian dan asrama yang terletak di kota Wina, Austria. Sekolah ini didirikan pada tahun 1746 oleh Maria Theresia. Awalnya sekolah ini didirikan untuk mendidik anak-anak lelaki para bangsawan, tetapi sekolah ini juga menerima murid perempuan. Beberapa alumni terkenal dari sekolah ini adalah ekonom Austria Joseph Schumpeter, pemenang Hadiah Nobel Kimia Max Perutz, dan Perdana Menteri RUmania Titu Maiorescu....

 

Cet article est une ébauche concernant une femme politique srilankaise. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Chandrika Kumaratunga(si) චන්ද්‍රිකා කුමාරතුංග Chandrika Kumaratunga en janvier 2005. Fonctions Présidente de la République démocratique socialiste du Sri Lanka 12 novembre 1994 – 19 novembre 2005 (11 ans et 7 jours) Élection 9 novembre 199...

L'agar agar (noto anche come agar, dal nome malese delle alghe rosse) è un polisaccaride usato come gelificante naturale e ricavato da alghe rosse appartenenti a diversi generi (tra i quali Gelidium, Gracilaria, Gelidiella, Pterocladia, Sphaerococcus). Dal punto di vista chimico è un polimero costituito principalmente da unità di D-galattosio (è quindi detto poligalattoside). Indice 1 Utilizzo in cucina 2 Altri usi 3 Note 4 Voci correlate 5 Altri progetti 6 Collegamenti esterni Utilizzo i...

 

Skema membran semipermeabel selama proses hemodialisis, dimana darah berwarna merah, cairan pendialisis berwarna biru, dan membran berwarna kuning. Membran semipermeabel atau membran separuh telap merupakan suatu jenis membran polimerik biologis atau sintetik, yang memungkinkan molekul atau ion tertentu untuk melewatinya dengan difusi—atau terkadang melalui proses khusus seperti difusi terfasilitasi, transpor pasif atau transpor aktif. Laju pelewatan molekul atau ion tersebut dipengaruhi ol...

 

All 18 UCI ProTeams are invited automatically and obligated to attend, with nine cyclists per team. Two UCI Professional Continental were announced well ahead of time, Androni Giocattoli and Farnese Vini–Neri Sottoli.[1][2] UCI rules normally limit races to a peloton of 200 riders, but the Giro received special dispensation for a 207-rider peloton, allowing a 23rd team. The three additional invited teams are Acqua & Sapone, Colnago–CSF Inox, and Geox–TMC. Despite ta...

French painter, photographer (1814–1889) Jean-Baptiste Frénet, self-portrait Jean-Baptiste Frénet, self-portrait in creationist pose Family Portrait by Jean-Baptiste Frénet Jean-Baptiste Frénet (1814-1889) was a French painter, sculptor, photographer and politician based in Lyon. Life He was born in Lyon on 31 January 1814, the son of a manufacturer of silk cloth. He learned the artistic aspects of the silk trade from his father and attended the School of Fine Arts in lyon between 1827 ...

 

Ancient Greek mathematician (fl. 300 BC) For the philosopher, see Euclid of Megara. For other uses, see Euclid (disambiguation). EuclidΕὐκλείδηςEuclid by Jusepe de Ribera, c. 1630–1635[1]Years activefl. 300 BCKnown forThe ElementsOpticsData Various concepts Euclidean geometry Euclidean algorithm Euclid's theorem Euclidean relation Euclid's formula Numerous other namesakes Scientific careerFieldsMathematics (Geometry) Euclid (/ˈjuːklɪd/; Greek: Ε�...

 

List of heritage sites in Western Australia Map all coordinates using OpenStreetMap Download coordinates as: KML GPX (all coordinates) GPX (primary coordinates) GPX (secondary coordinates) The State Register of Heritage Places is maintained by the Heritage Council of Western Australia. As of 2023[update], 184 places are heritage-listed in the Shire of Wongan–Ballidu,[1] of which five are on the State Register of Heritage Places.[2] List The Western Australian State R...

莫鲁杜皮拉尔Morro do Pilar市镇莫鲁杜皮拉尔在巴西的位置坐标:19°12′57″S 43°22′33″W / 19.2158°S 43.3758°W / -19.2158; -43.3758国家巴西州米纳斯吉拉斯州面积 • 总计476.473 平方公里(183.967 平方英里)人口 • 總計3,474人 • 密度7.29人/平方公里(18.9人/平方英里) 莫鲁杜皮拉尔(葡萄牙语:Morro do Pilar)是巴西米纳斯吉拉斯州的一个...

 

American songwriter and musician (b. 1942) For the American football player, see Bob Gaudio (American football). Bob GaudioGaudio in 1966Background informationBirth nameRobert John GaudioBorn (1942-11-17) November 17, 1942 (age 81)The Bronx, New York, U.S.OriginBergenfield, New Jersey, U.S.GenresRock, popOccupation(s)Record producer, songwriter, musicianInstrument(s)Piano, vocalsYears active1958–presentMusical artist Robert John Gaudio (born November 17, 1942) is an American songwriter...

 

For the airport with the name of the suburb and freeway (not actually in this area, but next to it), see Melbourne Airport. This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Tullamarine, Victoria – news · newspapers · books · scholar · JSTOR (February 2012) (Learn how and when to remove this message) Suburb of...

1984 video game This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Summer Games video game – news · newspapers · books · scholar · JSTOR (March 2016) (Learn how and when to remove this message) 1984 video gameSummer GamesCommodore 64 cover artDeveloper(s)EpyxPublisher(s)EpyxQuicksilva[1] U.S. GoldD...

 

American actress (born 1966) In this Japanese name, the surname is Tomita. Tamlyn TomitaTomita in 2010BornTamlyn Naomi Tomita (1966-01-27) January 27, 1966 (age 58)Okinawa City, Ryukyu Islands (now Japan)EducationUniversity of California, Los AngelesOccupationActressYears active1986–present Tamlyn Naomi Tomita (born January 27, 1966)[1] is an American actress. She made her screen debut as Kumiko in The Karate Kid Part II (1986) and reprised the character for the streaming ...

 

Nishinomiya-Kitaguchistazione ferroviaria西宮北口 Vista del mezzanino LocalizzazioneStato Giappone LocalitàNishinomiya, Hyōgo Coordinate34°44′45.32″N 135°21′23.99″E34°44′45.32″N, 135°21′23.99″E Linee■ Linea Kōbe ■ Linea Hankyū Imazu StoriaStato attualeIn uso Attivazione1920 CaratteristicheTipoStazione passante e di testa in superficie Binari7 OperatoriFerrovie Hankyū InterscambiBus Statistiche viaggiatorial giorno98.602 (2011) all'anno- FonteFerrovie Hank...

French sailor Gaston Thubé 1912 Medal record Sailing Representing  France Olympic Games 1912 Stockholm 6 metre class Gaston Thubé (16 October 1876 – 22 June 1974) was a French sailor who competed in the 1912 Summer Olympics. He was a crew member on the French boat Mac Miche, which won the gold medal in the 6 metre class.[1] References ^ Gaston Thubé. Olympedia. Retrieved 30 May 2021. External links Gaston Thubé at Olympics at Sports-Reference.com (archived) vteOlympic champ...

 

Pour un article plus général, voir Tournoi de Wimbledon. Tournoi de Wimbledon 1932 Édition The Championships Date Du 20 juin au 2 juillet 1932 Lieu All England Club Wimbledon Catégorie Grand Chelem[1] Surface Gazon (ext.) Tableaux de simple Dames 7 tours (96 joueuses) Helen Wills Messieurs Ellsworth Vines Tableaux de double Dames 6 tours (48 équipes) Doris Metaxa Josane Sigart Messieurs Jean Borotra Jacques Brugnon Mixte Elizabeth Ryan Enrique Maier Tournoi de Wimbledon Édition 1931 É...