תרגום מכונה

דוגמה לשירות תרגום מכונה מקוון (גוגל תרגום)

תרגום מכונהאנגלית: Machine TranslationMT) הוא פעולת תרגום משפה אחת לשפה אחרת המבוצעת על ידי תוכנת מחשב. התוכנה קולטת נוסח (לרוב טקסט כתוב) בשפה אחת, הנקראת שפת המקור, ופולטת תרגום של נוסח זה בשפת היעד. תרגום מכונה נקרא גם "תרגום ממוחשב", "תרגום אוטומטי", או "תרגום באמצעות מחשב".

תרגום מכונה הוא אחד מהנושאים הראשונים שהתעניינו בהם במדעי המחשב. אף שתרגום באמצעות מכונה הוא יעד חמקמק, כיום ישנן כמה מערכות המועילות לצרכים מסוימים. הענף במדעי המחשב העוסק בתרגום מכונה ובסוגיות דומות נקרא "עיבוד שפה טבעית" (Natural Language Processing – NLP).

המונח תרגום מכונה מתייחס לתרגום של טקסטים שלמים, ולא של מילים בודדות. תוכנה לתרגום של מילים בודדות נקראת לעיתים מילון ממוחשב, משום שהמבנה שלה דומה למילון דו-לשוני מודפס. תרגום מילים הוא מלאכה פשוטה יחסית, ותוכנות מסחריות כמו "בבילון" ואחרות מבצעות אותה בהצלחה רבה. התוכנות מציעות בדרך כלל מספר תרגומים אפשריים לכל מילה.

תרגום טקסטים שלמים הוא משימה קשה לאין שיעור, משום שלא די בו במציאת התרגומים האפשריים של כל מילה, אלא נדרשת הבנה של המשמעות הנכונה בהקשר. על הקושי שבביצוע משימה זו ניתן ללמוד מהסיפור (הבדיוני, כנראה) הבא:

תוכנת תרגום התבקשה לתרגם מאנגלית לרוסית את המשפט (שמקורו בברית החדשה) The spirit is willing but the flesh is weak ("הרוח חפצה, אך הבשר רפה"). כדי לבדוק את נכונות התרגום התבקשה התוכנה לתרגם את פרי עמלה חזרה מרוסית לאנגלית, והתוצאה שפלט המחשב הייתה The vodka is good but the meat is rotten (הוודקה טובה אבל הבשר רקוב).

כיום, רוב מערכות תרגום המכונה מייצרות "תרגום גרעיני", כלומר תרגום שנותן את עיקרו של טקסט המקור, אך לבד מזה הוא אינו שמיש. על מנת להפוך את התרגום לטקסט שימושי בשפת היעד נדרשת התערבות אנושית – עריכה לפני התרגום ואחריו. אולם בתחומים שבהם אוצר המילים מוגבל ומבנה המשפטים פשוט, למשל בדיווחים מטאורולוגיים, תרגום מכונה יכול להניב תוצאות טובות.

תרגום בסיוע מכונה

תחום קרוב לתרגום מכונה הוא תרגום בסיוע מכונה (Machine Aided Translation, MAT) או תרגום בסיוע מחשב (Computer Aided Translation, CAT). זהו כינוי לאוסף של גישות וכלים ממוחשבים, שנועדו לסייע למתרגמים אנושיים לבצע את עבודתם. כלים אלה מציעים, בדרך כלל, למתרגם האנושי אפשרויות לתרגום של מילה, קטע, או משפט. המתרגם האנושי בוחר בין ההצעות השונות, או בוחר לתרגם ללא שימוש בהצעות. מילון ממוחשב יכול להיחשב לסוג של כלי עזר כזה למתרגם. כלי אחר הוא ה"זיכרון התרגומי" (Translation Memory, TM): כלי שכולל מגוון של דוגמאות שתורגמו בעבר. כאשר יש לתרגם משפט חדש, הוא בודק האם המשפט או קטעים ממנו מוכרים לו, ואם כן, הוא מציע למתרגם את התרגום הקודם. כל משפט חדש שמתורגם מתווסף לזיכרון התרגומי.

תרגום מכונה לעומת תרגום בסיוע מכונה

אף על פי שתרגום מכונה ותרגום בסיוע מכונה הם תחומים דומים, בייחוד בהתחשב בעובדה שהתערבות אנושית נדרשת לעיתים גם בתרגום מכונה, יש ביניהם הבדלים מהותיים:

  • מטרתו של תרגום מכונה היא למזער את ההתערבות האנושית, בעוד שמטרתו של תרגום בסיוע המכונה היא להקל את עבודת המתרגם האנושי.
  • תוכנת התרגום נדרשת להוציא פלט כמעט בכל מצב, גם אם היא מתקשה מאוד בתרגום. בתרגום בסיוע מכונה, התוכנה יכולה לבחור לא לתרגם בכלל, או להציע מספר אפשרויות תרגום ולהשאיר את הבחירה למתרגם האנושי.
  • תוכנת תרגום פועלת כקופסה סגורה, שמקבלת קלט בשפת המקור ומוציאה פלט בשפת היעד. ההתערבות האנושית מוגבלת בדרך כלל לשלב המקדים (הכנת טקסט המקור לתרגום) ולשלב הסופי (עריכת הטקסט המתורגם). תוכנות לסיוע בתרגום, הן תוכנות אינטראקטיביות שמבוססות על תקשורת מתמידה עם המשתמש.

הקדמה

אפשר לומר שתהליך התרגום מורכב משני שלבים:

  1. הבנת משמעותו של טקסט המקור
  2. ניסוח מחדש בטקסט היעד

כאשר אדם מתרגם, מאחורי התהליך הפשוט הזה עומד מבצע קוגניטיבי מורכב. על מנת להבין את משמעות טקסט המקור כולו, על המתרגם לפרש ולנתח את כל המאפיינים של הטקסט, תהליך שמצריך ידע בדקדוק, בסמנטיקה, בתחביר ובביטויים של שפת המקור, וכן לעיתים הכרה של התרבות של דוברי השפה. על מנת לנסח מחדש את הטקסט בשפת היעד, המתרגם זקוק לידע דומה בשפה זו.

כאן מצוי האתגר של תרגום מכונה: כיצד לתכנת מחשב, כך ש"יבין" את הטקסט כמו אדם, וגם יצור טקסט חדש בשפת היעד ש"נשמע" כאילו נכתב בידי אדם.

לבעיה זו אפשר לגשת בכמה צורות. כיום הגישה המובילה בתחום מבוססת על רשתות נוירונים מלאכותיות.

גישות בלשניות

פעמים רבות נטען, כי ההצלחה של תרגום מכונה תלויה בפתירת הבעיה של הבנת שפה טבעית בידי אדם לפני כן. אולם, ישנן כמה שיטות המשמשות במציאת פתרון בתרגום מכונה, הכוללות:

  • שיטות חיפוש מילוניות
  • שיטות מבוססות לשון
  • שיטות מבוססות סמנטיקה (תרגום מכונה מבוסס ידע)
  • שיטות סטטיסטיות
  • שיטות המבוססות על דוגמאות
  • שיטות המבוססות על חוקים לשוניים

באופן כללי, שיטות המבוססות על חוקים (שלוש הראשונות) מנתחות את הטקסט, כשהן בדרך כלל משתמשות בייצוג סימבולי מגשר, שממנו הטקסט בשפת היעד מיוצר. שיטות אלה מצריכות לקסיקונים נרחבים עם מידע מורפולוגי, תחבירי וסמנטי, ועם חוקים רבים.

שיטות המבוססות על סטטיסטיקה ועל דוגמאות, אינן משתמשות בלקסיקונים ובחוקים, אלא מנסות ליצור תרגומים בהתבסס על טקסטים דו-לשוניים ארוכים, כגון הרשימות האנגליות-צרפתיות של הפרלמנט הקנדי. ניתן להגיע לתוצאות מרשימות בשיטות כאלה, אך טקסטים דו-לשוניים בגודל כזה נדירים מאוד.

אם יש להן די מידע, רוב תוכנות תרגום המכונה עובדות די טוב על מנת שדובר שפה אחת יוכל להבין בערך את משמעות דבריו של הדובר בשפה השנייה. עם זאת, קיים קושי להשיג את המידע הנדרש על מנת לתמוך בשיטה מסוימת. הכמות הגדולה של הטקסט הנדרשת לשיטות הסטטיסטיות אינה נצרכת בשיטות הלשוניות, אך הן מצריכות בלשן מומחה שיעצב את החוקים הלשוניים שהתוכנה משתמשת בהם.

היסטוריה של תרגום מכונה

הניסיונות הראשונים לתרגום מכונה נעשו במחצית השנייה של שנות ה-40. הולדת התחום מיוחסת למזכר שהפיץ מתמטיקאי אמריקאי בשם וורן ויבר (Warren Weaver), שהתווה קווים למחקר בתחום. בין ראשוני התחום היה המתמטיקאי והלוגיקן הישראלי יהושע בר-הלל, שעסק בנושא זה ב-MIT, ושבשנת 1952 הוביל את הכנס הבין-לאומי הראשון בנושא זה. הנחת העבודה הייתה שניתן יהיה לייצר, תוך זמן קצר, תוכנות שיתרגמו בצורה סבירה טקסטים בתחומים ממוקדים, כגון, טקסטים מדעיים וטכניים. הצלחת המחשב בפתרון בעיות לוגיות סבוכות, ובייחוד בשבירת צפנים, עודדה את העוסקים בתחום.

ב-7 בינואר 1954 ההצגה הראשונה של מערכת תרגום מכונה נערכה במשרד הראשי של יבמ בניו יורק. דווח עליה באופן רחב בעיתונות, והיא משכה תשומת לב ציבורית רבה. אך המערכת עצמה הייתה רק מערכת "צעצוע", במונחים של היום, וכללה 250 מילים בלבד. היא תרגמה 49 משפטים נבחרים מרוסית לאנגלית, בעיקר בתחום הכימיה. האירוע אישש את ההנחה שתרגום מכונה נמצא בהישג יד, והביא להגדלת המימון של מחקר תרגום מכונה בארצות הברית ובעולם כולו.

ההתקדמות המוגבלת של המחקר בתחום בשנים שלאחר מכן הביאה את ממשלת ארצות הברית למנות, בשנת 1966, ועדה מיוחדת לבדיקת הנושא. הוועדה הביעה ספק בקשר לאפשרויות ההצלחה של התחום, ובעקבות מסקנותיה קוצצו כמעט לחלוטין תקציבי המחקר בתחום בארצות הברית, והפעילות המחקרית והאקדמית ננטשה. עם זאת, במשך שנות ה-70 וה-80 פותחו תוכנות מסחריות בתחום, בעיקר באירופה וביפן. לדוגמה, מערכת התרגום Systran, שנמכרת מאז שנות ה-70 ונחשבת עדיין לאחת המערכות המצליחות בתחום. במקביל, נעשה שימוש בתרגום מכונה במערכות צבאיות ומודיעיניות. במערכות התרגום הרציניות הראשונות השתמשו במלחמה הקרה על מנת לנתח מאמרים מדעיים רוסיים. התרגומים הכלליים שהושגו, הספיקו על מנת להבין את נושא המאמר ואת עיקרו, ואם המאמר עסק בנושא שהיה עשוי להיות מעניין מבחינה ביטחונית, הוא הועבר למתרגם אנושי; אם לא, הוא הושלך.

בסוף שנות ה-80 של המאה ה-20 התחדשה הפעילות המחקרית בתחום במקומות שונים בעולם. ירידת המחירים הגדולה של המחשבים והשיפור הגדול בעוצמתם, העמידו לרשות החוקרים משאבי חישוב עצומים ביחס למה שהיה זמין בשנות ה־60. הדבר אפשר התפתחות גישות חדשות בתחום, בייחוד תרגום מכונה סטטיסטי וגישות דומות. ההישגים הראשונים שהושגו בגישות אלה, עודדו רבים לפנות לתחום ולתרום להתפתחותו. במקביל, התפתחות המחשבים האישיים הביאה את תרגום המכונה לציבור הרחב, והפופולריות של האינטרנט הגבירה מאוד את הביקוש לו.

מבחינה מחקרית, השנים האחרונות מתאפיינות בהתקדמות לשילוב של גישות שונות לתחום של תרגום מכונה, על מנת לשפר את ההישגים מעבר למה שהושג בכל תחום בנפרד. מבחינה מעשית, השנים האחרונות מתאפיינות בהרחבה של שירותי תרגום המכונה הזמינים באופן מסחרי או חופשי.

עתיד תרגום המכונה

החוקרים חלוקים ביניהם בשאלה האם תרגום מכונה מושלם ללא סיוע אנושי יהיה אפשרי אי פעם בעתיד. לדוגמה, פרופ' יעקב שויקה מאוניברסיטת בר-אילן, מראשוני החוקרים בתחום הבלשנות החישובית בישראל, העריך שתרגום מכונה מלא אינו אפשרי, וכי ייתכן שבעתיד אף יימצא חוק מדעי שמגדיר את רמת הדיוק שאפשר להגיע אליה בתרגום אוטומטי. גם מי שאופטימי מעריך שייקחו עוד שנים רבות של מחקר לפתרון הבעיה. למרות זאת, יש צפי להתפתחות רבה של התחום שתשפר את יכולתו לסייע במצבים שבהם תרגום אנושי הוא יקר מדי, או איטי מדי.

בספרו של דאגלס אדמס, "מדריך הטרמפיסט לגלקסיה" מוצג "דג בבל", שנעיצתו באוזן מאפשרת שמיעה חופשית של כל שפה. על שמו של יצור זה קרוי פרויקט Babel Fish של !Yahoo, המתרגם טקסטים שאותרו באינטרנט.

שימוש בתרגום מכונה כיום

למרות מגבלותיהן, תוכנות תרגום מכונה נמצאות בשימוש על ידי ארגונים שונים בכל העולם. המשתמש הגדול ביותר הוא כנראה האיחוד האירופי, שמשתמש בגרסה משופרת של מערכת SYSTRAN, על מנת לעזור בתרגום אוטומטי של כמות גדולה של טיוטות ראשוניות של מסמכים לשימוש פנימי.

באפריל 2003 החלה מיקרוסופט להשתמש במערכת תרגום מורכבת, על מנת לתרגם את מאגר מסמכי התמיכה הטכנית שלה מאנגלית לספרדית. התוכנה פותחה על ידי קבוצת המחקר לשפה טבעית של מיקרוסופט. הקבוצה בוחנת מערכת אנגלית-יפנית ומעלה מערכות אנגלית-צרפתית ואנגלית-גרמנית. שתי המערכות האחרונות משתמשות ברכיב של למידה עצמית של שפה, ואילו לשתי הראשונות יש מערכות יצירת שפה שפותחו באופן ידני. המערכות פותחו והוכשרו על ידי מאגרי מידע של מעל למיליון משפטים כל אחת.

תרגום מכונה לעברית ומעברית

בתוכנה "בבילון" משולבת החל מגרסה 6.0 תוכנה לתרגום מלא של טקסט מעברית לאנגלית ומאנגלית לעברית. התוכנה תרגומטיק מציעה תרגום אוטומטי מאנגלית לעברית. החל מספטמבר 2008, אתר גוגל תרגום מציע תרגום אוטומטי מכל שפה אשר מוצעת על ידי האתר לכל אחת מהשפות האלו (וביניהן עברית).

דוגמאות של תרגום מכונה לעברית

תרגום של תחילת הערך על הרב שלמה גורן מהוויקיפדיה האנגלית לעברית באמצעות תוכנת "בבילון":

Goren, born Gorenchik, was born in Zambrow, Poland and immigrated to British administered Palestine with his family in 1925. He served in the Israel Defense Forces during three wars, wrote several award- winning books on Jewish law, and was appointed Chief Rabbi of Tel Aviv in 1968. Rabbi Goren served as Chief Rabbi of Israel from 1973- 1983, after which he established a yeshiva in Jerusalem, which he headed until his death.

גוראן, נולד בשם גוראנצ'יק, נולד בזאמברוו, פולין והיגר למנדט הבריטי של פלסטין עם המשפחה שלו ב-1925. הוא שירת בכוחות של הגנה של ישראל במשך שלוש מלחמות, כתב כמה פרס מנצח ספרים על חוק יהודי, והופקד רב ראשי של תל אביב ב-1968. רבי גוראן שירת כ/כפי שרב ראשי של ישראל מ-1973 ,1983 אחרי איזה הוא הקים ישיבה בירושלים, שהוא הוביל עד שהמוות שלו.

ניתן לראות שהתוכנה פה ושם שגתה שגיאות שגרמו לשינוי תוכן, ולעיתים לשגיאות סגנוניות. במקרה הזה עיקר התוכן עבר, אולם יש כמה שגיאות שעלולות להכשיל אדם שאינו די בקיא בנושא המאמר:

  • British administered Palestine – ביטוי זה שמתייחס למעשה למנדט הבריטי על פלשׂתינה (א"י), תורגם באופן שמקשה מאוד על הבנתו. רק הכרות קרובה עם ההיסטוריה של ארץ ישראל מאפשרת לקורא לשחזר את הצירוף המקורי מתוך התרגום.
  • "כוחות של הגנה של ישראל" – הכוונה ל"צבא ההגנה לישראל" שנקרא באנגלית "Israel Defence Forces" ("כוחות ההגנה של ישראל"). המדובר למעשה בצירוף כבול שתורגם מילולית. קורא שאינו די בקיא בנושא עלול שלא להבין כי המדובר בצבאה של מדינת ישראל.

אותו תרגום כפי שבוצע בגוגל תרגום:

Goren, born Gorenchik, was born in Zambrow, Poland and immigrated to British administered Palestine with his family in 1925. He served in the Israel Defense Forces during three wars, wrote several award- winning books on Jewish law, and was appointed Chief Rabbi of Tel Aviv in 1968. Rabbi Goren served as Chief Rabbi of Israel from 1973- 1983, after which he established a yeshiva in Jerusalem, which he headed until his death.

גורן, Gorenchik נולד, נולד בZambrow, פולין ועלה לפלסטינה מנוהלת בריטית עם משפחתו בשנת 1925. הוא שירת בצבא ההגנה לישראל בשלוש מלחמות, כתב מספר ספרים עטורי פרסים על הלכה יהודית, והתמנה לרב ראשי של תל אביב בשנת 1968. הרב גורן כיהן כרבה ראשית של ישראל מ-1973- 1983, לאחר שהוא הקים ישיבה בירושלים, ועמד בראשו עד מותו.

ניתן לראות כי התוכנה כשלה בזיהוי מונחים לועזיים שאינם מוכרים לשפה האנגלית, כגון שמות משפחה ושמות מקומות, וכשלה בזיהוי בין מילות זכר לנקבה. בנוסף גם כאן הביטוי למנדט הבריטי תורגם באופן שמקשה מאוד על הבנתו.

נכון לאפריל 2020, התוכנה פותחה והתרגום מדויק הרבה יותר. תרגום הפסקה על פי גוגל תרגום נותן את התוצאה הבאה:

Goren, born Gorenchik, was born in Zambrow, Poland and immigrated to British administered Palestine with his family in 1925. He served in the Israel Defense Forces during three wars, wrote several award- winning books on Jewish law, and was appointed Chief Rabbi of Tel Aviv in 1968. Rabbi Goren served as Chief Rabbi of Israel from 1973- 1983, after which he established a yeshiva in Jerusalem, which he headed until his death.

גורן, יליד גורנצ'יק, נולד בזמברוב שבפולין ועלה לארץ ישראל עם משפחתו בשנת 1925. הוא שירת בצבא ההגנה לישראל במהלך שלוש מלחמות, כתב כמה ספרים עטורי פרסים על ההלכה היהודית ומונה לרב הראשי של תל אביב בשנת 1968. הרב גורן כיהן כרב הראשי לישראל בשנים 1973 - 1983, לאחר מכן הקים ישיבה בירושלים, שאותה עמד בראש עד מותו.

ביחס לתרגום משנת 2015 שופר התרגום רבות, עם זאת ניתן לראות שאף בגרסה העדכנית ייתכנו טעויות דקדוקיות.

  • ניתן לראות שהמילים "born Gorenchik" תורגמו ל"יליד גורנצ'יק" אף על פי שפירוש המילים המקורי הוא: "נולד בשם גורנצ'יק". אלו שאינם בקיאים בביוגרפיה של הרב גורן עלולים לטעות ולחשוב שמדובר במקום מגוריו בתקופת חייו המוקדמת.

ניתן להניח שאף הגרסה של "בבילון", שודרגה גם היא ורמת הדיוקים שלה עלתה.

תרגום שפות עתיקות

ההתקדמות ברשתות קונבולוציה בשנים האחרונות בתרגום מכונה דל משאבים (כשרק כמות מוגבלת מאוד של מידע ודוגמאות זמינים לאימון) אפשרה תרגום מכונה לשפות עתיקות, כמו אכדית ודיאלקטים שלה – בבלית ואשורית.[1]

ראו גם

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא תרגום מכונה בוויקישיתוף

הערות שוליים

  1. ^ Gai Gutherz, Shai Gordin, Luis Sáenz, Omer Levy, Jonathan Berant, Translating Akkadian to English with neural machine translation, PNAS Nexus 2, 2023-05-02 doi: 10.1093/pnasnexus/pgad096