הליבה של הרשת מבוססת על שכבות כינוס (באנגלית: convolution layers) הממומשות על ידי העברת מסננת (filter) או ליבה (kernel) על גבי הקלט וביצוע כפל מטריצות. הפלט נקרא feature map[3][4].
ההשראה לרשתות קונבולציה מגיעה מתהליכים ביולוגים, במובן זה שדפוס החיבור בין נוירונים ברשת דומה לארגון בקליפת הראייה אצל חיות: נוירונים בודדים של קליפת המוח מגיבים לגירוי רק באזור מוגבל של שדה הראיה, הידוע כשדה הקלט. שדות הקלט של נוירונים שונים עולים אלה על אלה בצורה חלקית כך שביחד הם מכסים את שדה הראיה במלואו.
ארכיטקטורה
רשת קונבולוציה עושה שימוש בדרך כלל בשכבות בְּקִשּׁוּר מָלֵא (fully connected), שכבות כינוס (convolution) שכבות אגרגציה (pooling) ופונקציית שפעול (activation function).
בדרך כלל תחילה תכיל מספר שכבות כינוס, אגרגציה (pooling) ו-ReLU נוספות אחריה, ולאחר מכן מספר שכבות בקישור מלא.
שכבת כינוס (Convolution)
הקלט לשכבה זאת הוא טנזור המייצג את התמונה, בגודל (מספר קלטים) x (מספר ערוצי קלט) x ( גובה הקלט) x (רוחב הקלט). לאחר שהקלט מסיים לעבור בשכבה מתקבל טנזור המייצג תמונה מופשטת יותר הנקראת feature map, בגודל (מספר קלטים) x (מספר ערוצי ה-feature map) x ( גובה ה-feature map) x (רוחב ה-feature map).
שכבת כינוס מקבלת טנזור ומוציאה טנזור חדש שישמש כקלט עבור שכבת הכינוס הבאה, ממש כמו שכבות fully connected ברשת עצבית מלאכותית. אחד מיתרונות שכבות הכינוס הוא הוזלת עלות החישוב של תמונות וכתוצאה מכך אפשור העמקת הרשת[5].
לדוגמה, שכבה fully connected לתמונה בגודל 100x100 תיצור לנו כ-10,000 משקולות חדשות עבור כל נוירון בשכבה הבאה, דבר שיכול מהר מאוד להפוך ל"יקר" מאוד. לעומת זאת, שכבת כינוס עם ליבה (kernel) בגודל 5x5 תיצור לנו רק כ-25 משתנים למידים חדשים. שימוש במשקולות שעברו נרמול על פחות משתנים עוזר להימנע מבעיית הגרדיאנט הנעלם.
שכבת אגרגציה (pooling)
שכבה זאת נועדה על מנת לצמצם את גודל הטנזור. היא מקבלת טנזור בגודל מסוים בתור קלט ומחזירה טנזור קטן יותר בתור פלט. יש כמה סוגי שכבות אגרגציה, כגון max pooling, average pooling ו-min pooling, כאשר max ו-average הם הפופולריים ביותר. סיבת השימוש באגרגציה היא בעיקר על מנת להוריד את "עלות" החישוב ולחסוך בזמן עיבוד[6].
שכבת קישור מלא (fully connected)
מכילה מערך נוירונים; מקבלת כקלט מערך נוירונים ומחברת בין כל נוירון במערך זה לכל נוירון הנמצא בתוכה (לפירוט נוסף ראה ערך רשת עצבית מלאכותית).
היסטוריה
רשת קונבולוציה הומצאה בשנת 1980 על ידי המדען קוניהיקו פוקושימה, שהמציא מודל בשם ניוקוגניטרון[7][8][9] - רשת עצבית מלאכותית דיי בסיסית. בשנת 1988 יאן לקון, חוקר ממעבדות נוקיה בל, שידרג את המודל למצב שבו ידע לזהות ספרות בכתב יד ונעשה בו שימוש בבנקים ומערכות דואר אך לא יותר מכך, מכיוון שבזמן זה היה מחסור במאגרי מידע גדולים ומפותחים - דבר הכרחי על מנת לאמן בינה מלאכותית מסוג זה. בעיה נוספת הייתה החומרה שבזמנו לא הייתה מספיק חזקה על מנת לאמן בינה מלאכותית מסוג זה.
בשנת 2012 חלה תפנית כאשר ארכיטקטורת AlexNet הראתה שיש מקום לחזור לרשתות קונבולוציה עם הטכנולוגיה של ימינו, שהתפתחו הרבה מאוד.
אבניי בניין
רשת קונבולוציה מורכבת ממספר שכבות כגוון שכבת כינוס, שכבת אגרגציה ושכבה קישור מלא.
יכול להיות שימוש בעוד סוגי שכבות רבים אבל אלה הנפוצות והבסיסיות ביותר.
שכבת כינוס
עוברים על הטנזור ומכפילים עם הליבה (באנגלית: kernel) שהיא טנזור בגודל עם קפיצות בגודל כאשר מייצג את גודל הקפיצה בציר ה- ו- מייצג את גודל הקפיצה בציר ה- (בדרך כלל ו-יהיו באותו גודל ולכן פשוט יקראו כנ"ל לגבי ), כאשר כל ליבה יכולה לשמש לצורך מטרה שונה.
או פשוט .
כאשר מייצג את התמונה החדשה, מייצג את התמונה המקורית ו- מייצג את הליבה.
גודל הפלט של שכבת כינוס עם חלון בגודל וקפיצות (strides) בגודל טנזור קלט בגודל
כאשר הם ממדיי הפלט.
שכבת אגרגציה (pooling)
עוברים עם חלון בגודל ועושים פעולה מתמטית המוציאה מספר אחד. למשל, במקרה של max pooling ניקח את המספר הגדול ביותר שיצא בגבולות החלון שלנו בכל החלקה. במקרה של average pooling ניקח את כל המספרים שיצאו בגבולות החלון שלנו ונעשה להם ממוצע[10].
ביצוע max pooling עם חלון בגודל וקפיצות (strides) בגודל טנזור קלט בגודל
כאשר הם ממדיי הפלט ו-.
גודל הפלט של שכבת אגרגציה עם חלון בגודל וקפיצות (strides) בגודל טנזור קלט בגודל
כאשר הם ממדיי הפלט.
שכבת ReLU (Rectified linear unit)
זוהי פונקציית שפעול מאוד פופולרית בקרב רשתות קונבולוציה. הפונקציה עוברת על כל נוירון ומבצעת בו פונקציית יחידה ליניארית מתוקנת.
נועדה למנוע התאמת יתר (overfitting)[11][12], תופעה שבה המודל מתאים את עצמו לסוג הנתונים הספציפי שבעזרתו הוא אומן, ולא יודע להכליל אוסף נתונים רחב יותר (למשל, להבדיל בין תמונות של חתולים לתמונות של כלבים). אם יתרחש overfitting המודל יוכל לסווג את כל תמונות החתולים שאימנו אותו עליהם בצורה טובה אך ברגע שניתן לו תמונות של חתולים שהוא לא מכיר הוא יתחיל לטעות בסיווג.
השכבה פועלת בצורה כזו: היא מקבלת את וקלט של שכבת נוירונים, והיא תתעלם מנוירונים אקראיים, כלומר, לכל נוירון יש סיכוי להישמר או סיכויים להישמט.
משתנים כלליים
גודל הליבה (kernel)
הליבה היא טנזור, וצריך לבחור את ממדי הטנזור. בדרך כלל הגדלים יהיו או או אבל אפשר לבחור כל גודל רצוי כל עוד הוא גדול מאפס.
ריפוד
ריפוד (באנגלית: padding) נועד על מנת לפתור שתי בעיות:
במהלך ביצוע כינוס נוצרת בעיה. הבעיה נובעת מכך שלמעשה עוברים פחות פעמים על קצוות התמונה וכתוצאה מכך מאבדים מידע יקר ערך. אמנם זה יכול להראות שולי אבל לאחר שימוש בהרבה שכבות כינוס במודל, זה מצטבר להרבה.
לאחר כל שימוש בכינוס התמונה תקטן ולמעשה אם נשתמש בכמה שכבות כינוס נוכל באיזשהו שלב להגיע למצב שבו צמצמנו את התמונה עד כדי מחיקתה.
תהליך הריפוד בעצם "מרפד" את התמונה באפסים מצדדיה ובכך פותר את שתי הבעיות: כעת אנו עוברים גם על הקצוות כמו שצריך וגם לאחר כינוס התמונה תישאר באותו הגודל (בהנחה שהוספנו את הריפוד בגודל המתאים).
למשל, לתמונה בגודל של עם ליבה בגודל וקפיצות בגודל של אחד, אם נוסיף שכבת ריפוד אחת מכל כיוון לאחר כינוס נשאר עם תמונה בגודל כלומר לא הקטנו אותה.
מפני שריפדנו באפסים אין לחשוש להטיית/עיוות התוצאות כתוצאה מהריפוד[13].
גודל פסיעה (Stride)
משתנה זה מייצג את גודל הפסיעה/קפיצה שנעשית בכל פעם עם הליבה. בדרך כלל יהיה בגודל או אבל יכול להיות בכל גודל רצוי כל עוד הוא גדול מאפס.
מספר הליבות
שכבת כינוס יכולה להכיל מספר ליבות כדי להגדיל את יכולת הזיהוי שלה. בדרך כלל בשכבות הראשונות כשטנזור הקלט עדיין גדול נשתמש במעט ליבות וככל שנתקדם ונגיע לשכבות מאוחרות יותר שבהן הטנזור קטן יותר, נשתמש ביותר ליבות. כל זה כדי להוריד זמני ריצה.
גודל אגרגציה
אגרגציה היא הרי טנזור העובר על תמונת הקלט וצריך לבחור את ממדיי הטנזור. בדרך כלל הגדלים יהיו או אבל אפשרי לבחור כל גודל רצוי כל עוד הוא גדול מאפס.
^Zhang, Wei, Shift-invariant pattern recognition neural network and its optical architecture, Proceedings of Annual Conference of the Japan Society of Applied Physics.