סיכום של הקרוס למידה עמוקה

csnotes

סיכום של הקורס למידה עמוקה מאת ד"ר יורם יקותיאלי

‫אנליזה‬ 1
‫עמוקה‬ ‫למידה‬ - ‫סיכום‬
...‫בסוף‬ ‫עניינים‬ ‫תוכן‬
I ‫חלק‬
‫מתמטיקה‬
‫אנליזה‬ 1
(∆) ‫שינוי‬ 1.1
.∆-‫ב‬ ‫זאת‬ ‫נסמן‬ ,(‫)למשל‬ ‫משתנה‬ ‫של‬ ‫שינוי‬ ‫לסמן‬ ‫נרצה‬ ‫כאשר‬
:‫אזי‬ ,6-‫ל‬ ‫ערכו‬ ‫את‬ ‫נשנה‬ ‫ואז‬ ,x = 8 ‫כי‬ ‫נגיד‬ :‫למשל‬
x1 = 8, x2 = 6
∆x = x1 − x2 = 2
‫זה‬ ‫לזכור‬ ‫שחשוב‬ ‫מה‬ ‫אבל‬ .‫אחת‬ ‫דרך‬ ‫רק‬ ‫וזאת‬ ,‫שינוי‬ ‫להגיד‬ ‫דרכים‬ ‫הרבה‬ ‫שישנן‬ ‫כמובן‬ :‫הערה‬
.‫עבר‬ ‫שהוא‬ ‫לשינוי‬ ‫היא‬ ‫הכוונה‬ - ‫משהו‬ ‫ליד‬ ∆ ‫דלתא‬ ‫האות‬ ‫את‬ ‫רואים‬ ‫שכשאר‬
(∂) ‫חלקית‬ ‫נגזרת‬ 1.2
‫הפונקציה‬ ‫זאת‬ y ‫כאשר‬ dy
dx -‫ב‬ ‫זאת‬ ‫מסמנים‬ ‫אנחנו‬ ,‫אחד‬ ‫משתנה‬ ‫עם‬ y ‫פונקציה‬ ‫גוזרים‬ ‫אנחנו‬ ‫כאשר‬
.‫המשתנה‬ ‫הוא‬ x-‫ו‬
1
‫אנליזה‬ 1
(∇) ‫גרדיאנט‬ 1.3
∂z
∂τ ‫של‬ ‫המשמעות‬ ‫אזי‬ ,z = f (x, y) = 2x2 + 3y3 :‫למשל‬ ,‫בפונקציה‬ ‫משתנים‬ ‫מספר‬ ‫ישנם‬ ‫כאשר‬ ‫אבל‬
‫אנחנו‬ ‫הנותרים‬ ‫והמשתנים‬ 1τ ∈ {x, y} ‫כאשר‬ τ ‫המשתנה‬ ‫לפי‬ z ‫הפונקציה‬ ‫את‬ ‫גוזרים‬ ‫שאנחנו‬ ‫היא‬
:‫ולכן‬ ,‫קבועים‬ ‫כאל‬ ‫אליהם‬ ‫מתייחסים‬
∂z
∂x
= 4x,
∂z
∂y
= 9y
(∇) ‫גרדיאנט‬ 1.3
.‫החלקיות‬ ‫הנגזרות‬ ‫וקטור‬ ‫בעצם‬ ‫והוא‬ ∇-‫ב‬ ‫מסמנים‬ ‫אנחנו‬ ‫הגרדיאנט‬ ‫את‬
:‫אזי‬ , z = f (x, y) = 2x2 + 3y3 :‫שמקודם‬ ‫בדוגמה‬ ,‫כלומר‬
∇f (x, y) =
(
∂z
∂x
,
∂z
∂y
)
= (4x, 9y)
?‫מקומי‬ ‫במינימום‬ ‫שאנחנו‬ ‫נדע‬ ‫איך‬ 1.4
‫)זה‬ 0-‫ל‬ ‫הנגזרת‬ ‫את‬ ‫להשוות‬ ‫זה‬ ‫פונקציה‬ ‫של‬ ‫מקומי‬ ‫מינימום‬ ‫למצוא‬ ‫רוצים‬ ‫כאשר‬ ‫פשוט‬ ‫הכי‬ ,‫בעיקרון‬
‫יותר‬ ‫הרבה‬ ‫להיות‬ ‫הופך‬ ‫כבר‬ ‫זה‬ ,‫משתנים‬ ‫הרבה‬ ‫עם‬ ‫פונקציה‬ ‫יש‬ ‫כאשר‬ ‫אבל‬ ,(...‫בחדו“א‬ ‫שלמדנו‬ ‫מה‬
‫עם‬ ‫בפונקציה‬ ‫הרעיון‬ ‫את‬ ‫נבין‬ ‫כך‬ ‫לשם‬ ‫אבל‬ ,(∇) ‫בגרדיאנט‬ ‫נעזרים‬ ‫אנחנו‬ ‫כך‬ ‫ולשם‬ ,‫ומסובך‬ ‫קשה‬
:‫אחד‬ ‫משתנה‬
:y = x2 :‫הפונקציה‬ ‫את‬ ‫ניקח‬ :‫למשל‬ .‫בפונקציה‬ ‫השינוי‬ ‫מה‬ ‫לנו‬ ‫מראה‬ ‫נגזרת‬
x
y
x2
‫להגיע‬ ‫ניתן‬ (‫למשל‬ ‫השחורות‬ ‫)הנקודות‬ ‫אחרת‬ ‫נקודה‬ ‫ומכל‬ (0, 0)-‫ב‬ ‫נמצא‬ ‫כאן‬ ‫המינימום‬ ‫כי‬ ‫לב‬ ‫נשים‬
:‫יתקיים‬ ‫בהכרח‬ ,‫למינימום‬ ‫נגיע‬ ‫כאשר‬ ‫אבל‬ ,∆y < 0-‫ש‬ ‫כלומר‬ ,(‫יורדת‬ ‫)פונקציה‬ ‫ירידה‬ ‫של‬ ‫בצורה‬
.∆y ≥ 0
:‫הבא‬ ‫באופן‬ ‫מוגדר‬ ‫להיות‬ ‫יכול‬ ∆y
∆y =
dy
dx
· ∆x
.‫מהם‬ ‫אחד‬ ‫כל‬ ‫להיות‬ ‫יכול‬ τ ‫אזי‬ ,2-‫מ‬ ‫משתנים‬ ‫יותר‬ ‫ישנם‬ ‫שאם‬ ,‫כמובן‬1
2
‫וקטורים‬ 2
.‫הפונקציה‬ ‫של‬ ‫הנגזרת‬ ‫זוהי‬ dy
dx ‫כאשר‬
‫נקודה‬ ‫באותה‬ ‫הפונקציה‬ ‫של‬ ‫הנגזרת‬ ‫הוא‬ y-‫ב‬ ‫השינוי‬
‫במינימום‬ ‫שאנחנו‬ ‫נדע‬ ,‫כזה‬ ‫נמצא‬ ‫שלא‬ ‫ברגע‬ ,∆y < 0 ‫הזמן‬ ‫כל‬ ‫מחפשים‬ ‫אנחנו‬ ,‫אחרות‬ ‫במילים‬
.(‫)מקומי‬
‫משתנים‬ ‫רבת‬ ‫בפונקציה‬ ‫מקומי‬ ‫מינימום‬ 1.4.1
?‫משנים‬ ‫הרבה‬ ‫עם‬ ‫פונקציה‬ ‫לנו‬ ‫יש‬ ‫כאשר‬ ‫קורה‬ ‫מה‬ ‫אבל‬ ,‫אחד‬ ‫משתנה‬ ‫עבור‬ ‫נכון‬ ‫כאן‬ ‫שראינו‬ ‫מה‬
:‫אזי‬ ,‫המשתנים‬ ‫וקטור‬ ‫הוא‬ x-‫ו‬ y (x1, x2, . . . xn) :‫היא‬ ‫הפונקציה‬ ‫כי‬ ‫נניח‬
∆y = ∇y · ∆x
.‫וקטורים‬ ‫מכפלת‬ ‫הוא‬ ∇y · ∆n ‫אזי‬ , ‫הנגזרות‬ ‫וקטור‬ ‫הוא‬ (∇) ‫והגרדיאנט‬ ‫היות‬
‫וקטורים‬ 2
‫וקטורים‬ ‫מכפלת‬ 2.1
.(a1, a2, . . . , an) ‫ע“י‬ ‫מוצג‬ n ‫באורך‬ a ‫וקטור‬
:‫הבא‬ ‫באופן‬ ‫מוגדרת‬ ,(n ‫)באורך‬ a · b ‫וקטורים‬ ‫שני‬ ‫של‬ ‫מכפלה‬
n
∑
j=1
aj · bj = a1 · b1 + · · · + an · bn
:‫ע“י‬ ‫בקיצור‬ ‫זאת‬ ‫נרשום‬
a · b
∥v∥ :‫וקטור‬ ‫של‬ ‫אורך‬ 2.2
:‫כך‬ ‫מחושב‬ ‫והוא‬ v ‫הוקטור‬ ‫של‬ ‫האורך‬ ‫פירושו‬ ∥v∥ :‫אזי‬ ,v ‫וקטור‬ ‫לנו‬ ‫נתון‬
v = (v1, . . . , vn)
∥v∥ =
√
v2
1 + v2
2 + · · · + v2
n
3
‫וקטורים‬ 2
‫וקטור‬ ‫של‬ ‫היפוך‬ 2.3
‫עצמו‬ ‫כפול‬ ‫וקטור‬ 2.2.1
:‫אזי‬ ,v ‫וקטור‬ ‫לנו‬ ‫נתון‬ ‫אם‬
v · v = v2
1 + · · · + v2
n = ∥v∥2
‫וקטור‬ ‫של‬ ‫היפוך‬ 2.3
:‫אזי‬ ,v = (0, 1, 0, 0) ‫כי‬ ‫ננית‬
vT
=




0
1
0
0




.(‫כמובן‬ ‫)וההפך‬ ‫לשורה‬ ‫עמודה‬ ‫וקטור‬ ‫לנו‬ ‫הופך‬ T ,‫כלומר‬
4
‫בסיסיים‬ ‫מושגים‬ 3
II ‫חלק‬
‫עמוקה‬ ‫למידה‬
‫בסיסיים‬ ‫מושגים‬ 3
.‫הפרספטרון‬ ‫הוא‬ ‫הבסיסי‬ ‫המבנה‬ ,‫העמוקה‬ ‫הלמידה‬ ‫מתבססת‬ ‫מה‬ ‫על‬ ‫נבין‬ ‫כעת‬
‫פרספטרון‬ 3.1
‫נוירון‬ 3.1.1
‫משקל‬ ‫יש‬ ‫מקבלת‬ ‫שהיא‬ ‫קלט‬ ‫ולכל‬ x1, . . . , xn ‫קלטים‬ ‫מקבלת‬ ‫אשר‬ ,‫הבסיסית‬ ‫היחידה‬ ‫זאת‬ ,‫הנוירון‬
:(‫נוירון‬ ‫לאותו‬ ‫שמתחברות‬ ‫הקשתות‬ ‫על‬ ‫הוא‬ ‫)המשקל‬ w1, . . . , wn
x2
x1
x3
B 0/1
w
1
w2
w
3
:‫הבאה‬ ‫לפונקציה‬ ‫בהתאם‬ 0 ‫או‬ 1 ‫פלט‬ ‫לתת‬ ‫אם‬ “‫”מחליט‬ ‫אשר‬ B ‫חסם‬ ‫קיים‬ ‫נוירון‬ ‫לכל‬
5
‫בסיסיים‬ ‫מושגים‬ 3
‫פרספטרון‬ 3.1
:‫הפלט‬ ‫את‬ ‫נותן‬ ‫הוא‬ ‫הבאה‬ ‫לפונקציה‬ ‫בהתאם‬
output =
{
0 x · w < B
1 x · w ≥ B
.‫וקטורים‬ ‫מכפלת‬ ‫זוהי‬ x · w ‫ולכן‬ n ‫בגודל‬ ‫וקטורים‬ ‫הם‬ x-‫ו‬ w .1 ‫הערה‬
‫ניתן‬ ‫והיה‬ ‫הגדרה‬ ‫של‬ ‫עניין‬ ‫שזה‬ ‫כמובן‬ .2 ‫הערה‬
.1 ‫או‬ 0 ‫נקבל‬ ‫מקרה‬ ‫בכל‬
-
:‫נורונים‬ ‫רשת‬ - ‫אחרות‬ ‫במילים‬ ‫או‬ ,‫נוירונים‬ ‫של‬ ‫שילוב‬ ‫בעצם‬ ‫הוא‬ (perceptron) ‫הפרספטרון‬
.(‫שלו‬ ‫)המשקל‬ w ‫בסקלר‬ ‫אליו‬ ‫שנכנס‬ ‫הקלטים‬ ‫וקטור‬ ‫את‬ ‫כופלים‬ ‫אנחנו‬ ‫נוירון‬ ‫כל‬ ‫עבור‬
x1
x2
x3
x4
x5 0/1
w1
w3
w2
w4
(‫בהמשך‬ ‫נדבר‬ ‫זה‬ ‫)ועל‬ ‫פלטים‬ ‫יותר‬ ,‫קלטים‬ ‫יותר‬ ,‫להיות‬ ‫שיכולים‬ ‫כמובן‬ ‫אבל‬ ,‫פשוטה‬ ‫דוגמה‬ ‫רק‬ ‫זאת‬
.(‫גרף‬ ‫של‬ ‫עומק‬ ‫של‬ ‫במובן‬ ,“‫עמוקה‬ ‫”למידה‬ ‫נקראת‬ ‫זאת‬ ‫)לכן‬ ‫לבין‬ ‫בין‬ ‫שכבות‬ ‫ויותר‬
‫יותר‬ ‫מורכבת‬ ‫דוגמה‬ 3.1.2
:‫יותר‬ ‫מורכבת‬ ‫דוגמה‬ ‫על‬ ‫נסתכל‬ ‫כעת‬
x1
x2
x3
x4
x5
x6
x7
0/1
0/1
w1
w2
w
3
w
4
w5
w6
w7
w
8
w9
w10
w
1
1
w12
6
‫בסיסיים‬ ‫מושגים‬ 3
‫סיגמואיד‬ 3.2
:‫חשובים‬ ‫דברים‬ ‫לכמה‬ ‫לב‬ ‫לשים‬ ‫כדי‬
‫מהם‬ ‫אחד‬ ‫וכל‬ ‫זהים‬ ‫הם‬ ‫אזי‬ ,(‫פלטים‬ ‫שלושה‬ ,‫)כלומר‬ ‫חצים‬ ‫שלושה‬ ‫שלושה‬ ‫יוצאים‬ w1-‫שמ‬ ‫אפילו‬ .1
.‫מחובר‬ ‫הוא‬ ‫שאליו‬ ‫הנוירון‬ ‫עבור‬ ‫קלט‬ ‫להיות‬ ‫הופך‬
.(w4, w5-‫ל‬ ‫קלט‬ ‫נותן‬ w3 :‫)למשל‬ .‫נוירונים‬ ‫למספר‬ ‫מחובר‬ ‫שיהיו‬ ‫אחד‬ ‫קלט‬ ‫גם‬ ‫להיות‬ ‫יכול‬ .2
‫כפלט‬ ‫לתת‬ ‫אם‬ ‫מחליט‬ ‫הוא‬ ‫הפלט‬ ‫פונקציית‬ ‫שלפי‬ ,B ‫חסם‬ ‫קיים‬ (‫ים‬-x-‫)ה‬ ‫מהנוירונים‬ ‫אחד‬ ‫לכל‬ .3
.1 ‫או‬ 0
?‫המטרה‬ ‫מה‬ 3.1.3
‫)נניח‬ ‫מסוים‬ ‫פלט‬ ‫נקבל‬ ‫מסוימים‬ ‫קלטים‬ ‫שעבור‬ ‫רוצים‬ ‫אנחנו‬ ,‫כלומר‬ ,‫לסווג‬ ‫בעצם‬ ‫היא‬ ‫שלנו‬ ‫המטרה‬
‫שנרצה‬ ‫מה‬ ‫את‬ ‫לנו‬ ‫ייתן‬ ‫תמיד‬ ‫לא‬ ‫שזה‬ ‫הוא‬ ‫העניין‬ ,(1 ‫)נניח‬ ‫אחר‬ ‫פלט‬ ‫נקבל‬ ‫מסוימים‬ ‫פלטים‬ ‫ועבור‬ (0
.‫הרצויה‬ ‫התוצאה‬ ‫את‬ ‫שנקבל‬ ‫עד‬ ,B ‫החסם‬ ‫את‬ ‫או‬/‫ו‬ ‫הנוירונים‬ ‫של‬ ‫המשקלים‬ ‫את‬ ‫משנים‬ ‫אנחנו‬ - ‫ולכן‬
?(‫נסתרות‬ ‫)שכבות‬ “‫”עמוקה‬ ‫המילה‬ ‫של‬ ‫המשמעות‬ ‫מה‬ ‫אז‬ 3.1.4
.‫גרף‬ ‫של‬ ‫עומק‬ ‫כמו‬ “‫”עומק‬ ‫הוא‬ ‫כאן‬ ‫הרעיון‬
.‫פלט‬ ‫ושכבת‬ ,‫נסתרות‬ ‫שכבות‬ ,‫קלט‬ ‫שכבת‬ :‫חלקים‬ ‫שלושה‬ ‫ישנם‬
x1
x2
x3
x4
x5
x6
x7
0/1
0/1
.‫הקלט‬ ‫שכבת‬ ‫זוהי‬ ‫בכחול‬
.‫הפלט‬ ‫שכבת‬ ‫זוהי‬ ‫בירוק‬
.‫הנסתרות‬ ‫השכבות‬ ‫אלו‬ - ‫באדום‬ (...‫כמובן‬ ‫מאחת‬ ‫יותר‬ ‫להיות‬ ‫)יכולה‬ ‫השכבות‬ ‫השאר‬ ‫כל‬
‫סיגמואיד‬ 3.2
:‫עיקריים‬ ‫הבדלים‬ ‫שני‬ ‫יש‬ ‫שכאן‬ ‫רק‬ ,‫פרספטרון‬-‫ה‬ ‫של‬ ‫כמו‬ ‫הוא‬ ‫הסיגמואיד‬ ‫של‬ ‫הרעיון‬
0.4, 0.235... :‫כמו‬ ‫מספרים‬ ‫להיות‬ ‫יכולים‬ ‫הם‬ ,‫כלומר‬ .1-‫ל‬ 0 ‫בין‬ ‫להיות‬ ‫יכולים‬ ‫והפלט‬ ‫הקלט‬ .1
.'‫וכו‬
,‫אגף‬ B ‫את‬ ‫נעביר‬ ‫אנחנו‬ [‫]למשל‬ x · w ≤ B ‫שבמקום‬ ‫רק‬ ,‫החסם‬ ‫בעצם‬ ‫)שהיא‬ b ‫הטיה‬ ‫ישנה‬ .2
.(x · w + b ≤ 0 :b ‫ההטיה‬ ‫תהיה‬ ‫וזאת‬ (−1)-‫ב‬ ‫אותו‬ ‫ונכפול‬
7
‫בסיסיים‬ ‫מושגים‬ 3
‫סיגמואיד‬ 3.2
‫הסיגמואיד‬ ‫פונקציית‬ 3.2.1
:‫הבאה‬ ‫הפונקציה‬ ‫היא‬ ‫הסיגמואיד‬ ‫פונקציית‬
σ (z) =
1
1 + e−z
:‫הנ“ל‬ ‫הפונקציה‬ ‫של‬ ‫הגרף‬ ‫על‬ ‫נסתכל‬ ‫כעת‬
−4 −2 0 2 4
0.2
0.4
0.6
0.8
z
σ(z)
:‫כן‬-‫וכמו‬ ,σ (0) = 1
2 ‫מקבלים‬ ‫אנחנו‬ z = 0-‫ב‬ ‫כי‬ ‫לב‬ ‫נשים‬
.(σ (10) = 0.999954...) σ (z) = 1 ‫אזי‬ z → ∞ ‫כאשר‬ •
.(σ (−10) = 0.000045...) σ (z) = 0 ‫אזי‬ z → −∞ ‫כאשר‬ •
. w · x + b :‫את‬ ‫זה‬ ‫הפונקציה‬ ‫לתוך‬ ‫מציבים‬ ‫שאנחנו‬ ‫מה‬
‫שכל‬ (‫הנכון‬ ‫הפלט‬ ‫שיצא‬ ‫כך‬ ‫הערכים‬ ‫את‬ ‫להתאים‬ ‫שנוכל‬ ‫)כדי‬ ‫שיקרה‬ ‫רוצים‬ ‫שהיינו‬ ‫מה‬
.‫בפלט‬ ‫קטן‬ ‫שינוי‬ ‫ייתן‬ (‫משקלים‬/‫)בקלט‬ ‫בנתונים‬ ‫קטן‬ ‫שינוי‬
.‫יותר‬ ‫לחלק‬ ‫השינוי‬ ‫את‬ ‫הופכת‬ .‫עושה‬ σ-‫ש‬ ‫מה‬ ‫זה‬ ‫ואכן‬
:‫הבא‬ ‫באופן‬ ‫השינוי‬ ‫את‬ ‫להעריך‬ ‫ניתן‬
∆output ≈
∑
j
∂output
∂wj
∆wj +
∂output
∂b
∆b
8
‫בגרדיאנט‬ ‫שימוש‬ ‫ע“י‬ ‫לימוד‬ 4
‫בגרדיאנט‬ ‫שימוש‬ ‫ע“י‬ ‫לימוד‬ 4
‫העלות‬ ‫פונקציית‬ ‫של‬ ‫המינימום‬ ‫מציאת‬ 4.1
‫שיתנו‬ ‫כך‬ ‫וההטיה‬ ‫המשקלים‬ ‫את‬ ‫להתאים‬ ‫כדי‬ (∇) ‫הגרדיאנט‬ ‫תכונות‬ ‫את‬ ‫לנצל‬ ‫ניתן‬ ‫כיצד‬ ‫נלמד‬ ‫כעת‬
.‫לרצוי‬ ‫קרוב‬ ‫פלט‬ ‫לנו‬
:‫סימונים‬
‫משמעות‬ ‫סימון‬
(‫הקלטים‬ ‫)או‬ ‫הקלט‬ x
‫מהרשת‬ ‫הרצוי‬ ‫הפלט‬ y (x)
‫הרשת‬ ‫של‬ ‫בפועל‬ ‫הפלט‬ a
‫היות‬ ,‫כאן‬ ‫וקטור‬ ‫הוא‬ b ‫גם‬ .(‫פלטים‬ ‫מספר‬ ‫ויש‬ ‫)במידה‬ ‫הפלט‬ ‫של‬ ‫וקטורים‬ ‫הם‬ ‫אלו‬ y (x) , a :‫הערה‬
‫ולכן‬ (‫שלו‬ ‫ההטיה‬ ‫את‬ ‫יש‬ ‫נוירון‬ ‫לכל‬ ‫)כי‬ ‫אחת‬ ‫מהטיה‬ ‫יותר‬ ‫גם‬ ‫לנו‬ ‫יש‬ ‫אזי‬ ‫אחד‬ ‫מנוירון‬ ‫יותר‬ ‫לנו‬ ‫יש‬ ‫ואם‬
.‫ההטיות‬ ‫וקטור‬ ‫כאל‬ b-‫ל‬ ‫מתייחסים‬ ‫אנחנו‬
‫העלות‬ ‫פונקציית‬ 4.1.1
C (w, b) ≡
1
2n
∑
x
∥y (x) − a∥2
‫הרצויה‬ ‫לתוצאה‬ ‫יותר‬ ‫קרובים‬ ‫שאנחנו‬ ‫סימן‬ C (w, b) ≈ 0-‫ש‬ ‫ככל‬ ‫עלות‬ ‫פונקציית‬ ‫שנקרא‬ ‫מה‬ ‫היא‬ C
n > 0-‫ו‬ ‫היות‬ .‫הרצויה‬ ‫מהתוצאה‬ ‫מתרחקים‬ ‫שאנחנו‬ ‫סימן‬ ‫גדל‬ C ‫של‬ ‫שערכה‬ ‫וככל‬ ,(y (x) ≈ a ‫)כי‬
.C (w, b) ≥ 0 ‫אזי‬
:‫ש‬ ‫כך‬ ‫והטיות‬ ‫משקלים‬ ‫למצוא‬ ‫הוא‬ ‫הרעיון‬
C (w, b) ≈ 0
C (w, b) ≥-‫ו‬ ‫)היות‬ ‫במינימום‬ ‫נמצאים‬ ‫שאנחנו‬ ‫לדעת‬ ‫צריכים‬ ‫אנחנו‬ C (w, b) ≈ 0-‫ל‬ ‫להגיע‬ ‫בשביל‬ ,‫כעת‬
.(0
:(1.4) ?‫מקומי‬ ‫במינימום‬ ‫שאנחנו‬ ‫נדע‬ ‫באיך‬ ‫שהוסבר‬ ‫מה‬ ‫ע“פ‬ ‫כעת‬
.(v1, . . . , vn) ‫המשתנים‬ ‫עם‬ ‫וקטור‬ ‫זה‬ v
∇C ≡
(
∂C
∂v1
, . . . ,
∂C
∂vn
)
(1)
∆C = ∇C · ∆v (2)
.C ‫של‬ (∇) ‫הגרדיאנט‬ ‫זה‬ - (1)
.(1.4.1) ‫משתנים‬ ‫רבת‬ ‫בפונקציה‬ ‫מקומי‬ ‫מינימום‬ ‫ע“פ‬ ‫זה‬ - (2)
‫מה‬ ,‫ולכן‬ ∆C < 0-‫ש‬ ‫נרצה‬ ‫אזי‬ 0-‫ל‬ ‫אותה‬ ‫לקרב‬ ‫רוצים‬ ‫ואנחנו‬ C > 0 ‫כי‬ ‫יודעים‬ ‫ואנחנו‬ ‫היות‬ ,‫כעת‬
.∆v < 0 ‫לבחור‬ ‫הוא‬ ‫לעשות‬ ‫שנצטרה‬
.‫וכיוון‬ ‫גודל‬ ‫כולל‬ v-‫ב‬ ‫שהשינוי‬ ‫נזכור‬
9
‫בגרדיאנט‬ ‫שימוש‬ ‫ע“י‬ ‫לימוד‬ 4
‫העלות‬ ‫פונקציית‬ ‫של‬ ‫המינימום‬ ‫מציאת‬ 4.1
:‫נגדיר‬ .‫הלמידה‬ ‫קצב‬ ‫את‬ ‫שיסמל‬ ‫זה‬ ‫והוא‬ ‫וקטן‬ ‫חיובי‬ η ‫נבחר‬ ‫הלמידה‬ ‫קצב‬ - η
∆v = −η · ∇C
:‫ונקבל‬ (2)-‫ב‬ ‫זה‬ ‫את‬ ‫נציב‬ ,‫כעת‬
∆C ≈ ∇C · (−η) · ∇C = −η · ∥∇C∥2
:‫ולכן‬ ∥∇C∥2
≥ 0 - ( (2.2.1)) ‫עצמו‬ ‫כפול‬ ‫וקטור‬ ‫של‬ ‫ההגדרה‬ ‫ע“פ‬ ,‫כעת‬
∆C < 0
...‫שרצינו‬ ‫מה‬ ‫בדיוק‬ ‫וזה‬ - (‫גדל‬ ‫לא‬ ‫)ולעולם‬ ‫וקטן‬ ‫הולך‬ C ,‫כלומר‬
.‫הלמידה‬ ‫קצב‬ ‫את‬ ,‫כלומר‬ - C ‫של‬ ‫הירידה‬ ‫קצב‬ ‫את‬ ‫מסמל‬ η-‫ו‬
,‫המינימום‬ ‫את‬ ‫שנפספס‬ ‫גדול‬ ‫יותר‬ ‫סיכוי‬ ‫יש‬ ‫אז‬ ‫כי‬ - ‫מדי‬ ‫גדול‬ ‫יהיה‬ η-‫ש‬ ‫אסור‬ ‫אחד‬ ‫שמצד‬ ‫לזכור‬ ‫חשוב‬
.‫זמן‬ ‫המון‬ ‫לנו‬ ‫לקחת‬ ‫יכול‬ ‫הירידה‬ ‫של‬ ‫התהליך‬ ‫כל‬ ‫אז‬ ‫כי‬ - ‫מדי‬ ‫קטן‬ ‫יהיה‬ ‫שהוא‬ ‫אסור‬ ,‫שני‬ ‫ומצד‬
:‫ואז‬ ∥∆v∥ = ϵ :‫שנגדיר‬ ‫והיא‬ ‫אופציה‬ ‫עוד‬ ‫ישנה‬ η ‫לבחירת‬ ‫נוספת‬ ‫אופציה‬
η =
ϵ
∥∇C∥
.(!‫בטוח‬ ‫גם‬ ‫)אבל‬ ‫משמעותי‬ ‫יותר‬ ‫באופן‬ C ‫את‬ ‫לנו‬ ‫ויקטין‬ ‫קבוע‬ ‫באופן‬ ‫ישתנה‬ η-‫ש‬ ‫לכך‬ ‫יגרום‬ ‫וזה‬
:‫הבא‬ ‫הכלל‬ ‫לפי‬ ‫נלך‬ ‫אזי‬ ,‫נתון‬ ‫לקצב‬ ‫בהתאם‬ ,‫שלילי‬ ‫יהיה‬ ∆v-‫ש‬ ‫רוצים‬ ‫ואנחנו‬ ‫היות‬ ‫העדכון‬ ‫כלל‬
v −→ v′
= v − η · ∇C
.v
v−η·∇C
−
−
−
−
−
→ v′ :v − η · ∇C :‫של‬ ‫בהפרש‬ v′-‫ל‬ v-‫מ‬ ‫זזים‬ ‫אנחנו‬ ,‫כלומר‬
‫הסתברותי‬ ‫גרדיאנט‬ ‫באמצעות‬ ‫ירידה‬ 4.1.2
:‫כך‬ ‫זאת‬ ‫לעשות‬ ‫נצטרך‬ ,‫עכשיו‬ ‫עד‬ ‫שלמדנו‬ ‫מה‬ ‫כל‬ ‫את‬ ‫ליישם‬ ‫ונרצה‬ ,‫העלות‬ ‫לפונקציית‬ ‫נחזור‬ ‫אם‬
:bl ‫והטיה‬ wk ‫משקל‬ ‫בכל‬ ‫נוירון‬ ‫כל‬ ‫עבור‬
wk → w′
k = wk − η
∂C
∂wk
bl → b′
l = bl − η
∂C
∂bl
10
‫בגרדיאנט‬ ‫שימוש‬ ‫ע“י‬ ‫לימוד‬ 4
‫העלות‬ ‫פונקציית‬ ‫של‬ ‫המינימום‬ ‫מציאת‬ 4.1
.‫הרצויה‬ ‫לתוצאה‬ ‫שנגיע‬ ‫עד‬ ,‫נוירון‬ ‫כל‬ ‫על‬ ,‫ושוב‬ ‫שוב‬ ‫זה‬ ‫על‬ ‫לחזור‬ ‫נוכל‬ ‫וככה‬
‫ממוצע‬ ‫וזה‬ Cx ≡ ∥y(x)−a∥2
2 ‫כאשר‬ C = 1
n
∑
x Cx :‫מהצורה‬ ‫היא‬ ‫העלות‬ ‫פונקציית‬ - ‫בעיה‬ ‫ישנה‬ ‫אבל‬
.‫אחד‬ ‫אימון‬ ‫עבור‬ ‫העלות‬
:‫הממוצע‬ ‫את‬ ‫לחשב‬ ‫ואז‬ ,x ‫קלט‬ ‫כל‬ ‫עבור‬ ∇Cx ‫את‬ ‫למצוא‬ ‫צריכים‬ ‫אנחנו‬ :∇C ‫בחישוב‬ ‫היא‬ ‫הבעיה‬
.‫הלימוד‬ ‫קצב‬ ‫את‬ ‫ומאט‬ ‫זמן‬ ‫המון‬ ‫לוקח‬ ‫זה‬ - ‫קלטים‬ ‫המון‬ ‫לנו‬ ‫יש‬ ‫וכאשר‬ ,∇C = 1
n
∑
x ·∇Cx
:‫הסתברותי‬ ‫גרדיאנט‬ ‫שנקרא‬ ‫מה‬ ‫יש‬ ‫כך‬ ‫לשם‬
‫קטן‬ ‫אשר‬ ‫מספר‬ ‫הוא‬ m ‫כאשר‬ X1, X2, . . . , Xm :‫קלטים‬ ‫של‬ ‫קבוצה‬ ‫הסתברותי‬ ‫באופן‬ ‫בוחרים‬ ‫אנחנו‬
‫ואז‬ ,(‫רוצים‬ ‫שאנחנו‬ ‫למה‬ ‫דומה‬ ‫)או‬ ‫רצויה‬ ‫תוצאה‬ ‫לנו‬ ‫שיתן‬ ‫כך‬ ‫גדול‬ ‫מספיק‬ ‫אבל‬ (m ≪ n) n-‫מ‬ ‫ממש‬
:‫כלומר‬ ,∇Cx ‫של‬ ‫לממוצע‬ ‫שווה‬ ‫יותר‬ ‫או‬ ‫פחות‬ ‫יהיה‬ ∇CXj ‫כי‬ ‫מניחים‬ ‫אנחנו‬
∑m
j=1 ∇CXj
m
≈
∑
x Cx
n
= ∇C
:‫הוא‬ ‫שנקבל‬ ‫ומה‬ ,‫שנבחרה‬ ‫הקבוצה‬-‫תת‬ - m ‫על‬ ‫רק‬ ‫נעבור‬ ‫הקלטים‬ n ‫על‬ ‫לעבור‬ ‫במקום‬ ,‫ולכן‬
∇C ≈
1
m
m
∑
j=1
∇CXj
:‫קטן‬ ‫שינוי‬ ‫עם‬ ‫רק‬ ‫העדכון‬ ‫כלל‬ ‫את‬ ‫לחשב‬ ‫נוכל‬ ‫וכעת‬
wk → w′
k = wk −
η
m
∂C
∂wk
bl → b′
l = bl −
η
m
∂C
∂bl
‫ולעשות‬ ‫הסתברותי‬ ‫באופן‬ ‫חדשה‬ ‫קלטים‬ m ‫בעלת‬ ‫קבוצה‬ ‫לבחור‬ ‫נוכל‬ ‫הזאת‬ ‫הקבוצה‬ ‫עם‬ ‫שסיימנו‬ ‫ואחרי‬
...‫לנו‬ ‫יספיק‬ ‫או‬ ‫מותשים‬ ‫שנהיה‬ ‫עד‬ ‫חלילה‬ ‫חוזר‬ ‫וכל‬ ,‫התהליך‬ ‫אותו‬ ‫את‬ ‫שוב‬ ‫לה‬
‫יודעים‬ ‫לא‬ ‫אנחנו‬ ‫כאשר‬ ‫טוב‬ ‫זה‬ - ‫העלות‬ ‫בפונקציית‬ 1
n-‫ה‬ ‫את‬ ‫שמשמיטים‬ ‫כאלו‬ ‫יש‬ ‫לפעמים‬ .3 ‫הערה‬
‫ההסתברותי‬ ‫הגרדיאנט‬ ‫בשיטת‬ ‫משתמשים‬ ‫כאשר‬ ‫קורה‬ ‫זה‬ ‫אפילו‬ ‫ולפעמים‬ ,‫לנו‬ ‫שיש‬ ‫הקלטים‬ ‫מספר‬ ‫מה‬
.η ‫על‬ ‫משפיע‬ ‫שזה‬ ‫בגלל‬ ‫בקצת‬ ‫רק‬ ‫משפיע‬ ‫זה‬ ‫בעיקרן‬ .(‫שלמעלה‬ ‫)מהנוסחאות‬ 1
m ‫את‬ ‫ומשמיטים‬
11
‫העניינים‬ ‫תוכן‬
‫העניינים‬ ‫תוכן‬
‫העניינים‬ ‫תוכן‬
1 ‫מתמטיקה‬ I
1 ‫אנליזה‬ 1
1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (∆) ‫שינוי‬ 1.1
1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (∂) ‫חלקית‬ ‫נגזרת‬ 1.2
2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (∇) ‫גרדיאנט‬ 1.3
2 . . . . . . . . . . . . . . . . . . . . . . . . . . ?‫מקומי‬ ‫במינימום‬ ‫שאנחנו‬ ‫נדע‬ ‫איך‬ 1.4
3 . . . . . . . . . . . . . . . . . . . . ‫משתנים‬ ‫רבת‬ ‫בפונקציה‬ ‫מקומי‬ ‫מינימום‬ 1.4.1
3 ‫וקטורים‬ 2
3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫וקטורים‬ ‫מכפלת‬ 2.1
3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ∥v∥ :‫וקטור‬ ‫של‬ ‫אורך‬ 2.2
4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫עצמו‬ ‫כפול‬ ‫וקטור‬ 2.2.1
4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫וקטור‬ ‫של‬ ‫היפוך‬ 2.3
5 ‫עמוקה‬ ‫למידה‬ II
5 ‫בסיסיים‬ ‫מושגים‬ 3
5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫פרספטרון‬ 3.1
5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫נוירון‬ 3.1.1
6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫יותר‬ ‫מורכבת‬ ‫דוגמה‬ 3.1.2
7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ?‫המטרה‬ ‫מה‬ 3.1.3
7 . . . . . . . . . . . ?(‫נסתרות‬ ‫)שכבות‬ “‫”עמוקה‬ ‫המילה‬ ‫של‬ ‫המשמעות‬ ‫מה‬ ‫אז‬ 3.1.4
7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫סיגמואיד‬ 3.2
8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫הסיגמואיד‬ ‫פונקציית‬ 3.2.1
9 ‫בגרדיאנט‬ ‫שימוש‬ ‫ע“י‬ ‫לימוד‬ 4
9 . . . . . . . . . . . . . . . . . . . . . . . . ‫העלות‬ ‫פונקציית‬ ‫של‬ ‫המינימום‬ ‫מציאת‬ 4.1
9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫העלות‬ ‫פונקציית‬ 4.1.1
10 . . . . . . . . . . . . . . . . . . . . . ‫הסתברותי‬ ‫גרדיאנט‬ ‫באמצעות‬ ‫ירידה‬ 4.1.2
12

Recomendados

סיכום קצר בקורס חדו"א 2 (נספח נוסחאות למבחן) por
סיכום קצר בקורס חדו"א 2 (נספח נוסחאות למבחן) סיכום קצר בקורס חדו"א 2 (נספח נוסחאות למבחן)
סיכום קצר בקורס חדו"א 2 (נספח נוסחאות למבחן) csnotes
3.4K vistas9 diapositivas
Calculus1.pdf por
Calculus1.pdfCalculus1.pdf
Calculus1.pdfcsnotes
27 vistas8 diapositivas
סיכום על מטרואידים וזרימות בגרפים por
סיכום על מטרואידים וזרימות בגרפיםסיכום על מטרואידים וזרימות בגרפים
סיכום על מטרואידים וזרימות בגרפיםcsnotes
861 vistas7 diapositivas
סיכום של הקורס כלים מתמטיים למדעי המחשב por
סיכום של הקורס כלים מתמטיים למדעי המחשבסיכום של הקורס כלים מתמטיים למדעי המחשב
סיכום של הקורס כלים מתמטיים למדעי המחשבcsnotes
1.7K vistas12 diapositivas
סיכום של הקורס אלגוריתמים por
סיכום של הקורס אלגוריתמיםסיכום של הקורס אלגוריתמים
סיכום של הקורס אלגוריתמיםcsnotes
1.2K vistas17 diapositivas
סיכום הקורס במבוא להצפנה por
סיכום הקורס במבוא להצפנהסיכום הקורס במבוא להצפנה
סיכום הקורס במבוא להצפנהcsnotes
627 vistas66 diapositivas

Más contenido relacionado

Similar a סיכום של הקרוס למידה עמוקה

אינטגרל מסוים - חזרה.pdf por
אינטגרל מסוים - חזרה.pdfאינטגרל מסוים - חזרה.pdf
אינטגרל מסוים - חזרה.pdfOmerLevi7
50 vistas10 diapositivas
סיכום על בדיקת לינאריות por
סיכום על בדיקת לינאריותסיכום על בדיקת לינאריות
סיכום על בדיקת לינאריותcsnotes
6 vistas2 diapositivas
סיכום הקורס במורכבות החישובים por
סיכום הקורס במורכבות החישוביםסיכום הקורס במורכבות החישובים
סיכום הקורס במורכבות החישוביםcsnotes
8 vistas58 diapositivas
פרק 1א חקירת פונקציה שורש por
פרק 1א חקירת  פונקציה שורשפרק 1א חקירת  פונקציה שורש
פרק 1א חקירת פונקציה שורשtelnof
10.9K vistas21 diapositivas
math por
mathmath
matheyalrav
894 vistas10 diapositivas
סיכום במורכבות החישובים por
סיכום במורכבות החישוביםסיכום במורכבות החישובים
סיכום במורכבות החישוביםcsnotes
437 vistas58 diapositivas

Similar a סיכום של הקרוס למידה עמוקה(20)

אינטגרל מסוים - חזרה.pdf por OmerLevi7
אינטגרל מסוים - חזרה.pdfאינטגרל מסוים - חזרה.pdf
אינטגרל מסוים - חזרה.pdf
OmerLevi750 vistas
סיכום על בדיקת לינאריות por csnotes
סיכום על בדיקת לינאריותסיכום על בדיקת לינאריות
סיכום על בדיקת לינאריות
csnotes6 vistas
סיכום הקורס במורכבות החישובים por csnotes
סיכום הקורס במורכבות החישוביםסיכום הקורס במורכבות החישובים
סיכום הקורס במורכבות החישובים
csnotes8 vistas
פרק 1א חקירת פונקציה שורש por telnof
פרק 1א חקירת  פונקציה שורשפרק 1א חקירת  פונקציה שורש
פרק 1א חקירת פונקציה שורש
telnof10.9K vistas
math por eyalrav
mathmath
math
eyalrav894 vistas
סיכום במורכבות החישובים por csnotes
סיכום במורכבות החישוביםסיכום במורכבות החישובים
סיכום במורכבות החישובים
csnotes437 vistas
מבני נתונים por csnotes
מבני נתוניםמבני נתונים
מבני נתונים
csnotes21 vistas
סיכום הקורס במבנים אלגבריים por csnotes
סיכום הקורס במבנים אלגברייםסיכום הקורס במבנים אלגבריים
סיכום הקורס במבנים אלגבריים
csnotes2K vistas
2013 winter 807 a por bagrutonline
2013 winter 807 a2013 winter 807 a
2013 winter 807 a
bagrutonline2.4K vistas
805 - winter 2014 por bagrutonline
 805 - winter 2014  805 - winter 2014
805 - winter 2014
bagrutonline4.5K vistas
אינטגרל כפול.pdf por OmerLevi7
אינטגרל כפול.pdfאינטגרל כפול.pdf
אינטגרל כפול.pdf
OmerLevi794 vistas
802 - 1 summer 2013 a por bagrutonline
802 - 1 summer 2013 a802 - 1 summer 2013 a
802 - 1 summer 2013 a
bagrutonline292 vistas
806 - winter 2014 por bagrutonline
806 - winter 2014806 - winter 2014
806 - winter 2014
bagrutonline7.6K vistas
סיכום הקורס בחישוביות por csnotes
סיכום הקורס בחישוביותסיכום הקורס בחישוביות
סיכום הקורס בחישוביות
csnotes1.7K vistas
אינטגרל כפול - תרגול.pdf por OmerLevi7
אינטגרל כפול - תרגול.pdfאינטגרל כפול - תרגול.pdf
אינטגרל כפול - תרגול.pdf
OmerLevi734 vistas
סיכום קצר של הקורס במבני נתונים por csnotes
סיכום קצר של הקורס במבני נתוניםסיכום קצר של הקורס במבני נתונים
סיכום קצר של הקורס במבני נתונים
csnotes4.6K vistas
1/X פרק 1א חקירת פונקציה רציונלית por telnof
 1/X פרק 1א  חקירת פונקציה רציונלית  1/X פרק 1א  חקירת פונקציה רציונלית
1/X פרק 1א חקירת פונקציה רציונלית
telnof12.1K vistas
סיכום בתחשיב היחסים por csnotes
סיכום בתחשיב היחסיםסיכום בתחשיב היחסים
סיכום בתחשיב היחסים
csnotes27 vistas

Más de csnotes

סיכום הקורס באבטחת מידע por
סיכום הקורס באבטחת מידעסיכום הקורס באבטחת מידע
סיכום הקורס באבטחת מידעcsnotes
43 vistas41 diapositivas
סיכום הקורס בבינה מלאכותית por
סיכום הקורס בבינה מלאכותיתסיכום הקורס בבינה מלאכותית
סיכום הקורס בבינה מלאכותיתcsnotes
42 vistas17 diapositivas
נספח תזכורות מלוגיקה בולאנית por
נספח תזכורות מלוגיקה בולאניתנספח תזכורות מלוגיקה בולאנית
נספח תזכורות מלוגיקה בולאניתcsnotes
11 vistas1 diapositiva
סיכום הקורס בחישוביות ומורכבות החישובים por
סיכום הקורס בחישוביות ומורכבות החישוביםסיכום הקורס בחישוביות ומורכבות החישובים
סיכום הקורס בחישוביות ומורכבות החישוביםcsnotes
58 vistas39 diapositivas
סיכום בלוגיקה por
סיכום בלוגיקהסיכום בלוגיקה
סיכום בלוגיקהcsnotes
23 vistas8 diapositivas
סיכום של הקורס אוטומטים ושפות פורמליות por
סיכום של הקורס אוטומטים ושפות פורמליותסיכום של הקורס אוטומטים ושפות פורמליות
סיכום של הקורס אוטומטים ושפות פורמליותcsnotes
25 vistas31 diapositivas

Más de csnotes(13)

סיכום הקורס באבטחת מידע por csnotes
סיכום הקורס באבטחת מידעסיכום הקורס באבטחת מידע
סיכום הקורס באבטחת מידע
csnotes43 vistas
סיכום הקורס בבינה מלאכותית por csnotes
סיכום הקורס בבינה מלאכותיתסיכום הקורס בבינה מלאכותית
סיכום הקורס בבינה מלאכותית
csnotes42 vistas
נספח תזכורות מלוגיקה בולאנית por csnotes
נספח תזכורות מלוגיקה בולאניתנספח תזכורות מלוגיקה בולאנית
נספח תזכורות מלוגיקה בולאנית
csnotes11 vistas
סיכום הקורס בחישוביות ומורכבות החישובים por csnotes
סיכום הקורס בחישוביות ומורכבות החישוביםסיכום הקורס בחישוביות ומורכבות החישובים
סיכום הקורס בחישוביות ומורכבות החישובים
csnotes58 vistas
סיכום בלוגיקה por csnotes
סיכום בלוגיקהסיכום בלוגיקה
סיכום בלוגיקה
csnotes23 vistas
סיכום של הקורס אוטומטים ושפות פורמליות por csnotes
סיכום של הקורס אוטומטים ושפות פורמליותסיכום של הקורס אוטומטים ושפות פורמליות
סיכום של הקורס אוטומטים ושפות פורמליות
csnotes25 vistas
ModProg.pdf por csnotes
ModProg.pdfModProg.pdf
ModProg.pdf
csnotes15 vistas
סיכום הקורס בבינה מלאכותית por csnotes
סיכום הקורס בבינה מלאכותיתסיכום הקורס בבינה מלאכותית
סיכום הקורס בבינה מלאכותית
csnotes618 vistas
סיכום של הקורס אוטומטים ושפות פורמליות por csnotes
סיכום של הקורס אוטומטים ושפות פורמליותסיכום של הקורס אוטומטים ושפות פורמליות
סיכום של הקורס אוטומטים ושפות פורמליות
csnotes5.4K vistas
סיכום קצר בקורס "מבוא לתאוריה של מדעי המחשב por csnotes
סיכום קצר בקורס "מבוא לתאוריה של מדעי המחשבסיכום קצר בקורס "מבוא לתאוריה של מדעי המחשב
סיכום קצר בקורס "מבוא לתאוריה של מדעי המחשב
csnotes962 vistas
נספחון קצר בתורת הקבוצות por csnotes
נספחון קצר בתורת הקבוצותנספחון קצר בתורת הקבוצות
נספחון קצר בתורת הקבוצות
csnotes996 vistas
סיכום קצר של אלגברה לינארית ב' por csnotes
סיכום קצר של אלגברה לינארית ב'סיכום קצר של אלגברה לינארית ב'
סיכום קצר של אלגברה לינארית ב'
csnotes5.7K vistas
נספח נוסחאות אלגברה לינארית por csnotes
נספח נוסחאות אלגברה לינאריתנספח נוסחאות אלגברה לינארית
נספח נוסחאות אלגברה לינארית
csnotes5.7K vistas

סיכום של הקרוס למידה עמוקה

  • 1. ‫אנליזה‬ 1 ‫עמוקה‬ ‫למידה‬ - ‫סיכום‬ ...‫בסוף‬ ‫עניינים‬ ‫תוכן‬ I ‫חלק‬ ‫מתמטיקה‬ ‫אנליזה‬ 1 (∆) ‫שינוי‬ 1.1 .∆-‫ב‬ ‫זאת‬ ‫נסמן‬ ,(‫)למשל‬ ‫משתנה‬ ‫של‬ ‫שינוי‬ ‫לסמן‬ ‫נרצה‬ ‫כאשר‬ :‫אזי‬ ,6-‫ל‬ ‫ערכו‬ ‫את‬ ‫נשנה‬ ‫ואז‬ ,x = 8 ‫כי‬ ‫נגיד‬ :‫למשל‬ x1 = 8, x2 = 6 ∆x = x1 − x2 = 2 ‫זה‬ ‫לזכור‬ ‫שחשוב‬ ‫מה‬ ‫אבל‬ .‫אחת‬ ‫דרך‬ ‫רק‬ ‫וזאת‬ ,‫שינוי‬ ‫להגיד‬ ‫דרכים‬ ‫הרבה‬ ‫שישנן‬ ‫כמובן‬ :‫הערה‬ .‫עבר‬ ‫שהוא‬ ‫לשינוי‬ ‫היא‬ ‫הכוונה‬ - ‫משהו‬ ‫ליד‬ ∆ ‫דלתא‬ ‫האות‬ ‫את‬ ‫רואים‬ ‫שכשאר‬ (∂) ‫חלקית‬ ‫נגזרת‬ 1.2 ‫הפונקציה‬ ‫זאת‬ y ‫כאשר‬ dy dx -‫ב‬ ‫זאת‬ ‫מסמנים‬ ‫אנחנו‬ ,‫אחד‬ ‫משתנה‬ ‫עם‬ y ‫פונקציה‬ ‫גוזרים‬ ‫אנחנו‬ ‫כאשר‬ .‫המשתנה‬ ‫הוא‬ x-‫ו‬ 1
  • 2. ‫אנליזה‬ 1 (∇) ‫גרדיאנט‬ 1.3 ∂z ∂τ ‫של‬ ‫המשמעות‬ ‫אזי‬ ,z = f (x, y) = 2x2 + 3y3 :‫למשל‬ ,‫בפונקציה‬ ‫משתנים‬ ‫מספר‬ ‫ישנם‬ ‫כאשר‬ ‫אבל‬ ‫אנחנו‬ ‫הנותרים‬ ‫והמשתנים‬ 1τ ∈ {x, y} ‫כאשר‬ τ ‫המשתנה‬ ‫לפי‬ z ‫הפונקציה‬ ‫את‬ ‫גוזרים‬ ‫שאנחנו‬ ‫היא‬ :‫ולכן‬ ,‫קבועים‬ ‫כאל‬ ‫אליהם‬ ‫מתייחסים‬ ∂z ∂x = 4x, ∂z ∂y = 9y (∇) ‫גרדיאנט‬ 1.3 .‫החלקיות‬ ‫הנגזרות‬ ‫וקטור‬ ‫בעצם‬ ‫והוא‬ ∇-‫ב‬ ‫מסמנים‬ ‫אנחנו‬ ‫הגרדיאנט‬ ‫את‬ :‫אזי‬ , z = f (x, y) = 2x2 + 3y3 :‫שמקודם‬ ‫בדוגמה‬ ,‫כלומר‬ ∇f (x, y) = ( ∂z ∂x , ∂z ∂y ) = (4x, 9y) ?‫מקומי‬ ‫במינימום‬ ‫שאנחנו‬ ‫נדע‬ ‫איך‬ 1.4 ‫)זה‬ 0-‫ל‬ ‫הנגזרת‬ ‫את‬ ‫להשוות‬ ‫זה‬ ‫פונקציה‬ ‫של‬ ‫מקומי‬ ‫מינימום‬ ‫למצוא‬ ‫רוצים‬ ‫כאשר‬ ‫פשוט‬ ‫הכי‬ ,‫בעיקרון‬ ‫יותר‬ ‫הרבה‬ ‫להיות‬ ‫הופך‬ ‫כבר‬ ‫זה‬ ,‫משתנים‬ ‫הרבה‬ ‫עם‬ ‫פונקציה‬ ‫יש‬ ‫כאשר‬ ‫אבל‬ ,(...‫בחדו“א‬ ‫שלמדנו‬ ‫מה‬ ‫עם‬ ‫בפונקציה‬ ‫הרעיון‬ ‫את‬ ‫נבין‬ ‫כך‬ ‫לשם‬ ‫אבל‬ ,(∇) ‫בגרדיאנט‬ ‫נעזרים‬ ‫אנחנו‬ ‫כך‬ ‫ולשם‬ ,‫ומסובך‬ ‫קשה‬ :‫אחד‬ ‫משתנה‬ :y = x2 :‫הפונקציה‬ ‫את‬ ‫ניקח‬ :‫למשל‬ .‫בפונקציה‬ ‫השינוי‬ ‫מה‬ ‫לנו‬ ‫מראה‬ ‫נגזרת‬ x y x2 ‫להגיע‬ ‫ניתן‬ (‫למשל‬ ‫השחורות‬ ‫)הנקודות‬ ‫אחרת‬ ‫נקודה‬ ‫ומכל‬ (0, 0)-‫ב‬ ‫נמצא‬ ‫כאן‬ ‫המינימום‬ ‫כי‬ ‫לב‬ ‫נשים‬ :‫יתקיים‬ ‫בהכרח‬ ,‫למינימום‬ ‫נגיע‬ ‫כאשר‬ ‫אבל‬ ,∆y < 0-‫ש‬ ‫כלומר‬ ,(‫יורדת‬ ‫)פונקציה‬ ‫ירידה‬ ‫של‬ ‫בצורה‬ .∆y ≥ 0 :‫הבא‬ ‫באופן‬ ‫מוגדר‬ ‫להיות‬ ‫יכול‬ ∆y ∆y = dy dx · ∆x .‫מהם‬ ‫אחד‬ ‫כל‬ ‫להיות‬ ‫יכול‬ τ ‫אזי‬ ,2-‫מ‬ ‫משתנים‬ ‫יותר‬ ‫ישנם‬ ‫שאם‬ ,‫כמובן‬1 2
  • 3. ‫וקטורים‬ 2 .‫הפונקציה‬ ‫של‬ ‫הנגזרת‬ ‫זוהי‬ dy dx ‫כאשר‬ ‫נקודה‬ ‫באותה‬ ‫הפונקציה‬ ‫של‬ ‫הנגזרת‬ ‫הוא‬ y-‫ב‬ ‫השינוי‬ ‫במינימום‬ ‫שאנחנו‬ ‫נדע‬ ,‫כזה‬ ‫נמצא‬ ‫שלא‬ ‫ברגע‬ ,∆y < 0 ‫הזמן‬ ‫כל‬ ‫מחפשים‬ ‫אנחנו‬ ,‫אחרות‬ ‫במילים‬ .(‫)מקומי‬ ‫משתנים‬ ‫רבת‬ ‫בפונקציה‬ ‫מקומי‬ ‫מינימום‬ 1.4.1 ?‫משנים‬ ‫הרבה‬ ‫עם‬ ‫פונקציה‬ ‫לנו‬ ‫יש‬ ‫כאשר‬ ‫קורה‬ ‫מה‬ ‫אבל‬ ,‫אחד‬ ‫משתנה‬ ‫עבור‬ ‫נכון‬ ‫כאן‬ ‫שראינו‬ ‫מה‬ :‫אזי‬ ,‫המשתנים‬ ‫וקטור‬ ‫הוא‬ x-‫ו‬ y (x1, x2, . . . xn) :‫היא‬ ‫הפונקציה‬ ‫כי‬ ‫נניח‬ ∆y = ∇y · ∆x .‫וקטורים‬ ‫מכפלת‬ ‫הוא‬ ∇y · ∆n ‫אזי‬ , ‫הנגזרות‬ ‫וקטור‬ ‫הוא‬ (∇) ‫והגרדיאנט‬ ‫היות‬ ‫וקטורים‬ 2 ‫וקטורים‬ ‫מכפלת‬ 2.1 .(a1, a2, . . . , an) ‫ע“י‬ ‫מוצג‬ n ‫באורך‬ a ‫וקטור‬ :‫הבא‬ ‫באופן‬ ‫מוגדרת‬ ,(n ‫)באורך‬ a · b ‫וקטורים‬ ‫שני‬ ‫של‬ ‫מכפלה‬ n ∑ j=1 aj · bj = a1 · b1 + · · · + an · bn :‫ע“י‬ ‫בקיצור‬ ‫זאת‬ ‫נרשום‬ a · b ∥v∥ :‫וקטור‬ ‫של‬ ‫אורך‬ 2.2 :‫כך‬ ‫מחושב‬ ‫והוא‬ v ‫הוקטור‬ ‫של‬ ‫האורך‬ ‫פירושו‬ ∥v∥ :‫אזי‬ ,v ‫וקטור‬ ‫לנו‬ ‫נתון‬ v = (v1, . . . , vn) ∥v∥ = √ v2 1 + v2 2 + · · · + v2 n 3
  • 4. ‫וקטורים‬ 2 ‫וקטור‬ ‫של‬ ‫היפוך‬ 2.3 ‫עצמו‬ ‫כפול‬ ‫וקטור‬ 2.2.1 :‫אזי‬ ,v ‫וקטור‬ ‫לנו‬ ‫נתון‬ ‫אם‬ v · v = v2 1 + · · · + v2 n = ∥v∥2 ‫וקטור‬ ‫של‬ ‫היפוך‬ 2.3 :‫אזי‬ ,v = (0, 1, 0, 0) ‫כי‬ ‫ננית‬ vT =     0 1 0 0     .(‫כמובן‬ ‫)וההפך‬ ‫לשורה‬ ‫עמודה‬ ‫וקטור‬ ‫לנו‬ ‫הופך‬ T ,‫כלומר‬ 4
  • 5. ‫בסיסיים‬ ‫מושגים‬ 3 II ‫חלק‬ ‫עמוקה‬ ‫למידה‬ ‫בסיסיים‬ ‫מושגים‬ 3 .‫הפרספטרון‬ ‫הוא‬ ‫הבסיסי‬ ‫המבנה‬ ,‫העמוקה‬ ‫הלמידה‬ ‫מתבססת‬ ‫מה‬ ‫על‬ ‫נבין‬ ‫כעת‬ ‫פרספטרון‬ 3.1 ‫נוירון‬ 3.1.1 ‫משקל‬ ‫יש‬ ‫מקבלת‬ ‫שהיא‬ ‫קלט‬ ‫ולכל‬ x1, . . . , xn ‫קלטים‬ ‫מקבלת‬ ‫אשר‬ ,‫הבסיסית‬ ‫היחידה‬ ‫זאת‬ ,‫הנוירון‬ :(‫נוירון‬ ‫לאותו‬ ‫שמתחברות‬ ‫הקשתות‬ ‫על‬ ‫הוא‬ ‫)המשקל‬ w1, . . . , wn x2 x1 x3 B 0/1 w 1 w2 w 3 :‫הבאה‬ ‫לפונקציה‬ ‫בהתאם‬ 0 ‫או‬ 1 ‫פלט‬ ‫לתת‬ ‫אם‬ “‫”מחליט‬ ‫אשר‬ B ‫חסם‬ ‫קיים‬ ‫נוירון‬ ‫לכל‬ 5
  • 6. ‫בסיסיים‬ ‫מושגים‬ 3 ‫פרספטרון‬ 3.1 :‫הפלט‬ ‫את‬ ‫נותן‬ ‫הוא‬ ‫הבאה‬ ‫לפונקציה‬ ‫בהתאם‬ output = { 0 x · w < B 1 x · w ≥ B .‫וקטורים‬ ‫מכפלת‬ ‫זוהי‬ x · w ‫ולכן‬ n ‫בגודל‬ ‫וקטורים‬ ‫הם‬ x-‫ו‬ w .1 ‫הערה‬ ‫ניתן‬ ‫והיה‬ ‫הגדרה‬ ‫של‬ ‫עניין‬ ‫שזה‬ ‫כמובן‬ .2 ‫הערה‬ .1 ‫או‬ 0 ‫נקבל‬ ‫מקרה‬ ‫בכל‬ - :‫נורונים‬ ‫רשת‬ - ‫אחרות‬ ‫במילים‬ ‫או‬ ,‫נוירונים‬ ‫של‬ ‫שילוב‬ ‫בעצם‬ ‫הוא‬ (perceptron) ‫הפרספטרון‬ .(‫שלו‬ ‫)המשקל‬ w ‫בסקלר‬ ‫אליו‬ ‫שנכנס‬ ‫הקלטים‬ ‫וקטור‬ ‫את‬ ‫כופלים‬ ‫אנחנו‬ ‫נוירון‬ ‫כל‬ ‫עבור‬ x1 x2 x3 x4 x5 0/1 w1 w3 w2 w4 (‫בהמשך‬ ‫נדבר‬ ‫זה‬ ‫)ועל‬ ‫פלטים‬ ‫יותר‬ ,‫קלטים‬ ‫יותר‬ ,‫להיות‬ ‫שיכולים‬ ‫כמובן‬ ‫אבל‬ ,‫פשוטה‬ ‫דוגמה‬ ‫רק‬ ‫זאת‬ .(‫גרף‬ ‫של‬ ‫עומק‬ ‫של‬ ‫במובן‬ ,“‫עמוקה‬ ‫”למידה‬ ‫נקראת‬ ‫זאת‬ ‫)לכן‬ ‫לבין‬ ‫בין‬ ‫שכבות‬ ‫ויותר‬ ‫יותר‬ ‫מורכבת‬ ‫דוגמה‬ 3.1.2 :‫יותר‬ ‫מורכבת‬ ‫דוגמה‬ ‫על‬ ‫נסתכל‬ ‫כעת‬ x1 x2 x3 x4 x5 x6 x7 0/1 0/1 w1 w2 w 3 w 4 w5 w6 w7 w 8 w9 w10 w 1 1 w12 6
  • 7. ‫בסיסיים‬ ‫מושגים‬ 3 ‫סיגמואיד‬ 3.2 :‫חשובים‬ ‫דברים‬ ‫לכמה‬ ‫לב‬ ‫לשים‬ ‫כדי‬ ‫מהם‬ ‫אחד‬ ‫וכל‬ ‫זהים‬ ‫הם‬ ‫אזי‬ ,(‫פלטים‬ ‫שלושה‬ ,‫)כלומר‬ ‫חצים‬ ‫שלושה‬ ‫שלושה‬ ‫יוצאים‬ w1-‫שמ‬ ‫אפילו‬ .1 .‫מחובר‬ ‫הוא‬ ‫שאליו‬ ‫הנוירון‬ ‫עבור‬ ‫קלט‬ ‫להיות‬ ‫הופך‬ .(w4, w5-‫ל‬ ‫קלט‬ ‫נותן‬ w3 :‫)למשל‬ .‫נוירונים‬ ‫למספר‬ ‫מחובר‬ ‫שיהיו‬ ‫אחד‬ ‫קלט‬ ‫גם‬ ‫להיות‬ ‫יכול‬ .2 ‫כפלט‬ ‫לתת‬ ‫אם‬ ‫מחליט‬ ‫הוא‬ ‫הפלט‬ ‫פונקציית‬ ‫שלפי‬ ,B ‫חסם‬ ‫קיים‬ (‫ים‬-x-‫)ה‬ ‫מהנוירונים‬ ‫אחד‬ ‫לכל‬ .3 .1 ‫או‬ 0 ?‫המטרה‬ ‫מה‬ 3.1.3 ‫)נניח‬ ‫מסוים‬ ‫פלט‬ ‫נקבל‬ ‫מסוימים‬ ‫קלטים‬ ‫שעבור‬ ‫רוצים‬ ‫אנחנו‬ ,‫כלומר‬ ,‫לסווג‬ ‫בעצם‬ ‫היא‬ ‫שלנו‬ ‫המטרה‬ ‫שנרצה‬ ‫מה‬ ‫את‬ ‫לנו‬ ‫ייתן‬ ‫תמיד‬ ‫לא‬ ‫שזה‬ ‫הוא‬ ‫העניין‬ ,(1 ‫)נניח‬ ‫אחר‬ ‫פלט‬ ‫נקבל‬ ‫מסוימים‬ ‫פלטים‬ ‫ועבור‬ (0 .‫הרצויה‬ ‫התוצאה‬ ‫את‬ ‫שנקבל‬ ‫עד‬ ,B ‫החסם‬ ‫את‬ ‫או‬/‫ו‬ ‫הנוירונים‬ ‫של‬ ‫המשקלים‬ ‫את‬ ‫משנים‬ ‫אנחנו‬ - ‫ולכן‬ ?(‫נסתרות‬ ‫)שכבות‬ “‫”עמוקה‬ ‫המילה‬ ‫של‬ ‫המשמעות‬ ‫מה‬ ‫אז‬ 3.1.4 .‫גרף‬ ‫של‬ ‫עומק‬ ‫כמו‬ “‫”עומק‬ ‫הוא‬ ‫כאן‬ ‫הרעיון‬ .‫פלט‬ ‫ושכבת‬ ,‫נסתרות‬ ‫שכבות‬ ,‫קלט‬ ‫שכבת‬ :‫חלקים‬ ‫שלושה‬ ‫ישנם‬ x1 x2 x3 x4 x5 x6 x7 0/1 0/1 .‫הקלט‬ ‫שכבת‬ ‫זוהי‬ ‫בכחול‬ .‫הפלט‬ ‫שכבת‬ ‫זוהי‬ ‫בירוק‬ .‫הנסתרות‬ ‫השכבות‬ ‫אלו‬ - ‫באדום‬ (...‫כמובן‬ ‫מאחת‬ ‫יותר‬ ‫להיות‬ ‫)יכולה‬ ‫השכבות‬ ‫השאר‬ ‫כל‬ ‫סיגמואיד‬ 3.2 :‫עיקריים‬ ‫הבדלים‬ ‫שני‬ ‫יש‬ ‫שכאן‬ ‫רק‬ ,‫פרספטרון‬-‫ה‬ ‫של‬ ‫כמו‬ ‫הוא‬ ‫הסיגמואיד‬ ‫של‬ ‫הרעיון‬ 0.4, 0.235... :‫כמו‬ ‫מספרים‬ ‫להיות‬ ‫יכולים‬ ‫הם‬ ,‫כלומר‬ .1-‫ל‬ 0 ‫בין‬ ‫להיות‬ ‫יכולים‬ ‫והפלט‬ ‫הקלט‬ .1 .'‫וכו‬ ,‫אגף‬ B ‫את‬ ‫נעביר‬ ‫אנחנו‬ [‫]למשל‬ x · w ≤ B ‫שבמקום‬ ‫רק‬ ,‫החסם‬ ‫בעצם‬ ‫)שהיא‬ b ‫הטיה‬ ‫ישנה‬ .2 .(x · w + b ≤ 0 :b ‫ההטיה‬ ‫תהיה‬ ‫וזאת‬ (−1)-‫ב‬ ‫אותו‬ ‫ונכפול‬ 7
  • 8. ‫בסיסיים‬ ‫מושגים‬ 3 ‫סיגמואיד‬ 3.2 ‫הסיגמואיד‬ ‫פונקציית‬ 3.2.1 :‫הבאה‬ ‫הפונקציה‬ ‫היא‬ ‫הסיגמואיד‬ ‫פונקציית‬ σ (z) = 1 1 + e−z :‫הנ“ל‬ ‫הפונקציה‬ ‫של‬ ‫הגרף‬ ‫על‬ ‫נסתכל‬ ‫כעת‬ −4 −2 0 2 4 0.2 0.4 0.6 0.8 z σ(z) :‫כן‬-‫וכמו‬ ,σ (0) = 1 2 ‫מקבלים‬ ‫אנחנו‬ z = 0-‫ב‬ ‫כי‬ ‫לב‬ ‫נשים‬ .(σ (10) = 0.999954...) σ (z) = 1 ‫אזי‬ z → ∞ ‫כאשר‬ • .(σ (−10) = 0.000045...) σ (z) = 0 ‫אזי‬ z → −∞ ‫כאשר‬ • . w · x + b :‫את‬ ‫זה‬ ‫הפונקציה‬ ‫לתוך‬ ‫מציבים‬ ‫שאנחנו‬ ‫מה‬ ‫שכל‬ (‫הנכון‬ ‫הפלט‬ ‫שיצא‬ ‫כך‬ ‫הערכים‬ ‫את‬ ‫להתאים‬ ‫שנוכל‬ ‫)כדי‬ ‫שיקרה‬ ‫רוצים‬ ‫שהיינו‬ ‫מה‬ .‫בפלט‬ ‫קטן‬ ‫שינוי‬ ‫ייתן‬ (‫משקלים‬/‫)בקלט‬ ‫בנתונים‬ ‫קטן‬ ‫שינוי‬ .‫יותר‬ ‫לחלק‬ ‫השינוי‬ ‫את‬ ‫הופכת‬ .‫עושה‬ σ-‫ש‬ ‫מה‬ ‫זה‬ ‫ואכן‬ :‫הבא‬ ‫באופן‬ ‫השינוי‬ ‫את‬ ‫להעריך‬ ‫ניתן‬ ∆output ≈ ∑ j ∂output ∂wj ∆wj + ∂output ∂b ∆b 8
  • 9. ‫בגרדיאנט‬ ‫שימוש‬ ‫ע“י‬ ‫לימוד‬ 4 ‫בגרדיאנט‬ ‫שימוש‬ ‫ע“י‬ ‫לימוד‬ 4 ‫העלות‬ ‫פונקציית‬ ‫של‬ ‫המינימום‬ ‫מציאת‬ 4.1 ‫שיתנו‬ ‫כך‬ ‫וההטיה‬ ‫המשקלים‬ ‫את‬ ‫להתאים‬ ‫כדי‬ (∇) ‫הגרדיאנט‬ ‫תכונות‬ ‫את‬ ‫לנצל‬ ‫ניתן‬ ‫כיצד‬ ‫נלמד‬ ‫כעת‬ .‫לרצוי‬ ‫קרוב‬ ‫פלט‬ ‫לנו‬ :‫סימונים‬ ‫משמעות‬ ‫סימון‬ (‫הקלטים‬ ‫)או‬ ‫הקלט‬ x ‫מהרשת‬ ‫הרצוי‬ ‫הפלט‬ y (x) ‫הרשת‬ ‫של‬ ‫בפועל‬ ‫הפלט‬ a ‫היות‬ ,‫כאן‬ ‫וקטור‬ ‫הוא‬ b ‫גם‬ .(‫פלטים‬ ‫מספר‬ ‫ויש‬ ‫)במידה‬ ‫הפלט‬ ‫של‬ ‫וקטורים‬ ‫הם‬ ‫אלו‬ y (x) , a :‫הערה‬ ‫ולכן‬ (‫שלו‬ ‫ההטיה‬ ‫את‬ ‫יש‬ ‫נוירון‬ ‫לכל‬ ‫)כי‬ ‫אחת‬ ‫מהטיה‬ ‫יותר‬ ‫גם‬ ‫לנו‬ ‫יש‬ ‫אזי‬ ‫אחד‬ ‫מנוירון‬ ‫יותר‬ ‫לנו‬ ‫יש‬ ‫ואם‬ .‫ההטיות‬ ‫וקטור‬ ‫כאל‬ b-‫ל‬ ‫מתייחסים‬ ‫אנחנו‬ ‫העלות‬ ‫פונקציית‬ 4.1.1 C (w, b) ≡ 1 2n ∑ x ∥y (x) − a∥2 ‫הרצויה‬ ‫לתוצאה‬ ‫יותר‬ ‫קרובים‬ ‫שאנחנו‬ ‫סימן‬ C (w, b) ≈ 0-‫ש‬ ‫ככל‬ ‫עלות‬ ‫פונקציית‬ ‫שנקרא‬ ‫מה‬ ‫היא‬ C n > 0-‫ו‬ ‫היות‬ .‫הרצויה‬ ‫מהתוצאה‬ ‫מתרחקים‬ ‫שאנחנו‬ ‫סימן‬ ‫גדל‬ C ‫של‬ ‫שערכה‬ ‫וככל‬ ,(y (x) ≈ a ‫)כי‬ .C (w, b) ≥ 0 ‫אזי‬ :‫ש‬ ‫כך‬ ‫והטיות‬ ‫משקלים‬ ‫למצוא‬ ‫הוא‬ ‫הרעיון‬ C (w, b) ≈ 0 C (w, b) ≥-‫ו‬ ‫)היות‬ ‫במינימום‬ ‫נמצאים‬ ‫שאנחנו‬ ‫לדעת‬ ‫צריכים‬ ‫אנחנו‬ C (w, b) ≈ 0-‫ל‬ ‫להגיע‬ ‫בשביל‬ ,‫כעת‬ .(0 :(1.4) ?‫מקומי‬ ‫במינימום‬ ‫שאנחנו‬ ‫נדע‬ ‫באיך‬ ‫שהוסבר‬ ‫מה‬ ‫ע“פ‬ ‫כעת‬ .(v1, . . . , vn) ‫המשתנים‬ ‫עם‬ ‫וקטור‬ ‫זה‬ v ∇C ≡ ( ∂C ∂v1 , . . . , ∂C ∂vn ) (1) ∆C = ∇C · ∆v (2) .C ‫של‬ (∇) ‫הגרדיאנט‬ ‫זה‬ - (1) .(1.4.1) ‫משתנים‬ ‫רבת‬ ‫בפונקציה‬ ‫מקומי‬ ‫מינימום‬ ‫ע“פ‬ ‫זה‬ - (2) ‫מה‬ ,‫ולכן‬ ∆C < 0-‫ש‬ ‫נרצה‬ ‫אזי‬ 0-‫ל‬ ‫אותה‬ ‫לקרב‬ ‫רוצים‬ ‫ואנחנו‬ C > 0 ‫כי‬ ‫יודעים‬ ‫ואנחנו‬ ‫היות‬ ,‫כעת‬ .∆v < 0 ‫לבחור‬ ‫הוא‬ ‫לעשות‬ ‫שנצטרה‬ .‫וכיוון‬ ‫גודל‬ ‫כולל‬ v-‫ב‬ ‫שהשינוי‬ ‫נזכור‬ 9
  • 10. ‫בגרדיאנט‬ ‫שימוש‬ ‫ע“י‬ ‫לימוד‬ 4 ‫העלות‬ ‫פונקציית‬ ‫של‬ ‫המינימום‬ ‫מציאת‬ 4.1 :‫נגדיר‬ .‫הלמידה‬ ‫קצב‬ ‫את‬ ‫שיסמל‬ ‫זה‬ ‫והוא‬ ‫וקטן‬ ‫חיובי‬ η ‫נבחר‬ ‫הלמידה‬ ‫קצב‬ - η ∆v = −η · ∇C :‫ונקבל‬ (2)-‫ב‬ ‫זה‬ ‫את‬ ‫נציב‬ ,‫כעת‬ ∆C ≈ ∇C · (−η) · ∇C = −η · ∥∇C∥2 :‫ולכן‬ ∥∇C∥2 ≥ 0 - ( (2.2.1)) ‫עצמו‬ ‫כפול‬ ‫וקטור‬ ‫של‬ ‫ההגדרה‬ ‫ע“פ‬ ,‫כעת‬ ∆C < 0 ...‫שרצינו‬ ‫מה‬ ‫בדיוק‬ ‫וזה‬ - (‫גדל‬ ‫לא‬ ‫)ולעולם‬ ‫וקטן‬ ‫הולך‬ C ,‫כלומר‬ .‫הלמידה‬ ‫קצב‬ ‫את‬ ,‫כלומר‬ - C ‫של‬ ‫הירידה‬ ‫קצב‬ ‫את‬ ‫מסמל‬ η-‫ו‬ ,‫המינימום‬ ‫את‬ ‫שנפספס‬ ‫גדול‬ ‫יותר‬ ‫סיכוי‬ ‫יש‬ ‫אז‬ ‫כי‬ - ‫מדי‬ ‫גדול‬ ‫יהיה‬ η-‫ש‬ ‫אסור‬ ‫אחד‬ ‫שמצד‬ ‫לזכור‬ ‫חשוב‬ .‫זמן‬ ‫המון‬ ‫לנו‬ ‫לקחת‬ ‫יכול‬ ‫הירידה‬ ‫של‬ ‫התהליך‬ ‫כל‬ ‫אז‬ ‫כי‬ - ‫מדי‬ ‫קטן‬ ‫יהיה‬ ‫שהוא‬ ‫אסור‬ ,‫שני‬ ‫ומצד‬ :‫ואז‬ ∥∆v∥ = ϵ :‫שנגדיר‬ ‫והיא‬ ‫אופציה‬ ‫עוד‬ ‫ישנה‬ η ‫לבחירת‬ ‫נוספת‬ ‫אופציה‬ η = ϵ ∥∇C∥ .(!‫בטוח‬ ‫גם‬ ‫)אבל‬ ‫משמעותי‬ ‫יותר‬ ‫באופן‬ C ‫את‬ ‫לנו‬ ‫ויקטין‬ ‫קבוע‬ ‫באופן‬ ‫ישתנה‬ η-‫ש‬ ‫לכך‬ ‫יגרום‬ ‫וזה‬ :‫הבא‬ ‫הכלל‬ ‫לפי‬ ‫נלך‬ ‫אזי‬ ,‫נתון‬ ‫לקצב‬ ‫בהתאם‬ ,‫שלילי‬ ‫יהיה‬ ∆v-‫ש‬ ‫רוצים‬ ‫ואנחנו‬ ‫היות‬ ‫העדכון‬ ‫כלל‬ v −→ v′ = v − η · ∇C .v v−η·∇C − − − − − → v′ :v − η · ∇C :‫של‬ ‫בהפרש‬ v′-‫ל‬ v-‫מ‬ ‫זזים‬ ‫אנחנו‬ ,‫כלומר‬ ‫הסתברותי‬ ‫גרדיאנט‬ ‫באמצעות‬ ‫ירידה‬ 4.1.2 :‫כך‬ ‫זאת‬ ‫לעשות‬ ‫נצטרך‬ ,‫עכשיו‬ ‫עד‬ ‫שלמדנו‬ ‫מה‬ ‫כל‬ ‫את‬ ‫ליישם‬ ‫ונרצה‬ ,‫העלות‬ ‫לפונקציית‬ ‫נחזור‬ ‫אם‬ :bl ‫והטיה‬ wk ‫משקל‬ ‫בכל‬ ‫נוירון‬ ‫כל‬ ‫עבור‬ wk → w′ k = wk − η ∂C ∂wk bl → b′ l = bl − η ∂C ∂bl 10
  • 11. ‫בגרדיאנט‬ ‫שימוש‬ ‫ע“י‬ ‫לימוד‬ 4 ‫העלות‬ ‫פונקציית‬ ‫של‬ ‫המינימום‬ ‫מציאת‬ 4.1 .‫הרצויה‬ ‫לתוצאה‬ ‫שנגיע‬ ‫עד‬ ,‫נוירון‬ ‫כל‬ ‫על‬ ,‫ושוב‬ ‫שוב‬ ‫זה‬ ‫על‬ ‫לחזור‬ ‫נוכל‬ ‫וככה‬ ‫ממוצע‬ ‫וזה‬ Cx ≡ ∥y(x)−a∥2 2 ‫כאשר‬ C = 1 n ∑ x Cx :‫מהצורה‬ ‫היא‬ ‫העלות‬ ‫פונקציית‬ - ‫בעיה‬ ‫ישנה‬ ‫אבל‬ .‫אחד‬ ‫אימון‬ ‫עבור‬ ‫העלות‬ :‫הממוצע‬ ‫את‬ ‫לחשב‬ ‫ואז‬ ,x ‫קלט‬ ‫כל‬ ‫עבור‬ ∇Cx ‫את‬ ‫למצוא‬ ‫צריכים‬ ‫אנחנו‬ :∇C ‫בחישוב‬ ‫היא‬ ‫הבעיה‬ .‫הלימוד‬ ‫קצב‬ ‫את‬ ‫ומאט‬ ‫זמן‬ ‫המון‬ ‫לוקח‬ ‫זה‬ - ‫קלטים‬ ‫המון‬ ‫לנו‬ ‫יש‬ ‫וכאשר‬ ,∇C = 1 n ∑ x ·∇Cx :‫הסתברותי‬ ‫גרדיאנט‬ ‫שנקרא‬ ‫מה‬ ‫יש‬ ‫כך‬ ‫לשם‬ ‫קטן‬ ‫אשר‬ ‫מספר‬ ‫הוא‬ m ‫כאשר‬ X1, X2, . . . , Xm :‫קלטים‬ ‫של‬ ‫קבוצה‬ ‫הסתברותי‬ ‫באופן‬ ‫בוחרים‬ ‫אנחנו‬ ‫ואז‬ ,(‫רוצים‬ ‫שאנחנו‬ ‫למה‬ ‫דומה‬ ‫)או‬ ‫רצויה‬ ‫תוצאה‬ ‫לנו‬ ‫שיתן‬ ‫כך‬ ‫גדול‬ ‫מספיק‬ ‫אבל‬ (m ≪ n) n-‫מ‬ ‫ממש‬ :‫כלומר‬ ,∇Cx ‫של‬ ‫לממוצע‬ ‫שווה‬ ‫יותר‬ ‫או‬ ‫פחות‬ ‫יהיה‬ ∇CXj ‫כי‬ ‫מניחים‬ ‫אנחנו‬ ∑m j=1 ∇CXj m ≈ ∑ x Cx n = ∇C :‫הוא‬ ‫שנקבל‬ ‫ומה‬ ,‫שנבחרה‬ ‫הקבוצה‬-‫תת‬ - m ‫על‬ ‫רק‬ ‫נעבור‬ ‫הקלטים‬ n ‫על‬ ‫לעבור‬ ‫במקום‬ ,‫ולכן‬ ∇C ≈ 1 m m ∑ j=1 ∇CXj :‫קטן‬ ‫שינוי‬ ‫עם‬ ‫רק‬ ‫העדכון‬ ‫כלל‬ ‫את‬ ‫לחשב‬ ‫נוכל‬ ‫וכעת‬ wk → w′ k = wk − η m ∂C ∂wk bl → b′ l = bl − η m ∂C ∂bl ‫ולעשות‬ ‫הסתברותי‬ ‫באופן‬ ‫חדשה‬ ‫קלטים‬ m ‫בעלת‬ ‫קבוצה‬ ‫לבחור‬ ‫נוכל‬ ‫הזאת‬ ‫הקבוצה‬ ‫עם‬ ‫שסיימנו‬ ‫ואחרי‬ ...‫לנו‬ ‫יספיק‬ ‫או‬ ‫מותשים‬ ‫שנהיה‬ ‫עד‬ ‫חלילה‬ ‫חוזר‬ ‫וכל‬ ,‫התהליך‬ ‫אותו‬ ‫את‬ ‫שוב‬ ‫לה‬ ‫יודעים‬ ‫לא‬ ‫אנחנו‬ ‫כאשר‬ ‫טוב‬ ‫זה‬ - ‫העלות‬ ‫בפונקציית‬ 1 n-‫ה‬ ‫את‬ ‫שמשמיטים‬ ‫כאלו‬ ‫יש‬ ‫לפעמים‬ .3 ‫הערה‬ ‫ההסתברותי‬ ‫הגרדיאנט‬ ‫בשיטת‬ ‫משתמשים‬ ‫כאשר‬ ‫קורה‬ ‫זה‬ ‫אפילו‬ ‫ולפעמים‬ ,‫לנו‬ ‫שיש‬ ‫הקלטים‬ ‫מספר‬ ‫מה‬ .η ‫על‬ ‫משפיע‬ ‫שזה‬ ‫בגלל‬ ‫בקצת‬ ‫רק‬ ‫משפיע‬ ‫זה‬ ‫בעיקרן‬ .(‫שלמעלה‬ ‫)מהנוסחאות‬ 1 m ‫את‬ ‫ומשמיטים‬ 11
  • 12. ‫העניינים‬ ‫תוכן‬ ‫העניינים‬ ‫תוכן‬ ‫העניינים‬ ‫תוכן‬ 1 ‫מתמטיקה‬ I 1 ‫אנליזה‬ 1 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (∆) ‫שינוי‬ 1.1 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (∂) ‫חלקית‬ ‫נגזרת‬ 1.2 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (∇) ‫גרדיאנט‬ 1.3 2 . . . . . . . . . . . . . . . . . . . . . . . . . . ?‫מקומי‬ ‫במינימום‬ ‫שאנחנו‬ ‫נדע‬ ‫איך‬ 1.4 3 . . . . . . . . . . . . . . . . . . . . ‫משתנים‬ ‫רבת‬ ‫בפונקציה‬ ‫מקומי‬ ‫מינימום‬ 1.4.1 3 ‫וקטורים‬ 2 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫וקטורים‬ ‫מכפלת‬ 2.1 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ∥v∥ :‫וקטור‬ ‫של‬ ‫אורך‬ 2.2 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫עצמו‬ ‫כפול‬ ‫וקטור‬ 2.2.1 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫וקטור‬ ‫של‬ ‫היפוך‬ 2.3 5 ‫עמוקה‬ ‫למידה‬ II 5 ‫בסיסיים‬ ‫מושגים‬ 3 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫פרספטרון‬ 3.1 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫נוירון‬ 3.1.1 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫יותר‬ ‫מורכבת‬ ‫דוגמה‬ 3.1.2 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ?‫המטרה‬ ‫מה‬ 3.1.3 7 . . . . . . . . . . . ?(‫נסתרות‬ ‫)שכבות‬ “‫”עמוקה‬ ‫המילה‬ ‫של‬ ‫המשמעות‬ ‫מה‬ ‫אז‬ 3.1.4 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫סיגמואיד‬ 3.2 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫הסיגמואיד‬ ‫פונקציית‬ 3.2.1 9 ‫בגרדיאנט‬ ‫שימוש‬ ‫ע“י‬ ‫לימוד‬ 4 9 . . . . . . . . . . . . . . . . . . . . . . . . ‫העלות‬ ‫פונקציית‬ ‫של‬ ‫המינימום‬ ‫מציאת‬ 4.1 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ‫העלות‬ ‫פונקציית‬ 4.1.1 10 . . . . . . . . . . . . . . . . . . . . . ‫הסתברותי‬ ‫גרדיאנט‬ ‫באמצעות‬ ‫ירידה‬ 4.1.2 12