למידה ב-Zero-shot פותרת מספר בעיות בלמידת מכונה, אבל איך זה עובד, ואיך זה הופך את AI לטוב יותר?
טייק אווי מפתח
- הכללה חיונית בלמידה עמוקה כדי להבטיח תחזיות מדויקות עם נתונים חדשים. למידה ב-Zero-shot עוזרת להשיג זאת בכך שהיא מאפשרת לבינה מלאכותית להשתמש בידע קיים כדי לבצע תחזיות מדויקות על כיתות חדשות או בלתי נראות ללא נתונים מסומנים.
- למידה ב-Zero-shot מחקה איך בני אדם לומדים ומעבדים נתונים. על ידי מתן מידע סמנטי נוסף, מודל מאומן מראש יכול לזהות במדויק כיתות חדשות, בדיוק כפי שאדם יכול ללמוד לזהות גיטרה בעלת גוף חלול על ידי הבנת המאפיינים שלה.
- למידה ב-Zero-shot משפרת את הבינה המלאכותית על ידי שיפור הכללה, מדרגיות, הפחתת התאמת יתר והיותה חסכונית. זה מאפשר להכשיר מודלים על מערכי נתונים גדולים יותר, להשיג ידע רב יותר באמצעות למידה בהעברה, לקבל הבנה טובה יותר של הקשר ולהפחית את הצורך בנתונים מסומנים נרחבים. ככל שמתקדם בינה מלאכותית, למידת זריקת אפס תהיה חשובה עוד יותר בהתמודדות עם אתגרים מורכבים בתחומים שונים.
אחת המטרות הגדולות ביותר של למידה עמוקה היא להכשיר מודלים שצברו ידע כללי. הכללה חיונית מכיוון שהיא מבטיחה שהמודל למד דפוסים משמעותיים ויכול לבצע תחזיות או החלטות מדויקות כאשר הוא מתמודד עם נתונים חדשים או בלתי נראים. אימון מודלים כאלה דורש לעתים קרובות כמות ניכרת של נתונים מסומנים. עם זאת, נתונים כאלה יכולים להיות יקרים, עתירי עבודה ולפעמים בלתי אפשריים.
למידה מסוג Zero-shot מיושמת כדי לגשר על הפער הזה, ומאפשרת לבינה מלאכותית להשתמש בידע הקיים שלה כדי לבצע תחזיות מדויקות למדי למרות היעדר נתונים מסומנים.
מהי לימוד אפס שוט?
למידה בזריקת אפס היא סוג ספציפי של טכניקת למידה בהעברה. הוא מתמקד בשימוש במודל מיומן מראש כדי לזהות כיתות חדשות או שלא נראו קודם לכן פשוט על ידי מתן מידע נוסף המתאר את הפרטים של המחלקה החדשה.
על ידי שימוש בידע הכללי של מודל בנושאים מסוימים ומתן לו סמנטיקה נוספת לגבי מה לחפש, הוא אמור להיות מסוגל לזהות די במדויק איזה נושא הוא מוטל לזהות.
נניח שאנחנו צריכים לזהות זברה. עם זאת, אין לנו מודל שיכול לזהות חיות כאלה. אז, אנחנו מקבלים מודל קיים שמאומן לזהות סוסים ולומר לדגם שסוסים עם פסים שחורים ולבנים הם זברות. כאשר אנו מתחילים להסיק את המודל על ידי מתן תמונות של זברות וסוסים, יש סיכוי טוב שהמודל יזהה כל חיה בצורה נכונה.
כמו הרבה טכניקות למידה עמוקה, למידה אפס שוט מחקה איך בני אדם לומדים ומעבדים נתונים. ידוע שבני אדם הם לומדים טבעיים של זריקת אפס. אם הוטל עליך למצוא גיטרה חלולה בחנות מוזיקה, ייתכן שתהיה לך בעיות בחיפוש אחר אחת. אבל ברגע שאני אומר לכם שגוף חלול הוא בעצם גיטרה עם חור בצורת F באחד הצדדים או בשני הצדדים, כנראה שתמצאו אחד מיד.
לדוגמא מהעולם האמיתי, בואו נשתמש באפליקציית הסיווג של אפס-shot by אתר אירוח LLM בקוד פתוח, Hugging Face באמצעות דגם clip-vit-large.
תמונה זו מציגה תמונה של לחם בשקית מכולת חגורה על כיסא גבוה. מכיוון שהדגם הוכשר על בסיס נתונים גדול של תמונות, סביר להניח שהמודל יכול לזהות כל פריט בתמונה, כגון לחם, מצרכים, כיסאות וחגורות בטיחות.
כעת, אנו רוצים שהמודל יסווג את התמונה באמצעות מחלקות שלא נראו בעבר. במקרה זה, הרומן או השיעורים הבלתי נראים יהיו "לחם רגוע", "לחם בטוח", "לחם יושב", "מכולת נהיגה" ו"מכולת בטוחה".
שים לב שהשתמשנו בכוונה במחלקות ובתמונות בלתי נפוצות כדי להדגים את היעילות של סיווג צילום אפס בתמונה.
לאחר מסקנת המודל, הוא הצליח לסווג בוודאות של כ-80% כי הסיווג המתאים ביותר עבור התמונה הייתה "לחם בטוח". זה כנראה בגלל שהדגם חושב שכסא גבוה נועד יותר לבטיחות מאשר ישיבה, הרפיה או נְהִיגָה.
מדהים! אני אישית הייתי מסכים עם הפלט של הדגם. אבל איך בדיוק הדגם הגיע עם פלט כזה? להלן סקירה כללית של איך עובדת למידה אפסית.
איך עובדת למידה ב-Zero-Shot
למידה בזריקת אפס יכולה לעזור למודל שהוכשר מראש לזהות כיתות חדשות מבלי לספק נתונים מסומנים. בצורתה הפשוטה ביותר, למידה אפס-שוט נעשית בשלושה שלבים:
1. הכנה
למידה בזריקת אפס מתחילה בהכנת שלושה סוגי נתונים
- כיתה נראית: נתונים המשמשים באימון המודל שהוכשר מראש. המודל כבר מספק שיעורים שנראו. המודלים הטובים ביותר ללמידה בזריקת אפס הם מודלים שהוכשרו בשיעורים הקשורים באופן הדוק לכיתה החדשה שאתה רוצה שהמודל יזהה.
- שיעור בלתי נראה/רומן: נתונים שמעולם לא נעשה בהם שימוש במהלך אימון המודל. תצטרך לאסוף את הנתונים האלה בעצמך מכיוון שאינך יכול לקבל זאת מהמודל.
- נתונים סמנטיים/נלווים: פיסות נתונים נוספות שיכולות לעזור למודל לזהות את המעמד החדש. זה יכול להיות במילים, ביטויים, הטמעות מילים או שמות מחלקות.
2. מיפוי סמנטי
השלב הבא הוא למפות את התכונות של הכיתה הבלתי נראית. זה נעשה על ידי יצירת הטבעת מילים ויצירת מפה סמנטית המקשרת את התכונות או המאפיינים של המחלקה הבלתי נראית לנתוני העזר שסופקו. למידת העברת בינה מלאכותית הופך את התהליך למהיר הרבה יותר, שכן תכונות רבות הקשורות למחלקה הבלתי נראית כבר מופו.
3. הסקת מסקנות
הסקת מסקנות היא השימוש במודל ליצירת תחזיות או פלט. בסיווג תמונה של צילום אפס, הטמעות מילים נוצרות על קלט התמונה הנתון ולאחר מכן משורטים ומשווים עם נתוני העזר. רמת הוודאות תהיה תלויה בדמיון בין הקלט לנתוני העזר שסופקו.
כיצד למידת Zero-Shot משפרת בינה מלאכותית
למידה ב-Zero-shot משפרת מודלים של בינה מלאכותית על ידי התמודדות עם מספר אתגרים בלמידת מכונה, כולל:
- הכללה משופרת: הפחתת התלות בנתונים מסומנים מאפשרת להכשיר מודלים במערכות נתונים גדולות יותר, לשפר את ההכללה ולהפוך את המודל לחזק ואמין יותר. ככל שהמודלים הופכים מנוסים יותר ומוכללים יותר, ייתכן שאפילו דוגמניות ילמדו שכל ישר במקום הדרך האופיינית לנתח מידע.
- מדרגיות: ניתן להכשיר מודלים ללא הרף ולהשיג יותר ידע באמצעות למידה בהעברה. חברות וחוקרים עצמאיים יכולים לשפר ללא הרף את המודלים שלהם כדי להיות מסוגלים יותר בעתיד.
- סיכוי מופחת להתאמת יתר: התאמת יתר עלולה להתרחש עקב הכשרה של המודל על מערך נתונים קטן שאינו מכיל מספיק מגוון כדי לייצג את כל התשומות האפשריות. אימון המודל באמצעות למידה אפסית מפחית את הסיכויים להתאמת יתר על ידי הכשרת המודל להבנה הקשרית טובה יותר של נושאים.
- עלות תועלת: אספקת כמות גדולה של נתונים מסומנים עשויה לקחת זמן ומשאבים. באמצעות למידה של העברת זריקת אפס, אימון מודל חזק יכול להיעשות בהרבה פחות זמן ונתונים מסומנים.
ככל שמתקדם בינה מלאכותית, טכניקות כמו למידה אפס יהפכו חשובות עוד יותר.
העתיד של למידה אפס-שוט
למידה ב-Zero-shot הפכה לחלק חיוני בלמידת מכונה. זה מאפשר למודלים לזהות ולסווג שיעורים חדשים ללא הכשרה מפורשת. עם התקדמות מתמשכת בארכיטקטורות מודלים, גישות מבוססות תכונות ואינטגרציה מולטי-מודאלית, למידה אפסית יכולה עוזרים באופן משמעותי להפוך מודלים להרבה יותר מתאימים להתמודדות עם אתגרים מורכבים ברובוטיקה, בריאות ומחשבים חָזוֹן.