מודלים של AI טובים רק כמו הנתונים שנכנסים אליהם. זה הופך את הנתונים האלה למטרה פוטנציאלית להתקפות.
להתקדמות בתחום הבינה המלאכותית הייתה השפעה משמעותית על תחומים שונים. זה נתן למספר לא מבוטל של חובבי טכנולוגיה סיבה לדאגה. ככל שהטכנולוגיות הללו מתרחבות ליישומים שונים, הן עלולות לגרום לעלייה במתקפות יריבות.
מהן התקפות יריבות בבינה מלאכותית?
התקפות יריבות מנצלות מפרטים ופגיעויות בתוך מודלים של AI. הם משחיתים את הנתונים שמהם למדו מודלים של בינה מלאכותית וגורמים למודלים אלה לייצר פלטים לא מדויקים.
תארו לעצמכם שקונדס משנה את אריחי השבץ המסודרים כאננס כדי להפוך ל"תפוחים". זה דומה למה שקורה בהתקפות יריבות.
לפני כמה שנים, קבלת כמה תגובות או תפוקות שגויות ממודל AI הייתה הנורמה. ההפך הוא המקרה כעת, מכיוון שאי דיוקים הפכו ליוצאים מן הכלל, כאשר משתמשי AI מצפים לתוצאות כמעט מושלמות.
כאשר מודלים אלה של AI מיושמים על תרחישים בעולם האמיתי, אי דיוקים יכולים להיות קטלניים, מה שהופך התקפות יריבות למסוכנות מאוד. לדוגמה, מדבקות על תמרורים עלולות לבלבל מכונית אוטונומית לנהיגה עצמית ולגרום לה לעבור לתנועה או ישירות לתוך מכשול.
סוגי התקפות יריבות
ישנן צורות שונות של התקפות יריבות. עם ה הגדלת השילוב של AI ביישומים יומיומיים, סביר להניח שהתקפות אלו יחמירו ומורכבות יותר.
עם זאת, אנו יכולים לסווג באופן גס את התקפות יריבות לשני סוגים בהתבסס על כמה ששחקן האיום יודע על מודל הבינה המלאכותית.
1. White Box התקפות
ב התקפות הקופסה הלבנה, לשחקני איומים יש ידע מלא על פעולתו הפנימית של מודל הבינה המלאכותית. הם יודעים את המפרטים, נתוני ההדרכה, טכניקות העיבוד והפרמטרים שלו. הידע הזה מאפשר להם לבנות התקפה יריבית במיוחד עבור המודל.
הצעד הראשון בהתקפת קופסה לבנה הוא שינוי נתוני האימון המקוריים, השחתתם בצורה הכי קטנה שאפשר. הנתונים שהשתנו עדיין יהיו דומים מאוד למקור אבל משמעותיים מספיק כדי לגרום למודל AI לתת תוצאות לא מדויקות.
זה לא הכל. בעקבות המתקפה, שחקן האיום מעריך את יעילות המודל על ידי הזנתו בדוגמאות יריבות -תשומות מעוותות שנועדו לגרום למודל לעשות טעויות- ומנתח את הפלט. ככל שהתוצאה לא מדויקת יותר, כך ההתקפה מוצלחת יותר.
2. התקפות קופסה שחורה
שלא כמו בהתקפות הקופסה הלבנה, שבהן שחקן האיום יודע על פעולתו הפנימית של מודל הבינה המלאכותית, מבצעי התקפות קופסה שחורה אין לי מושג איך המודל עובד. הם פשוט צופים במודל מנקודה עיוורת, עוקבים אחר ערכי הקלט והפלט שלו.
הצעד הראשון במתקפת קופסה שחורה הוא בחירת יעד הקלט שמודל הבינה המלאכותית רוצה לסווג. לאחר מכן שחקן האיום יוצר גרסה זדונית של הקלט על ידי הוספת רעש מעוצב בקפידה, הפרעות בנתונים בלתי נראים לעין האנושית אך מסוגלים לגרום למודל הבינה המלאכותית תקלה.
הגרסה הזדונית מוזנת לדגם, והפלט נצפה. התוצאות שנתן המודל עוזרות לשחקן האיום להמשיך ולשנות את הגרסה עד שהם בטוחים מספיק שהיא תסווג לא נכון את כל הנתונים המוזנים לתוכו.
טכניקות המשמשות בהתקפות יריבות
ישויות זדוניות יכולות להשתמש בטכניקות שונות כדי לבצע התקפות יריבות. הנה כמה מהטכניקות הללו.
1. הַרעָלָה
תוקפים יכולים לתפעל (להרעיל) חלק קטן מנתוני הקלט של מודל בינה מלאכותית כדי לסכן את מערכי האימון והדיוק שלו.
ישנן מספר צורות של הרעלה. אחת הנפוצות שבהן נקראת הרעלת דלת אחורית, שבה מושפעים מעט מאוד נתוני אימון. מודל ה-AI ממשיך לתת תוצאות מדויקות ביותר עד שהוא "מופעל" לתקלה במגע עם טריגרים ספציפיים.
2. הִתחַמְקוּת
טכניקה זו קטלנית למדי, מכיוון שהיא נמנעת מגילוי על ידי מעקב אחר מערכת האבטחה של ה-AI.
רוב דגמי הבינה המלאכותית מצוידים במערכות זיהוי חריגות. טכניקות התחמקות עושות שימוש בדוגמאות יריבות היוצאות אחרי מערכות אלו ישירות.
טכניקה זו עלולה להיות מסוכנת במיוחד נגד מערכות קליניות כמו מכוניות אוטונומיות או דגמי אבחון רפואיים. אלו תחומים שבהם לאי דיוקים עלולות להיות השלכות קשות.
3. עֲבִירוּת
שחקני איומים המשתמשים בטכניקה זו אינם זקוקים לידע קודם בפרמטרים של מודל הבינה המלאכותית. הם משתמשים בהתקפות יריבות שהצליחו בעבר נגד גרסאות אחרות של המודל.
לדוגמה, אם התקפה יריבה גורמת לדגם של סיווג תמונות לטעות שצב הוא רובה, ההתקפה המדויקת עלולה לגרום לדגמי סיווג תמונות אחרים לבצע את אותה שגיאה. הדגמים האחרים יכלו להיות מאומנים על מערך נתונים אחר ואפילו בעלי ארכיטקטורה שונה אך עדיין עלולים ליפול קורבן למתקפה.
4. פונדקאות
במקום ללכת אחרי מערכות האבטחה של המודל באמצעות טכניקות התחמקות או התקפות שהצליחו בעבר, שחקן האיום יכול להשתמש במודל פונדקאי.
בטכניקה זו, שחקן האיום יוצר גרסה זהה של מודל המטרה, מודל פונדקאית. התוצאות, הפרמטרים וההתנהגויות של פונדקאית חייבים להיות זהים למודל המקורי שהועתק.
הפונדקאית תהיה נתונה כעת להתקפות יריבות שונות עד שאחת תגרום לה לייצר תוצאה לא מדויקת או לבצע סיווג שגוי. לאחר מכן, מתקפה זו תשמש על AI המטרה המקורית.
כיצד לעצור התקפות יריבות
הגנה מפני התקפות יריבות עשויה להיות מורכבת וגוזלת זמן מכיוון שגורמי איומים משתמשים בצורות וטכניקות שונות. עם זאת, השלבים הבאים יכולים למנוע ולעצור התקפות יריבות.
1. אימון יריב
הצעד היעיל ביותר שיכול למנוע התקפות יריבות הוא אימון יריבות, הדרכה של דגמי AI ומכונות תוך שימוש בדוגמאות יריבות. זה משפר את החוסן של הדגם ומאפשר לו להיות עמיד בפני הפרעות הקלט הקלות ביותר.
2. ביקורת רגילה
יש צורך לבדוק באופן קבוע חולשות במערכת זיהוי החריגות של מודל AI. זה כרוך בהזנה מכוונת של המודל בדוגמאות יריבות ומעקב אחר התנהגות המודל לקלט הזדוני.
3. חיטוי נתונים
שיטה זו כוללת בדיקה של כניסות זדוניות המוזנות למודל. לאחר זיהוים, יש להסירם מיד.
ניתן לזהות נתונים אלה באמצעות אימות קלט, הכולל בדיקת הנתונים עבור דפוסים או חתימות של דוגמאות יריבות ידועות בעבר.
4. עדכוני אבטחה
יהיה קשה לטעות עם עדכוני אבטחה ותיקונים. אבטחה רב-שכבתית כמו חומות אש, תוכניות נגד תוכנות זדוניות, ועוד מערכות זיהוי ומניעת חדירה יכול לעזור לחסום הפרעות חיצוניות של גורמי איומים שרוצים להרעיל מודל AI.
התקפות יריבות יכולות להיות יריב ראוי
הרעיון של התקפות יריבות מהווה בעיה ללמידה מתקדמת ולמידת מכונה.
כתוצאה מכך, מודלים של בינה מלאכותית אמורים להיות חמושים בהגנות כגון אימון יריב, ביקורת שוטפת, חיטוי נתונים ועדכוני אבטחה רלוונטיים.