מודל השפה הגדול הזה עבר הכשרה ברשת האפלה להערכת איומי אבטחת סייבר. הנה מה שאתה צריך לדעת.

הפופולריות של דגמי שפה גדולים (LLMs) גואה, כאשר חדשים נכנסים ללא הרף לזירה. מודלים אלה, כמו ChatGPT, מאומנים בדרך כלל במקורות אינטרנט שונים, כולל מאמרים, אתרים, ספרים ומדיה חברתית.

בצעד חסר תקדים, צוות של חוקרים דרום קוריאנים פיתח את DarkBERT, LLM מאומן על מערכי נתונים שנלקחו אך ורק מהרשת האפלה. המטרה שלהם הייתה ליצור כלי בינה מלאכותית שעולה על מודלים של שפה קיימים ומסייע לחוקרי איומים, גורמי אכיפת חוק ואנשי מקצוע בתחום אבטחת הסייבר במלחמה באיומי סייבר.

מה זה DarkBERT?

DarkBERT הוא מודל מקודד מבוסס שנאי המבוסס על ארכיטקטורת RobERTa. ה-LLM הוכשר במיליוני דפי אינטרנט אפלים, כולל נתונים מפורומי פריצה, אתרי הונאות ומקורות מקוונים אחרים הקשורים לפעילויות לא חוקיות.

התנאי "רשת אפלה" מתייחסת למדור אינטרנט נסתר לא נגיש דרך דפדפני אינטרנט רגילים. סעיף המשנה ידוע בכך שהוא מכיל אתרים אנונימיים ומקומות שוק הידועים לשמצה בפעילויות לא חוקיות, כגון סחר בנתונים גנובים, סמים וכלי נשק.

כדי להכשיר את DarkBERT, הרוויחו החוקרים

instagram viewer
גישה לרשת האפלה דרך רשת Tor ואספו נתונים גולמיים. הם סיננו בקפידה את הנתונים האלה באמצעות טכניקות כמו מניעת כפילויות, איזון קטגוריות ועיבוד מקדים ל צור מסד נתונים אינטרנטי אפל מעודן, שהוזן לאחר מכן ל-RoBERTa במהלך כ-15 ימים כדי ליצור DarkBERT.

שימושים אפשריים של DarkBERT באבטחת סייבר

ל-DarkBERT יש הבנה יוצאת דופן בשפה של פושעי סייבר ומצטיינת באיתור איומים פוטנציאליים ספציפיים. הוא יכול לחקור את הרשת האפלה ולזהות ולסמן בהצלחה איומי אבטחת סייבר כמו דליפות נתונים ותוכנות כופר, מה שהופך אותו לכלי שימושי פוטנציאלי להילחם באיומי סייבר.

כדי להעריך את היעילות של DarkBERT, החוקרים השוו אותו לשני מודלים ידועים של NLP, BERT ו רוברטה, הערכת הביצועים שלהם על פני שלושה מקרי שימוש מכריעים הקשורים לאבטחת סייבר, המחקר, פורסם ב arxiv.org, מציין.

1. עקוב אחר פורומי אינטרנט אפלים לאיתור חוטים שעלולים להזיק

ניטור פורומי אינטרנט אפלים, המשמשים בדרך כלל להחלפת מידע בלתי חוקי, הוא חיוני לזיהוי שרשורים שעלולים להיות מסוכנים. עם זאת, סקירה ידנית של אלה עשויה להיות גוזלת זמן, מה שהופך את האוטומציה של התהליך למועילה למומחי אבטחה.

החוקרים התמקדו בפעילויות שעלולות להזיק בפורומי פריצה, ופיתחו קווים מנחים להערות לשרשורים ראויים לציון, כולל שיתוף נתונים סודיים והפצת תוכנות זדוניות קריטיות או פגיעויות.

DarkBERT התעלה על מודלים אחרים של שפות במונחים של דיוק, זכירה וציון F1, והתגלה כבחירה המעולה לזיהוי שרשורים ראויים לציון ברשת האפלה.

2. זיהוי אתרים המארחים מידע סודי

האקרים וקבוצות תוכנות כופר משתמשות ברשת האפלה כדי ליצור אתרי דליפות, שם הם מפרסמים נתונים סודיים שנגנבו מארגונים שמסרבים להיענות לדרישות כופר. פושעי סייבר אחרים פשוט מעלים נתונים רגישים שדלפו, כמו סיסמאות ומידע פיננסי, לרשת האפלה מתוך כוונה למכור אותם.

במחקר שלהם, החוקרים אספו נתונים מ קבוצות תוכנות כופר ידועות לשמצה וניתחו אתרי דליפות של תוכנות כופר שמפרסמים נתונים פרטיים של ארגונים. DarkBERT עלתה על מודלים שפות אחרים בזיהוי וסיווג אתרים כאלה, והציגה את הבנתה בשפה המשמשת בפורומי פריצה מחתרתיים ברשת האפלה.

DarkBERT ממנפת את פונקציית ה-fill-mask, תכונה אינהרנטית של מודלים של שפה משפחתית BERT, כדי לזהות במדויק מילות מפתח הקשורות לפעילויות לא חוקיות, כולל מכירת סמים ברשת האפלה.

כשהמילה "MDMA" הוסתרה בדף מכירת סמים, DarkBERT יצר מילים הקשורות לסמים, בעוד שמודלים אחרים הציעו מילים כלליות ומונחים שאינם קשורים לסמים, כמו מקצועות שונים.

היכולת של DarkBERT לזהות מילות מפתח הקשורות לפעילויות בלתי חוקיות יכולה להיות בעלת ערך במעקב ובטיפול באיומי סייבר מתעוררים.

האם DarkBERT נגיש לקהל הרחב?

DarkBERT אינו זמין כעת לציבור, אך החוקרים פתוחים לבקשות להשתמש בו למטרות אקדמיות.

רתום את הכוח של AI לזיהוי ומניעה של איומים

DarkBERT עבר הכשרה מוקדמת על נתוני אינטרנט אפלים ועולה על מודלים של שפה קיימים על פני מקרי שימוש מרובים באבטחת סייבר, וממצבת את עצמה ככלי חיוני לקידום מחקר האינטרנט האפל.

בינה מלאכותית מאומנת רשת כהה יש פוטנציאל לשמש עבור משימות אבטחת סייבר שונות, כולל זיהוי אתרים שמוכרים דלפו נתונים סודיים, ניטור פורומי אינטרנט אפלים כדי לזהות שיתוף מידע לא חוקי וזיהוי מילות מפתח הקשורות לסייבר איומים.

אבל אתה תמיד צריך לזכור שכמו תכניות לימודים אחרות, DarkBERT היא עבודה בתהליך, וניתן לשפר את הביצועים שלה באמצעות אימון מתמשך וכיוונון עדין.