סדרת Instinct GPU של AMD הופכת פופולרית בקהילת המחשוב וה-AI. הנה למה.
אין ספק ש-NVIDIA ממשיכה לשלוט במרחב המחשוב המקביל עם סדרות ה-GPU הפופולריות השונות שלה. אבל עם מאיצי ה-Instinct AI של AMD שמציידים שניים ממחשבי העל החדשים והגדולים ביותר (פרונטייר ואל קפיטן) והתמיכה ההולכת וגוברת של הקהילה בפלטפורמת ה-ROCm שלהם בקוד פתוח, ייתכן ש-NVIDIA מצאה את היריבה הכי גדולה שלהם עד כה.
אז מה הם בעצם מאיצי ה-Instinct AI של AMD? מה הופך אותם לחזקים, וכיצד הם בהשוואה למעבדי Tensor של NVIDIA?
מהו מעבד AMD Instinct?
מעבדי האינסטינקט של AMD הם חומרה ברמה ארגונית המשמשת עבור מחשוב בעל ביצועים גבוהים (HPC) ועיבוד מואץ של AI. בניגוד למעבדי GPU רגילים בדרגת צרכן, ה-GPUs Instinct מתמחים להתמודד טוב יותר עם למידת AI ומשימות אחרות בעלות ביצועים גבוהים באמצעות חידושי תוכנה וחומרה.
סדרת ה-GPU של Instinct של AMD שימשה להנעת מחשב העל הראשון לשבור את מחסום ה-Exascale, עם ביצועים של 1.1 EFLOPs בפעולות דיוק כפול בשנייה. מחשבי-על המשתמשים ב-Instinct GPUs נמצאים כעת בשימוש לחקר טיפולי סרטן, אנרגיה בת קיימא ושינויי אקלים.
כיצד מעבדי אינסטינקט מאיצים AI ו-HPC
ל שרתי המיינסטרים ומחשבי העל החזקים ביותר בעולם כדי להשיג עיבוד ברמת Exascale, מאיצי האינסטינקט של AMD היו צריכים להיות מצוידים במספר שדרוגים וחידושים טכנולוגיים.
בואו נדון בחלק מהטכנולוגיה החדשה והמעודכנת המשמשת במעבדי AMD Instinct GPU.
1. מחשב DNA (CDNA)
מאיצי AMD Instinct האחרונים (החל מה-MI100) השתמשו בארכיטקטורת ה-CDNA של החברה.
CDNA מתמקדת בעיקר בתכונות כמו עיבוד מקביל, היררכיית זיכרון וביצועי מחשוב מותאמים באמצעות טכנולוגיית Matrix Core שלהם. אפילו HPC ו-AI או למידת מכונה הפועלת על שרתים בודדים יכולים להיות נתמכים על ידי CDNA, כמו גם מחשבי Exascale ענקיים.
טכנולוגיית Matrix Core של AMD מאיצה למידת AI על ידי תמיכה בפעולות דיוק מעורב. היכולת לחשב בדיוק שונה מאפשרת למעבדי Instinct GPU לחשב ביעילות פעולות מטריקס על סמך רמת הדיוק הדרושה.
הפורמטים הפופולריים ביותר של דיוק החישוב כוללים את FP64, FP32, FP16, BF16 ו-INT8. FP ראשי תיבות של Floating Point, BF עבור Brain Floating Point, ו-INT עבור Integer. ככל שהמספר המתאים לפורמט גבוה יותר, כך החישוב מדויק יותר. הפעלה ב-64 סיביות ידועה בשם דיוק כפול. עם 32 סיביות זה דיוק יחיד, 16 סיביות זה חצי דיוק, וכן הלאה.
מכיוון שחלק גדול של אימון מודלים של למידה עמוקה אינו דורש דיוק רב, בעל היכולת לחשב מטריצה פעולות בחצי דיוק או אפילו רבע דיוק להסקת מסקנות מפחיתות משמעותית את עומס העבודה, ובכך מאיץ AI לְמִידָה.
2. זיכרון רוחב פס גבוה (HBM)
כל מאיץ AI של AMD Instinct מגיע עם עד 880 ליבות מטריקס. עם מעבדי Matrix Core של AMD מסוגלים לבצע 383 TFLOPs של חישובים בחצי דיוק, יש צורך בזיכרון מהיר במיוחד. הצעות האינסטינקט העדכניות ביותר של AMD מגיעות מצוידות בזיכרון רוחב פס גבוה (HBM) במקום בזיכרון ה-DDR4 או DDR5 הרגיל.
בניגוד לזיכרון רגיל, HBM משתמשת במה שמכונה ארכיטקטורת 3D stacked. סוג זה של ארכיטקטורה מתייחס לגישת עיצוב שבה קוביות DRAM מוערמות בצורה אנכית זו על גבי זו. זה מאפשר לערום קוביות הן בציר האנכי והן בציר האופקי, ומכאן המונח ערימה תלת מימדית.
עם טכנולוגיית הערמה התלת-ממדית הזו, למכשירי HBM יכולים להיות קיבולות זיכרון פיזיות בגודל של כמה מאות גיגה-בייט למודול, בעוד ש-DRR5 יכול לעשות רק עד עשרות גיגה-בייט למודול. מלבד קיבולת, ידוע גם למכשירי HBM בעלי ביצועים גבוהים יותר מבחינת קצב העברה ויעילות הספק טובה יותר מזיכרון DDR רגיל.
3. בד אינסוף
חידוש נוסף שנכלל במעבדי Instinct GPU הוא טכנולוגיית Infinity Fabric של AMD. Infinity Fabric הוא סוג של מערכת חיבורים המקשרת בין CPUs ו-GPUs בצורה דינמית חכמה. זה מאפשר לרכיבים לתקשר ביעילות זה עם זה.
עם ה-Infinity Fabric, במקום לחבר רכיבים עם אוטובוס רגיל, רכיבים מחוברים כעת ברשת דמוית רשת שבה רוחבי הפס יכולים להגיע לכמה מאות גיגה-בייט לשנייה.
מלבד החיבור דמוי הרשת, Infinity Fabric משתמש גם בחיישנים המוטמעים בכל תבנית כדי באופן דינמי תדירות שליטה, קצבי העברת נתונים והתנהגויות מסתגלות אחרות, אופטימיזציה של ביצועים ומזעור חֶבִיוֹן.
4. פלטפורמת פיתוח ROCm
CUDA (ארכיטקטורת התקנים מאוחדת מחשוב) של NVIDIA היא פלטפורמת הפיתוח הנפוצה ביותר לאימון דגמי AI. הבעיה עם CUDA היא שהוא עובד רק עם NVIDIA GPUs. זו אחת הסיבות העיקריות לכך של-NVIDIA יש את הרוב המכריע של נתחי השוק עבור מאיצי HPC ו-AI GPU.
מכיוון ש-AMD רצתה לקבל חלק גדול יותר משוק HPC ו-AI, הם היו צריכים לפתח פלטפורמה משלהם, ROCm (Radeon Open Compute). ROCm היא פלטפורמת תוכנה בקוד פתוח המאפשרת להשתמש ב- Instinct GPUs כמאיצי AI.
למרות שאינו בהכרח חלק מחומרת Instinct, ROCm הוא הבסיסי בכל הנוגע להישרדות קו ה-GPU של Instinct. עם ROCm, מפתחים ו חוקרים מקבלים את הכלים של ROCm, מהדר, מנהלי התקנים של ליבה, שורה שלמה של ספריות וגישה למסגרות כמו TensorFlow ו- PyTorch לפתח עם מועדף שפת תכנות בינה מלאכותית.
כיצד ניתן להשוות בין מאיצי AI אינסטינקט למאיצי AI של Radeon GPU?
AMD מציעה את מערך ה-GPUs של Instinct לארגונים ו-Radeon GPUs לצרכנים רגילים. כפי שנדון קודם לכן, Instinct GPU משתמש בארכיטקטורת CDNA של AMD, HBM ו-Infinity Fabric interconnect. לעומת זאת, Radeon משתמש בארכיטקטורת RDNA של AMD, זיכרון DDR6 ו-Infinity Cache.
למרות שהיא פחות מסוגלת, סדרת ה-Radeon של מאיצי בינה מלאכותית עדיין תופסת אגרוף המטמיע ליבת מאיץ בינה מלאכותית אחת או שתיים ליחידת מחשוב. האחרון Radeon RX7900 XT GPU בעל שתי ליבות מאיץ בינה מלאכותית ליחידת מחשוב, המאפשרות 103 TFLOPs של שיא חצי דיוק ו-52 TFLOPs של שיא חישובי דיוק יחיד.
בעוד שסדרת ה-GPUs של Instinct מתאימה יותר עבור LLMs ו-HPC, מאיצי Radeon AI יכולים לשמש לכוונון עדין של דגמים מאומנים מראש, הסקת מסקנות ומשימות עתירות גרפיקה.
AMD Instinct vs. טנסור של NVIDIA
לפי א סקר TrendForce, ל-NVIDA יש 80% נתח שוק עבור GPUs של שרתים, בעוד ל-AMD יש רק 20%. ההצלחה המוחצת הזו של NVIDIA היא בגלל שהם חברה שמתמחה בעיצוב והרכבה של GPU. זה מאפשר להם לעצב GPUs בעלי ביצועים טובים יותר באופן משמעותי שאין דומה להם בהצעות אחרות.
בואו נשווה את ה-Instinct MI205X של AMD וה-H100SXM5 של NVIDIA באמצעות מפרטים מ- האתר הרשמי של AMD ו גיליון הנתונים של NVIDIA עצמו:
דגם GPU |
FP64 (TFLOPS) |
FP32 (TFLOPS) |
FP16 (TFLOPS) |
INT8 (TFLOPS) |
---|---|---|---|---|
AMD Instinct MI250X |
30.0 |
60.0 |
1000 |
2000 |
NVIDIA H100SXMS |
47.9 |
95.7 |
383.2 |
383 |
כפי שניתן לראות בטבלה, MI250X של AMD מתפקד טוב יותר מבחינת דיוק כפול וחצי דיוק חישובים, בעוד שה-H100SXMS של NVIDIA טוב בהרבה מבחינת מטריצה של חצי דיוק ורבע דיוק חישובים. זה הופך את ה-MI250X של AMD למתאים יותר עבור HPC בעוד שה-H100SXMS של NVIDIA עם למידה והסקת AI.
העתיד של מעבדי האינסטינקט של AMD
למרות שההיצע האחרון של AMD, ה-MI250X, מיועד ל-HPC, ה-MI300 הקרוב שלהם מכוון יותר לאימון בינה מלאכותית. מאיץ AI זה הוכרז כ-APU, המשלב GPU ו-CPU בחבילה אחת. זה מאפשר ל-MI300 להשתמש בארכיטקטורת CNDA3 Unified Memory APU שלהם, כאשר ה-GPU וה-CPU ישתמשו רק בזיכרון אחד, מה שמגדיל את היעילות ומפחית את המחיר.
למרות ש-AMD לא תתחרה עם NVIDIA בשוק מאיצי הבינה המלאכותית כיום, ברגע שה-MI300 ישוחרר ו-ROCM יהפוך מלוטש, סדרת Instinct של AMD עשויה להיות מספיק טובה כדי לחטוף חלק ניכר משוק מאיצי הבינה המלאכותית NVIDIA.