GPUs של Nvidia עשו דרך ארוכה, לא רק מבחינת ביצועי משחקים אלא גם ביישומים אחרים, במיוחד בינה מלאכותית ולמידת מכונה. שני הגורמים העיקריים האחראים לביצועי ה-GPU של Nvidia הם ליבות ה-CUDA וה-Tensor הקיימות כמעט בכל Nvidia GPU מודרני שאתה יכול לקנות.
אבל מה בדיוק עושות הליבות האלה, ואם שתיהן משמשות ביישומי בינה מלאכותית ולמידת מכונה, במה הן שונות?
מהן ליבות CUDA ולמה הן משמשות?
CUDA ראשי תיבות של Compute Unified Device Architecture, אשר לא עושה הרבה כדי להסביר את נוכחותם ב-GPU. ליבות אלו הוצגו למערך ה-GPU של Nvidia בארכיטקטורת Maxwell 2014 ומתמחות בעיבוד מקביל.
הם די דומים לליבות מעבד מבחינת תפקודם, אבל הם טובים יותר בטיפול בכמה משימות, כולל גיבוב קריפטוגרפי, מנועי פיזיקה, פרויקטים הקשורים למדעי נתונים ואפילו משחק התפתחות.
אמנם כבר כיסינו כיצד ליבות CUDA משפיעות על ביצועי המשחקים של המחשב האישי שלך, הם מועילים באותה מידה במספרים. בעוד שאפילו למעבדים החזקים ביותר יש ליבות דו ספרתיות, גרפי Nvidia מגיעים עם כמה אלפי ליבות CUDA מה שהופך אותם למהירים הרבה יותר בעומסי עבודה מספריים. בנוסף, מכיוון שהם עושים את החישובים האלה במקביל, אתה מקבל מהירויות הרבה יותר מהירות עם ליבות CUDA.
ליבות CUDA מהירות יותר מליבות מעבד מהירה בכל הנוגע למספרים, אבל הן עדיין לא הפתרון האידיאלי. זה בגלל שהם מעולם לא נועדו לשמש בצורה כזו. ליבות CUDA נבנו במיוחד עבור עיבוד גרפי וכדי להפוך את GPUs Nvidia למסוגלים יותר בביצועי משחקים.
מהן ליבות טנזור, ולמה הן משמשות?
כאשר החלו להשתמש במעבדי GPU עבור בינה מלאכותית ולמידת מכונה, Nvidia הציגה ליבות Tensor בארכיטקטורת Volta עבור ה-GPU של מרכז הנתונים שלה החל מ-2017.
עם זאת, לקח עד לארכיטקטורת Nvidia Turing (GPUs מסדרת RTX 20) עד שהליבות הללו הגיעו למעבדי GPU לצרכנים. זכור שבעוד שכרטיסי ה-GTX 16-Series מבוססים גם על ארכיטקטורת Turing, הם אינם כוללים מעקב אחר קרניים או Tensor ליבות.
בעוד שליבות CUDA היו מתאימות במקרה הטוב לעומסי עבודה חישוביים, ליבות טנסור הגדילו את ההקדמה בכך שהן מהירות יותר באופן משמעותי. בעוד שליבות CUDA יכולות לבצע פעולה אחת בלבד בכל מחזור שעון, ליבות Tensor יכולות להתמודד עם מספר פעולות, מה שנותן להן שיפור ביצועים מדהים. ביסודו של דבר, כל ליבות טנסור עושות זה להגביר את מהירות הכפל המטריצה.
הגברת המהירות החישובית הזו באה במחיר של דיוק, כאשר ליבות CUDA מדויקות יותר באופן משמעותי. עם זאת, כשמדובר באימון מודלים של למידת מכונה, ליבות Tensor יעילות הרבה יותר מבחינת מהירות חישוב והעלות הכוללת; לפיכך אובדן הדיוק מוזנח לעתים קרובות.
כיצד ליבות Tensor ו-CUDA משפיעות על ביצועי GPU?
כפי שאתה בטח יכול לנחש עד עכשיו, בעוד שליבות CUDA ו-Tensor יכולות להתמודד עם אותם עומסי עבודה, שתיהן ליבות מיוחדות לעיבוד גרפי ועומסי עבודה מספריים, בהתאמה.
המשמעות היא שבהתאם למשתמש שאליו ממוקד GPU מסוים, יהיה לו מספר שונה של ליבות. לדוגמה, אם ניקח בחשבון את ה-RTX 4090, ה-GPU העדכני והטוב ביותר של Nvidia למשחקים הפונה לצרכן, תקבל הרבה יותר ליבות CUDA מאשר ליבות Tensor. 16,384 ליבות CUDA עד 512 ליבות Tensor, ליתר דיוק.
לשם השוואה, ל-Nvidia L40 GPU למרכזי נתונים, המבוסס על אותה ארכיטקטורת Ada Lovelace כמו ה-RTX 4090, יש 18,176 ליבות CUDA ו-568 ליבות Tensor. זה אולי לא נראה כמו הבדל כל כך גדול, אבל זה יכול להשפיע באופן מסיבי על הביצועים של ה-GPUs האלה.
מבחינת ביצועים תיאורטיים, ל-L40 יש 90.52 TFlops של ביצועי FP16 ו-FP32 וכן 1,414 GFlops של ביצועי FP64. זהו שיפור ביצועים מסיבי בהשוואה ל-82.58 TFlops של RTX 4090 של ביצועי FP16 ו-FP32 ו-1,290 GFlops של ביצועי FP64.
אלא אם כן אתה בקיא במספרי ביצועים מספריים של GPU, ייתכן שנתוני הביצועים של הנקודה הצפה של Nvidia GPU לעיל לא אומרים לך הרבה. עם זאת, בקצרה, הם מראים שה-L40 מהיר בהרבה מה-RTX 4090 בכל הנוגע לחישובים מספריים - אלה הדרושים עבור בינה מלאכותית ועומסי עבודה מבוססי למידת מכונה.
שיפור הביצועים הופך למרשים עוד יותר כאשר לוקחים בחשבון את צריכת החשמל של שני ה-GPUs. ל-RTX 4090 יש TGP מדורג (לא להתבלבל עם TDP, יש הבדל קטן) של 450W, בעוד שה-L40 מדורג ל-300W בלבד.
שני ה-GPUs הללו יפעילו משחקים ויאמנו את מודל למידת המכונה שלך בסדר גמור. עם זאת, ה-RTX 4090 יהיה טוב יותר בהפעלת משחקים, וה-L40 יהיה טוב יותר באימון דגמי למידת מכונה.
ליבות CUDA לעומת ליבות טנזור: מה חשוב יותר?
שתי הליבות חשובות באותה מידה, ללא קשר אם אתה קונה את ה-GPU שלך למשחקים או מכניס אותו למתחם מרכז נתונים. מעבדי המשחקים הפונים לצרכן של Nvidia משתמשים במגוון תכונות בינה מלאכותית (בעיקר DLSS), וקיום ליבות Tensor על הסיפון יכול להיות שימושי.
באשר למעבדי GPU של מרכזי נתונים, ליבות CUDA ו-Tensor פועלות במקביל רוב הזמן בכל מקרה, כך שתקבל את שניהם ללא קשר ל-GPU שתבחר. במקום להתמקד בסוג ספציפי של ליבה ב-GPU שלך, עליך להתמקד יותר במה שהכרטיס הגרפי עושה בכללותו ובסוג המשתמש שאליו הוא מיועד.
ליבות CUDA מתמחות בטיפול בעומסי עבודה גרפיים, בעוד ליבות Tensor טובות יותר במספריות. הם עובדים יחד וניתנים להחלפה במידה מסוימת, אבל הם מטפלים בהתמחויות משלהם, וזו הסיבה שהם קיימים מלכתחילה.
GPUs שונים מתמחים בהיבטים שונים. ה-RTX 4090 ירסק בקלות כל משחק שתזרקו עליו, בעוד שה-RTX 4060 יכול להתמודד רק עם משחקי 1080p. אם אינך משחק באמצעות ה-GPU שלך ודורש אותו רק עבור ריסוק מספרים או אימון רשתות עצביות, GPU של מרכז נתונים מסדרת A כמו A100 או אפילו L40 הוא ההימור הטוב ביותר שלך.
ליבות ה-GPU שלך חשובות
יותר ליבות GPU יעניקו לך ביצועים כלליים טובים יותר שכן ה-GPU שלך יהיה רב תכליתי יותר ובעל משאבים ייעודיים לטיפול במשימות שונות. עם זאת, קבלת GPU באופן עיוור עם מספר הליבות הגבוה ביותר אינה ההחלטה הטובה ביותר. הקדישו רגע לשקול היטב את מקרה השימוש שלכם, תסתכל על היכולות של ה-GPU כמכלול, ולאחר מכן בצע את הבחירה שלך.