בטח שמעתם על ה-GPT של OpenAI, אבל הם לא ה-LLMs היחידים בשטח.
טייק אווי מפתח
- ה-GPT-4 של OpenAI הוא דגם השפה הגדול המתקדם והנפוץ ביותר, עם 1.76 טריליון פרמטרים ויכולות מולטי-מודאליות.
- קלוד 2 של אנתרופיק מתחרה ב-GPT-4 במשימות כתיבה יצירתית ומחזיק את עצמו למרות שיש לו פחות משאבים.
- ה-PaLM 2 של גוגל, אמנם אינו רוצח GPT-4, אך הוא מודל שפה רב עוצמה עם יכולות רב לשוניות ויצירתיות חזקות. Falcon-180B הוא דגם קוד פתוח שמתחרה בענקיות מסחריות ויכול לעמוד בו-אל-בוהן עם GPT-3.5.
זו עונת הבינה המלאכותית, וחברות טכנולוגיה מוציאות דגמי שפות גדולים כמו לחם ממאפייה. דגמים חדשים משוחררים במהירות, וזה הופך להיות קשה מדי לעקוב.
אבל בתוך שלל המהדורות החדשות, רק כמה דגמים עלו לפסגה והוכיחו את עצמם כמתמודדים אמיתיים במרחב המודלים של השפה הגדולה. כשאנחנו מתקרבים לסוף 2023, ריכזנו את ששת דגמי השפה הגדולים המרשימים ביותר שכדאי לנסות.
1. GPT-4 של OpenAI
GPT-4 הוא הדגם המתקדם ביותר שזמין לציבור בשפה גדולה עד כה. פותח על ידי OpenAI ושוחרר במרץ 2023, GPT-4 הוא האיטרציה העדכנית ביותר בסדרת השנאים המאומנים מראש של Generative
שהחל ב-2018. עם היכולות האדירות שלו, GPT-4 הפך לאחד מדגמי השפה הגדולים הנפוצים והפופולריים ביותר בעולם.למרות שלא אושר רשמית, מקורות מעריכים ש-GPT-4 עשוי להכיל 1.76 טריליון פרמטרים מדהימים, בערך פי עשרה מקודמו, GPT-3.5, ופי חמישה מספינת הדגל של גוגל, PaLM 2. קנה מידה עצום זה מאפשר את היכולות הרב-מודאליות של GPT-4, ומאפשר לו לעבד גם טקסט וגם תמונות כקלט. כתוצאה מכך, GPT-4 יכול לפרש ולתאר מידע חזותי כמו דיאגרמות וצילומי מסך בנוסף לטקסט. הטבע הרב-מודאלי שלו מספק הבנה אנושית יותר של נתונים מהעולם האמיתי.
במדדים מדעיים, GPT-4 עולה בהרבה על מודלים עכשוויים אחרים בבדיקות שונות. בעוד שאמות מידה לבדן אינן מדגימות במלואן את יתרונות המודל, מקרי שימוש בעולם האמיתי הראו ש-GPT-4 מיומן בצורה יוצאת דופן בפתרון בעיות מעשיות באופן אינטואיטיבי. GPT-4 מחויב כעת ב-$20 לחודש ו נגיש דרך תוכנית הפלוס של ChatGPT.
2. קלוד 2 של אנתרופי
למרות שאינו פופולרי כמו GPT-4, קלוד 2, שפותח על ידי Anthropic AI, יכול להתאים לאמות מידה טכניות של GPT -4 ולביצועים בעולם האמיתי בכמה תחומים. בכמה מבחנים סטנדרטיים, כולל בחינות נבחרות, קלוד 2 מתעלה על GPT-4. למודל שפת הבינה המלאכותית יש גם חלון הקשר מעולה בהרבה בסביבות 100,000 אסימונים, בהשוואה לדגמי 8k ו-32k אסימונים של GPT -4. למרות שאורך הקשר גדול יותר לא תמיד מתורגם לביצועים טובים יותר, הקיבולת המורחבת של קלוד 2 מספקת יתרונות ברורים, כמו עיכול ספרים שלמים בני 75,000 מילים לצורך ניתוח.
בביצועים הכוללים, GPT-4 נשאר מעולה, אבל הבדיקות הפנימיות שלנו מראים שקלוד 2 עולה על זה בכמה משימות כתיבה יצירתית. קלוד 2 גם עוקב אחר GPT-4 במיומנויות תכנות ומתמטיקה בהתבסס על ההערכות שלנו, אך מצטיין במתן תשובות יצירתיות דמויות אנוש. כשהנחינו את כל הדוגמניות ברשימה הזו לכתוב או לשכתב יצירה יצירתית, שש פעמים מתוך עשר, בחרנו בתוצאה של קלוד 2 בגלל התוצאות הנראות כמו אנושיות. כַּיוֹם, קלוד 2 זמין בחינם דרך הצ'אטבוט של קלוד AI. יש גם תוכנית בתשלום של $20 לגישה לתכונות נוספות.
למרות שיש לו פחות גב כלכלי מאשר ענקיות כמו OpenAI ומיקרוסופט, דגם קלוד 2 AI של Anthropic מחזיק את עצמו מול דגמי ה-GPT הפופולריים וסדרת ה-PaLM של גוגל. עבור AI עם פחות משאבים, קלוד 2 הוא תחרותי בצורה מרשימה. אם נאלץ להמר על איזה דגם קיים יש את הסיכוי הטוב ביותר להתחרות ב-GPT בעתיד הקרוב, קלוד 2 נראה ההימור הבטוח ביותר. אף על פי שהצליחו להתחמק ממימון, היכולות המתקדמות של קלוד 2 מצביעות על כך שהוא יכול ללכת רגל אל אצבע עם אפילו ענקים ממומנים היטב (אם כי ראוי לציין שגוגל תרמה לכמה תרומות גדולות אנתרופית). הדגם חובט מעל דרגת המשקל שלו ומפגין הבטחה כמתמודד מתחיל.
3. GPT-3.5 של OpenAI
למרות שחרורו של GPT-4, אין לזלזל ב-GPT-3.5 וב-175 מיליארד הפרמטרים שלו. באמצעות כוונון איטרטיבי ושדרוגים המתמקדים בביצועים, דיוק ובטיחות, ה-GPT-3.5 עבר דרך ארוכה מדגם ה-GPT-3 המקורי. למרות שהוא חסר את היכולות הרב-מודאליות של GPT -4 והוא מפגר באורך ההקשר ובספירת הפרמטרים, GPT-3.5 נשאר בעל יכולת גבוהה, כאשר GPT-4 הוא הדגם היחיד שמסוגל להתעלות על הביצועים הכוללים שלו בְּהֶחלֶטִיוּת.
למרות היותו דגם מהשורה השנייה במשפחת ה-GPT, GPT-3.5 יכול להחזיק את עצמו ואף להתעלות על דגמי הדגל של גוגל ומטה בכמה אמות מידה. במבחנים זה לצד זה של מיומנויות מתמטיות ותכנות מול PaLM 2 של גוגל, ההבדלים לא היו בולטים, כאשר ל-GPT-3.5 אפילו יתרון קל בחלק מהמקרים. משימות יצירתיות יותר כמו הומור וכתיבה נרטיבית גרמו ל-GPT-3.5 להתקדם בצורה נחרצת.
אז, בעוד ש-GPT-4 מסמן אבן דרך חדשה בתחום הבינה המלאכותית, GPT-3.5 נותר דגם חזק מרשים, המסוגל להתחרות ולעיתים להתעלות אפילו על האלטרנטיבות המתקדמות ביותר. השכלול המתמשך שלו מבטיח שהוא נשאר רלוונטי גם לצד דגמי הדור הבא נוצצים יותר.
4. PaLM 2 של גוגל
כאשר מעריכים את היכולות של מודל AI, הנוסחה המוכחת היא לקרוא את הדוח הטכני ו בדוק את ציוני ההשוואה, אבל קח את כל מה שלמדת עם גרגר מלח ובדוק את המודל עַצמְךָ. ככל שזה נראה מנוגד לאינטואיציה, תוצאות הבנצ'מרק לא תמיד תואמות את הביצועים בעולם האמיתי עבור דגמי AI מסוימים. על הנייר, ה-PaLM 2 של גוגל היה אמור להיות הרוצח GPT-4, עם תוצאות בדיקות רשמיות המצביעות על כך שהוא תואם ל-GPT-4 בכמה מדדים. עם זאת, בשימוש היום-יומי מצטיירת תמונה שונה.
בהיגיון הגיוני, מתמטיקה ויצירתיות, PaLM 2 נופל מ-GPT-4. הוא גם מפגר אחרי קלוד של אנתרופי במגוון משימות כתיבה יצירתית. עם זאת, למרות שהיא לא מצליחה לעמוד בחיוב שלה בתור רוצח GPT-4, PaLM 2 של גוגל נשאר מודל שפה רב עוצמה בזכות עצמו, עם יכולות אדירות. חלק גדול מהסנטימנט השלילי סביבו נובע מהשוואות לדגמים כמו GPT-4 ולא מביצועים גרועים בעליל.
עם 340 מיליארד פרמטרים, PaLM 2 הוא בין הדגמים הגדולים בעולם. הוא מצטיין במיוחד במשימות רב לשוניות ובעל יכולות מתמטיקה ותכנות חזקות. למרות שלא הכי טוב בזה, PaLM 2 גם יעיל למדי במשימות יצירתיות כמו כתיבה. אז, בעוד שאמות מידה ציירו תמונה אופטימית שלא התממשה במלואה, PaLM 2 עדיין מפגין כישורי AI מרשימים, גם אם לא עולה על כל המתחרים בכל רחבי הלוח.
5. ה-Falcon-180B של TII
אלא אם כן עמדת בקצב המהיר של שחרור מודלים של שפת AI, סביר להניח שמעולם לא נתקלת ב-Falcon-180B. פותח על ידי המכון לחדשנות טכנולוגית של איחוד האמירויות הערביות, הפרמטר של 180 מיליארד Falcon-180 הוא אחד החזקים ביותר מודלים של שפת קוד פתוח בחוץ, גם אם אין להם זיהוי שמות של מודלים של GPT או שימוש נרחב ב- Meta's לאמה 2. אבל אל תטעו - Falcon-180B יכול לעמוד מקצה לקצה עם הטובים בכיתה.
תוצאות בנצ'מרק מגלות ש-Falcon-180B מתעלה על מרבית דגמי הקוד הפתוח ומתחרה בתחרויות מסחריות כמו PaLM 2 ו-GPT-3.5. בבדיקת משימות מתמטיקה, קידוד, חשיבה וכתיבה יצירתית, היא אפילו הצליחה להגיע ל-GPT-3.5 ו-PaLM 2 ב- פִּי. אם מדרגים את GPT-4, GPT-3.5 ו-Falcon-180B, היינו ממקמים את Falcon-180B באופן ישיר בין GPT-4 ל-GPT-3.5 בשל חוזקותיו במספר מקרי שימוש.
אמנם אנחנו לא יכולים לומר בביטחון שהוא טוב יותר מ-GPT-3.5 בביצועים הכוללים, אבל זה מוכיח את עצמו. למרות שהוא מעורפל, מודל זה ראוי לתשומת לב עבור התאמה או חריגה מהיכולות של חלופות מוכרות יותר. אתה יכול לנסות את דגם Falcon-180B על פנים מחבקות (פלטפורמת LLM בקוד פתוח).
Llama 2, מודל השפה הגדולה של Meta AI עם 70 מיליארד פרמטרים, מתבסס על קודמו, Llama 1. למרות שהוא קטן יותר מהדגמים המובילים, Llama 2 עולה בהרבה על רוב ה-LLMs הזמינים לציבור בקוד פתוח במדדים ובשימוש בעולם האמיתי. יוצא דופן יהיה ה-Falcon-180B.
בדקנו את Llama 2 מול GPT-4, GPT-3.5, Claude 2 ו-PaLM 2 כדי לאמוד את היכולות שלה. באופן לא מפתיע, GPT-4 עלה על ה-Llama 2 כמעט בכל הפרמטרים. עם זאת, Llama 2 החזיק מעמד מול GPT-3.5 ו-PaLM 2 במספר הערכות. למרות שזה יהיה לא מדויק לטעון ש-Llama 2 עדיף על PaLM 2, Llama 2 פתר בעיות רבות שפגעו ב-PaLM 2, כולל משימות קידוד. קלוד 2 ו-GPT-3.5 ניצחו את Llama 2 באזורים מסוימים, אך היו טובים יותר באופן מכריע במספר מוגבל של משימות.
אז, למרות שלא חורג מהיכולות של הדגמים הקנייניים הגדולים ביותר, קוד פתוח Llama 2 חבטות מעל דרגת המשקל שלה. עבור דגם זמין באופן גלוי, הוא מפגין ביצועים מרשימים ומתחרים בענקי בינה מלאכותית כמו PaLM 2 בהערכות נבחרות. Llama 2 מספק הצצה לפוטנציאל העתידי של מודלים של שפות קוד פתוח.
פער הביצועים בין דגמי AI הולך ומצטמצם
למרות שנוף הבינה המלאכותית מתפתח בקצב עצום, ה-GPT-4 של OpenAI נשאר המוביל של החבורה. עם זאת, בעוד ש-GPT-4 נותר ללא תחרות בהיקף ובביצועים, דגמים כמו קלוד 2 מראים שעם מספיק מיומנות, דגמים קטנים יותר יכולים להתחרות בתחומים נבחרים. ה-PaLM 2 של גוגל, למרות שהוא לא עומד בכמה ציפיות גבוהות, עדיין מציג יכולות עמוקות. ו-Falcon-180B מוכיח שיוזמות של קוד פתוח יכולות לעמוד כתף אל כתף עם טיטאנים בתעשייה בהינתן משאבים מספקים.