OpenAI העניקה ל-ChatGPT את היכולת לדבר באמצעות קול מסונתז, והוא יגיע לסמארטפון שלך בקרוב.

ChatGPT אמור להפוך לחוויית AI אינטראקטיבית. OpenAI חשף שצ'אטבוט הבינה המלאכותית המוביל בעולם יוכל לדבר ולהגיב לשאילתות משתמשים באמצעות קול מסונתז, כנראה שנוצר בינה מלאכותית.

יחד עם הקול החדש שלו, ChatGPT יוכל גם להגיב ולדון בתמונות ספציפיות שהועלו אליו או צולמו תוך כדי שימוש באפליקציית ChatGPT Android או iOS. תכונת זיהוי התמונות נשמעת דומה ל-Google Lens ואפליקציות אחרות המשתמשות ברשתות עצביות כדי לזהות נתונים ומידע בצורה מדויקת.

OpenAI נותן קול ל-ChatGPT

ב-25 בספטמבר 2023, מפתח ChatGPT OpenAI נחשף זה ייתן קול לצ'אטבוט ה-AI הגנרטיבי המוביל בעולם שלו. משתמשי ChatGPT יכולים לדבר ישירות עם הצ'אטבוט ולבקש ממנו לדבר בחזרה, ולמעשה לאפשר ל-ChatGPT לשוחח ישירות עם הקול בפעם הראשונה.

הקליפ לדוגמה של OpenAI מציג אישה שמבקשת מ-ChatGPT ליצור סיפור ייחודי לפני השינה, ש-ChatGPT מגיב לו כראוי בקול מסונתז נשי.

לפי חוטי, המודל החדש של טקסט לדיבור פותח בבית. זה יכול ליצור אודיו "כמו אנושי" מטקסט וכמה שניות של דיבור לדוגמה (

instagram viewer
באמצעות מודל OpenAI Whisper) ולדבר בטונים ובסגנונות שונים. אתה יכול למצוא מגוון דגימות קול ב- הבלוג של OpenAI.

כמה חברות כבר משתמשות במודל הקול החדש של OpenAI. לדוגמה, Spotify משתמשת במודל הטקסט-לדיבור של OpenAI כדי לתרגם פודקאסטים לשפות שונות, תוך שילוב של יכולת התרגום לשפות של ChatGPT עם יכולת הדיבור החדשה שלה.

מודל הטקסט-לדיבור החדש של ChatGPT זמין רק למנויי Plus ו-Enterprise המשתמשים ברשמית אפליקציות אנדרואיד ו-iOS וצפויות לצאת במהלך השבועיים הקרובים (החל מה-25 בספטמבר, 2023). יתר על כן, תכונת הקול החדשה מוגבלת לאנגלית מלכתחילה, אם כי היינו מצפים שזה ישתנה במהירות.

ChatGPT יכול לזהות ולנתח תמונות ותצלומים

החלק השני של עדכון ChatGPT של OpenAI הוא היכולת לנתח ולדבר תמונות שהועלו לכלי. אפשרות ניתוח התמונה החזותית הופיעה בסרטוני העדכון של GPT-4 אך לא נידונה הרבה מאז אותה תקופה (מתורגמן קוד ChatGPT בצד).

כעת, ChatGPT זוכה לפונקציונליות דומה ל-Google Lens. אתה יכול להעלות תמונה ל-ChatGPT או לצלם תמונה באמצעות מצלמת הסמארטפון שלך באפליקציית ChatGPT, והיא תפרט את התמונה, ותוסיף הקשר נוסף במידת הצורך.

לקרוא לזה "דומה ל-Google Lens" עושה לזה עוול, באמת. היכולת לשוחח קדימה ואחורה על התמונה כדי לקבל יותר מידע והקשר הופכת אותה לשימושית ביותר עבור מגוון רחב של הגדרות. עם זאת, חשוב לציין את האותיות הקטנות, כאשר OpenAI מבהירה כי היא הגבילה את "יכולת הניתוח וההצהרות ישירות על אנשים" של ChatGPT מטעמי פרטיות ודיוק. ובכל זאת, האם כלי "מי זה" המופעל על ידי OpenAI יכול להיות בעבודות לעתיד? (בואו נקווה שלא!)

בדומה למודל הטקסט לדיבור החדש, OpenAI תשיק זיהוי תמונות בשבועיים הקרובים, אם כי הוא יהיה זמין בכל הפלטפורמות, לא רק באפליקציית ChatGPT.

פרטיות, אבטחה ובעיות אחרות

ההשלכות של ChatGPT המופעל באמצעות קול הן חמורות. בטח, זה מרגש. עם זאת, ליכולת ליצור קול מסונתז ייחודי באמצעות קטע קצר בלבד כדוגמה יש בעיות פרטיות ואבטחה ניכרות. הפוטנציאל של שחקנים זדוניים לנצל את הכלים הללו הוא עצום, וכמו בכל כלי בינה מלאכותית, ברגע שהשד יצא מהבקבוק, הוא בהחלט לא יחזור פנימה. שום כמות של רגולציית AI מממשלות או ממנהיגי מחשבה לא יכולה להחזיר את הזרם לאחור.

נראה שאפילו האזהרה של OpenAI בנושא עוקפת את המובן מאליו למרות הזכרת הבעיות:

עם זאת, יכולות אלו מציגות גם סיכונים חדשים, כגון הפוטנציאל של שחקנים זדוניים להתחזות לאישי ציבור או לבצע הונאה. זו הסיבה שאנו משתמשים בטכנולוגיה הזו כדי להפעיל מקרה שימוש ספציפי - צ'אט קולי.

בהתחשב בכך שזה קצה הקרחון, צפו לדחיפה נגד הקול החדש של ChatGPT, במיוחד פעם אחת יש עלייה צפויה בכותרות לא נעימות שטוענות ש-ChatGPT משמש לביצוע הונאה וכדומה עַל.

OpenAI הופכת את ChatGPT לאפליקציית Go-To AI

ככל ש-OpenAI מוסיף יותר תכונות ידידותיות למשתמש ל-ChatGPT, כך היא הופכת לאפליקציית הבינה המלאכותית הגנרטיבית. בתור הראשון שהגיע לתהילה נרחבת במהלך בום הבינה המלאכותית הראשונית, ChatGPT עדיין מוביל את הדרך והוא רק באפליקציה יש שימוש מסוים, למרות התחרות מצד אנשים כמו גוגל בארד (ואולי גוגל ג'מיני) ו-Anthropic's קלוד.

כל עוד OpenAI יכול להמשיך ולהוסיף תכונות שהופכות את ChatGPT לקל יותר לשימוש, זה ישאיר אנשים מרותקים ותתקרב יותר ויותר אל המטרה שלה של כלי בינה מלאכותית רב-מודאלית באמת.