זיהוי ביטויים הוא רק חלק מהתהליך.
צועקת "Ok Google" מהצד השני של החדר כדי לשנות את המוזיקה או לכבות את האורות בחדר בטוח מרגיש מדהים, אבל התהליך הפשוט לכאורה הזה מופעל על ידי רשת מסובכת של טכנולוגיות הפועלות מאחורי סצנות.
כמעט לכל עוזר וירטואלי גדול בשוק יש ביטוי קורא שאתה משתמש בו כדי להעיר את העוזר ולנהל שיחה. אבל איך עוזרים קוליים יודעים מתי אתה מדבר איתם?
כיצד פועל זיהוי ביטויים?
כפי שהוזכר לעיל, לכל עוזר קולי יש "משפט טריגר" או מילת ערות שבה אתה משתמש כדי להעיר את העוזר ולתת פקודות נוספות. תהליך זיהוי הביטוי הזה זהה פחות או יותר עם כל עוזר, למעט ניואנסים קטנים. עם זאת, הניואנסים הללו יכולים להוות את ההבדל בין אמירת פקודת ההתעוררות כלאחר יד לבין צעקה מרובות פעמים רק כדי שהעוזר ימשיך לישון, משהו שיכול להיות ממש מעצבן לפעמים, במיוחד אם אתה באמצעות העוזרת הקולית כדי לעזור להרגע.
באופן כללי, לרוב הרמקולים ה"חכמים" יש מעגל קטן שתפקידו היחיד הוא לזהות את פקודת ההתעוררות ואז להכניס את שאר החומרה לפעולה. רוב העיבוד נעשה בענן, אך זיהוי הביטוי הוא במכשיר מסיבות פרטיות ברורות. זיהוי ביטויים בטלפונים עובד פחות או יותר באותו אופן.
הפרטים הספציפיים הם בעיקר תחת כיסוי, אבל מערכות הזיהוי הללו משתמשות בלמידת מכונה וברשתות עצביות עמוקות (DNNs) כדי לאמן מודלים של AI לזהות את הקול שלך וליצור מפתח. מפתח זה משמש לאחר מכן לאימות מתי אמרת ביטוי מסוים, וכל השאר נשלח לענן לעיבוד נוסף.
Google Assistant
טלפונים התומכים בזיהוי "OK Google" מגיעים בדרך כלל עם מערכת איתור מילות מפתח (KWS) שמזהה את הביטוי ולאחר מכן מתקנת את שאר השאילתה שלך לענן. מכיוון שלמכשירים ניידים יש כוח חישוב מוגבל כמו גם מגבלות על חיי סוללה, המערכות האלה בדרך כלל אינן טובות כמו אלה שתמצאו ברמקולים של Google Nest.
מערכת KWS במכשיר זו קולטת באופן רציף אודיו מהמיקרופונים של המכשיר ויוזמת חיבור לשרת כאשר היא מזהה ביטוי טריגר. גוגל משתמשת גם בזיהוי הקשר אוטומטי של דיבור בצד השרת (ASR) כדי לשפר את הדיוק הכולל של מערכת ה-KWS שלה. אתה יכול לקרוא עוד על זה ב מאמר המחקר של גוגל [PDF].
סירי
Siri פועלת כמו Google Assistant לגבי זיהוי "Hey Siri". אפל הייתה פתוחה באופן מפתיע לגבי אופן הפעולה של המערכת, שכוללת מזהה דיבור "קטן מאוד" שפועל ברקע ומאזין רק לשתי המילים הללו. גלאי זה משתמש ב-DNN כדי להמיר את הדפוס האקוסטי של הקול שלך שהוקלט על פני כל מופע להתפלגות הסתברות על פני צלילי דיבור, ובעצם יוצר ציון ביטחון.
האייפון או ה-Apple Watch שלך עושים זאת על ידי שינוי הקול שלך לזרם של דגימות צורות גל בקצב של 16,000 לשנייה. לאחר מכן זה נחתך לרצף של פריימים המכסה ספקטרום צליל של כ-0.01 שניות. לאחר מכן, סה"כ 20 מהפריימים הללו מוזנים למודל הזיהוי, הממיר את הדפוסים הללו להסתברות.
אם המערכת קובעת בביטחון מספיק שאמרת "היי סירי", סירי מתעוררת ושולחת את השאר של השאילתה לענן, שם מתרחש ניתוח נוסף וכל פעולה שביקשת מקבלת מְבוּצָע.
ישנם, כמובן, אמצעים נוספים שנוספו כדי להבטיח יעילות זיכרון וסוללה. למעבד ה-Always On של האייפון שלך (AOP) יש גישה למיקרופונים של המכשיר (באייפון 6S ואילך) מסיבה זו בדיוק, וחלק קטן מכוח העיבוד שלו שמור להפעלת ה-DNN. אפל צוללת עמוק לתוך המערכת כולה באתר למידת המכונה שלה, machinelearning.apple.
אלכסה
בדומה ל-Google Assistant ו-Siri, אלקסה גם לא מחזיקה את רוב כוח העיבוד שלה באף אחד מרמקולי ה-Echo שאתה יכול לקנות. במקום זאת, הדוברים משתמשים במה שאמזון מכנה זיהוי דיבור אוטומטי (ASR) שבעצם ממיר מילים מדוברות לטקסט, ומאפשר למערכת הבסיסית לפרש אותן ולפעול בהתאם.
ASR מהווה את הבסיס הבסיסי לאופן שבו אלקסה עובדת. שוב, יש מערכת מובנית שמקשיבה למילות ההתעוררות, במקרה הזה, "אלכסה", "אמזון", "הד" או "מחשב", ומפעיל את שאר המערכת כאשר מילת ההתעוררות שנקבעה מראש על ידי המשתמש היא זוהה. אתה יכול אפילו תעיר את מכשיר האלקסה שלך באמצעות "היי דיסני" אם אתה רוצה.
כמו Google Assistant, אתה יכול לאמן את מודל הבינה המלאכותית הבסיסית של Alexa לזהות את הקול שלך טוב יותר. תהליך זה כולל יצירת "מפתח" בסיס שאליו משווים את מילת ההתעוררות המדוברת, וכאשר נמצא התאמה, המכשיר מגיב בהתאם.
האם עוזרי קול תמיד מקשיבים?
כפי שאתה בטח כבר יכול לנחש, כן, הם כן. אין סיכוי שהם יוכלו לזהות את מילות ההתעוררות אחרת. עם זאת, עדיין אינך צריך לזרוק את כל הרמקולים החכמים שלך בגלל חששות פרטיות.
להקשיב לכל מה שהמשתמשים אומרים, לשלוח אותו בחזרה לשרת מרוחק, ולנתח (או לאחסן) אותו דורש חומרה ומשאבים כספיים עצומים עד לנקודה שבה זה לא הגיוני ממעשה נקודת מבט. תוסיפו לזה את חששות הפרטיות האדירים שחברות כמו גוגל, אפל ואמזון כבר מתמודדות איתם, והרעיון לא הגיוני.
זה גם משפיע באופן מסיבי על ביצועי הטלפונים וחיי הסוללה עם תכונות זיהוי מילות התעוררות, בעיקר פיקסלים של גוגל ומכשירי אייפון. אם הטלפון שלך מאזין ללא הרף למה שאתה אומר ושולח את האודיו בחזרה לשרת מרוחק, הוא ימלא את הסוללה שלך ויפגע בביצועי המכשיר.
למי יש את זיהוי הביטויים היעיל ביותר ומדוע?
לא קל להשוות באופן אובייקטיבי לאיזה עוזר וירטואלי יש את זיהוי הביטויים הטוב ביותר מבחינה אובייקטיבית, שכן כולם משתמשים ביישומים מעט שונים של אותו רעיון כולל. עם זאת, נראה שלגוגל יש זיהוי ביטויים עקבי יותר בגלל ההתחלה של Google Assistant בהשוואה לסירי ואלקסה.
למרות שאפליקציות המשתמשות במודלים של שפה גדולה (LLMs) כמו ChatGPT ו-Bing Chat הופכות למיינסטרים, Google Assistant שומרת על מעמדה כאחת עוזרים וירטואליים פופולריים פשוט כי זה במרחק קצר בכל מכשיר אנדרואיד, החל מטלוויזיות חכמות למערכות סטריאו לרכב וכמובן, סמארטפונים.
לסירי ואלכסה יש קצת להתעדכן במחלקה הזו, אבל מבחינת זיהוי ביטויים, הן לא כל כך רחוקות. ובכל זאת, יהיה לך סיכוי טוב יותר להעיר את Google Assistant בפיקסל שלך מעבר לחדר מאשר עם Siri באייפון שלך, למרות שאתה יכול הגבר את היכולות של Siri עם מצב Super Siri. מכיוון ש-Alexa משמשת בעיקר בקו הרמקולים Echo של אמזון, יש לה יתרון קל כאן, בהתחשב בכך שרמקולים אלו נועדו להיות מסוגלים לקלוט את קולו של המשתמש.
AI מפחיד כמו שהוא נוח
זימון עוזר הבינה המלאכותית שלך רק באמצעות הקול שלך יכול להיות שימושי למדי. עבור תכונה שמשתלבת בצורה חלקה בחיינו, הרבה קורה מאחורי הקלעים שלרוב רובנו לא חושבים עליהם.
עם זאת, הנוחות הזו מביאה איתה גם את אי הנוחות של המכשיר שלך מאזין תמיד למה שאתה אומר. עד כה, מזהי דיבור במכשיר ומילות ערות עומדים בין מה שהעוזר הוירטואלי שלך שומע לבין מה שאתה אומר.