פרסומת
אנחנו יכולים לדבר כמעט עם כל הגאדג'טים שלנו עכשיו, אבל בדיוק איך זה עובד? כשאתה שואל "איזה שיר זה?" או לומר "התקשר לאמא", קורה נס של הטכנולוגיה המודרנית. ובעוד שזה מרגיש כאילו הוא נמצא בחוד החנית, הרעיון הזה לדבר עם מכשירים חוזר לאורך עשרות שנים - כמעט עד מטוסי סילון במדע בדיוני!
כיום עיקר תשומת הלב המוקדשת למחשוב מונע קולי היא בסמארטפונים. אפל, אמזון, מיקרוסופט וגוגל נמצאות בראש הרשת, וכל אחת מהן מציעה דרך משלה לדבר עם אלקטרוניקה. ידעתם מי הם: סירי, אלכסה, קורטנה והיותה "אוקיי, גוגל" חסרת שם. מה שמעלה שאלה גדולה ...
איך מכשיר לוקח מילים מדוברות והופך אותן לפקודות שהוא יכול להבין? בעיקרו של דבר זה מסתכם בהתאמת דפוסים ובביצוע תחזיות על בסיס דפוסים אלה. ליתר דיוק, זיהוי קולי הוא משימה מורכבת שמקורה בה דוגמנות אקוסטית ו דוגמנות שפה.
דוגמנות אקוסטית: צורות גל וטלפונים
דוגמנות אקוסטית היא תהליך לקיחת צורת גל של דיבור וניתוחו באמצעות מודלים סטטיסטיים. השיטה הנפוצה ביותר לכך היא דוגמנות חבויות של מרקובשמשמש במה שמכונה דוגמנות הגייה לפרק את הדיבור לחלקים רכיבים הנקראים טלפונים (לא להתבלבל עם מכשירי טלפון בפועל). מיקרוסופט היא חוקרת מובילה בתחום זה שנים רבות.
דוגמנות נסתרות של מרקוב: מדינות הסתברות
דוגמנות סמוי של מארקוב הוא מודל מתמטי חזוי בו המצב הנוכחי נקבע על ידי ניתוח התפוקה. בויקיפדיה יש א דוגמה נהדרת באמצעות שני חברים.
דמיין שני חברים - חבר מקומי וחבר מרוחק - שגרים בערים שונות. חבר מקומי רוצה להבין איך מזג האוויר איפה גר חבר מרוחק, אבל חבר מרוחק רק רוצה לדבר על מה שעשה באותו יום: לטייל, לעשות קניות או לנקות. הסבירות לכל פעילות תלויה במזג האוויר של היום.
העמידו פנים שזהו המידע היחיד הקיים. בעזרתה, ידידה מקומית יכולה למצוא מגמות כיצד מזג האוויר השתנה מיום ליום, ובאמצעות מגמות אלה, היא יכולה להתחיל להניח ניחושים משכילים לגבי מזג האוויר של היום שיתבסס על פעילות חברתה אתמול. (אתה יכול לראות תרשים של המערכת למעלה.)
אם אתה רוצה דוגמה מורכבת יותר, בדוק את זה דוגמה זו במטלב. בזיהוי קולי, מודל זה משווה למעשה כל חלק של צורת הגל מול מה שקודם לדברים הבאים ואחרי מילון של צורות גל כדי להבין מה נאמר.
בעיקרו של דבר, אם אתה משמיע צליל "ה", הוא יבדוק את הצליל הזה מול הצלילים הסבירים ביותר שבדרך כלל מגיעים לפניו ואחריו. אולי זה אומר לבדוק מול צליל ה- e, צליל ה- “at” וכן הלאה. כאשר התבנית תואמת נכון, יש לה את כל המילה שלך. זהו פישוט יתר, אך ניתן לראות כל ההסבר של מיקרוסופט כאן.
דוגמנות שפה: יותר צליל
דוגמנות אקוסטית עושה דרך ארוכה לעזור למחשב שלך להבין אותך, אבל מה עם הומונימים וריאציות אזוריות בהגייה? כאן נכנס לתמונה דוגמנות שפה. גוגל עשתה מחקר רב בתחום זה, בעיקר באמצעות דוגמנות N- גרם.
כשגוגל מנסה להבין את הנאום שלך, היא עושה זאת על סמך מודלים הנגזרים מהבנק העצום של חיפוש קולי ותעתיקי יוטיוב. כל אותן כותרות הווידיאו השגויות באופן מצחיק עזרו למעשה לגוגל להתפתח במילונים שלהן. כמו כן, הם השתמשו ביציאה GOOG-411 כדי לאסוף מידע על איך אנשים מדברים.
כל אוסף השפות הזה יצר מערך עצום של הגיות וניבים, שגרם למילון חזק של מילים וכיצד הן נשמעות. זה מאפשר התאמות שיש להן שיעור שגיאות מופחת מאוד מאשר התאמת כוח ברוט על סמך הסתברויות גולמיות. אתה יכול לקרוא מאמר קצר בתיאור שיטותיהם כאן.
בעוד שגוגל מובילה בתחום זה, ישנם פיתוחים מודלים מתמטיים אחרים, כולל מרחב רציף מודלים ומודלים של שפה עמדתית, שהם טכניקות מתקדמות יותר שנולדו ממחקר בבינה מלאכותית. שיטות אלה מבוססות על שכפול סוג ההיגיון שבני האדם מבצעים כאשר הם מקשיבים זה לזה. אלה מתקדמים בהרבה הן מבחינת הטכנולוגיה העומדת מאחוריהן, אלא גם המתמטיקה והתכנות הדרושות למיפוי הדגמים הללו.
דוגמנות N-Gram: ההסתברות פוגשת בזיכרון
דוגמנות N-gram עובדת על סמך הסתברויות, אך היא משתמשת במילון מילים קיים בכדי ליצור עץ מסתעף של אפשרויות, המוחלק לאחר מכן לטובת היעילות. במובן מסוים, פירוש הדבר שמודלים N-gram מסלקים הרבה מהאי וודאות במודלים הנסתרים של מארקוב.
כפי שצוין לעיל, חוזקה של שיטה זו נובע מהקמת מילון גדול של מילים ו שימוש, לא סתם פרימיטיבי נשמע. זה מאפשר לתוכנית להבחין בהבדל בין הומופונים, כמו "פעימה" ו"סלק ". זה קונטקסטואלי, שמשמעותו שכשמדברים על ציוני אמש, התוכנית לא מעלה מילים על בורשט.
אבל מודלים אלה למעשה אינם הטובים ביותר לשפה, בעיקר בגלל בעיות עם הסתברות של מילים בביטויים ארוכים יותר. כשאתה מוסיף מילים נוספות למשפט, המודל הזה קצת נעלם מכיוון שסביר להניח שהמילים המוקדמות שלך לא העמיסו את כל הדרוש למחשבה השלמה שלך.
עם זאת, זה פשוט וקל ליישום, מה שהופך אותו להתאמה נהדרת לחברה כמו גוגל שנהנית לזרוק שרתים על בעיות חישוב. אתה יכול לקרוא קריאה נוספת על N- גרם Modelieng בבית אוניברסיטת וושינגטוןאו שתוכלו לצפות ב הרצאה בקורסרה.
צועק לעבר עננים: אפליקציות ומכשירים
כל מי שהשתמש בסירי מכיר את התסכול של חיבור רשת איטי. הסיבה לכך היא שהפקודות שלך לסירי נשלחות דרך הרשת לפענוח של אפל. Cortana עבור טלפון Windows מחייב גם חיבור רשת כדי לתפקד כראוי. לעומת זאת, האקו של אמזון הוא רק רמקול Bluetooth ללא אינטרנט.
מדוע ההבדל? מכיוון שסירי וקורטנה זקוקים לשרתים כבדים כדי לפענח את הדיבור שלך. האם זה יכול להיעשות בטלפון או בטאבלט? בטח, אבל אתה תהרוג את הביצועים ואת חיי הסוללה שלך בתהליך. זה רק הגיוני יותר להוריד את העיבוד למכונות ייעודיות.
חשבו על זה כך: הפקודה שלכם היא מכונית שתקועה בבוץ. אתה בטח יכול לדחוף את זה בעצמך עם מספיק זמן ומאמץ, אבל זה ייקח שעות וישאיר אותך מותש. במקום זאת, אתה מתקשר לסיוע בצד הדרך והם שולפים את המכונית שלך תוך מספר דקות. החיסרון הוא שאתה צריך לבצע את השיחה ולחכות להם, אבל זה עדיין מהיר יותר ופחות ממס.
דגמי שולחן עבודה כמו Nuance נוטים להשתמש במקורות מקומיים בגלל החומרה החזקה יותר. אחרי הכל, במילים של סטיב ג'ובס, שלך שולחן העבודה הוא משאית. (מה שמקפיץ מעט את מערכת ההפעלה X שעושה שימוש שרתים לעיבוד שלה.) אז כשאתה צריך לעבד שפה וקול, הוא כבר מצויד מספיק כדי לטפל בזה בכוחות עצמו.
מצד שני, אנדרואיד מאפשרת למפתחים לכלול אפליקציות שלהם זיהוי דיבור לא מקוון. גוגל אוהבת להקדים את הטכנולוגיה ותוכלו להמר שהפלטפורמות האחרות יזכו ביכולת זו ככל שהחומרה שלהן תתחזק. אף אחד לא אוהב את זה כשכיסוי לקוי או קליטה לא טובה מאפיין את המכשיר שלהם.
התחל להשתמש בפקודות קוליות עכשיו
עכשיו כשאתה מכיר את מושגי היסוד, עליך לשחק עם המכשירים השונים שלך. נסה את החדש הקלדת קולי במסמכי Google כיצד הקלדת קולות היא התכונה החדשה הטובה ביותר של Google Docsזיהוי קולי השתפר בקפיצות מדרגה בשנים האחרונות. מוקדם יותר השבוע, גוגל הציגה סוף סוף הקלדת קולות במסמכי Google. אבל האם זה טוב? בוא נגלה! קרא עוד . כאילו חבילת משרדי האינטרנט כבר לא הייתה מספיק חזקה, שליטה קולית מאפשרת לך להכתיב ולעצב את המסמכים שלך לחלוטין. זה מתרחב על הטכנולוגיה החזקה שכבר עיצבו עבור Chrome ואנדרואיד.
רעיונות אחרים כוללים הגדרת שלך Mac כדי להשתמש בפקודות קוליות כיצד להשתמש בפקודות דיבור ב- Mac קרא עוד והגדרת שלך הד אמזון עם קופה אוטומטית כיצד הד אמזון יכול להפוך את הבית לבית חכםטק בית חכם עדיין בימיו הראשונים, אך מוצר חדש של אמזון בשם "Echo" עשוי לעזור להכניס אותו למיינסטרים. קרא עוד . חיה בעתיד ותחבק לדבר עם הגאדג'טים שלך - אפילו אם אתה רק מזמין מגבות נייר יותר. אם אתה מכור לסמארטפון, יש לנו גם הדרכות עבור סירי 8 דברים שבטח לא הבנתם שסירי יכולה לעשותסירי הפכה לאחת מתכונות ההגדרה של האייפון, אך עבור אנשים רבים היא לא תמיד השימושית ביותר. בעוד שחלק מכך נובע מהמגבלות של זיהוי קולי, מוזרות השימוש ב ... קרא עוד , קורטנה 6 דברים מגניבים ביותר שאתה יכול לשלוט עליהם עם Cortana ב- Windows 10Cortana יכול לעזור לך לעבור דיבורית ב- Windows 10. אתה יכול לתת לה לחפש בקבצים שלך ובאינטרנט, לבצע חישובים או להעלות את תחזית מזג האוויר. כאן אנו מכסים כמה מכישוריה הקרירים יותר. קרא עוד , ו אנדרואיד אוקיי, גוגל: 20 דברים מועילים שאתה יכול לומר לטלפון אנדרואיד שלךGoogle Assistant יכול לעזור לך לעשות הרבה מהטלפון שלך. לפניכם חבורה שלמה של פקודות בסיסיות אך שימושיות של גוגל, שאפשר לנסות. קרא עוד .
מה השימוש המועדף עליך בשליטה קולית? נודיע בתגובות.
זיכויים לתמונה: T-flex דרך Shutterstock, Terencehonles באמצעות קרן ויקימדיה, מדינת אריזונה, עיצוב Cienpies דרך Shutterstock
מייקל לא השתמש במחשבי מק כאשר נידונו, אך הוא יכול לקוד ב- Applescript. הוא בעל תארים במדעי המחשב ובאנגלית; הוא כתב על מק, iOS ומשחקי וידאו כבר זמן מה; והוא היה קוף IT ביום במשך למעלה מעשור, ומתמחה בתסריטים ווירטואליזציה.