לטכנולוגיית זיהוי הקול יש היסטוריה עשירה של פיתוח שהובילה אותה למה שהיא היום. זה ליבת החיים המודרניים, ונותן לנו את היכולת לבצע משימות רק על ידי דיבור עם מכשיר. אז איך התפתחה הטכנולוגיה המדהימה הזו לאורך השנים? בואו נסתכל.

1952: מערכת אודרי

הצעד הראשון בזיהוי קולי הגיע בתחילת שנות החמישים. מעבדות בל פיתחו את המכונה הראשונה שיכולה להבין את הקול האנושי בשנת 1952, והיא נקראה מערכת אודרי. השם אודרי היה סוג של התכווצות של הביטוי זיהוי ספרות אוטומטיות. למרות שזהו חידוש מרכזי, היו לו כמה מגבלות גדולות.

באופן בולט ביותר, אודרי יכלה לזהות רק את הספרות המספריות 0-9, אין מילים. אודרי תיתן משוב כשהדובר אמר מספר על ידי הדלקת 1 מתוך 10 נורות, כל אחת מתאימה לספרה.

קרדיט תמונה: metamorworks/Shutterstock.com

למרות שהוא יכול להבין את המספרים בדיוק של 90%, אודרי הייתה מוגבלת לסוג קול ספציפי. זו הסיבה שהאדם היחיד שבאמת היה משתמש בו היה HK Davis, אחד המפתחים. כאשר נאמר מספר, הדובר יצטרך להמתין לפחות 300 אלפיות השנייה לפני שיגיד את הבא.

לא רק שזה היה מוגבל בפונקציונליות, אלא שזה היה מוגבל גם בתועלת. לא היה הרבה שימוש במכונה שיכולה להבין רק מספרים. שימוש אפשרי אחד היה חיוג למספרי טלפון, אך היה הרבה יותר מהיר וקל לחייג את המספרים ביד. למרות שלאודרי לא היה קיום חינני, הוא עדיין מהווה אבן דרך גדולה בהישגים אנושיים.

instagram viewer

קָשׁוּר: כיצד להשתמש בהקלדה קולית ב- Microsoft Word

1962: קופסת הנעליים של IBM

עשור אחרי אודרי, IBM ניסתה את כוחה בפיתוח מערכת זיהוי קולי. ביריד העולמי של 1962 הציגה IBM מערכת זיהוי קולי בשם Showbox. בדומה לאודרי, תפקידה העיקרי היה הבנת הספרות 0-9, אך היא גם יכלה להבין שש מילים: פלוס, מינוס, שקר, סך הכל, סכום בינוני וכבוי.

קופסת הנעליים הייתה מכונת מתמטיקה שיכולה לבצע בעיות חשבון פשוטות. באשר למשוב, במקום נורות, Shoebox הצליחה להדפיס את התוצאות על נייר. זה עשה את זה שימושי כמחשבון, אם כי הדובר עדיין יצטרך להשהות בין כל מספר/מילה.

1971: זיהוי שיחות אוטומטי של יבמ

לאחר אודרי ושוטבוקס, מעבדות אחרות ברחבי העולם פיתחו טכנולוגיית זיהוי קולי. עם זאת, זה לא המריא עד שנות השבעים, כאשר בשנת 1971, IBM הביאה את ההמצאה הראשונה מסוגה לשוק. היא נקראה מערכת זיהוי שיחות אוטומטית. זו הייתה מערכת זיהוי הקול הראשונה שהייתה בשימוש במערכת הטלפונים.

מהנדסים היו מתקשרים ומחוברים למחשב בראלי, צפון קרוליינה. לאחר מכן היה המתקשר מוציא אחת מ -5,000 המילים באוצר המילים שלו ומקבל תשובה "מדוברת" כתשובה.

קָשׁוּר: כיצד להשתמש בהכתבה קולית במחשבי Mac

1976: הארפי

בתחילת שנות השבעים, משרד ההגנה האמריקאי התעניין בזיהוי קולי. DARPA (סוכנות פרוייקטים של מחקר מתקדם בתחום ההגנה) פיתחה את התוכנית מחקר הבנת דיבור (SUR) בשנת 1971. תוכנית זו העניקה מימון למספר חברות ואוניברסיטאות כדי לסייע במחקר ופיתוח לזיהוי קולי.

בשנת 1976, בגלל SUR, אוניברסיטת קרנגי מלון פיתחה את מערכת Harpy. זו הייתה קפיצה משמעותית בטכנולוגיית זיהוי הקול. המערכות עד לאותה נקודה הצליחו להבין מילים ומספרים, אך הארפי היה ייחודי בכך שהוא יכול להבין משפטים מלאים.

היה בו אוצר מילים של כ -1,011 מילים בלבד, שעל פי פרסום מאת ב. לואר ור. רדי, המשווים ליותר מטריליון משפטים אפשריים שונים. הפרסום קובע אז שהארפי יכול היה להבין מילים בדיוק של 93.77%.

שנות השמונים היו זמן מרכזי לטכנולוגיית זיהוי הקול, מכיוון שזהו העשור שבו קול טכנולוגיית ההכרה, מכיוון שזהו העשור בו הכירו את שיטת מרקוב הנסתרת (HMM). הכוח המניע העיקרי מאחורי HMM הוא הִסתַבְּרוּת.

בכל פעם שמערכת רושמת פונמה (מרכיב הדיבור הקטן ביותר), קיימת הסתברות מסוימת למה יהיה הבא. HMM משתמשת בהסתברויות אלה כדי לקבוע איזו פונמה סביר להניח שתבוא בהמשך ותיצור את המילים הסבירות ביותר. רוב מערכות זיהוי הקול כיום עדיין משתמשות ב- HMM כדי להבין דיבור.

שנות התשעים: זיהוי קולי מגיע לשוק הצרכנים

מאז תפיסת טכנולוגיית זיהוי הקול, היא הייתה במסע למצוא מקום בשוק הצרכנים. בשנות השמונים, IBM הציגה מחשב אב טיפוס שיכול לבצע תכתיב בין דיבור לטקסט. עם זאת, רק בתחילת שנות התשעים אנשים התחילו לראות יישומים כאלה בבתיהם.

בשנת 1990 הציגה דרגון מערכות את תוכנת ההכתבה הראשונה של דיבור לטקסט. הוא נקרא Dragon Dictate, והוא פורסם במקור עבור Windows. תוכנית זו של 9,000 דולר הייתה מהפכנית בהבאת טכנולוגיית זיהוי קולי להמונים, אך היה פגם אחד. התוכנה בשימוש תכתיב בדיד, כלומר, על המשתמש להשהות בין כל מילה כדי שהתוכנית תוכל לאסוף אותן.

בשנת 1996, IBM שוב תרמה לתעשייה באמצעות Medspeak. זו הייתה גם תכנית הכתיבה של דיבור לטקסט, אך היא לא סבלה מדיקטציה דיסקרטית כפי שגרמה לדרקון דיקטט. במקום זאת, תוכנית זו יכולה להכתיב דיבור רציף, מה שהפך אותה למוצר משכנע יותר.

קָשׁוּר: כיצד להשתמש ב- Google Assistant עם אוזניות

2010: ילדה בשם סירי

במהלך שנות האלפיים, טכנולוגיית זיהוי הקול התפוצצה בפופולריות. היא יושמה ליותר תוכנות וחומרה מאי פעם, וצעד מכריע בהתפתחות הזיהוי הקולי היה סירי, העוזרת הדיגיטלית. בשנת 2010 הציגה חברה בשם סירי את העוזרת הווירטואלית כאפליקציית iOS.

בזמנו, סירי הייתה תוכנה מרשימה שיכולה להכתיב את מה שהדובר אומר ולתת מענה משכיל ושנון. התוכנית הזו הייתה כה מרשימה עד שאפל רכשה את החברה באותה שנה ונתנה לסירי קצת שיפוץ ודחפה אותה לעבר העוזרת הדיגיטלית שאנו מכירים כיום.

באמצעות אפל קיבלה סירי את קולה האייקוני (קולה של סוזן בנט) ושלל תכונות חדשות. זה משתמש עיבוד שפה טבעית לשלוט ברוב פונקציות המערכת.

שנות 2010: ארבעת העוזרים הדיגיטליים הגדולים

כפי שהוא עומד, ארבעה עוזרים דיגיטליים גדולים שולטים בזיהוי קולי ותוכנות נוספות.

  • סירי קיים כמעט בכל מוצרי אפל: מכשירי אייפון, אייפוד, אייפד ומשפחת מחשבי מק.
  • Google Assistant קיים ברוב 3 מיליארד מכשירי האנדרואיד הקיימים בשוק. בנוסף, משתמשים יכולים להשתמש פקודות בשירותי Google רבים, כמו דף הבית של Google.
  • אמזון אלקסה אין לה הרבה פלטפורמה ייעודית שבה היא חיה, אבל היא עדיין עוזרת בולטת. ניתן להוריד אותו ולהשתמש בו במכשירי אנדרואיד, מכשירי אפל. ואפילו מחשבים ניידים נבחרים של לנובו
  • ביקסבי הוא הערך החדש ביותר לרשימת העוזרים הדיגיטליים. זהו העוזר הדיגיטלי הביתי של סמסונג, והוא קיים בין הטלפונים והטאבלטים של החברה.

היסטוריה מדוברת

זיהוי הקול עבר דרך ארוכה מאז ימי אודרי. היא צברה הישגים גדולים במספר תחומים; למשל, על פי Clear Bridge Mobile, התחום הרפואי נהנה מצ'אט בוטים קוליים במהלך המגיפה בשנת 2020. מרגע היכולת להבין מספרים וכלה בהבנת וריאציות שונות של משפטים מלאים, זיהוי קולי מתגלה כאחת הטכנולוגיות השימושיות ביותר בעידן המודרני שלנו.

לַחֲלוֹקצִיוּץאימייל
כיצד פועלת זיהוי קולי?

אנחנו משתמשים בזיהוי קולי כל הזמן, אבל איך זה עובד?

קרא הבא

נושאים קשורים
  • הסבר על הטכנולוגיה
  • סירי
  • Google Assistant
  • אלקסה
  • ביקסבי
  • פקודות קול
על הסופר
ארתור בראון (31 מאמרים פורסמו)

ארתור הוא עיתונאי וטכנאי טכנולוגי המתגורר באמריקה. הוא נמצא בתעשייה כמעט עשור, לאחר שכתב לפרסומים מקוונים כגון כותרות אנדרואיד. יש לו ידע עמוק ב- Android ו- ChromeOS. לצד כתיבת מאמרי מידע, הוא גם מיומן בדיווח על חדשות טכנולוגיות.

עוד מאת ארתור בראון

הירשם לניוזלטר שלנו

הצטרף לניוזלטר שלנו לקבלת טיפים, סקירות, ספרים אלקטרוניים בחינם ומבצעים בלעדיים!

לחצו כאן להרשמה