קוראים כמוך עוזרים לתמוך ב-MUO. כאשר אתה מבצע רכישה באמצעות קישורים באתר שלנו, אנו עשויים להרוויח עמלת שותף. קרא עוד.

Whisper של OpenAI הוא פתרון חדש המופעל על ידי AI שיכול להפוך את הקול שלך לטקסט. והכי חשוב, זה בא בעלות אפסית.

עם זאת, יש מלכוד: זה יותר מאתגר להתקנה ולהשתמש בה מאשר כלי השירות הממוצע של Windows. במיוחד אם אתה רוצה להשתמש בליבות Tensor של Nvidia GPU שלך כדי לתת לו דחיפה יפה.

אבל אל תדאג. בשביל זה אנחנו כאן! המשך לקרוא כדי לגלות כיצד להתקין אותו ולהשתמש בו, אך גם, אם יש לך אחד כזה, כדי לאפשר ל-Whissper לנצל את ה-Nvidia GPU שלך.

מהי הלחישה של OpenAI?

ChatGPT הוא כל הזעם בימינו, וכבר ראינו איך אתה יכול להשתמש ב-ChatGPT של OpenAI. ועדיין, זה לא הפרויקט המעניין היחיד של OpenAI.

מופעל על ידי למידה עמוקה ורשתות עצביות, Whisper היא מערכת עיבוד שפה טבעית שיכולה "להבין" דיבור ולתמלל אותו לטקסט. אבל זה גם עניין משלו, יושב במקום ממש בין כל הפתרונות הדומים:

  • Whisper הוא פתרון AI ש"אומן" על שפה טבעית. אז זה טוב יותר בהבנת דיבור אנושי "רגיל" מאשר פתרונות ישנים יותר.
  • Whisper לא מגיע עם ממשק, וגם לא יכול להקליט אודיו. זה יכול לקחת רק קבצי אודיו קיימים ופלט קבצי טקסט.
  • instagram viewer
  • מכיוון שהוא טוב ב"להשיג היגיון בשפה", ל-Whesper יש גם את כוח העל של תרגום אוטומטי בצעד אחד.
  • Whisper אינו שירות מקוון ויכול לעבוד לחלוטין במצב לא מקוון.
  • אם יש לך Nvidia GPU מודרני יחסית (GTX970 ומעלה), Whisper יכול לפעול ב"מצב מואץ חומרה" כדי להגביר את המהירות שלו.
  • אין חובה להירשם, לרכוש רישיון או לקנות מנוי.

מדוע גרפי AMD אינם נתמכים?

כדי שמעבדי GPU יהיו שימושיים עבור יותר מאשר גרפיקה, הם יצטרכו לפעול כמעבדים הניתנים לתכנות מלא. זו הסיבה ש-Nvidia יצרה את CUDA, שנחשב רשמית ל"פלטפורמת מחשוב מקבילה ומודל תכנות". למידע נוסף על CUDA וחומרה קשורה ("ליבות CUDA"), קרא את המאמר שלנו בנושא מהן ליבות CUDA וכיצד הן משפרות משחקי מחשב.

CUDA היא טכנולוגיית Nvidia קניינית, תואמת רק למעבדי Nvidia GPU. האלטרנטיבות הקרובות ביותר לחומרה של AMD הן OpenCL ו-Radeon Compute Platform. למידע נוסף על ההשוואה בין הפתרונות של כל חברה, עיין במאמר שלנו בנושא AMD Compute Units לעומת ליבות CUDA של Nvidia.

בהשוואה לאלטרנטיבות, CUDA נחשב לבגר יותר, בעל ביצועים וקל יותר לשימוש. לפיכך, רוב המפתחים מכוונים רק ל-CUDA, מה שבתורו, אומר שהתוכנה שלהם מנצלת רק את תכונות החומרה ב-Nvidia GPUs. וזה כולל Whisper.

כיצד להוריד ולהתקין Whisper

לרוע המזל, Whisper היא לא אפליקציה עצמאית שתוכל להוריד, להתקין ולהפעיל. זה מסתמך על תוכנות אחרות, שגם אותן יש להתקין.

עבור Windows, כדי לשמור על מדריך זה פשוט, נשתמש ב- Chocolatey באופן נרחב להתקנת רוב חלקי התוכנה הדרושים. עיין במדריך שלנו על הדרך המהירה ביותר להתקנת תוכנת Windows למידע נוסף על שוקולד.

עבור לינוקס ו-Mac, תהליך ההתקנה (למעט משתנה הנתיב של Windows וקבצי אצווה קלים לשימוש שניצור) אמור להיות דומה.

  1. כדי להתקין ולהשתמש ב Whisper, אתה חייב פִּיתוֹן ואת שלה צִפצוּף הכלי שהותקן והוסיף למשתנה "נתיב" של Windows. למידע על כך, עיין במאמר שלנו בנושא כיצד להתקין Python PIP ב-Windows, Mac ולינוקס.
  2. להתקין FFMPEG דרך Chocolate עם הפקודה הזו:
    שוקו להתקין ffmpeg
    כמו כן, התקן את גרסת ה-Python שלו עם:
    pip3 להתקין python-ffmpeg
  3. לבסוף, התקן את Whisper מדף Github שלו עם:
    pip3 להתקין git+https://github.com/openai/whisper.git

השגת הגרסה התומכת ב-CUDA של Whisper

למרות שויספר לא משתמש במעבדי Nvidia GPU, ה לפיד החבילה שהיא מסתמכת עליה מציעה גרסת CUDA מואצת. שימוש זה במקום בגרסה ה"פשוטה" יכול לעזור ל-Whisper להשלים את התמלולים שלו הרבה יותר מהר בעזרת ה-Nvidia GPU שלך.

כדי לחייב את Whisper להשתמש בליבות ה-CUDA של ה-Nvidia GPU שלך:

  1. אם כבר התקנת את גרסת ה"וניל" של הלפיד, הסר את ההתקנה וטקה שאריות שלו באמצעות:
    pip3 להסיר את ההתקנה לפיד
    לאחר שזה יסתיים, בצע את זה עם:
    צִפצוּף מטמוןלְטַהֵר
  2. התקן את גרסת ה-CUDA של לפיד עם:
    pip3 להתקין torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  3. כדי לבדוק אם Whisper יכול להשתמש ב-Nvidia GPU שלך, השתמש ב:
    לַחַשׁ --עזרה | findstr -i pytorch
    אתה צריך לראות (ברירת מחדל: cuda) במקום (ברירת מחדל: cpu).

מה לעשות אם לפיד לא מצליח להתקין

אם אתה נתקל בשגיאת "לא נמצאה גרסה" בזמן התקנת לפיד, ייתכן שתצטרך להתקין גרסה ישנה יותר של Python במקביל לגרסה הנוכחית שלך.

השתמש בפקודה זו כדי לעשות זאת:

שוקו להתקין פִּיתוֹן --גרסה OLDER_VERSION --זה לצד זה

החלף את "OLDER_VERSION" בגרסה, כמו 3.10.

לאחר מכן, השתמש בנתיב של הגרסה המשנית עבור כל פקודות Whisper ה"גנריות" (למשל, "c:\Python310\Scripts\pip.exe" ולא רק "pip").

כיצד להקליט את הקול שלך

אתה יכול להשתמש בכל אפליקציית הקלטת קול כדי להפוך את הקול שלך לקובץ WAV או MP3. Windows כולל אפליקציה כזו - למידע נוסף על כך, ראה כיצד להשתמש באפליקציית מקליט הקול של Windows 10.

לאפשרות מלאה יותר, נסה חוּצפָּה. למד כיצד לעשות זאת עם המדריך שלנו על כיצד להשתמש ב-Audacity כדי להקליט אודיו ב-Windows וב-Mac.

איך להתחיל לתמלל עם Whisper

אמנם Whisper אינו מגיע עם GUI ידידותי למשתמש, אך השימוש בו הוא פשוט במיוחד.

נניח שיש לנו את הקובץ LatestNote.mp3 המכיל דיבור ביוונית, בתיקייה c:\MyAudioFiles, ורוצים לתרגם אותו לאנגלית ולתמלל אותו לקובץ טקסט.

  1. אנחנו מתחילים בריצה שורת פקודה אוֹ פגז כוח.
  2. אנו "משנים ספרייה" שבה מאוחסן קובץ השמע עם הפקודה הזו:
    CD C:\MyAudioFiles
  3. אנו משחררים את Whisper על הקובץ עם:
    לַחַשׁ--דֶגֶםבסיס--שפהגר--מְשִׁימָהלתרגםהערה אחרונה.mp3

לאחר העיבוד, קובץ הטקסט (ששמו "LatestNote.mp3.txt") יופיע באותה תיקיה. פתח אותו בעורך טקסט כמו פנקס רשימות לצפייה בטקסט המתורגם.

השתמשנו בדוגמה של תרגום מכיוון שתעתיק באנגלית הוא אפילו יותר פשוט: אתה רק צריך "לאבד" את הדגלים "--language" ו-"-task". לפיכך, עבור תמלול רגיל, הפקודה לעיל תהיה:

לַחַשׁ--דֶגֶםבסיסהערה אחרונה.mp3

הדגל "דגם" נדרש מכיוון שויספר משתמש באחת מתוך אפשרויות שונות. בואו נרחיב עליהם כדי לעזור לכם לבחור את הטוב ביותר עבור הצרכים שלכם.

איזה דגם לבחור?

Whisper מציעה דגמי שפה שונים. ככל שהדגם גדול יותר, כך הדיוק שלו השתפר יותר, אך גם דרישות החומרה שלו גבוהות יותר. הם:

  1. זָעִיר.
  2. בסיס.
  3. קָטָן.
  4. בינוני.
  5. גָדוֹל.

רוב דוברי האנגלית שפת אם צריכים להיות בסדר עם ה זָעִיר אוֹ בסיס דגמים. דוברי אנגלית שאינם שפת אם עשויים לראות תוצאות טובות יותר עם דגמים גדולים יותר, כמו קָטָן ו בינוני.

שים לב, עם זאת, הדגמים הבינוניים והגדולים דורשים מעל 8GB של VRAM (כלומר, "זיכרון ה-GPU שלך").

כדי לבחור אחד מהם, ציין את הדגם לאחר המתג "--model" בפקודה:

לַחַשׁ --דגם זעיר/קטן/בינוני/גדול [קובץ]

לדוגמה:

לַחַשׁ--דֶגֶםקָטָןהערה_הקולית שלי.mp3

כיצד לייעל את התמלול שלך

הצורך להקליד את כל הפקודה Whisper בכל פעם שאתה רוצה לתמלל קצת אודיו יכול להיות משעמם במהירות. בואו ניצור קובץ אצווה נגיש לכל העולם כדי לייעל את התהליך.

  1. לָרוּץ סייר Windows ובקר בכונן C: שלך.
  2. צור תיקיה עבור הסקריפטים שלך, והעתק את הנתיב שלה ללוח.
  3. בתפריט התחל של Windows, חפש "נתיב" ובחר ערוך את משתני סביבת המערכת.
  4. למצוא את ה נָתִיב משתנה תחת משתני משתמש עבור YOUR_USERNAME. לחץ עליו פעמיים כדי לערוך אותו. לחץ על חָדָשׁ, והדבק את הנתיב לתיקיית הסקריפטים שלך. לחץ על בסדר לקבל את השינויים.
  5. חזור לתיקיית הסקריפטים שלך בסייר Windows. צור שם קובץ אצווה חדש בשם "wht.bat". "בתוך" זה, הצב את הפקודה הזו:
    לַחַשׁ --model tiny --language iw%1
  6. צור שני קבצי אצווה נוספים, "whs" ו-"whm".
  7. מקם את זה בתוך הסקריפט הראשון:
    לַחַשׁ --model small --language en %1
  8. שים את זה בתוך השני:
    לַחַשׁ --model medium --language en %1

מזל טוב, כעת יש לך שלושה סקריפטים לשימוש קל בדגמים הקטנים, הקטנים והבינוניים של Whisper עם קבצי האודיו שלך! כדי לתמלל כל קובץ שמע לטקסט:

  1. אתר את הקובץ עם סייר הקבצים של Windows.
  2. מקש ימני על מקום ריק ובחר פתח בטרמינל.
  3. הקלד פקודה זו, החלף את "wht" ב-"whs" או "whm" כדי להשתמש במודלים של שפה קטנה או בינונית:
    מהYOUR_AUDIO_FILE.mp3

הקלדה במהירות הקול עם לחישה

אפילו הקלדניות המהירות ביותר לא יכולות להתאים למהירות שבה אנו מדברים. עם זאת, עד לאחרונה, דיבור במקום להקליד לא היה אופטימלי ליצירת מסמכים.

רוב פתרונות הקול לטקסט הניבו תוצאות בינוניות. אתה יכול למצוא כמה פתרונות ששווה לנסות, אבל הם היו מסובכים לשימוש, או יקרים. למרבה המזל, וויספר שינה את כל זה.

לאחר השלבים שלמעלה, אתה אמור להיות מוכן לתמלל או לתרגם את הקול שלך בדיוק גבוה, תוך שימוש בפקודה אחת בלבד.