נתונים לא מספקים הם לעתים קרובות אחת החסרונות העיקריים עבור מרבית הפרויקטים במדעי הנתונים. עם זאת, לדעת כיצד לאסוף נתונים עבור כל פרויקט שתרצו לצאת אליו הוא מיומנות חשובה שעליכם לרכוש כמדען נתונים.

מדעני נתונים ומהנדסי למידת מכונה משתמשים כיום בטכניקות מודרניות לאיסוף נתונים בכדי להשיג נתונים נוספים לאלגוריתמי הכשרה. אם אתם מתכננים לצאת לפרויקט הראשון שלכם במדעי הנתונים או בלימוד מכונה, עליכם להיות מסוגלים לקבל גם נתונים.

איך תוכלו להקל על התהליך בעצמכם? בואו נסתכל על כמה טכניקות מודרניות בהן תוכלו להשתמש כדי לאסוף נתונים.

מדוע אתה זקוק לנתונים נוספים לפרויקט מדע הנתונים שלך

אלגוריתמים של למידת מכונה תלויים בנתונים כדי להיות מדויקים יותר, מדויקים ומנבאים. אלגוריתמים אלה מאומנים באמצעות קבוצות נתונים. תהליך האימון דומה כמעט ללמד פעוט את שם האובייקט בפעם הראשונה, ואז לאפשר להם לזהות אותו לבד כשהם יראו אותו לאחר מכן.

בני אדם צריכים רק כמה דוגמאות כדי לזהות אובייקט חדש. זה לא כל כך לגבי מכונה, מכיוון שהיא זקוקה למאות או אלפי דוגמאות דומות כדי להכיר אובייקט.

דוגמאות אלה או אובייקטים של אימונים צריכים לבוא בצורה של נתונים. אלגוריתם ייעודי ללימוד מכונה עובר לאחר מכן את קבוצת הנתונים הנקראת מערך אימונים - ולומד יותר על כך להיות מדויק יותר.

instagram viewer

פירוש הדבר שאם אתה לא מצליח לספק מספיק נתונים כדי לאמן את האלגוריתם שלך, ייתכן שלא תקבל את התוצאה הנכונה בסוף הפרויקט שלך מכיוון שאין למכונה מספיק נתונים ללמוד מהם.

לכן, יש צורך לקבל נתונים נאותים כדי לשפר את דיוק התוצאה שלך. בואו נראה כמה אסטרטגיות מודרניות בהן תוכלו להשתמש כדי להשיג זאת להלן.

1. גירוד נתונים ישירות מדף אינטרנט

גרידה באינטרנט היא דרך אוטומטית לקבל נתונים מהאינטרנט. בצורתו הבסיסית ביותר, גירוד באינטרנט עשוי לכלול העתקה והדבקה של האלמנטים באתר לקובץ מקומי.

עם זאת, גרידה באינטרנט כוללת גם כתיבת סקריפטים מיוחדים או שימוש בכלים ייעודיים כדי לגרד נתונים מדף אינטרנט ישירות. זה יכול לכלול גם איסוף נתונים מעמיק יותר באמצעות ממשקי תכנות יישומים (API) כמו Serpstack.

צייר נתונים שימושיים מתוצאות חיפוש באמצעות ממשק ה- API של Serpstack

בעזרת ה- API של serpstack תוכלו בקלות ללקט מידע מדפי התוצאות של גוגל ומנועי חיפוש אחרים.

למרות שאנשים מסוימים מאמינים כי גירוד באינטרנט עלול להוביל לאובדן קניין רוחני, זה יכול לקרות רק כאשר אנשים עושים זאת בזדון. גירוד באינטרנט הוא חוקי ומסייע לעסקים לקבל החלטות טובות יותר על ידי איסוף מידע ציבורי על לקוחותיהם ומתחריהם.

קָשׁוּר: מה זה גירוד באינטרנט? כיצד לאסוף נתונים מאתרים

לדוגמה, אתה יכול לכתוב סקריפט לאיסוף נתונים מחנויות מקוונות כדי להשוות מחירים וזמינות. אמנם זה עשוי להיות קצת יותר טכני, אבל אתה יכול לאסוף מדיה גולמית כמו קבצי שמע ותמונות באינטרנט.

התבונן בקוד הדוגמה שלמטה כדי לקבל הצצה לגרידה ברשת עם Python מרק יפה 4 ספריית מנתח HTML.

מ- bs4 ייבא את BeautifulSoup
מ- urllib.request ייבוא ​​urlopen
url = "הזן כאן את כתובת האתר המלאה של דף האינטרנט היעד"
targetPage = urlopen (url)
htmlReader = targetPage.read (). לפענח ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
הדפס (webData.get_text ())

לפני הפעלת קוד הדוגמה, יהיה עליך להתקין את הספרייה. צור סביבה וירטואלית משורת הפקודה שלך והתקן את הספרייה על ידי הפעלה pip להתקין beautifulsoup4.

2. באמצעות טופסי אינטרנט

אתה יכול גם למנף טפסים מקוונים לאיסוף נתונים. הדבר שימושי ביותר כאשר יש לך קבוצת מטרה של אנשים שמהם תרצה לאסוף את הנתונים.

חסרון בשליחת טפסי אינטרנט הוא שאולי לא תאסוף נתונים ככל שתרצה. זה די שימושי עבור פרויקטים או הדרכות מדע נתונים קטנות, אבל אתה עלול להיתקל במגבלות המנסות להגיע למספרים גדולים של אנשים אנונימיים.

למרות שקיימים שירותי איסוף נתונים מקוונים בתשלום, הם אינם מומלצים ליחידים, מכיוון שהם בדרך כלל יקרים מדי - למעט אם לא אכפת לך להוציא קצת כסף על הפרויקט.

ישנם טפסים שונים לאינטרנט לאיסוף נתונים מאנשים. אחת מהן היא Google Forms, אליה תוכלו לגשת באמצעות מעבר forms.google.com. אתה יכול השתמש ב- Google Forms כדי לאסוף פרטי קשר, נתונים דמוגרפיים ופרטים אישיים אחרים.

לאחר שתיצור טופס, כל שעליך לעשות הוא לשלוח את הקישור לקהל היעד שלך באמצעות דואר, SMS או כל אמצעי זמין.

עם זאת, גוגל טפסים היא רק דוגמה אחת לטפסים פופולריים ברשת. ישנן חלופות רבות שעושות עבודות איסוף נתונים מצוינות גם כן.

אתה יכול גם לאסוף נתונים דרך רשתות חברתיות כמו פייסבוק, לינקדאין, אינסטגרם וטוויטר. קבלת נתונים ממדיה חברתית היא קצת יותר טכנית מכל שיטה אחרת. זה אוטומטי לחלוטין וכולל שימוש בכלי API שונים.

מדיה חברתית יכולה להיות קשה לחלץ מהם נתונים מכיוון שהם יחסית לא מאורגנים ויש כמות עצומה מהם. מאורגן כראוי, סוג זה של מערך נתונים יכול להיות שימושי בפרויקטים של מדעי נתונים הכוללים ניתוח סנטימנטים מקוונים, ניתוח מגמות שוק ומיתוג מקוון.

לדוגמה, טוויטר הוא דוגמה למקור נתונים של מדיה חברתית שבו אתה יכול לאסוף נפח גדול של מערכי נתונים עם זה מצפצף חבילת API של Python, שאותה תוכלו להתקין באמצעות ה- pip להתקין פקודה.

לדוגמא בסיסית, גוש הקוד לחילוץ ציוצים של דף הבית של טוויטר נראה כך:

ייבוא ​​טוויפי
יבוא מחדש
myAuth = מצפצף. OAuthHandler (הדבק את מפתח הצרכן כאן, הדבק את מפתח הצרכן_סוד כאן)
auth.set_access_token (הדבק גישה_סמל כאן, הדבק גישה_סימן כאן)
לאמת = ציוץ. API (myAuth)
target_tweet = api.home_timeline ()
למטרות ב- target_tweet:
הדפס (target.text)

אתה יכול לבקר ב docs.tweepy.org אתר גישה לגישה מצפצף תיעוד לקבלת פרטים נוספים על אופן השימוש בו. כדי להשתמש בממשק ה- API של טוויטר, עליך להגיש בקשה לחשבון מפתח על ידי כניסה אל developer.twitter.com אתר אינטרנט.

פייסבוק היא פלטפורמה חזקה נוספת למדיה חברתית לאיסוף נתונים. היא משתמשת בנקודת קצה מיוחדת של API הנקראת Facebook Graph API. ממשק API זה מאפשר למפתחים לאסוף נתונים על התנהגויות ספציפיות של משתמשים בפלטפורמת פייסבוק. תוכל לגשת לתיעוד ה- API של Facebook Graph ב- developers.facebook.com כדי ללמוד עוד על כך.

הסבר מפורט על איסוף נתוני מדיה חברתית באמצעות API חורג מתחום המאמר. אם אתה מעוניין לברר פרטים נוספים, תוכל לבדוק את התיעוד של כל פלטפורמה לקבלת ידע מעמיק אודותיהם.

בנוסף לכתיבת סקריפטים לחיבור לנקודת קצה של API, נתוני מדיה חברתית אוספים כלים של צד שלישי כמו מומחה לגרידה ורבים אחרים זמינים גם כן. עם זאת, לרוב כלי האינטרנט הללו מחיר.

4. איסוף מערכי נתונים קיימים ממקורות רשמיים

אתה יכול לאסוף מערכי נתונים קיימים גם ממקורות סמכותיים. שיטה זו כוללת ביקור בבנקי נתונים רשמיים והורדת מערכי נתונים מאומתים מהם. בניגוד לגרידה ברשת ואפשרויות אחרות, אפשרות זו מהירה יותר ודורשת ידע טכני מועט או כמעט לא.

מערכי הנתונים על סוגים אלה של מקורות זמינים בדרך כלל בפורמטים CSV, JSON, HTML או Excel. כמה דוגמאות למקורות נתונים סמכותיים הן בנק עולמי, UNdata, ועוד כמה אחרים.

מקורות נתונים מסוימים עשויים להפוך את הנתונים הנוכחיים לפרטיים כדי למנוע מהציבור לגשת אליהם. עם זאת, הארכיונים שלהם זמינים לעיתים קרובות להורדה.

מקורות מערך נתונים רשמיים נוספים לפרויקט למידת המכונה שלך

רשימה זו אמורה לתת לך נקודת התחלה טובה לקבלת סוגים שונים של נתונים לעבוד איתם בפרויקטים שלך.

  • פורטל הנתונים הפתוחים של האיחוד האירופי
  • מערכי נתונים של Kaggle
  • חיפוש מערכי נתונים של גוגל
  • מרכז נתונים
  • רישום נתונים פתוחים ב- AWS
  • הסוכנות הממשלתית האירופית - נתונים ומפות
  • נתונים פתוחים של Microsoft
  • מאגר נתונים ציבורי מדהים ב- GitHub
  • נתונים. הממונה: הבית של הנתונים הפתוחים של ממשלת ארה"ב

ישנם הרבה יותר מקורות מזה, וחיפוש מדוקדק יגמל אותך בנתונים המושלמים עבור פרויקטים משלך למדעי הנתונים.

שלב את הטכניקות המודרניות הללו להשגת תוצאות טובות יותר

איסוף נתונים יכול להיות מייגע כאשר הכלים הזמינים למשימה מוגבלים או קשים להבנה. בעוד ששיטות ישנות וקונבנציונאליות עדיין עובדות היטב ואין מנוס מהן במקרים מסוימים, השיטות המודרניות מהירות ואמינות יותר.

עם זאת, במקום להסתמך על שיטה אחת, שילוב של דרכים מודרניות אלה לאיסוף הנתונים שלך יכול להניב תוצאות טובות יותר.

אימייל
5 כלי תוכנה לניתוח נתונים שאתה יכול ללמוד במהירות

מעוניין להיכנס לניתוח נתונים? להלן כמה כלים שכדאי ללמוד.

נושאים קשורים
  • תִכנוּת
  • פִּיתוֹן
  • נתונים גדולים
  • למידת מכונה
  • קצירת נתונים
  • ניתוח נתונים
על הסופר
אידובו אומיסולה (45 מאמרים פורסמו)

Idowu נלהב מכל דבר חכם וטכנולוגיה ופרודוקטיביות. בזמנו הפנוי הוא משחק בקידוד ועובר ללוח השחמט כשמשעמם לו, אבל הוא גם אוהב להתנתק מהשגרה מדי פעם. התשוקה שלו להראות לאנשים את הדרך סביב הטכנולוגיה המודרנית מניע אותו לכתוב יותר.

עוד מאידובו אומיסולה

הירשם לניוזלטר שלנו

הצטרף לניוזלטר שלנו לקבלת טיפים טכניים, ביקורות, ספרים אלקטרוניים בחינם ומבצעים בלעדיים!

צעד אחד נוסף !!!

אנא אשר את כתובת הדוא"ל שלך בדוא"ל ששלחנו לך זה עתה.

.