פרסומת
כשמדובר במאגרי מידע מקוונים ומידע שניתן למצוא בתוך מה שמכונה בדרך כלל "אינטרנט בלתי נראה 12 מנועי החיפוש הטובים ביותר לחקור את האינטרנט הבלתי נראהגוגל או בינג לא יכולים לחפש הכל. כדי לחקור את האינטרנט הבלתי נראה, עליך להשתמש במנועי החיפוש המיוחדים הללו. קרא עוד ", אני לא המשתמש הטיפוסי שלך. בטח, אני מבלה קצת יותר מדי מזמני בסינון מסדי נתונים מקוונים במקומות כמו הארכיון הלאומי ו-CIA FOIA בקריאה חדר, אבל אני חייב לומר ששום דבר לא מרגש אותי יותר מאשר כשאני מוצא טבלה מבוססת HTML מלאה בכמויות של מורכבות ובלתי קשורות לכאורה. נתונים.
העובדה היא שטבלאות נתונים הן מכרה זהב של אמיתות חשובות. לעתים קרובות נתונים נאספים על ידי צבאות של נהמות איסוף נתונים עם מגפיים על הקרקע. יש לך אנשים ממפקד האוכלוסין של ארה"ב שמטיילים בכל הארץ כדי לקבל מידע על משק בית ומשפחה. יש לך קבוצות סביבתיות ללא מטרות רווח שאוספות כל מיני מידע מעניין על איכות הסביבה, זיהום, התחממות כדור הארץ ועוד. ואם אתה בעניין של פאראנורמלי או אופולוגיה, יש גם טבלאות מעודכנות כל הזמן של מידע על תצפיות של עצמים מוזרים בשמים מעלינו.
באופן אירוני, הייתם חושבים שכל ממשלה בעולם תהיה מעוניינת לדעת איזה סוג כלי טיס זרות נצפו בשמיים מעל כל מדינה, אבל כנראה שלא - לפחות לא בארה"ב. בכל מקרה. באמריקה, אוסף התצפיות הבלתי רגילות של אומנות נדחק לצוותים של חובבים חובבים הנוהרים לתצפיות חדשות של עב"מים כמו עש ללהבה. העניין שלי בתצפיות אלו נובע למעשה לא מהיקסמות לחייזרים או מלאכות מכוכבי לכת אחרים, אלא מהיקסמות מדעית לדפוסים - היכן ומדוע יותר אנשים רואים דברים בשמים, והאם התצפיות הללו יכולות לשקף משהו מאוד אמיתי והרבה יותר מטה לכדור הארץ. עַל.
כדי לחקור את נפחי הנתונים שנאספו על ידי צוותים של חובבי עב"מים, למעשה פיתחתי דרך לייבא טבלאות HTML גדולות של נתונים לתוך גיליון אלקטרוני של Google, ולאחר מכן לבצע מניפולציות ולנתח את הנתונים כדי לחלץ ולגלות משמעותי וחשוב מֵידָע. במאמר זה, אני מתכוון להראות לך איך לעשות את אותו הדבר.
נתוני HTML חשובים אל הגיליון האלקטרוני של Google
בדוגמה זו, אני הולך להראות לך כיצד לייבא כל מידע שעשוי להיות מאוחסן בטבלה בכל אתר באינטרנט, אל הגיליון האלקטרוני של Google. תחשוב על נפח הנתונים העצום שזמין היום באינטרנט בצורה של טבלאות HTML. בוויקיפדיה לבדה יש נתונים בטבלאות לנושאים כמו התחממות גלובלית, ללשכת מפקד האוכלוסין האמריקאית יש טונות של מערכי נתונים של אוכלוסיה, וקצת גוגלינג ינחית אותך הרבה יותר מעבר לזה.
בדוגמה שלי, אני מתחיל עם מסד נתונים על המרכז הלאומי לדיווח עב"מים שלמעשה נראה כאילו הוא עשוי להיות מסד נתונים אינטרנט עמוק בסגנון שאילתה, אבל אם אתה צופה ב מבנה כתובות אתרים, זוהי למעשה מערכת דיווח מבוססת אינטרנט מורכבת למחצה המורכבת מדפי אינטרנט סטטיים וטבלאות HTML סטטיות - בדיוק מה שאנחנו רוצים כשאנחנו מחפשים נתונים יְבוּא.
NUForc.org הוא אחד מאותם ארגונים המשמשים כאחד ממרכזי הדיווח הגדולים ביותר לתצפיות עב"מים. זה לא היחיד, אבל זה מספיק גדול כדי למצוא מערכי נתונים חדשים עם תצפיות עדכניות לכל חודש. אתה בוחר להציג את הנתונים ממוינים לפי קריטריונים כמו מדינה או תאריך, וכל אחד מהם מסופק בצורה של דף סטטי. אם תמיין לפי תאריך ולאחר מכן תלחץ על התאריך האחרון, תראה שהטבלה הרשומה שם היא דף אינטרנט סטטי בשם לפי פורמט התאריך.
אז, יש לנו כעת דפוס לחלץ באופן קבוע את מידע התצפיות העדכני ביותר ממסד נתונים זה מבוסס HTML. כל מה שאתה צריך לעשות הוא לייבא את הטבלה הראשונה, השתמש בערך העדכני ביותר (העליון) כדי לזהות את העדכון האחרון, ולאחר מכן השתמש בתאריך של פרסום זה כדי לבנות את קישור ה-URL שבו טבלת נתוני ה-HTML העדכנית ביותר קיים. פעולה זו פשוט תדרוש כמה מופעים של הפונקציה ImportHTML, ולאחר מכן כמה שימושים יצירתיים בפונקציות של מניפולציה של טקסט. כשתסיים, יהיה לך אחד מגיליונות הדיווח המגניבים ביותר, המתעדכנים בעצמך. בואו נתחיל.
ייבוא טבלאות וטיפול בנתונים
הצעד הראשון, כמובן, הוא יצירת הגיליון האלקטרוני החדש.
אז איך מייבאים טבלאות HTML? כל מה שאתה צריך הוא כתובת האתר שבה מאוחסנת הטבלה, ומספר הטבלה בדף - בדרך כלל הרשומה הראשונה היא 1, השנייה היא 2, וכן הלאה. מכיוון שאני יודע את כתובת האתר של הטבלה הראשונה המפרטת תאריכים וספירות של תצפיות, אפשר לייבא על ידי הקלדת הפונקציה הבאה בתא A1.
=importhtml(“ http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)
H2 מכיל את הפונקציה "=שעה (עכשיו())", אז הטבלה תתעדכן כל שעה. זה כנראה קיצוני עבור נתונים שמעדכנים את זה לעתים רחוקות, אז כנראה יכולתי להתחמק מלעשות זאת מדי יום. בכל מקרה, הפונקציה ImportHTML לעיל מביאה את הטבלה כפי שמוצג להלן.
תצטרך לעשות מעט מניפולציה של נתונים בדף הזה לפני שתוכל לחבר את כתובת האתר של הטבלה השנייה עם כל תצפיות העב"מים. אבל קדימה, צור את הגיליון השני בחוברת העבודה.
לפני שמנסים לבנות את הגיליון השני, הגיע הזמן לחלץ את תאריך הפרסום מהטבלה הראשונה הזו, כדי לבנות את הקישור לטבלה השנייה. הבעיה היא שהתאריך מובא כפורמט תאריך, לא כמחרוזת. אז תחילה עליך להשתמש בפונקציית TEXT כדי להמיר את תאריך פרסום הדוח למחרוזת:
=טקסט (A2,"mm/dd/yy")
בתא הבא מימין, עליך להשתמש בפונקציית SPLIT עם המפריד "/" כדי לחלק את התאריך לחודש, יום ושנה.
=פיצול (D2,"/")
נראה טוב! עם זאת, יש להכריח כל מספר לשתי ספרות. אתה עושה זאת בתאים ממש מתחתיהם באמצעות הפקודה TEXT שוב.
=טקסט (E2,"00 אינץ')
פורמט של "00" (אלה אפסים) מאלץ שתי ספרות, או "0" כמציין מיקום.
כעת אתה מוכן לבנות מחדש את כל כתובת האתר לטבלת ה-HTML העדכנית ביותר של תצפיות חדשות. אתה יכול לעשות זאת על ידי שימוש בפונקציה CONCATENATE, וחיבור כל פיסות המידע שחילצת זה עתה מהטבלה הראשונה.
=שרשור(“ http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
כעת, בגיליון החדש שיצרת למעלה (הגיליון הריק), אתה הולך לעשות פונקציית "importhtml" חדשה, אבל הפעם בפעם הראשונה פרמטר קישור של כתובת אתר, אז אתה הולך לנווט חזרה לגיליון האלקטרוני הראשון וללחוץ על התא עם קישור הכתובת שיצרת זה עתה.
הפרמטר השני הוא "טבלה" והאחרון הוא "1" (כי טבלת התצפיות היא הראשונה והיחידה בדף). לחץ על אנטר, ועכשיו ייבאת את כל נפח התצפיות שפורסמו בתאריך המסוים הזה.
אז אתה בטח חושב שזה מעשה חידוש נחמד והכל - אני מתכוון, אחרי הכל, מה שעשית מופק מידע קיים מטבלה באינטרנט והעביר אותו לטבלה אחרת, אם כי פרטית ב-Google Docs שלך חֶשְׁבּוֹן. כן זה נכון. עם זאת, כעת, כשהיא בחשבון Google Docs הפרטי שלך, יש לך בהישג יד את הכלים והפונקציות כדי לנתח טוב יותר את הנתונים האלה ולהתחיל לגלות קשרים מדהימים.
שימוש בדוחות Pivot לניתוח נתונים מיובאים
רק לאחרונה, כתבתי מאמר על שימוש דוחות Pivot ב-Google Spreadsheet הפוך למנתח נתונים מומחה בן לילה באמצעות כלי דיווח של גיליונות אלקטרוניים של Googleהידעתם שאחד הכלים הגדולים מכולם לביצוע ניתוח נתונים הוא למעשה ה-Google Spreadsheet? הסיבה לכך היא לא רק בגלל שהוא יכול לעשות כמעט כל מה שתרצה... קרא עוד לבצע כל מיני הישגים מגניבים לניתוח נתונים. ובכן, אתה יכול לעשות את אותה אקרובטיקה מדהימה של ניתוח נתונים על הנתונים שייבאת מהאינטרנט - נותן לך את היכולת לחשוף קשרים מעניינים שאולי אף אחד אחר לא חשף בעבר אתה.
לדוגמה, מטבלת התצפיות הסופית, אולי אחליט להשתמש בדוח ציר כדי להסתכל על מספר צורות ייחודיות שונות שדווחו בכל מדינה, בהשוואה למספר הכולל של תצפיות בפרט זה מדינה. לבסוף, אני גם מסנן כל מה שמזכיר "חייזרים" בסעיף ההערות, כדי לקוות לנכות כמה מהערכים היותר אגוזי כנף.
זה למעשה חושף כמה דברים די מעניינים מיד בהתחלה, כמו העובדה שבקליפורניה יש בבירור את הגבוה ביותר מספר התצפיות המדווחות של כל מדינה אחרת, יחד עם ההבחנה של דיווח על המספר הגבוה ביותר של צורות מלאכה במדינה מדינה. זה גם מראה שמסצ'וסטס, פלורידה ואילינוי הן תקיפות גדולות גם במחלקת תצפיות עב"מים (לפחות בנתונים העדכניים ביותר).
עוד דבר מגניב ב-Google Spreadsheet הוא המגוון הרחב של תרשימים הזמינים לך, כולל מפה גיאוגרפית המאפשרת לך לפרוס "נקודות חמות" של נתונים בפורמט גרפי שבאמת בולט והופך את החיבורים הללו בתוך הנתונים למדי ברור.
אם תחשוב על זה, זה באמת רק קצה הקרחון. אם אתה יכול כעת לייבא נתונים מטבלאות נתונים בכל עמוד באינטרנט, פשוט תחשוב על האפשרויות. קבל את מספרי המניות העדכניים ביותר, או את עשרת הספרים והסופרים המובילים ביותר ברשימת רבי המכר של הניו יורק טיימס, או את המכוניות הנמכרות ביותר בעולם. ישנן טבלאות HTML כמעט בכל נושא שאתה יכול לדמיין, ובמקרים רבים הטבלאות הללו מתעדכנות לעתים קרובות.
ImportHtml נותן לך את היכולת לחבר את הגיליון האלקטרוני של Google שלך לאינטרנט, ולהזין את הנתונים שקיימים בחוץ. זה יכול להפוך למרכז המידע האישי שלך שאתה יכול להשתמש בו כדי לבצע מניפולציות ועיסוי לפורמט שאתה באמת יכול לעבוד איתו. זה רק עוד דבר מאוד מגניב לאהוב ב-Google Spreadsheet.
האם אי פעם ייבאת נתונים לגיליונות האלקטרוניים שלך? אילו דברים מעניינים גילית בנתונים האלה? איך השתמשת בנתונים? שתף את החוויות והרעיונות שלך בקטע ההערות למטה!
קרדיט תמונה: גרף עסקי
לריאן יש תואר BSc בהנדסת חשמל. הוא עבד 13 שנים בהנדסת אוטומציה, 5 שנים ב-IT, ועכשיו הוא מהנדס אפליקציות. עורך מנהל לשעבר של MakeUseOf, הוא נאם בכנסים לאומיים בנושא הדמיית נתונים והוצג בטלוויזיה וברדיו הלאומיים.