קוראים כמוך עוזרים לתמוך ב-MUO. כאשר אתה מבצע רכישה באמצעות קישורים באתר שלנו, אנו עשויים להרוויח עמלת שותף.
גירוד HTML יכול להיות מסובך, אז ודא שאתה מבין את התהליך הזה עם קצת תרגול Python.
טוויטר היא אחת מפלטפורמות המדיה החברתית המשפיעות ביותר שקיימו אי פעם. מיליוני אנשים כולל פוליטיקאים מובילים, סלבריטאים ומנכ"לים משתמשים בפלטפורמה כדי לחלוק את מחשבותיהם מדי יום.
הכרטיסייה המגמה היא אחד המקומות הטובים ביותר לגלות חדשות בזמן אמת וסנטימנט מדיה חברתית. אתה יכול לנתח נתונים אלה ולהשתמש בהם כדי לתכנן פרסומות למותג, להפעיל קמפיינים ולהגדיל את המכירות לפי קיפולים. אבל איך אתה יכול להשיג את עשרת ההאשטאגים הפופולריים ביותר בטוויטר?
תהליך בניית האלגוריתם
הצעד הראשון לבניית כל תוכנית הוא לשים לב ולהבין את השלבים הנדרשים לבניית מגרד טוויטר. הם:
- פתח את Google Chrome.
- בקר בדף הפופולרי של טוויטר.
- אסוף את ההאשטאגים ואת הקישור לדף שלהם.
- שמור את הנתונים בגיליון אלקטרוני.
זה משמש כאלגוריתם של הצהרת הבעיה.
הבנת דף האינטרנט של טוויטר
עליך לדעת כיצד דף אינטרנט מסמן את הנתונים שלו לפני שתוכל לחלץ אותם. זה עוזר מאוד אם יש לך הבנה טובה של היסודות של HTML ו-CSS.
בצע את השלבים הבאים כדי להבין כיצד טוויטר מייצג האשטאג פופולרי ואת כתובת האתר שלו:
- לְבַקֵר העמוד הפופולרי של טוויטר. אתה יכול גם לנווט אל Twitter.com → לַחקוֹר → מגמות כדי לצפות בו.
- בדוק את העמודה הראשית באמצעות Chrome Dev Tools. לך ל תפריט (3 נקודות)>כלים נוספים >כלים למפתחים ורחף עם כלי בורר האלמנטים מעל אזור המגמה.
- ציר הזמן המגמתי הוא א div עם aria-label תכונה שהערך שלה "ציר זמן: חקור". העבר את העכבר מעל הסימון ב- אלמנטים לוח כדי להבין טוב יותר את מבנה העמוד. אַחֵר div מאחסן את ההאשטאג/נושא הפופולרי. השתמשו ב-div זה כמונה וחזרו על כל ה-divs בעמוד המכיל את הנושא/האשטג המגמתי. התוכן מאוחסן בתוך א לְהַקִיף או כמה רכיבי תוחלת. שים לב ללשונית הפתוחה ושם לב להיררכיה. אתה יכול להשתמש בזה כדי לבנות ביטוי XPath. ביטוי XPath עבור אלמנט ספציפי זה הוא:
איטרט והיעד div[3], div[4], div[5], וכן הלאה. עבור עשרת ההאשטאגים המובילים, המונה נע בין 3 ל-13. ה-Xpath המוכלל הופך ל:'//div[@aria-label="ציר זמן: חקור"]/div[1]/div[3]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
//div[@aria-label="ציר זמן: חקור"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
- לחץ על hashtag כלשהו כדי להבין את כתובת האתר של הדפים שלו. אם אתה משווה בין כתובות האתרים, אתה צריך לשים לב שרק פרמטר השאילתה משתנה כך שיתאים לשם ה-hashtag. אתה יכול להשתמש בתובנה הזו כדי לבנות כתובות אתרים מבלי לחלץ אותן בפועל.
פרויקט זה משתמש במודולים ובכלים של Python הבאים:
1. מודול פנדות
אתה יכול השתמש במחלקת Pandas DataFrame כדי לאחסן את ההאשטאגים והקישורים שלהם בפורמט טבלה. זה יהיה מועיל כשמדובר בהוספת תוכן זה לקובץ CSV שתוכל לשתף באופן חיצוני.
2. מודול זמן
השתמש במודול Time כדי להוסיף עיכוב לתוכנית Python כדי לאפשר לתוכן העמוד להיטען במלואו. דוגמה זו משתמשת בהשהייה של 15 שניות, אך תוכל להתנסות ולבחור עיכוב מתאים לנסיבות שלך.
3. מודול סלניום
סלניום יכול להפוך את תהליך האינטראקציה עם האינטרנט לאוטומטי. אתה יכול להשתמש בו כדי לשלוט על מופע של דפדפן אינטרנט, לפתוח את הדף הפופולרי ולגלול למטה. כדי להתקין את סלניום בסביבת Python שלך, פתח את מָסוֹף ולבצעpip להתקין סלניום.
4. מנהל התקן אינטרנט
השתמש במנהל התקן אינטרנט בשילוב עם Selenium כדי ליצור אינטראקציה עם הדפדפן. ישנם מנהלי התקנים שונים זמינים על סמך הדפדפן שברצונך להפוך לאוטומטי. עבור מבנה זה, השתמש בדפדפן Google Chrome הפופולרי. כדי להתקין את מנהל ההתקן לאינטרנט עבור Chrome:
- בדוק את גרסת הדפדפן שבו אתה משתמש על ידי ביקור ב- תַפרִיט (3 נקודות) > עזרה>על Google Chrome.
- שימו לב לגרסת הדפדפן; במקרה זה, זה 106.0.5249.62.
- לך ל... שלך מָסוֹף וסוג pip התקנת chromedriver-binary==version_number:
אם אין גרסה תואמת, pip יציג לך רשימה של אלה הזמינים; בחר את הגרסה הקרובה ביותר לגרסת הכרום שלך.צִפצוּף להתקין chromedriver-בינארי==106.0.5249.62
כיצד לבנות את מגרד הטוויטר
בצע את השלבים הבאים כדי לבנות את התוכנית שלך ולקבל hashtags מגמתיים בזמן אמת. אתה יכול למצוא את קוד המקור המלא בזה מאגר GitHub.
- ייבא את המודולים הדרושים לסביבת Python.
# ייבוא המודולים הנדרשים
מ סֵלֶנִיוּם יְבוּא מנהל אינטרנט
מסֵלֶנִיוּם.webdriver.מְשׁוּתָף.על ידייְבוּאעל ידי
יְבוּא chromedriver_binary
יְבוּא זְמַן
יְבוּא פנדות כפי ש pd - צור אובייקט כדי לאתחל את ChromeDriver והפעל את דפדפן Google Chrome באמצעות מנהל אינטרנט. Chrome() פוּנקצִיָה.
# פתח את דפדפן גוגל כרום
דפדפן = מנהל אינטרנט. Chrome() - פתח את הדף הפופולרי של טוויטר על ידי העברת כתובת האתר שלו ל- לקבל() פוּנקצִיָה.
# פתח את הדף הפופולרי של טוויטר
browser.get('https://twitter.com/explore/tabs/trending') - החל עיכוב כדי שתוכן העמוד ייטען במלואו.
# עיכוב לטעינת תוכן העמוד
זְמַן.לִישׁוֹן(15) - צור רשימה ריקה כדי לאחסן את ההאשטאגים ולהכריז על לולאה הפועלת מ-3 עד 13 כדי להתאים למשתנה בביטוי XPath מלפני.
# אתחול רשימה כדי לאחסן נושאים ותגי hashtag
trending_topic_content=[]# אסוף נושאים והאשטאגים בעמוד הפופולרי של טוויטר
עבור i בטווח (3,13): - להשתמש ב find_element() תפקדו והעבירו את בורר XPath כדי לקבל את הנושאים וההאשטגים הפופולריים בטוויטר:
xpath = f'//div[@aria-label="ציר זמן: חקור"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
trending_topic = browser.find_element (על ידי. XPATH, xpath)
trending_topic_content.לְצַרֵף(נושא חם.טֶקסט) - צור רשימה ריקה כדי לאחסן את כל כתובות האתרים ולהכריז על לולאה שעוברת דרך כל התגים.
השתמש באופרטור הפרוסה כדי להשמיט את ההאשטאג כדי ליצור את כתובת האתר שלו ולהחליף רווחים בקידוד כתובת אתר, %20. הוסף את הקישורים לרשימה.# צור כתובות אתרים באמצעות האשטגים שנאספו
כתובות אתרים=[]
עבורי ב- Trending_topic_content:אם אני מתחיל עם("#"):
i = i[1:]
url='https://twitter.com/search? q=%23' + i + '&src=trend_click'
אַחֵר:
url = 'https://twitter.com/search? q=' + i + '&src=trend_click'
url = url.replace("", "%20")
כתובות אתרים.לְצַרֵף(כתובת אתר) - צור מילון זוג מפתח-ערך עם מפתחות כ-hashtag וערכים ככתובות האתרים שלהם.
# צור מילון שיש בו גם את ההאשטאג וגם את כתובות האתרים
dic={'סולמית':Trending_topic_content,'כתובת אתר':URL} - המר את המילון הלא מובנה ל-DataFrame טבלאי.
# המר את המילון למסגרת נתונים בפנדות
df=pd. DataFrame (dic)
הדפס(df) - שמור את ה-DataFrame בקובץ CSV שתוכל להציג ב-Microsoft Excel או לעבד אותו הלאה.
# המר את מסגרת הנתונים לתבנית ערכים מופרדים בפסיקים ללא מספרים סידוריים
df.to_csv("Twitter_HashTags.csv",index=False)
השג תובנות חשובות באמצעות גירוד אינטרנט
גירוד אינטרנט הוא שיטה רבת עוצמה להשיג נתונים רצויים ולנתח אותם כדי לקבל החלטות. מרק יפה היא ספרייה מרשימה שתוכל להתקין ולהשתמש בה כדי לגרד נתונים מכל קובץ HTML או XML באמצעות Python.
בעזרת זה, אתה יכול לגרד את האינטרנט כדי להשיג כותרות חדשות בזמן אמת, מחירי מוצרים, תוצאות ספורט, שווי מלאי ועוד.