ספריית הפנדות הופכת את מדעי הנתונים מבוססי פיתון לנסיעה קלה. זוהי ספריית Python פופולרית לקריאה, מיזוג, מיון, ניקוי נתונים ועוד. למרות שפנדות קלות לשימוש וליישם על מערכי נתונים, יש לה פונקציות רבות למניפולציה של נתונים.
אולי אתה משתמש בפנדות, אבל יש סיכוי טוב שאתה לא מנצל אותה כדי לפתור בעיות הקשורות לנתונים. הנה הרשימה שלנו של נתונים יקרי ערך המפעילים פונקציות של פנדות שכל מדען נתונים צריך לדעת.
התקן פנדות בסביבה הוירטואלית שלך
לפני שנמשיך, ודא שאתה מתקין פנדות בסביבה הוירטואלית שלך באמצעות pip:
pip להתקין פנדות
לאחר התקנתו, ייבא פנדות בראש התסריט שלך, ובואו נמשיך.
1. פנדות. DataFrame
אתה משתמש פנדות. DataFrame() כדי ליצור DataFrame בפנדות. ישנן שתי דרכים להשתמש בפונקציה זו.
אתה יכול ליצור DataFrame לפי עמודה על ידי העברת מילון לתוך פנדות. DataFrame() פוּנקצִיָה. כאן, כל מפתח הוא עמודה, בעוד הערכים הם השורות:
לייבא פנדות
DataFrame = פנדות. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
הדפס (DataFrame)
השיטה השנייה היא ליצור את DataFrame על פני שורות. אבל כאן, תפריד את הערכים (פריטי שורה) מהעמודות. מספר הנתונים בכל רשימה (נתוני שורה) חייב להתאים גם למספר העמודות.
לייבא פנדות
DataFrame = פנדות. DataFrame([[1, 4, 5], [7, 19, 13]], עמודות= ["J", "K", "L"])
הדפס (DataFrame)
2. קרא מתוך וכתוב לאקסל או CSV בפנדות
אתה יכול לקרוא או לכתוב קבצי Excel או CSV עם פנדות.
קריאת קבצי Excel או CSV
לקריאת קובץ אקסל:
#החלף את example.xlsx בנתיב הקובץ שלך ב-Excel
DataFrame = DataFrame.read_excel("example.xlsx")
הנה איך לקרוא קובץ CSV:
#החלף את example.csv בנתיב קובץ ה-CSV שלך
DataFrame = DataFrame.read_csv("example.csv")
כתיבה לאקסל או CSV
כתיבה לאקסל או CSV היא פעולת פנדה ידועה. וזה שימושי לשמירת טבלאות חדשות שחושבו בגיליונות נתונים נפרדים.
כדי לכתוב לגיליון אקסל:
DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")
אם אתה רוצה לכתוב ל-CSV:
DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")
אתה יכול גם לחשב את הנטיות המרכזיות של כל עמודה ב-DataFrame באמצעות פנדות.
כך ניתן לקבל את הערך הממוצע של כל עמודה:
DataFrame.mean()
עבור הערך החציוני או המצב, החלף מתכוון() עם חֲצִיוֹן() אוֹ מצב().
4. DataFrame.transform
פנדות' DataFrame.transform() משנה את הערכים של DataFrame. הוא מקבל פונקציה כארגומנט.
לדוגמה, הקוד שלהלן מכפיל כל ערך ב-DataFrame בשלושה באמצעות פונקציית הלמבדה של פייתון:
DataFrame = DataFrame.transform (lambda y: y*3)
הדפס (DataFrame)
5. DataFrame.isnull
פונקציה זו מחזירה ערך בוליאני ומסמנת את כל השורות המכילות ערכי null כ נָכוֹן:
DataFrame.isnull()
התוצאה של הקוד לעיל יכולה להיות קשה לקריאה עבור מערכי נתונים גדולים יותר. אז אתה יכול להשתמש ב isnull().sum() לתפקד במקום. זה מחזיר סיכום של כל הערכים החסרים עבור כל עמודה:
DataFrame.isnull().sum()
6. Dataframe.info
ה info() פונקציה היא an פעולת פנדות חיונית. הוא מחזיר את סיכום הערכים שאינם חסרים עבור כל עמודה במקום זאת:
DataFrame.info()
7. DataFrame.describe
ה לְתַאֵר() הפונקציה נותנת לך את הנתון המסכם של DataFrame:
DataFrame.describe()
8. DataFrame.replace
משתמש ב DataFrame.replace() בשיטה בפנדות, אתה יכול להחליף שורות נבחרות בערכים אחרים.
לדוגמה, כדי להחליף שורות לא חוקיות עם נאן:
# ודא שאתה מתקין את numpy כדי שזה יעבוד
ייבוא numpy
לייבא פנדות
# הוספת מילת מפתח במקום והגדרתה ל-True הופכת את השינויים לצמיתות:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
הדפס (DataFrame)
9. DataFrame.fillna
פונקציה זו מאפשרת לך למלא שורות ריקות בערך מסוים. אתה יכול למלא הכל נאן שורות במערך נתונים עם הערך הממוצע, למשל:
DataFrame.fillna (df.mean(), inplace = True)
הדפס (DataFrame)
אתה יכול גם להיות ספציפי לעמודות:
DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
הדפס (DataFrame)
10. DataFrame.dropna
ה dropna() השיטה מסירה את כל השורות המכילות ערכי null:
DataFrame.dropna (inplace = True)
הדפס (DataFrame)
11. DataFrame.insert
אתה יכול להשתמש בפנדות לְהַכנִיס() פונקציה להוספת עמודה חדשה ל-DataFrame. הוא מקבל שלוש מילות מפתח, ה שם העמודה, רשימה של הנתונים שלו ושלו מקום, שהוא אינדקס עמודות.
הנה איך זה עובד:
DataFrame.insert (עמודה = 'C', ערך = [3, 4, 6, 7], loc=0)
הדפס (DataFrame)
הקוד לעיל מוסיף את העמודה החדשה באינדקס העמודה אפס (היא הופכת לעמודה הראשונה).
12. DataFrame.loc
אתה יכול להשתמש loc כדי למצוא את האלמנטים באינדקס מסוים. כדי להציג את כל הפריטים בשורה השלישית, למשל:
DataFrame.loc[2]
13. DataFrame.pop
פונקציה זו מאפשרת להסיר עמודה שצוינה מ-PandaFrame.
זה מקבל א פריט מילת מפתח, מחזירה את העמודה המוקפצת ומפרידה אותה משאר ה-DataFrame:
DataFrame.pop (item= 'column_name')
הדפס (DataFrame)
14. DataFrame.max, min
קל להשיג את הערכים המקסימליים והמינימליים באמצעות פנדות:
DataFrame.min()
הקוד לעיל מחזיר את הערך המינימלי עבור כל עמודה. כדי לקבל את המקסימום, החלף דקה עם מקסימום.
15. DataFrame.join
ה לְהִצְטַרֵף() הפונקציה של pandas מאפשרת לך למזג DataFrames עם שמות עמודות שונים. אתה יכול להשתמש בחיבור השמאלי, הימני, הפנימי או החיצוני. כדי להצטרף משמאל ל-DataFrame עם שניים אחרים:
#הצמד עמודות ארוכות יותר עם עמודות קצרות יותר
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
הדפס (newDataFrame)
כדי להצטרף ל-DataFrames עם שמות עמודות דומים, אתה יכול להבדיל ביניהם על ידי הכללת סיומת משמאל או ימין. עשה זאת על ידי הכללת ה סיומת אוֹ סיומת r מילת מפתח:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
הדפס (newDataFrame)
16. DataFrame.combine
ה לְשַׁלֵב() הפונקציה שימושית למיזוג שני DataFrames המכילים שמות עמודות דומים בהתבסס על קריטריונים מוגדרים. זה מקבל א פוּנקצִיָה מילת מפתח.
לדוגמה, כדי למזג שני DataFrames עם שמות עמודות דומים בהתבסס על הערכים המקסימליים בלבד:
newDataFrame = df.combine (df2, numpy.minimum)
הדפס (newDataFrame)
הערה: ניתן גם להגדיר פונקציית בחירה מותאמת אישית ולהוסיף numpy.minimum.
17. DataFrame.astype
ה astype() הפונקציה משנה את סוג הנתונים של עמודה מסוימת או של DataFrame.
כדי לשנות את כל הערכים ב-DataFrame למחרוזת, למשל:
DataFrame.astype (str)
18. DataFrame.sum
ה סְכוּם() הפונקציה בפנדות מחזירה את סכום הערכים בכל עמודה:
DataFrame.sum()
אתה יכול גם למצוא את הסכום המצטבר של כל הפריטים באמצעות cumsum():
DataFrame.cumsum()
19. DataFrame.drop
פנדות' יְרִידָה() הפונקציה מוחקת שורות או עמודות ספציפיות ב-DataFrame. עליך לספק את שמות העמודות או אינדקס השורות וציר כדי להשתמש בהם.
כדי להסיר עמודות ספציפיות, לדוגמה:
df.drop (columns=['colum1', 'column2'], axis=0)
כדי להוריד שורות באינדקסים 1, 3 ו-4, למשל:
df.drop([1, 3, 4], axis=0)
20. DataFrame.corr
רוצה למצוא את המתאם בין עמודות מספר שלם או צף? פנדות יכולות לעזור לך להשיג זאת באמצעות corr() פוּנקצִיָה:
DataFrame.corr()
הקוד לעיל מחזיר DataFrame חדש המכיל את רצף המתאם בין כל העמודות השלמות או הצפות.
21. DataFrame.add
ה לְהוֹסִיף() הפונקציה מאפשרת להוסיף מספר מסוים לכל ערך ב-DataFrame. זה עובד על ידי איטרציה דרך DataFrame והפעלה על כל פריט.
קָשׁוּר:כיצד להשתמש עבור לולאות ב- Python
כדי להוסיף 20 לכל אחד מהערכים בעמודה ספציפית המכילה מספרים שלמים או צפים, למשל:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
כמו פונקציית החיבור, אתה יכול גם להחסיר מספר מכל ערך ב-DataFrame או בעמודה ספציפית:
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
זוהי גרסת הכפל של פונקציית החיבור של פנדות:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
באופן דומה, ניתן לחלק כל נקודת נתונים בעמודה או ב-DataFrame במספר ספציפי:
DataFrame['interger_column'].div (20)
25. DataFrame.std
משתמש ב std() פונקציה, pandas גם מאפשרת לך לחשב את סטיית התקן עבור כל עמודה ב-DataFrame. זה עובד על ידי איטרציה דרך כל עמודה במערך נתונים וחישוב סטיית התקן עבור כל אחת מהן:
DataFrame.std()
26. DataFrame.sort_values
ניתן גם למיין ערכים בצורה עולה או יורדת על סמך עמודה מסוימת. כדי למיין DataFrame בסדר יורד, לדוגמה:
newDataFrame = DataFrame.sort_values (by = "colmun_name", descending = True)
27. DataFrame.melt
ה להמיס() הפונקציה בפנדות הופכת את העמודות ב-DataFrame לשורות בודדות. זה כמו לחשוף את האנטומיה של DataFrame. אז זה מאפשר לך להציג את הערך שהוקצה לכל עמודה במפורש.
newDataFrame = DataFrame.melt()
28. DataFrame.count
פונקציה זו מחזירה את המספר הכולל של פריטים בכל עמודה:
DataFrame.count()
29. DataFrame.query
פנדות' שאילתא() מאפשר לך להתקשר לפריטים באמצעות מספר האינדקס שלהם. כדי לקבל את הפריטים בשורה השלישית, למשל:
DataFrame.query('4') # התקשר לשאילתה באינדקס הרביעי
30. DataFrame.where
ה איפה() הפונקציה היא שאילתת פנדות שמקבלת תנאי לקבלת ערכים ספציפיים בעמודה. לדוגמה, כדי לקבל את כל הגילאים מתחת לגיל 30 מא גיל טור:
DataFrame.where (DataFrame['Age'] < 30)
הקוד שלמעלה מוציא DataFrame שמכיל את כל הגילאים מתחת לגיל 30 אך מקצה נאן לשורות שאינן עומדות בתנאי.
טפל בנתונים כמו מקצוען עם פנדות
פנדה היא אוצר של פונקציות ושיטות לטיפול במערכי נתונים קטנים עד גדולים עם Python. הספרייה גם שימושית לניקוי, אימות והכנת נתונים לניתוח או למידת מכונה.
לקחת את הזמן כדי לשלוט בזה בהחלט מקל על החיים שלך כמדען נתונים, וזה בהחלט שווה את המאמץ. אז אל תהסס להרים את כל הפונקציות שאתה יכול להתמודד.
הספרייה הסטנדרטית של Python מכילה פונקציות רבות שיעזרו במשימות התכנות שלך. למד על הקוד השימושי ביותר וצור קוד חזק יותר.
קרא הבא
- תִכנוּת
- פִּיתוֹן
- תִכנוּת
- מאגר מידע
Idowu נלהב מכל דבר טכנולוגי ופרודוקטיביות חכמה. בזמנו הפנוי הוא משתעשע בקידוד ועובר ללוח השחמט כשהוא משועמם, אבל הוא גם אוהב להתנתק מהשגרה מדי פעם. התשוקה שלו להראות לאנשים את הדרך סביב הטכנולוגיה המודרנית מניעה אותו לכתוב יותר.
הירשם לניוזלטר שלנו
הצטרף לניוזלטר שלנו לקבלת טיפים טכניים, ביקורות, ספרים אלקטרוניים בחינם ומבצעים בלעדיים!
לחץ כאן כדי להירשם