נכסי נתונים גדולים הם מבולגנים, במיוחד כאשר אתה צריך למשוך אותם מאתרים, שרתים או מקורות נתונים אחרים.

יישומים מבוססי ממשק משתמש כמו MS Excel טובים להתמודדות עם ערכות נתונים פשוטות, אך עלולות להיאבק כאשר הנתונים גדלים. זו סיבה טובה עבורך לעבור לפייתון כדי לבצע פעולות מבוססות נתונים מורכבות יותר.

ספריית הצד השלישי של Python, Pandas, עוזרת לך למיין את מערכי הנתונים הקיימים שלך במהירות. אם אתה מעוניין למיין את הנתונים שלך ב- Python, מאמר זה בוחן כמה דרכים להשיג משימה זו.

תנאים מוקדמים לשימוש ב-Python למיון נתונים

לפני מיון הנתונים שלך ב- Python, עליך לדאוג לכמה תנאים מוקדמים:

  • הורד Python IDE. אתה יכול להשתמש ב- a IDE תואם Python, כמו Jupyter Notebook, PyCharm ו-Spyder, בין היתר. כל אחד מאלה תואם לכל גרסאות Python.
  • התקן פנדות. אתה תצטרך את חבילת הפנדות שאתה יכול להתקין באמצעות PIP או השיטה המועדפת עליך.
  • מערך נתונים לדוגמה. הורד את א מערך נתונים לדוגמה כדי לתרגל את הקודים המפורטים. לחלופין, אתה יכול להשתמש בהליכים אלה על הנתונים הבלעדיים שלך.

ייבוא ​​ספריית Pandas ב- Python

Pandas היא ספריית Python של צד שלישי שבה אתה יכול להשתמש כדי לטפל ב- Excel, CSV ופורמטים אחרים של נתונים.

instagram viewer

כדי לעבוד עם קובץ אקסל לדוגמה, התחל בייבוא ​​ספריית הפנדות. לאחר מכן, תשתמש ב- הליך ייבוא ​​לקריאת נתוני Excel לתוך Python.

כדי לייבא את הספרייה

יְבוּא פנדות כפי ש pd

צור DataFrame חדש כדי לטעון את נתוני Excel

קובץ = "דוגמה - Superstore.xls"
df = pd.read_excel (קובץ)
df.רֹאשׁ()

איפה:

  • df הוא אובייקט DataFrame המאחסן את הנתונים המיובאים.
  • pd הוא כינוי לספריית Pandas.
  • read_excel היא שיטה לקריאת קובץ האקסל לתוך Python.
  • קוֹבֶץ הוא נתיב לקובץ האקסל.
  • רֹאשׁ היא שיטה שמחזירה את חמש השורות הראשונות מה-DataFrame.

לאחר שהתוכנית שלך טענה את הנתונים, אתה יכול להשתמש בשיטות ה-DataFrame הזמינות הרבות כדי למיין אותם בדרכים שונות.

1. מיון לפי עמודה בודדת ב-DataFrame

מכיוון שלנתונים שלך יהיו הרבה שורות ועמודות, לעתים קרובות תרצה למיין את הנתונים על סמך עמודה או עמודות ספציפיות.

Python ממיין את הנתונים בסדר עולה כברירת מחדל. אם ברצונך לשנות את סדר המיון, עליך לציין זאת במפורש בקוד שלך.

מיין לפי עמודה בודדת (סדר עולה)

df.sort_values ​​(by = "מספר לקוח")

מיין לפי עמודה בודדת (סדר יורד)

הגדר את עולה פרמטר ל שֶׁקֶר כדי למיין את העמודה שלך בסדר יורד.

df.sort_values ​​(by = "מספר לקוח", עולה=שקר)

איפה:

  • df הוא אובייקט DataFrame המכיל את הנתונים.
  • מיון_ערכים היא שיטה למיון לפי ערכי נתונים.
  • על ידי הוא פרמטר להגדרת שם העמודה.
  • עולה הוא פרמטר להגדרת סדר המיון.

2. מיון עמודות מרובות ב-DataFrame

אם הדרישות שלך מחייבות זאת, אתה יכול גם למיין את ה-DataFrame (ים) שלך על סמך מספר עמודות בו-זמנית. בתרחיש כזה, עליך להגדיר את הפניות העמודות ברשימה.

מיין לפי מספר עמודות עולה

df.sort_values ​​(by = ["מספר לקוח", "עִיר"])

מיין לפי מספר עמודות בירידה

השתמש בפונקציה עולה = שקר כדי למיין את העמודות שלך בסדר יורד. זכור, עליך לציין את שמות העמודות ברשימה כדי למיין אותן בו-זמנית.

df.sort_values ​​(by = ["מספר לקוח", "עִיר"], עולה = שקר)

מיון לפי מספר עמודות בסדרי מיון שונים

עם היסודות של מיון מהדרך, מה קורה כשרוצים למיין עמודה אחת בסדר יורד ואחרת בסדר עולה? עליך לכוונן מעט את הקוד שלך כדי לשלב את הדרישות הללו.

לדוגמה, כדי למיין את אזור ו עִיר עמודות בסדר יורד ועולה, בהתאמה:

df.sort_values ​​(by = ["אזור", "עִיר"], עולה = [לא נכון, נכון])

ההסבר לקוד זה פשוט; אתה מגדיר את השם DataFrame ומעביר את מיון_ערכים לתפקד יחד עם שמות העמודות ברשימה. אתה צריך להשתמש בוליאנית ערכים כדי לציין את סדר המיון.

קריאת הפונקציה כך פירושה ש-Python ימיין לפי עמודת האזור של ה-DataFrame בסדר יורד, תחילה. לאחר מכן, שורות עם אזור זהה ימוינו עוד יותר לפי העמודה עיר, בסדר עולה.

3. כיצד למיין עמודות ב-DataFrame לפי אינדקס

משתנה האינדקס הוא ערך ברירת המחדל המוקצה לכל שורה בתוך Python Dataframe. אתה יכול להגדיר את ערכי האינדקס או לתת לפייתון להגדיר ערך אינדקס בפני עצמו.

כדי למיין את הנתונים לפי ערך האינדקס שלהם, אתה יכול להשתמש ב- sort_index פוּנקצִיָה. פונקציה זו ממיינת על סמך האינדקס ולא על ערכים כלשהם הכלולים במערך הנתונים המקורי.

df.sort_index()

כמו ב- sort_values, אתה יכול להעביר את an עולה פרמטר כדי לציין את כיוון המיון. לדוגמה, העבר ערך של שֶׁקֶר כדי למיין נתונים בסדר יורד:

df.sort_index (עלייה = שֶׁקֶר)

4. מיון עמודות ב-DataFrame במקום בשורות

במקום למיין את השורות ב-DataFrame, אתה יכול למיין את העמודות שלו. אתה יכול לעשות זאת על ידי קריאה למתודה sort_index והעברתה an צִיר פרמטר עם ערך של 1:

df.sort_index (axis=1)

שלב זה ממיין את ה-DataFrame, לפי העמודות שלו, בסדר עולה. כדי למיין את העמודות של DataFrame בסדר יורד, אתה יכול לציין את סדר המיון בשלב המיון שלך.

df.sort_index (ציר=1, עולה = שֶׁקֶר)

5. שינוי ה-DataFrame בזמן המיון שלו

שתי שיטות המיון פועלות על ידי החזרת עותק של הנתונים המקוריים, במצב הממוין החדש. כדי לחסוך בשטח אחסון, או פשוט כדי לכתוב קוד תמציתי יותר, אתה יכול לשנות את הנתונים המקוריים של DataFrame במקום זאת. כל שיטה מקבלת an במקום פרמטר בוליאני שמשנה את הנתונים במקום להחזיר עותק שונה.

df.sort_values ​​(by = ["מספר לקוח", "עִיר"], עולה = שקר, במקום = נכון)

לימוד מיון נתונים ב- Python

Python משכפל הרבה מהפונקציות המובנות של Excel עם כמה שורות קוד. מהליכי מיון ועד ליצירת טבלאות Pivot משוכללות על הנתונים שלך, תן לזה שם ותוכל לעשות זאת ב-Python.

אם אתה עדיין חדש ב-Python ולומד את החבלים, השלבים האלה ישפרו את כישורי הקידוד שלך בקלות יחסית.