בתכנות מחשבים, pandas היא ספריית תוכנה שנכתבה עבור שפת התכנות פייתון ומיועדת לניתוח ועיבוד נתונים.[1] בפרט, היא מציעה מבני נתונים ופעולות לעיבוד מבני נתונים נומריים וסדרות עתיות. pandas היא תוכנה חופשית ופורסמה תחת רישיון BSD.[2] השם נגזר מן המונח "panel data",[3] מונח מתחום האקונומטריקה המתייחס למערכי נתונים הכוללים תצפיות על פני מספר תקופות זמן ביחס לאותם פרטים.[4]
פיצ'רים
יצירת אובייקטים בשם DataFrame, המאפשר עריכה וסידור של נתונים בשילוב אינדקס.
הספרייה מאופיינת בביצועים אופטימליים, כאשר חלקים גדולים ממנה נכתבו ב- Cython או ב-C (שפות תכנות הנחשבות לבעלות יכולות ביצוע מהירות).[6] בנוסף, הספרייה נבנתה על בסיס ספריית NumPy, אשר גם לה יכולות ביצועיות גבוהות.
DataFrames
השימוש העיקרי בספריה הוא ניתוח ועריכת נתונים, ובדגש על נתונים המסודרים בטבלאות, באמצעות האובייקט הייחודי לספרייה - DataFrame. באמצעות הספרייה ניתן לייבא נתונים מפורמטים שונים, למשל CSV, JSON, מסדי נתונים או שאילתות SQL ועוד, והפיכתם ל-DataFrame.[7] בפורמט החדש, ניתן בקלות ובמהירות לבצע מניפולציות שונות על מערך הנתונים, כמו מיזוג,[8] עיצוב מחדש, [9] שליפה,[10] ניקוי (הסרת נתונים שאינם רלוונטיים) ועוד. השימוש באובייקט זה הביא לכך שתכונות רבות לניתוחי נתונים, שמקורם בשפת התכנות R, הובאו לשפת פייתון.
היסטוריה
הספרייה פותחה על ידי וס מקיני, אשר החל לעבוד עליה בשנת 2008. בעודו מועסק בחברת ההשקעות AQR Capital, נדרש וס לכלי שיאפשר לו ניתוח נתונים פיננסיים בעל יכולות ביצועיות גבוהות ובעל גמישות. בטרם עזב את חברת AQR, הצליח לשכנע את ההנהלה לשחרר את pandas לציבור הרחב, כספריית קוד פתוח.
importpandasaspdimportmatplotlib.pyplotaspltimportnumpyasnpdf=pd.DataFrame(np.random.randn(100,5),columns=list('ABCDE'))df=df.cumsum()# Return cumulative sum over a DataFrame or Series axisdf.plot()plt.show()
McKinney, Wes (2017). Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython (2nd ed.). Sebastopol: O'Reilly. ISBN978-1-4919-5766-0.
Chen, Daniel Y. (2018). Pandas for Everyone : Python Data Analysis. Boston: Addison-Wesley. ISBN978-0-13-454706-0.