Pandas是数据挖掘常见的工具,掌握使用过程中的函数是非常重要的。本文将借助可视化的过程,讲解Pandas的各种操作。

sort_values

(dogs[dogs[
'size'
] == 
'medium'
]

 .sort_values(
'type'
)

 .groupby(
'type'
).median()

)

执行步骤:
  • size列筛选出部分行
  • 然后将行的类型进行转换
  • 按照type列进行分组,计算中位数

selecting a column

dogs[
'longevity'
]

groupby + mean

dogs.groupby(
'size'
).mean()

执行步骤:
  • 将数据按照size进行分组
  • 在分组内进行聚合操作

grouping multiple columns

dogs.groupby([
'type'
'size'
])

groupby + multi aggregation

(dogs

  .sort_values(
'size'
)

  .groupby(
'size'
)[
'height'
]

  .agg([
'sum'
'mean'
'std'
])

)

执行步骤
  • 按照size列对数据进行排序
  • 按照size进行分组
  • 对分组内的height进行计算

filtering for columns

df.loc[:, df.loc[
'two'
] <= 20]

filtering for rows

dogs.loc[(dogs[
'size'
] == 
'medium'
) & (dogs[
'longevity'
] > 12), 
'breed'
]

dropping columns

dogs.drop(columns=[
'type'
])

joining

ppl.join(dogs)

merging

ppl.merge(dogs, left_on=
'likes'
, right_on=
'breed'
, how=
'left'
)

pivot table

dogs.pivot_table(index=
'size'
, columns=
'kids'
, values=
'price'
)

melting

dogs.melt()

pivoting

dogs.pivot(index=
'size'
, columns=
'kids'
)

stacking column index

dogs.stack()

unstacking row index

dogs.unstack()

resetting index

dogs.reset_index()

setting index

dogs.set_index(
'breed'
)

文章原文:https://pandastutor.com/index.html
继续阅读
阅读原文