7个核心知识点 · NumPy与Pandas · 边学边练
NumPy是Python数据分析的基础库,提供高性能的多维数组对象ndarray。数组支持向量化运算,比Python列表更高效。
从列表创建数组
创建范围数组
创建全零数组
DataFrame是Pandas的核心数据结构,类似于Excel表格,由行和列组成,每列可以是不同的数据类型。
数据筛选是数据分析的核心操作,通过条件表达式筛选出满足条件的行数据。
df['列名']
df[df['列'] > 60]
数据清洗是数据分析的第一步,主要处理缺失值、重复值、异常值等问题,确保数据质量。
fillna() / dropna()
drop_duplicates()
IQR方法
描述性统计是数据分析的基础,通过计算各种统计量来了解数据的基本特征。
mean, median, mode
std, variance, range
数据合并是将多个数据源整合在一起的操作,常用的有concat(拼接)和merge(关联)两种方式。
纵向或横向拼接多个表
基于共同键合并表
数据可视化将数据转换为图表,使数据更直观易懂。常用图表包括柱状图、折线图、饼图等。
比较类别数据
展示趋势变化
显示占比关系
将上面示例中的代码复制到下方编辑器中,点击"运行全部代码"查看结果:
点击"运行全部代码"按钮查看输出结果