7个核心知识点 · 正则表达式与文件处理 · 边学边练
正则表达式是用来匹配字符串模式的工具,可以快速实现复杂的字符串查找、验证和替换操作。
匹配任意数字
匹配字母、数字、下划线
匹配空白字符
匹配任意字符
常用的正则操作包括:查找所有匹配(findall)、替换(sub)、分割(split)等。
查找所有匹配
替换匹配内容
按匹配分割
CSV(Comma-Separated Values)是常用的数据交换格式,每行一条记录,字段用逗号分隔。
姓名,年龄,城市
张三,25,北京
李四,30,上海
JSON(JavaScript Object Notation)是轻量级的数据交换格式,易于人阅读和编写,也易于机器解析和生成。
{"键": "值", "数组": [], "对象": {}}
数据清洗是数据分析的关键步骤,主要处理缺失值、重复值、格式不一致等问题。
删除或填充
去重处理
统一格式化
数据转换包括数据类型转换、数据归一化、数据聚合等操作,使数据适合分析需求。
str → int, str → float
0-1 标准化
数据验证确保数据质量,汇总统计则提供数据的整体视图,两者都是数据分析的重要环节。
范围检查、格式验证
统计量、聚合分析
将上面示例中的代码复制到下方编辑器中,点击"运行全部代码"查看结果:
点击"运行全部代码"按钮查看输出结果