网站首页 > 技术文章 正文
此系列文章收录在公众号中:数据大宇宙 > 数据处理 > pd
转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的)
经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas
前言
有不少小伙伴向我反映 pandas 专栏缺少练习题,因此这里我使用一套 sql 的题目,作为 pandas 专栏的课后练习题。本文大部分的解题过程尽可能使用 pandas 中最基础的入门操作完成,涉及的知识点基本在专栏中的前15节内容中有详尽讲解。
本文案例是一个关于学生科目考试成绩作为背景的数据,数据的准备过程上一篇已经有讲解,这里不多说,直接做题!
上一篇文章:
Python解决Sql题目,pandas其他思路解法,原来这么简单
题目
与"赵雷"同学报读课程至少有一门相同的学生信息:
解读:
- 行5:首先,找到"赵雷"的课程记录(df_wd.query(tg_query)[cols]) ,因为只有一行(.iloc[0]) ,看看哪些是缺考的(.isna())
- 行6:同上的逻辑,只是这次的条件是其他的同学
- 行8:用前2步的结果对比(tg_cond == other_cond) ,相当于知道每个同学的报考科目与"赵雷"一样有哪些,科目相同的是1,不同的是0,那么只需要数一下相同的(.sum(axis=1)) ,然后看结果是否多于一门即可(>=1)
这次,我们来详细对比一下 Sql 的实现:
- Sql 相对来说比较简单,但是不"简洁",因为他的执行顺序是从内到外,一般不能一下子看出来其中的逻辑。下来大概说下他的执行顺序
- 行5,6:从成绩表(sc)查出"赵雷"的考试科目(cid),为啥这里用 sid ?因为成绩表没有学生的名字!
- 行3,4:再次从成绩表(sc)找出与"赵雷"的科目(上一步结果)有一样的成绩记录出来。为啥最终结果包含了"赵雷"本身,因为这一步没有过滤"赵雷"的记录!
- 行1,2:结果需要大部分学生信息都在学生表(student),因此从学生表找到上一步结果的那些学生出来。为啥最终结果没有学生成绩的信息?因为学生表就没有这些信息!
- 整个 Sql 的关键是 in 的使用
- 使用 CTE(表达式) 可以让 Sql 的逻辑更加清晰,但是每个数据库的支持程度不太一样
- 如果需求变成是,至少有2门一样的学生,那么以上思路完全不行了!
pandas 也能按这种思路完成:
- pandas 中的 isin 对应 Sql 的 in
- A列.isin(B列),得到的结果是一个长度与A列一样的 bool值的列,每个 bool 值表示 A列对应的值是否在 B列存在
与"赵雷"同学报读课程完全相同的学生信息:
- 你会发现,这完全与之前的需求一样,只是上图红线处的判断数量的逻辑不一样而已
但是,如果我们使用之前的 Sql 思路,在这个需求上就完全不能使用,正确的 Sql 做法请看源码吧
没学过"张三"老师讲授的任一门课程的学生姓名:
- 行4:所有(all)课程教师都不是"张三"(df_wd[cols]!=tc)的
两门及其以上不及格课程的同学的学号,姓名及其平均成绩:
- 行3:少于60分的科目(df_wd[cols]<60)的数量(.sum(axis=1))多于或等于2门的(>=2)
- 行5:平均成绩(df_wd[cols].mean(axis=1))
检索"语文 "课程分数小于 60,按分数降序排列的学生信息:
- 行3:语文成绩小于60分(df_wd[cols]<60)
- 行5:按分数降序排列(.sort_values(cols,ascending=False))
按平均成绩从高到低显示所有学生的所有课程的成绩以及平均成绩:
- 行4:求出平均成绩
- 行5:有平均成绩的学生
- 行6:排序
需要源码的小伙伴请转发本文并私信我"python"
如果希望从零开始学习 pandas ,那么可以看看我的 pandas 专栏。
猜你喜欢
- 2025-01-12 超全的100个Pandas函数汇总
- 2025-01-12 群里大神帮看看我估计是isin这里出了问题,但找不到原因
- 2025-01-12 25个例子学会Pandas Groupby 操作
- 2025-01-12 Giant pandas make grand entry in DC, to debut in January
- 最近发表
-
- 如何在 Linux 上安装 Java_怎么在linux中安装jdk
- Linux中tar命令打包路径相关问题_linux怎么用tar打包一个目录
- 常用linux系统常用扫描命令汇总_常用linux系统常用扫描命令汇总表
- VM下linux虚拟机新建过程(有图)_linux虚拟机创建新用户命令
- 系统小技巧:迁移通过Wubi方式安装的Ubuntu系统
- 文件系统(八):Linux JFFS2文件系统工作原理、优势与局限
- 如何利用ftrace精确跟踪特定进程调度信息
- prometheus网络监控之fping-exporter
- hyper linux的实操步骤,hyper-v批量管理工具的使用指南
- 2021年,运维工程师笔试真题(二)(附带答案)
- 标签列表
-
- cmd/c (57)
- c++中::是什么意思 (57)
- sqlset (59)
- ps可以打开pdf格式吗 (58)
- phprequire_once (61)
- localstorage.removeitem (74)
- routermode (59)
- vector线程安全吗 (70)
- & (66)
- java (73)
- org.redisson (64)
- log.warn (60)
- cannotinstantiatethetype (62)
- js数组插入 (83)
- resttemplateokhttp (59)
- gormwherein (64)
- linux删除一个文件夹 (65)
- mac安装java (72)
- reader.onload (61)
- outofmemoryerror是什么意思 (64)
- flask文件上传 (63)
- eacces (67)
- 查看mysql是否启动 (70)
- java是值传递还是引用传递 (58)
- 无效的列索引 (74)