话说有天整理自己的文件夹时,发现了一堆成绩单,居然是大学里全校同学的第二课堂成绩单。文件夹名有学号加姓名加学院的组合,于是便想,能否把信息全部采集出来,建立数据库。
首先,我的思路是把文件在浏览器上显示,这样就可以使用python强大的函数把数据爬取出来,于是我起了个服务器把文件都丢了进去。
下面思路就简单了,使用requests库中的request函数发起请求,再用bs4库处理html代码,获取<a>标签之间的字符,存入数组,然后再对数组做处理就行了。这里安利一个比正则快捷的函数,split,它的作用是切割字符串然后存为数组,对于那种结构统一的字符串数组使用这个简直不要太爽。
再将数据存入数据库时可以使用executemany函数,他可以批量执行多条语句,如果单句执行,1万多条数据需要5秒左右,但是使用executemany只需要1秒,降低了时间复杂度。
以下是部分代码,大佬们有更好的思路欢迎指点QAQ
打赏我,让我更有动力~
© 2016 - 2024 掌控者 All Rights Reserved.
第十期-五班-空白
发表于 2020-11-14
被你拿到了特殊版本证书!!!!
评论列表
加载数据中...