​Python帮你定制批量获取你想要的信息 - 永恒君的百宝箱
微信公众号:yhjbox(永恒君的百宝箱),获取最新文章、资源。

​Python帮你定制批量获取你想要的信息

Python爬虫 永恒君 172℃ 0评论

前段时间帮一个小伙伴解决了这样一个问题,如下图:

问题描述

因为种种原因,小伙伴需要提取该网站的这一条条的信息,包括类型、许可证号、名称、日期等等。从图片上看到,一共有244页,手工复制粘贴的话根本就不现实。而且网站的信息是动态的,过段时间数据更新了,又面临着一系列繁琐的ctrl+c,ctrl+v。这个时候他找到我问有没有办法解决这个问题。

解决思路

接触过网页和python的朋友肯定一眼就看出来了,这就是个爬虫问题:
1、打开首页网址,获取的网页代码
2、分别定位到所需要获取的信息标签位置,提取类型、许可证号、名称、日期等一系列的信息。

3、然后打开下一页的网页,重复1、2的动作。
4、爬取完所有的网页后,把爬取到的信息汇总到一个列表当中。
5、新建excel文件,把数据写入,保存即可。
以上就是大致的一个操作过程,另外还要适当的加上一些反爬的代码和与用户简单交互的代码,显得人性化一些。

最终效果演示:

后续当然可以添加诸如多线程、图形化界面、封装等功能,可以再进一步提高效率。

源代码涉及到一些隐私,就不放了。之前也写过类似的文章:Python帮你定制批量获取智联招聘的信息

感兴趣的可以联系我一起交流。

 

微信公众号:永恒君的百宝箱

个人博客:www.yhjbox.com

anyShare分享到:

转载请注明:永恒君的百宝箱 » ​Python帮你定制批量获取你想要的信息

喜欢 (0)
发表我的评论
取消评论
表情

This site is protected by wp-copyrightpro.com