很多朋友应该都用过天眼查
这个网站来进行企业信息的查询,今天这篇文章来分享一下使用web scraper
来实现天眼查这个网站企业基本信息的抓取。
例如,在天眼查里搜索关键词pcb
,筛选条件为:广东省深圳市福田区
注册资本在200-500万
可以搜索到非常多的企业。
随意点击一家企业的链接进去,就可以看到企业的一些基本信息。
需求分析及配置
我们的目的是需要爬取并保存这所有的企业信息。通过观察,我们发现:
1、企业列表分成了多页,需要进行翻页
爬取。每一页的网址都不一样,这个在起始页通过设定规律网址即可实现。(规律网页翻页如何设置?)
2、需要点击企业名称url
进去新的页面后,才能进行企业信息的抓取。这里需要设置link
类型的选择器,选择企业名称位置的标签。(需要点击url的二级页面如何设置?)
3、企业的基本信息内容则比较简单了,直接配置text
类型的选择器,鼠标点击对应位置的信息即可。
整体的一个结构图就是这样:
效果展示
通过上面的三个简单配置,就可以把搜索的所有企业基本信息都爬取下来,爬取的结果如下:
- 有朋友可能会问了,如果换一个关键词,又需要另外再重新配置一下吗?
- 当然不用!!!
比如说,这次我需要搜索关键词为水果
,设置筛选条件如下:
接着把网址复制一下,将原来的起始url替换一下,注意翻页的地方要记得进行修改
其他的不用更改,直接运行程序即可获得新关键词下的企业信息。
这样的话,你完全也可以自己爬取想要的关键词信息,是不是感觉很方便?
如果你感兴趣的话,永恒君把整个sitemap文件放在了公号后台,微信公众号直接回复“天眼查”即可获取,使用方法在这篇文章末尾介绍过。
2、Web Scraper 使用教程(二)- 基本用法之安装、配置、运行
3、Web Scraper 使用教程(三)- 基本用法(常用选择器类型)
4、Web Scraper 使用教程(四)- 进阶用法(同一个页面爬取多个类型内容)
5、Web Scraper 使用教程(五)- 进阶用法(爬取向下滚动加载页面)
6、Web Scraper 使用教程(六)- 进阶用法(网址有规律变化进行翻页)
7、Web Scraper 使用教程(七)- 进阶用法(点击「翻页器」进行翻页)
8、Web Scraper 使用教程(八)- 进阶用法(点击「更多」进行翻页)
9、Web Scraper 使用教程(九)- 进阶用法(动态加载进行翻页)
10、Web Scraper 使用教程(十)- 爬取二级页面的内容
微信公众号:永恒君的百宝箱
个人博客:www.yhjbox.com
转载请注明:永恒君的百宝箱 » 不用代码玩转爬虫实例(2) – 抓取天眼查企业基本信息