微信公众号:yhjbox(永恒君的百宝箱),获取最新文章、资源。

不用代码玩转爬虫实例(2) – 抓取天眼查企业基本信息

webscraper 永恒君 2084℃ 0评论
背景

很多朋友应该都用过天眼查这个网站来进行企业信息的查询,今天这篇文章来分享一下使用web scraper来实现天眼查这个网站企业基本信息的抓取。

例如,在天眼查里搜索关键词pcb,筛选条件为:广东省深圳市福田区 注册资本在200-500万

图片

可以搜索到非常多的企业。

图片

随意点击一家企业的链接进去,就可以看到企业的一些基本信息。

图片

图片

需求分析及配置

我们的目的是需要爬取并保存这所有的企业信息。通过观察,我们发现:

1、企业列表分成了多页,需要进行翻页爬取。每一页的网址都不一样,这个在起始页通过设定规律网址即可实现。(规律网页翻页如何设置?

图片

2、需要点击企业名称url进去新的页面后,才能进行企业信息的抓取。这里需要设置link类型的选择器,选择企业名称位置的标签。(需要点击url的二级页面如何设置?

图片

3、企业的基本信息内容则比较简单了,直接配置text类型的选择器,鼠标点击对应位置的信息即可。

图片

整体的一个结构图就是这样:

图片

效果展示

通过上面的三个简单配置,就可以把搜索的所有企业基本信息都爬取下来,爬取的结果如下:

图片

图片

- 有朋友可能会问了,如果换一个关键词,又需要另外再重新配置一下吗?

- 当然不用!!!

比如说,这次我需要搜索关键词为水果,设置筛选条件如下:

图片

接着把网址复制一下,将原来的起始url替换一下,注意翻页的地方要记得进行修改

图片

其他的不用更改,直接运行程序即可获得新关键词下的企业信息。

图片

这样的话,你完全也可以自己爬取想要的关键词信息,是不是感觉很方便?

如果你感兴趣的话,永恒君把整个sitemap文件放在了公号后台,微信公众号直接回复“天眼查”即可获取,使用方法在这篇文章末尾介绍过。

之前的整理的教程文章可以看这里:1、Web Scraper 使用教程(一)- 安装
2、Web Scraper 使用教程(二)- 基本用法之安装、配置、运行
3、Web Scraper 使用教程(三)- 基本用法(常用选择器类型)
4、Web Scraper 使用教程(四)- 进阶用法(同一个页面爬取多个类型内容)
5、Web Scraper 使用教程(五)- 进阶用法(爬取向下滚动加载页面)
6、Web Scraper 使用教程(六)- 进阶用法(网址有规律变化进行翻页)
7、Web Scraper 使用教程(七)- 进阶用法(点击「翻页器」进行翻页)
8、Web Scraper 使用教程(八)- 进阶用法(点击「更多」进行翻页)
9、Web Scraper 使用教程(九)- 进阶用法(动态加载进行翻页)
10、Web Scraper 使用教程(十)- 爬取二级页面的内容

欢迎交流!

微信公众号:永恒君的百宝箱
个人博客:www.yhjbox.com

转载请注明:永恒君的百宝箱 » 不用代码玩转爬虫实例(2) – 抓取天眼查企业基本信息

喜欢 (5)
发表我的评论
取消评论
表情