微信公众号:yhjbox(永恒君的百宝箱),获取最新文章、资源。

不写代码玩转爬虫实例(5) – 抓取热门微博的数据(附视频)

webscraper 永恒君 1709℃ 0评论
今天是元宵节,先祝各位元宵快乐!!微博一直是社会热门事件的传播渠道之一,对微博热门事件的数据进行分析能获得很多内在的一些价值,比如爬取正文是可以做情感分析或者切词做词频分析(云图),用户名可以用来统计什么官方报社或者官网对这个关注最高,可以做个柱状图。同时转发数、点赞数、还有评论数可以配合时间做一定时间内的数量分析或者时序折线图。图片做数据分析,首先要有数据来源。以最近热门的关键词比特币为例,今天这篇文章来分享一下,使用web scraper来快速抓取微博热门事件关键词比特币的数据。视频教程:

使用的是微博移动端https://m.weibo.cn/,想要爬取的对象有用户名、正文、时间、转发数、点赞数、还有评论数

图片

需求分析

页面地址:
https://m.weibo.cn/p/index?containerid=100103type%3D60%26q%3D%E6%AF%94%E7%89%B9%E5%B8%81%26t%3D0

这个页面一直向下拖动,会一直有页面加载出来。永恒君尝试了好久都拉不到底,那应该是可以无限的向下提取内容的。

图片

这样的话,我们需要限定一下抓取的内容数量,否则程序就一直会滚动下去,那么数据也就等于抓不到了。比如说我们就抓取前100条微博信息。

这个实例需要用到的选择器是之前介绍过的Element scroll down(传送门)

配置运行

1、Element scroll down选择器配置

图片

注意:抓取前100条微博信息selector需要在页面选择好元素后,手工输入:nth-of-type(-n+100),类似的如果你想抓取100到200页,那么就输入:nth-of-type(n+100):nth-of-type(-n+200)

2、接下来配置抓取用户名、正文、时间、转发数、点赞数、评论数,这个比较简单。

图片

整体的结构图:

图片

web scraper爬取的结果:

图片

更换关键词

如果要更换爬取的关键词,比如“基金”,按下面的方法把web scraper的爬取起始页更改一下即可。

1、百度里面搜索“url编码”,随意打开一个在线的编码工具。

图片

2、输入“基金”,点击“UrlEncode编码”,下面会生成一段编码。

图片

3、回到上面爬取“比特币”的微博地址,

https://m.weibo.cn/p/index?containerid=100103type%3D60%26q%3D%E6%AF%94%E7%89%B9%E5%B8%81%26t%3D0

修改一下:

https://m.weibo.cn/p/index?containerid=100103type%3D60%26q%3D%E5%9F%BA%E9%87%91%26t%3D0

图片

将刚刚生成的编码,替换掉上面橙色的代码,这个就是关键词“基金”的爬取起始页面。

永恒君把整个sitemap配置文件放在了公号后台,如果你感兴趣想体验一下的话,回复“热门微博”即可获取。

之前还写过这些实例:

不用代码玩转爬虫实例(1) - 抓取猫眼电影信息

不用代码玩转爬虫实例(2) - 抓取天眼查企业基本信息

不写代码玩转爬虫实例(3) - 抓取携程酒店信息

不写代码玩转爬虫实例(4) - 抓取东方财富股票信息

 

欢迎交流!

微信公众号:永恒君的百宝箱
个人博客:www.yhjbox.com

转载请注明:永恒君的百宝箱 » 不写代码玩转爬虫实例(5) – 抓取热门微博的数据(附视频)

喜欢 (4)
发表我的评论
取消评论
表情