微信公众号:yhjbox(永恒君的百宝箱),获取最新文章、资源。

技巧 | 正则表达式实例 – 快速提取爱奇艺视频目录

实用技巧 永恒君 1974℃ 0评论

前面给介绍过正则表达式:正则表达式,查找、筛选数据的又一利器!

今天来分享一个实例,如下图:

小猪佩奇动画片可谓是大红大紫,现在需要下面第4季的目录提取并搜集整理起来。

可以看到一共有26集,如果要一个一个的复制确实费劲。

利用正则表达式,十几秒钟就可以搞定。

1、鼠标右键,选择“查看源代码”,会打开一个新的网页,将里面的源代码全部复制。

2、百度里搜索“在线正则表达式”,不少网站都有这个功能。以第一个为例

打开后,将刚刚复制的源代码粘贴进去。

3、现在我们要来写“正则表达式”,以筛选出我们想要的视频名称。返回网页的源代码,定位到一个视频名称,比如第1集名称叫“猪爷爷的电脑”,

观察附近的这段代码,title="猪爷爷的电脑" rseat="jujipic_1"> 。


rseat="jujipic_,猜测这部分代码应该每个标题都会有,再重新查找一下看

结果显示,正好26个,和动画片的集数相同(也是26集),那就好办了。

正则表达式就这样写: title=".*?" rseat="jujipic_

.*? 代表任意的内容,开头结尾都不变。这句话的意思就是告诉程序,按照这个样式

给我找出所有的符合条件的内容。

看,26个结果是不是出来了。到这一步,后面就好办了。把匹配结果复制到word当中,替换掉前后的字符 title=" " rseat="jujipic_即可。



同理,要提取其他的内容也是一样的办法,如提取每个视频的播放地址,


开头是 <a href=",结尾是 rseat="juji_jshu_,中间用.*?代替


正则表达式就这样写: <a href=".*?" rseat="juji_jshu_


很快就提取到了,是不是省时省力?

欢迎交流!


微信公众号:永恒君的百宝箱

个人博客:www.yhjbox.com

转载请注明:永恒君的百宝箱 » 技巧 | 正则表达式实例 – 快速提取爱奇艺视频目录

喜欢 (0)
发表我的评论
取消评论

*

code

表情