文档详情

《大数据导论》课件——3.3.2正则表达式使用.pptx

发布:2024-12-04约小于1千字共12页下载文档
文本预览下载声明

大数据导论;正则表达式使用;在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。

正则表达式就是用于描述一组字符串特征的模式,用来匹配特定的字符串。通过特殊字符+普通字符来进行模式描述,从而达到文本匹配目的工具。;应用场景;基本要素;元字符;反义字符;量词;一个括号内的内容就是一个捕获分组,如(\d)\d中的(\d)。

一般应用于提取括号中的文本内容。;例如:

在采集豆瓣电影top250电影信息的代码中,涉及到对电影链接、电影名称、电影评分信息进行提取时,分别在对应的文本位置设置了捕获分组。;1.Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

2.域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

3.InternetURL:[a-zA-z]+://[^\s]*或^http://([\w-]+\.)+[\w-]+(/[\w-./?%=]*)?$

4.手机号码:1[35789]{2}\d{8}

5.国内电话号码:\d{3}-\d{8}|\d{4}-\d{7}

;谢谢观看

显示全部
相似文档