正则学习笔记.doc
文本预览下载声明
正则学习笔记 主要是C#或Javascript2010-07-10 17:52:18概念相关笔记1、容易混淆的单行模式和多行模式:单行模式只影响.(小数点)的匹配,关闭单行模式,.匹配换行以外的任意字符;开启单行模式,.匹配任意字符多行模式只影响^和$的匹配,关闭多行模式,^只能匹配字符串开头,$只能匹配字符串结尾;??????? 开启多行模式,^匹配字符串开头或行的开头,$匹配字符串结尾或行的结尾因为正则发展的历史原因,造成这2个概念好像是相反的概念,实际这2个概念是没有任何关系的2个概念2、全局模式(C#没有,js有):关闭时,只匹配一次;开启时,匹配全部字符串,在js中,关闭全局模式,等效于C#中的Match方法;开启全局模式,等效于C#中的Matches方法3、贪婪模式与懒惰模式:举例说明:有字符串:0diva1/divb1divc1/divdivd1/div9贪婪模式的正则:div.*/div,只有一个匹配结果:diva1/divb1divc1/divdivd1/div懒惰模式的正则:div.*?/div,有3个匹配结果,分别是:diva1 /div??? divc1/div?????? divd1/div注:贪婪模式的原理是匹配优先,而懒惰模式的原理是忽略优先,比如:字符串 abd贪婪模式正则:ab?c??? 在匹配时,会先尝试进行ab匹配,再比对c,不匹配了,进行回溯,进行ac的匹配懒惰模式正则:ab??c? 在匹配时,会先尝试进行ac匹配,不匹配了,进行回溯,进行abc的匹配4、非回溯匹配(也叫固化分组):(?):举例说明:字符串:张三是中国人,李四是中国人,王五是韩国人正则:(.*)中国人,因为正则引擎的贪婪特性,.*第一次扫描时会匹配全部字符串,发现后面没有字符了,不能匹配正则里的“中国人”,于是把.*的匹配往前递推一个,发现“国”也不能匹配正则里的“中国人”,于是再把.*的匹配往前递推,一直推到“张三是中国人,李四是”,此时匹配到了“中国人”,于是.*匹配的结果就是:张三是中国人,李四是? 这里说的往前递推就是回溯把正则改为:(?.*)中国人? 匹配就会失败,因为正则式里指定了.*不允许回溯,所以.*第一次扫描时会匹配全部字符串,再往后扫描时匹配不到,就直接返回了,而不会往前递推。注意:非回溯组也是非捕获组,就是这个括号里的值不会被捕获之所以有这个非回溯,是因为在正则表达式引擎时,回溯是很耗资源和时间的,要尽量避免回溯,比如:字符串:a href=这是我的网站/a,要用正则匹配里面的url和文本,可以用下面2个正则,都可以实现:a href=(.+?)(.+?)/aa href=([^]+)([^]+)/a但是第一个正则,在匹配时会有回溯,比如href是懒惰匹配,这个.+?会先匹配h,然后看后面是不是,不是,再递推下一个字符t,一直递推19次而第二个正则,直接就匹配到前面,不存在回溯,所以在写正则时,要尽量使用没有回溯,或者回溯少的正则其它笔记1、\b:表示单词的起始或结束\B:表示非单词边界(不在单词的开始或结束)^:表示字符串的起始位置,指定多行模式时,表示行的起始位置$:表示字符串的结束位置,指定多行模式时,表示行的结束位置2、\1这样的转义数字,代表前面捕获的内容,如果我们想匹配重复的单词,就可以用这种转义数字举例:this isa a this this a a file list file filea,我们要找出其中重复的单词,可以用正则:\b([a-z]+)\b \1\b 来匹配,\1表示第一个括号里的内容,\2表示第2个,如此类推3、捕获的顺序是按左括号的出现顺序,从1开始顺序递增,例如:([+-])?(\d+(\.\d+)?)(.*)([+-])为捕获的第一个内容,通常为$1,????? C#中可以用Match.Groups[0].Value来得到捕获的值(在正则中可以用\1反向引用,以下类推)?????????????? 也可以用Match.Result($1)来得到捕获的值(\d+(\.\d+)?)为捕获的第二个内容,通常为$2而$2中的(\.\d+)为捕获的第三个内容,通常为$3最后的(.*)为捕获的第四个内容,通常为$4注意:如果补获组进行了命名,则未命名的第1个左括号为$1,未命名的第2个左括号为$2,以此类推,直到没有未命名的补获为止,再开始按顺序推算有命名的补获组4、如果对某个括号里的内容不想进行捕获,可以使用?:例如:例3修改为:([+-])?(\d+(?:\.\d+)?)(.*)例3里的$3就变成了(.*),而$4就不存在了技巧:如果不想加?:, 可以在匹配时增加选项:RegexOptions.Exp
显示全部