文档详情

正则学习笔记.doc

发布：2018-07-02约6.85千字共6页下载文档

文本预览下载声明

正则学习笔记主要是C#或Javascript2010-07-10 17:52:18概念相关笔记1、容易混淆的单行模式和多行模式：单行模式只影响.(小数点)的匹配，关闭单行模式，.匹配换行以外的任意字符；开启单行模式，.匹配任意字符多行模式只影响^和$的匹配，关闭多行模式，^只能匹配字符串开头，$只能匹配字符串结尾；??????? 开启多行模式，^匹配字符串开头或行的开头，$匹配字符串结尾或行的结尾因为正则发展的历史原因，造成这2个概念好像是相反的概念，实际这2个概念是没有任何关系的2个概念2、全局模式（C#没有，js有）：关闭时，只匹配一次；开启时，匹配全部字符串，在js中，关闭全局模式，等效于C#中的Match方法；开启全局模式，等效于C#中的Matches方法3、贪婪模式与懒惰模式：举例说明：有字符串：0diva1/divb1divc1/divdivd1/div9贪婪模式的正则：div.*/div，只有一个匹配结果：diva1/divb1divc1/divdivd1/div懒惰模式的正则：div.*?/div，有3个匹配结果，分别是：diva1 /div??? divc1/div?????? divd1/div注：贪婪模式的原理是匹配优先，而懒惰模式的原理是忽略优先，比如：字符串 abd贪婪模式正则：ab?c??? 在匹配时，会先尝试进行ab匹配，再比对c，不匹配了，进行回溯，进行ac的匹配懒惰模式正则：ab??c? 在匹配时，会先尝试进行ac匹配，不匹配了，进行回溯，进行abc的匹配4、非回溯匹配（也叫固化分组）：(?)：举例说明：字符串：张三是中国人，李四是中国人，王五是韩国人正则：(.*)中国人，因为正则引擎的贪婪特性，.*第一次扫描时会匹配全部字符串，发现后面没有字符了，不能匹配正则里的“中国人”，于是把.*的匹配往前递推一个，发现“国”也不能匹配正则里的“中国人”，于是再把.*的匹配往前递推，一直推到“张三是中国人，李四是”，此时匹配到了“中国人”，于是.*匹配的结果就是：张三是中国人，李四是? 这里说的往前递推就是回溯把正则改为：(?.*)中国人? 匹配就会失败，因为正则式里指定了.*不允许回溯，所以.*第一次扫描时会匹配全部字符串，再往后扫描时匹配不到，就直接返回了，而不会往前递推。注意：非回溯组也是非捕获组，就是这个括号里的值不会被捕获之所以有这个非回溯，是因为在正则表达式引擎时，回溯是很耗资源和时间的，要尽量避免回溯，比如：字符串：a href=这是我的网站/a，要用正则匹配里面的url和文本，可以用下面2个正则，都可以实现：a href=(.+?)(.+?)/aa href=([^]+)([^]+)/a但是第一个正则，在匹配时会有回溯，比如href是懒惰匹配，这个.+?会先匹配h，然后看后面是不是，不是，再递推下一个字符t，一直递推19次而第二个正则，直接就匹配到前面，不存在回溯，所以在写正则时，要尽量使用没有回溯，或者回溯少的正则其它笔记1、\b：表示单词的起始或结束\B：表示非单词边界（不在单词的开始或结束）^：表示字符串的起始位置，指定多行模式时，表示行的起始位置$：表示字符串的结束位置，指定多行模式时，表示行的结束位置2、\1这样的转义数字，代表前面捕获的内容，如果我们想匹配重复的单词，就可以用这种转义数字举例：this isa a this this a a file list file filea，我们要找出其中重复的单词，可以用正则：\b([a-z]+)\b \1\b 来匹配，\1表示第一个括号里的内容，\2表示第2个，如此类推3、捕获的顺序是按左括号的出现顺序，从1开始顺序递增，例如：([+-])?(\d+(\.\d+)?)(.*)([+-])为捕获的第一个内容，通常为$1，????? C#中可以用Match.Groups[0].Value来得到捕获的值（在正则中可以用\1反向引用，以下类推）?????????????? 也可以用Match.Result($1)来得到捕获的值(\d+(\.\d+)?)为捕获的第二个内容，通常为$2而$2中的(\.\d+)为捕获的第三个内容，通常为$3最后的(.*)为捕获的第四个内容，通常为$4注意：如果补获组进行了命名，则未命名的第1个左括号为$1,未命名的第2个左括号为$2,以此类推，直到没有未命名的补获为止，再开始按顺序推算有命名的补获组4、如果对某个括号里的内容不想进行捕获，可以使用?:例如：例3修改为：([+-])?(\d+(?:\.\d+)?)(.*)例3里的$3就变成了(.*)，而$4就不存在了技巧：如果不想加?:，可以在匹配时增加选项：RegexOptions.Exp

显示全部

相似文档