正则表达式（四）零宽断言

发表于2019-11-05，长度1725， 106个单词， 4分钟读完

前面几篇文章我们介绍了正则表达式的常用概念，包括《正反元字符》、《分支条件、分组》、《后向引用、懒惰匹配》。有了这些概念基本可以满足我们日常的使用。不过，正则提供给我们更高级的用法，让我们可以更方便的匹配复杂场景。这里介绍一下零宽断言。

零宽断言，英文zero width assertion，是最近几十年才提出来的新特性，所以有些编辑器不支持（what？几十年还叫新？因为正则的发展几乎是停滞的。前面说过，它性能一般，语法又复杂，几乎没有组织愿意给它花费心思）

查找在某些内容(但并不包括这些内容)之前或之后的东西，也就是说它们像\b,^,$那样用于指定一个位置，这个位置应该满足一定的条件(即断言)，因此它们被称为零宽断言。零宽断言有两种：

(?=exp)叫零宽度正预测先行断言，它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b)，匹配以ing结尾的单词的前面部分，如查找I’m singing while you’re dancing.时，它会匹配sing和danc。
(?<=exp)叫零宽度正回顾后发断言，它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。

看起来很简单对吧，所以我们来看一个例子：如何给一个很长的数字中每三位间加一个逗号(当然是从右边加起)？为了加逗号，可以这样查找需要添加逗号的部分：

((?<=\d)\d{3})+\b

用它对1234567890进行查找结果是234567890。

思考，如果用上面的正则式匹配234567890，命中的是什么？

前面提到过怎么查找不是某个字符或不在某个字符类里的字符的方法(反义)。如果只想要确保某个字符没有出现，但并不想去匹配它时怎么办？例如，我们想查找这样的单词:它里面出现了字母q,但是q后面跟的不是字母u,我们可以尝试这样：\b\wq[^u]\w\b匹配包含后面不是字母u的字母q的单词。

但是如果q出现在单词的结尾的话，像Iraq、Benq，这个表达式就会出错。这是因为[^u]总要匹配一个字符，所以如果q是单词的最后一个字符的话，后面的[^u]将会匹配q后面的单词分隔符(可能是空格，或者是句号或其它的什么)，后面的\w\b将会匹配下一个单词，于是\b\wq[^u]\w*\b就能匹配整个Iraq war。

零宽断言也提供了反义，将其中等号改成叹号：