正则表达式-简介

        正则表达式(Regular Expression)是一种文本模式,包括普通字符和特殊字符。

        正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。

        正则表达式是繁琐的,但它是强大的,许多程序设计语言都支持利用正则表达式进行字符串操作。

        例如,使用 ?* 通配符来查找硬盘上的文件。? 通配符匹配文件名中的单个字符,而 * 通配符匹配零个或多个字符。像 data?.dat 这样的模式将查找下列文件:

1
2
3
4
data1.dat
data2.dat
datax.dat
dataN.dat

        使用 字符代替 ? 字符扩大了找到的文件数量。data.dat 匹配烈夏所有文件:

1
2
3
4
5
6
data.dat
data1.dat
data2.dat
data12.dat
datax.dat
dataXYZ.dat

        尽管这种搜索方法很有用,但它还是有限的。通过理解 * 通配符的工作原理,引入了正则表达式所依赖的概念,但正则表达式功能强大,而且更加灵活。

        正则表达式的使用,可以通过简单的办法来实现强大的功能。下面一个简单的示例:

\^[0-9]+abc$

  • ^ 为匹配输入字符串的开始位置。
  • [0-9]+ 匹配多个数字,[0-9] 匹配单个数字,+ 匹配一个或者多个。
  • abc$ 匹配字母 abc 并以 abc 结尾, $ 为匹配输入字符串的结束位置。

        实例:匹配以数字开头,并以 abc 结尾的字符串:

1
2
3
var str = "123abc";
var parr1 = /^[0-9]+abc$/;
document.write(str.match(patt1));

        以上标记的文本是获得的匹配的表达式:123abc

为什么使用正则表达式?

        典型的搜索和替换操作要求提供与预期的搜索结果匹配的确切文本。随谈这种技术对于静态文件执行简单搜索和替换任何可能已经足够了,但它缺乏灵活性,若采用这种方法搜索动态文本,几十不是不可能,至少也会变得很困难。

        通过是有那个正则表达式,可以:

  • 测试字符串内的模式。
    例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或信用卡号码模式。这成为数据验证。
  • 替换文本。
    可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它。
  • 基于模式匹配从字符串中提取子字符串。
    可以查找文档内或输入域内特定的文本。

        例如,可能需要搜索整个网站,删除过时的材料,以及替换某些 HTML 格式标记。在这种情况下,可以正则表达式来确定在每个文件中是否出现该材料或该 HTML 格式标记。此过程将受影响的文件裂变缩小到包含需要删除或更改的材料的那些文件。然后可以使用正则表达式来删除过世的材料。最后,可以使用正则表达式来搜索和替换标记。

发展历史

        正则表达式的“祖先”可以一直上溯至对人类神经系统如何工作的早期研究。Warren McCulloch 和 Walter Pitts 这两位神经胜利学家研究出一种数学方式来描述这些神经网络。

        1956年,一位叫 Stephen Kleene 的数学家在 McCulloch 和 Pitts 早期工作的基础上,发表了一篇标题为“神经网时间的表示法”的论文,引入了正则表达式的概念。正则表达式就是用来描述他称为“正则集的代数”的表达式,因此采用“正则表达式”这个术语。

        随后,发现可以将这一工作应用于使用 Ken Thompson 的计算搜索算法的一些早期研究,Ken Thompson 是 Unix 的主要发明人,正则表达式的第一个实用应用程序就是 Unix 中的 qed 编辑器。

        如他们所说,剩下的就是众所周知的历史了。从那时起直至现在正则表达式都是基于文件的表机器和搜索工具中的一个重要部分。

应用领域

        目前,正则表达式已经在很多软件中得到广泛应用,包括 Linux、Unix、HP等操作系统, PHP、C#、Java等开发环境,以及很多的应用软件中,都可以看到正则表达式的影子

命令或环境 . [] ^ $ \(\) \{\} ? + \ ()
vi
Visual C++
awk awk是支持该语法的, 只是要在命令行加入 –posix or –re-interval参数即可, 可见man awk中的interval expression
sed
delphi
python
java
javascript
php
perl
C#