博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
js-匹配边界
阅读量:6202 次
发布时间:2019-06-21

本文共 2192 字,大约阅读时间需要 7 分钟。

hot3.png

通常情况下,以 空格、段落首行、段落末尾、逗号、句号 等符号作为边界,值得注意的是,分隔符“-”也可以作为边界。

正则如下:

1 \bmagic\b

效果演示

welcome to nowa-magic this magic place!

本例代码

1 function reg_replace()
2 {
3     var test = document.getElementById("test");
4     var regex = /\b(magic)\b/g;
5     test.innerHTML = test.innerHTML.replace(regex,"<span style='background-color:orange'>$1</span>");
6 }

这是什么原因呢?其实很好理解,从“-”的字面意思:分隔符,大致就可以想到了。实际上,在英语中,它是用来做单词分隔的。

这里有个重要的搜索引擎优化常识,大家注意到本文档的命名,我采用的是:Regular-Expression-Tutorial.pdf,为什么 不用下划线分隔,命名成Regular_Expression_Tutorial.pdf 呢? 因为当搜索引擎看到“-”的时候,会把它视为一个空格“ ”,而看到下划线“_”的时候,会把它视为空字符“”,实际上,下划线的正确叫法是“连字符”。于是,当我命名为 Regular-Expression-Tutorial.pdf 时,搜索引擎看到的是: Regular Expression Tutorial.pdf,而当我命名成 Regular_Expression_Tutorial.pdf 时,搜索引擎看作 RegularExpressionTutorial.pdf 。

可以看出,正则表达式在字符边界问题上 对“-”的处理方式 与 搜索引擎相同。

边界的相对性:

  • 当你对一个普通字符,比如“s”,设定边界的时候,它的边界是诸如空格、分隔符、逗号、句号等。
  • 当你对一个边界,比如分隔符“-”或者“,”等,设定边界的时候,它的边界是普通字符。

正则如下:

1 \b(,)\b

效果演示

welcome to nowamagic,this magic place!

与上面唯一不同的是:这次我们匹配逗号“,”,而它本身也是一个边界,结果与上面完全相反。可见,对于“,”而言,它的边界是一个普通字母。

边界的相对性是很重要的,因为我们很多时候需要匹配诸如“<”这样的字符。

有的时候,我们想要匹配的字符串必须位于全部文本的首位,比如说 XML 文件的声明“<?xml version="1.0" encoding="UTF-8" ?>”;有的时候,需要匹配的字符串位于全部文本的末尾,比如</html>。对于这种匹配,上面介绍的单词边界匹配就无能为力了。

匹配文本首

在正则表达式中,可以在 匹配模式 的第一个字符前添加 “^”,以匹配 满足模式且位于全部文本之首的字符串。可以将它的匹配方式理解成这样:

  1. 假设不存在“^”,进行一个正常匹配,将所有匹配的文本保存到匹配集合中;
  2. 在匹配集合中寻找位于 所搜索的文本 首位的匹配;
  3. 从匹配集合中删除其他匹配,仅保留该匹配。

正则如下:

^(\s*nowamagic\d?\.net)

效果演示

nowamagic.net and nowamagic2.net are websites.

本例代码

function reg_replace(){	var test = document.getElementById("test");	var regex = /^(\s*nowamagic\d?\.net)/g;	test.innerHTML = test.innerHTML.replace(regex,"$1");}

我们进行文本边界匹配时,通常还需要添加对空字符的处理所以需要在字符串前加上\s*

按照之前说的,它的匹配过程是这样:

  1. 假设匹配模式是 nowamagic\d?\.net,对文本进行匹配。
  2. 一共找到 2 个符合模式的文本:第一行 和 第二行的 nowamagic.net, 及 nowamagic2.net
  3. 从所有匹配的文本中筛选出位于文本首位的匹配文本:即第一行的 nowamagic.net,删除所有其他匹配。

匹配文本末

有匹配文本首的语法,自然有匹配文本末的语法。

在正则表达式中,可以在 匹配模式 的最后一个字符后添加 “$”,以匹配 满足模式且位于全部文本之末的字符串。

它的匹配方式 与 匹配文本首“^”相似,这里就不再详细说明了,只给出一个例子:

正则如下:

(nowamagic\d?\.net\s*)$

效果演示

nowamagic.net and nowamagic2.net are both names nowamagic.net

回顾下之前介绍的,可以看出:“\b”和“\B”是对 匹配模式(表达式) 中某个字符出现的进行位置(单词首位还是末位)进行限制。“^”和“$” 是对 整个待搜索文本 的 匹配模式(表达式) 出现位置(文本首位还是文本末位)进行限制。它们的关系是一小一大。 

转载于:https://my.oschina.net/lgmcolin/blog/85250

你可能感兴趣的文章
域名解析数据设置
查看>>
虚拟机virtualbox中挂载新硬盘
查看>>
通过SMB协议上传,下载文件.
查看>>
大端模式&小端模式&入棧地址高低問題
查看>>
IDEA设置总结
查看>>
chmod
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
Maven私服nexus添加第三方JAR
查看>>
突然断电如何找到未保存的excle文件
查看>>
Mac OS X 从零开始系列教程 9 --软件安装 DMG镜像制作
查看>>
"免费"的X60
查看>>
java 高并发总结
查看>>
Python 内建函数——eval()
查看>>
Ubuntu中vi卸载与安装/使用模式
查看>>
Oracle10g平时常用到的sql整理
查看>>
Android禁止所有所有Activity横屏
查看>>
Linux mysql安装
查看>>
概率与数理统计2
查看>>
android四大组件(详细总结)
查看>>