移除注释的完善思路：真的可以用正则实现？

fetten

2018-07-16

移除注释的完善思路：真的可以用正则实现？

导语

网上有很多自称能实现移除JS注释的正则表达式，实际上存在种种缺陷。这使人多少有些愕然，也不禁疑惑到：真的可以用正则实现吗？而本篇文章以使用正则移除JS注释为目标，通过实践，由浅及深，遇到问题解决问题，一步步看看到底能否用正则实现！

移除注释的完善思路：真的可以用正则实现？

1 单行注释

单行注释要么占据一整行，要么处于某一行的最后。

正常情况下不难，直接通过正则匹配，再用replace方法移除便可。

let codes = `  




  let name = "Wmaker"; // This is name.  




  if (name) {  




    // Print name.  




    console.log("His name is:", name);  




  }  




`;  



 


 



console.log( codes.replace(/\/\/.*$/mg, '') );  



 



// 打印出：  




// let name = "Wmaker";   




// if (name) {  




//     




//   console.log("His name is:", name);  



// }

上面是成功的删除了注释，不过对于独占一整行的注释清理的不够彻底，会留下空白行。实际上，行尾注释前面的空白也被保留了下来。所以目标稍稍提高，清除这些空白。操作起来也并不难，思路大致这样：删除整行，实际上是删除本行末尾的换行符或上一行末尾的换行符。而换行符本身也属于空白符。所以只需操作正则，匹配到注释以及注释前面所有的空白符即可，一箭双雕。

let codes = `  




  let name = "Wmaker"; // This is name.  




  if (name) {  




    // Print name.  




    console.log("His name is:", name);  




  }  




`;   



 



console.log( codes.replace(/\s*\/\/.*$/mg, '') );  



 



// 打印出：  




// let name = "Wmaker";  




// if (name) {  




//   console.log("His name is:", name);  



// }

如果在字符串中出现完整的URL地址，上面的正则会直接匹配而将其删除。网上大多会将URL的格式特征（http://xxx）：双下划线前面有冒号，作为解决途径加以利用。但这只是治标不治本的做法，毕竟//以任何形式出现在字符串中是它的自由，我们无从干涉。

这样问题就转变成：如何使正则匹配存在于引号外的双下划线？

想匹配被引号包围，带有双下划线的代码块比较简单：/".*\/\/.*"/mg。难点在于如何实现这个否定，即当正则匹配到双下划线后，再判断其是否在引号里面？绞尽脑汁，也上网查了很多，都没有像样的结果。静心平气，洗把脸刷刷牙再冲个头冷静之后，觉得单纯使用正则的路已经走不通了，得跳出这个圈。

就在最后关头，在那淫秽污浊的房间上方突然光芒万丈。我急忙护住了充满血丝的眼睛，静待其适应后定睛一看。只见那里显现出了一段文字（Chinese）：孩儿啊，先将带有//被引号包围的字符串替换掉，去掉注释后再还原，不就行了吗？

let codes = `  




  let name = "Wmaker"; // This is name.  




  if (name) {  




    // Print name.  




    console.log("His name is:", name);  




    console.log("Unusual situation, characters of // in quotation marks.");  




  }  




`;   



 



// 之前的方式。  




console.log( codes.replace(/\s*\/\/.*$/mg, '') );  




// 打印出：  



// let name = "Wmaker"; 



// if (name) {  




//   console.log("His name is:", name);  




//   console.log("Unusual situation, characters of  




// }   



 



// 现在的方式。  




console.log( removeComments(codes) );  



// 打印出： 



// let name = "Wmaker";  




// if (name) {  




//   console.log("His name is:", name);  




//   console.log("Unusual situation, characters of // in quotation marks.");  




// }  



 



function removeComments(codes) {  




  let {replacedCodes, matchedObj} = replaceQuotationMarksWithForwardSlash(codes);  



 



  replacedCodes = replacedCodes.replace(/\s*\/\/.*$/mg, '');  




  Object.keys(matchedObj).forEach(k => {  




    replacedCodes = replacedCodes.replace(k, matchedObj[k]);  




  });  



 



  return replacedCodes;  



 



  function replaceQuotationMarksWithForwardSlash(codes) {  




    let matchedObj = {};  




    let replacedCodes = '';      



 



    let regQuotation = /".*\/\/.*"/mg;  




    let uniqueStr = 'QUOTATIONMARKS' + Math.floor(Math.random()*10000);  



 



    let index = 0;  




    replacedCodes = codes.replace(regQuotation, function(match) {  




      let s = uniqueStr + (index++);  




      matchedObj[s] = match;  




      return s;  




    });  



 



    return { replacedCodes, matchedObj };  




  }  



}

是的，目标达成了，老天眷顾啊！

另外，有一个需要优化的地方：定义字符串的方式有三种 ' " ` ，目前我们只匹配了双引号。

为了避免正则的记忆功能，都使用了正则字面量进行测试。

--- 之前

console.log( /".*\/\/.*"/mg.test(`'Unu//sual'`) ); // false  




console.log( /".*\/\/.*"/mg.test(`"Unu//sual"`) ); // true  



console.log( /".*\/\/.*"/mg.test(`\`Unu//sual\``) ); // false

--- 之后

console.log( /('|"|`).*\/\/.*\1/mg.test(`'Unu//sual'`) ); // true  




console.log( /('|"|`).*\/\/.*\1/mg.test(`"Unu//sual"`) ); // true  



console.log( /('|"|`).*\/\/.*\1/mg.test(`\`Unu//sual\``) ); // true

啊！问题到此结束了！

真的结束了吗？不！我看了看时间：02:17，然后将眼镜摘下，扯了张纸巾，拭去了几颗泪水。

以下是接连解决的两个问题：贪婪模式和转义字符。

--- STEP 1，由于正则的贪婪模式导致。 


let codes = ` 


  let str = 'abc//abc'; // abc' 


`; 


console.log( codes.match(/('|"|`).*\/\/.*\1/mg) ); // ["'abc//abc'; // abc'"] 


 



-- 解决  



let codes = ` 


  let str = 'abc//abc'; // abc' 


`; 



console.log( codes.match(/('|"|`).*?\/\/.*?\1/mg) ); // ["'abc//abc'"]  



 


--- STEP 2，由定义字符串时其中的转义字符导致。 


let codes = ` 


  let str = 'http://x\\'x.com'; // 'acs 


`; 


console.log( codes.match(/('|"|`).*?\/\/.*?\1/mg) ); // ["'http://x\'", "'; // '"] 


 



-- 解决  



let reg = /(?<!\\)('|"|`).*?\/\/.*?(?<!\\)\1/mg; 


let codes = ` 


  let str = 'http://x\\'x.com'; // 'acs 


`; 


console.log( codes.match(reg) ); // ["'http://x\'x.com'"]

事情到这里，虽然劳累，但多少有些成就感，毕竟成功了。

可是，可是，可是在测试时，竟然无意间发现一个无法逾越的障碍。就好比费劲千辛万苦花费无尽的财力物力之后，某某尤物终于愿意一同去情人旅馆时，却发现家家爆满，没有空余的房间。在强装欢笑，玩命的哄骗着她，一家接连一家的寻找直到终于定到房间后，却发现自己已然挺不起来了！

正则会将任意位置的引号作为查找的起始位置，它不在乎引号是成双的道理。下面是一个示例。

let reg = /(?<!\\)('|"|`).*?\/\/.*?(?<!\\)\1/mg;  




let codes = `  




  let str = "abc"; // "  




`;  



console.log( codes.match(reg) ); // [""abc"; // ""]

不过，问题好歹在补过觉之后的 06:37 时得以解决。

思路是这样的：虽然不能正确实现匹配带有//被引号包围的代码块（可能有方法，但能力有限），但是简化成匹配单纯被引号包围的代码块，是简单而且能正确做到的，虽然耗费的内存多了一些。另外，两引号间也可能包含换行符，所以为其增加s模式：.代表全部字符。下面是去除单行注释的最终代码。

let codes = `  




  let name = "Wmaker"; // This is name.  




  let str = 'http://x\\'x.com' + " / / " + '/"/"/'; // '; // " "  




  if (name) {  




    // Print name.  




    console.log("His name is:", name);  




    console.log("Unusual situation, characters of // in quotation marks.");  



  } 



`;  



 



console.log(removeComments(codes));  




// 打印出：  




// let name = "Wmaker";  




// let str = 'http://x\'x.com' + " / / " + '/"/"/';  




// if (name) {  




//   console.log("His name is:", name);  




//   console.log("Unusual situation, characters of // in quotation marks.");  



// } 


 



function removeComments(codes) {  




  let {replacedCodes, matchedObj} = replaceQuotationMarksWithForwardSlash(codes);   




  replacedCodes = replacedCodes.replace(/\s*\/\/.*$/mg, '');  




  Object.keys(matchedObj).forEach(k => {  




    replacedCodes = replacedCodes.replace(k, matchedObj[k]);  




  });  



 



  return replacedCodes;  



 



  function replaceQuotationMarksWithForwardSlash(codes) {  




    let matchedObj = {};  




    let replacedCodes = '';     



 



    let regQuotation = /(?<!\\)('|"|`).*?(?<!\\)\1/smg;  




    let uniqueStr = 'QUOTATIONMARKS' + Math.floor(Math.random()*10000);  



 



    let index = 0;  




    replacedCodes = codes.replace(regQuotation, function(match) {  




      let s = uniqueStr + (index++);  




      matchedObj[s] = match;  




      return s;  




    });  



 



    return { replacedCodes, matchedObj };  




  }  



}

最后补充一点，单双引号虽然也可以多行显示，但其解析后实际是单行的。

let codes = "' \  




  Wmaker \  




'";  



codes.match( /(?<!\\)('|"|`).*?(?<!\\)\1/smg ); // ["'   Wmaker '"]

2 多行注释

啊！难点已经解决，现在就可以悠哉悠哉的往前推进了。

多行注释与单行思路相同，只需在删除注释时多加一个匹配模式。中和两者的最终代码如下。

let codes = `  




  let name = "Wmaker"; // This is name.  




  let str = 'http://x\\'x.com' + " / / " + '/"/"/'; // '; // " "  




  let str = 'http://x\\'x./*a*/com' + " / / " + '/"/"/'; // '; // "/*sad*/ "  




  if (name) {  




    // Print name.  




    /* Print name. */  




    console.log("His name is:", name);  




    console.log("Unusual situation, characters of // in quotation marks.");  




    /*  




     * Others test.  




     */  




    console.log("Unusual situation, characters of /* abc */ in quotation marks.");  




  }  




`;   



 



console.log(removeComments(codes));  




// 打印出：  




// let name = "Wmaker";  




// let str = 'http://x\'x.com' + " / / " + '/"/"/';  




// let str = 'http://x\'x./*a*/com' + " / / " + '/"/"/';  




// if (name) {  




//   console.log("His name is:", name);  




//   console.log("Unusual situation, characters of // in quotation marks.");  



//   console.log("Unusual situation, characters of /* abc */ in quotation marks."); 



// }  



 



function removeComments(codes) {  




  let {replacedCodes, matchedObj} = replaceQuotationMarksWithForwardSlash(codes);  



 



  replacedCodes = replacedCodes.replace(/(\s*\/\/.*$)|(\s*\/\*[\s\S]*?\*\/)/mg, '');  




  Object.keys(matchedObj).forEach(k => {  




    replacedCodes = replacedCodes.replace(k, matchedObj[k]);  



  }); 


 



  return replacedCodes;  




  function replaceQuotationMarksWithForwardSlash(codes) {  




    let matchedObj = {};  




    let replacedCodes = '';      



 



    let regQuotation = /(?<!\\)('|"|`).*?(?<!\\)\1/smg;  




    let uniqueStr = 'QUOTATIONMARKS' + Math.floor(Math.random()*10000);  



 



    let index = 0;  




    replacedCodes = codes.replace(regQuotation, function(match) {  




    let s = uniqueStr + (index++);  




    matchedObj[s] = match;  




    return s;  




    });  




    return { replacedCodes, matchedObj };  




  }  



}

3 总结

从以上可以得出结论，单纯使用正则表达式是不能达到目标的，需要配合其它操作才行。但现在得出的结果真的能覆盖全部的情况？会不会有其它的隐藏问题，比如多字节字符的问题。虽然作为一个码农，该有的自信不会少，但慢慢的也明白了自己的局限性。从网上的其它资料看，使用UglifyJS，或在正确的解析中去除注释，会更为稳妥。但有可能自己动手解决的，没理由不花费些精力试试！

问题更新记录

感谢热心同志找出的错误，我会将能改与不能改的都列于此地，并只会更新下面两个示例的代码。

1.没有考虑正则字面量中的转义字符。

出错示例：var reg=/a\//;。

修改方式：将删除注释的正则改为：/(\s*(?<!\\)\/\/.*$)|(\s*(?<!\\)\/\*[\s\S]*?(?<!\\)\*\/)/mg。

这里是工作于前端页面的代码及相应示例，下载链接。

<!DOCTYPE html>  



<html> 


 



<head>  




  <meta charset="UTF-8">  




  <title>Remove Comments</title>  




</head>  



 



<body>  




  <p>输入：</p>  




  <textarea id="input" cols="100" rows="12"></textarea>  



 



  <br /><br />  




  <button onclick="transform()">转换</button>  



 



  <p>输出：</p>  




  <textarea id="output" cols="100" rows="12"></textarea>    



 



  <script>  




    let input = document.querySelector('#input');  




    let output = document.querySelector('#output');  



 



    setDefaultValue();  



 



    function transform() {  




      output.value = removeComments(input.value);  



    } 


 



    function removeComments(codes) {  




      let {replacedCodes, matchedObj} = replaceQuotationMarksWithForwardSlash(codes);  



 



      replacedCodes = replacedCodes.replace(/(\s*(?<!\\)\/\/.*$)|(\s*(?<!\\)\/\*[\s\S]*?(?<!\\)\*\/)/mg, '');  



      Object.keys(matchedObj).forEach(k => { 



       replacedCodes = replacedCodes.replace(k, matchedObj[k]);  




      });  



 



      return replacedCodes;  



 



      function replaceQuotationMarksWithForwardSlash(codes) {  




        let matchedObj = {};  




        let replacedCodes = '';          



 



        let regQuotation = /(?<!\\)('|"|`).*?(?<!\\)\1/smg;  




        let uniqueStr = 'QUOTATIONMARKS' + Math.floor(Math.random()*10000);  



 



        let index = 0;  




        replacedCodes = codes.replace(regQuotation, function(match) {  




          let s = uniqueStr + (index++);  




          matchedObj[s] = match;  




          return s;  




        });  



 



        return { replacedCodes, matchedObj };  




      }  




    }  



 



    function setDefaultValue() {  




      input.value = `let name = "Wmaker"; // This is name.  




let str = 'http://x\\'x.com' + " / / " + '/"/"/'; // '; // " "  




let str = 'http://x\\'x./*a*/com' + " / / " + '/"/"/'; // '; // "/*sad*/ "  




if (name) {  




  // Print name.  




  /* Print name. */  




  console.log("His name is:", name);  




  console.log("Unusual situation, characters of // in quotation marks.");  




  /*  




   * Others test.  




   */  



  console.log("Unusual situation, characters of /* abc */ in quotation marks."); 



 }  




`;  




    }  




  </script>  




</body>  



</html>

fetten

0 关注 0 粉丝 0 动态

相关推荐

MySQL全面瓦解之查询的正则匹配详解

上一章查询的过滤条件，我们了解了MySQL可以通过 like % 通配符来进行模糊匹配。同样的，它也支持其他正则表达式的匹配，我们在MySQL中使用 REGEXP 操作符来进行正则表达式匹配。似，但又强大很多，能够实现一些很特殊的、复杂的规则匹配。如果

杨德龙 2020-11-11

MongoDB查询之高级操作详解（多条件查询、正则匹配查询等）

MongoDB查询文档使用find()方法，同时find()方法以非结构化的方式来显示所有查询到的文档。db.collection.find -- 返回所有符合查询条件的文档。$type操作符是基于BSON类型来检索集合中匹配的数据类型，MongoDB中可

不要皱眉 2020-10-14

ASP删除img标签的style属性只保留src的正则函数

'功能:将IMG代码格式化为<img src="XXX" />格式,只保留SRC属性，去掉IMG标签的其他属性。

满地星辰 2020-09-16

想要在JS中把正则玩得飘逸，学会这几个函数的使用必不可少

在之前的一系列文章中，我们讲解了很多关于正则表达式的知识。那么作为一个前端工程师，如果想要把这些知识应用到我们平时的开发中去的话，就需要知道在JavaScript中，能够使用正则的函数有哪些？然后它们各自的功能是什么？有哪些需要注意的地方？只有掌握好了每一

梦的天空 2020-08-25

liunx正则危险符号“*”星号

sed符号是一个替换符号，用于文件替换，现在我们像grep一样，把b替换成z，按照我最开始的写法，只要有b的都替换成z，所以写法是。sed “s/b*/z/g” 含义sed "s/查找字符/替换字符/全局替换"，但是下面的结果另外们大吃

lrjnlp 2020-07-19

正则 : 模式

贪婪模式和懒惰模式都会进行回溯；匹配两次相关的字符时，匹配到不符合要求的字符后，这个字符才算匹配完，然后继续匹配下一个字符；默认模式就是贪婪模式，正则会在满足要求的情况下尽可能多的匹配字符知道匹配到不符合要求的字符为止；模式符号)来表示正则的匹配模式，使用

qidu 2020-07-05

CTF-字符？正则？

通过读代码可以看出只要我们构造出符合正则表达式的字符串通过GET传参传过去就可以看到 key 即 flag. . （一个点）：表示可以匹配任何字符；{n,m} ：前面的字符重复4~7次；\ （反斜线）：后面的字符被转义；至此，我们可以对这道题的正则表达式进

flyingssky 2020-07-05

10、正则

pat = re.compile ## 此处的AA是正则表达式，用来取验证其他字符串是否符合AA. m = pat.search ## search字符串是被校验的内容，若不匹配，则返回None. print ## 找出至少一个或多个

flyingssky 2020-06-27

形式语言与自动机五正则语言的三个性质

自动机理论非常完美！！自动机的表述有纯数学形式的五元组形式、状态转移图、状态转移表。接下来以研究正则语言（3型）的性质为主。但是也要知道即使是更强的上下文无关文法，其描述能力也是受限的。上面的B、C找不到正则表达式，也就找不到有限自动机。DFA中的F指的是

RuoShangM 2020-06-17

[javascript] 获取正则子表达式里的内容

js中每一个括号匹配的内容可以被RegExp对象捕获到，存储在RegExp.$1…

jyj00 2020-06-16

JS leetcode 宝石与石头题解分析，正则字符组也有妙用

简单问题简单做，今天的题目来自leetcode771. 宝石与石头，字符串相关的一道题，题目描述如下：。J 中的字母不重复，J 和 S中的所有字符都是字母。字母区分大小写，因此"a"和"A"是不同类型的石头。S 和

天高任鸟飞 2020-06-13

什么？你还不会身份证号码验证？最全的身份证正则验证js

var city={11:"北京",12:"天津",13:"河北",14:"山西",15:"内蒙古",21:"辽宁",22:"

Darklovy 2020-06-11

用它匹配大数据长文本，让你的处理效率提升 100 倍！

原来文本匹配的方式一直是用中规中矩的正则来做，最近在实际生产中由于数据量骤升，现有数据量提高了大约 3-4 倍，原本使用正则处理已经到了瓶颈，这次又有增量对生产来说可谓雪上加霜，而且随着正则词越加越多，匹配效率也越来越差，数据量的激增再加上正则词越加越多，

qidu 2020-06-08

linux正则应用场景

sed 本身也是一个管线命令，可以分析 standard input 的啦！而且 sed还可以将数据进行取代、删除、新增、撷取特定行等等的功能呢。在一般 sed 的用法中，所有来自 STDIN 的数据一般都会被列出到屏幕上。但如果加上 -n 参数后，则只有

Darklovy 2020-06-07

模块-re模块

findall ：会匹配字符串中所有符合规则的项并返回一个列表，如果没有匹配到返回一个空列表。search ：会从头到尾从带匹配匹配字符串中取出第一个符合条件的项，后面即使有也不再继续

jyj00 2020-06-06

前端常用正则校验

非零开头的最多带两位小数的数字：^+?正数、负数、和小数：^?有1~3位小数的正实数：^[0-9]+?中文、英文、数字但不包括下划线等符号：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{

flyingssky 2020-06-04

node环境下console语句对非空数组输出时，会清空正则捕获组。

如代码所示，当我在console输出语句中对正则捕获RegExp.$X进行split分割,，结果后续的任何语句均无法读取到正则捕获组RegExp.$X的值。const args = RegExp.$1.split(‘,‘).map;console.log;

山水沐光 2020-05-26

正则注意事项

1， -o 仅显示匹配的内容，默认情况下grep显示对应的整行,如果要做统计的话,需要sed去除不要的部分, 但grep提供了仅显示需要的部分, 使sed脚本更简单.注意，grep 只支持匹配而不能替换匹配到的内容。grep 支持不同的匹配模式，比如默认

山水沐光 2020-05-25

mongodb正则$regex命令行简单使用

{ <field>: { $regex: /pattern/, $options: ‘<options>‘ } }

Buerzhu 2020-05-17

JavaScript正则表达式匹配字符串字面量

第一次遇到这个问题, 是大概两年前写代码高亮, 从当时的解决方案到现在一共有三代, 嘎嘎. 觉得还是算越来越好的.//那个时候自己正则还不算很精通, 也没有(?//比如像字面量 "abc\\\"", 则会匹配为 "a

zjcheerup 2020-05-14

fetten

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号