正则:高亮多个相似关键词,如京东、京东物流、京东商城…

最近项目遇到一个小需求,就是在一段文字中,高亮几个关键词,例如以下文字:

京东(JD.com)是中国一家自营式B2C购物网站,创始人刘强东担任京东集团CEO。旗下设有京东商城、京东金融、拍拍网、京东智能、O2O及海外事业部。2013年正式获得虚拟运营商牌照。2014年5月,在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD)。2016年6月与沃尔玛达成深度战略合作,1号店并入京东。2017年1月4日,中国银联宣布京东金融旗下支付公司正式成为银联收单成员机构。2017年4月25日,京东集团宣布正式组建京东物流子集团。2017年8月3日,2017年“中国互联网企业100强”榜单发布,京东排名第四位。

需要高亮的关键词:京东商城、京东、京东物流、京东集团

最简单的办法,就是利用正则表达式,像这样:

function addKeyWordHighline(oText,keyWords){
    //oText->一段文字,keyWords->关键词数组
    var returnVal=oText;
    for(var i=0;i<keyWords.length;i++){
        if(keyWords[i]!=''){
            returnVal=returnVal.replace(new RegExp(keyWords[i], "g"),'<span class="highLight">'+keyWords[i]+'</span>');
        }
    }
    return returnVal;
}

但是这样子做,会导致两个问题:
1、“京东物流”“京东集团”无法高亮
2、重复添加高亮标签。关键词“京东”在“京东商城”后面,会导致文字“京东商城”变成

<span class="highLight"><span class="highLight">京东</span>商城</span>

改进思路(分别对应问题1、2):
1、将关键词数组排序,长度较长的排在前面,优先高亮
2、将<span class="highLight">……</span>区域排除。主要利用正则表达式中的元字符?!pattern(正向否定预查)实现。

正向否定预查:在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows",但不能匹配"Windows2000"中的"Windows"。

改进后的代码:

function addKeyWordHighline(oText,keyWords){
    var returnVal=oText,
        i=0,
        wordReg;
    keyWords.sort(compareWordLength);
    
    for(i=0;i<keyWords.length;i++){
        if(keyWords[i]!=''){
            wordReg=new RegExp('(?!<span+>.[^<]*)'+keyWords[i]+'(?!.[^<]*<\/span>)','g');
            returnVal=returnVal.replace(wordReg,'<span class="highLight">'+keyWords[i]+'</span>');
        }
    }
    return returnVal;
}

function compareWordLength(a,b){
    if(a.length>b.length){
        return -1;
    }else if(a.length<b.length){
        return 1;
    }else{
        return 0;
    }
}

最终效果:

正则:高亮多个相似关键词,如京东、京东物流、京东商城…

相关推荐