用Python 正则表达式识别楼主的实际操作步骤介绍

你知道如何用Python 正则表达式来识别楼主吗?如果你想知道用Python 正则表达式来识别楼主的实际应用方案的具体操作的话,你就可以点击以下的文章对其进行了解,望你会有所收获。

识别楼主:

帖子代码片段:<!-- 天涯百宝箱 -->

<script>   



var chrType = "public";   




var intAuthorId = "";   




var chrAuthorName = "GreyHouse";   




var chrTitle = "[光影记录]跳蚤的欧洲之行";   




var chrItem = 'travel';   




var intItem = '0';   




var intArticleId = "191157";   




var tAuthor = 'GreyHouse';   




</script>  

使用以下的Python 正则表达式来找到楼主:

rereg_louzhu = re.compile('.*chrAuthorName = "(.*?)"; ' 

设mat为reg_louzhu.match(网页源码html行);则mat.groups()[0] 为楼主名字 GreyHouse

识别一个帖子的起始位置

继续分析html,发现天涯回帖一般都是用作者信息栏作为帖子的起始,那么帖子的尾部就是下一个作者信息栏之前咯。

相关推荐