基于机器学习(machine learning)的SEO实战日记2--寻找切入点
首先我们需要找一个切入点,一个如何应用ML来做SEO的切入点。要找切入点,就需要有一个寻找的方法;寻找的方法很简单,就是通过网络搜索,找出相关的文章和案例;在谷歌(如果打不开谷歌可以去http://51msg.net)中输入关键词 machine learning seo,搜出很多的结果, 经过艰苦的阅读和寻找,从几十个结果中剔除无关网页信息后,发现相关的有用信息包括如下:
- 基于聚类算法,分析seo可能的影响因素不仅分析排名的影响因素,主要分析点击、点击率的影响因素;待选的影响因素包括tilte长度、meta description长度、排名、曝光量等,对应的参考网址是:https://wordlift.io/blog/en/machine-learning-for-seo/;
- 基于多层感知器分类算法,预测哪些词可以帮助我们的网页在搜索的时候进入前十原网站思路:从SEMrush获得数据,主要包括关键词的搜索量、结果量、竞争度、点击率等;再抓取测试的网站页面内容、竞争对手网站的内容;生成关键数据包括:title里包含情况(title中是否包括关键词,下同)、content里包含情况、url、domain里包含情况等。训练排名数据。从而得出关键词在网页的不同地方可能获得的排名。对应的参考网址是:https://www.searchviu.com/en/machine-learning-seo-predicting-rankings/
- 基于多种主流的分类算法(如xgboost、random forest等)预测网站是否能进入前十,分析影响排名的重要因素;和第二点不同的是这里分析的因素不止是关键词,还包括网页响应速度、外链数量、页面字数、内部连接数、各标题字数、各标签字数等等。对应的参考网址是: https://data-seo.com/2018/11/27/successfully-predicting-google-rankings-data-science/
- 用Natural Language Understanding (NLU)技术,识别文本关联度,用于外接;比较外链页面内容和推广网站对应关键词的关联度,关联度越大,外链的作用也越大。对应的参考网址是:https://econsultancy.com/how-to-machine-learning-link-relevancy-seo-analysis/
找到了相关的信息以后,重要的是我们还需要做出选择。到底选择哪个方案作为我们的切入点呢?要做选择,我们需要有选择的策略,我们的策略是这样的:
- 实用性要强,见效要快;
- 必须可快速方便验证效果
- 所有数据都能容易获取,可操作性强
- 循序渐进、由易到难
基于以上原则,作者的选择的是第2个应用案例,基于多层感知器,预测哪些搜索词可以帮助网页在搜索结果中排名前10。 未完待续……