信息搜集之搜索引擎

yanweiqi

2020-05-09

关注关注

1. 信息搜集的作用

信息零碎化，收集的工整性

1.1 为什么信息收集

获得信息
了解对方
掌握情况
寻找弱点
安全短板

1.2 收集哪些信息

网站的架构：osi模型 ------->域名，Whois，CDN，c段

前端：HTML/ CSS/ JS……------->各级指纹识别，GitHub /源代码泄漏，敏感文件和地址

后端：PHP /ASP.NET /容器 /数据库……------->框架识别，容器识别

中间件：中间件------->组件报错，解析漏洞

系统：windows /linux /mac ------>端口，系统识别

2. 传统搜索引擎

百度，谷歌，360……

传统的搜索引擎能够有效的抓取对方网站页面内容

公司动态
组织文档
用户名 /密码
测试文件
历史数据

传统搜索引擎是对网页内容，网页标题的关键字进行抓取

3. Google hack 语法

常见的Google语法

? // 帮助我们快速缩小目标搜索范围

site：搜索范围限制在某网站或顶级域名中

inurl：用于搜索网页上包含的URL. 这个语法对寻找网页上的搜索,帮助之类的很有用.

intext：只搜索网页部分中包含的文字(也就是忽略了标题,URL等的文字).

intitle：限制你搜索的网页标题.

filetype：搜索文件的后缀或者扩展名

……

例如： filetype:xls "身份证"

? intext:password "Login Info" filetype:txt

? // 不能保证我们下载的文件的安全性

谷歌镜像站

? http://tools.bugscaner.com/google/

谷歌黑客数据库

? https://www.exploit-db.com/google-hacking-database

4. 网络空间引擎

基于物联网搜索，搜索联网的网络设备

在线的暴露的网络设备：路由器，主机，智能电视，联网设备

通过网络空间搜索引擎，我们能够找到开放的服务以及在线的网络设备

5. 精细化搜索

微信公众号 https://weixin.sogou.com
知乎相关 https://www.zhihu.com/search?q=
微博相关 https://s.weibo.com/?Refer=
购物 https://search.jd.com/Search?enc=utf-8&keyword=
github https://github.com/search?q=
贴吧 https://tieba.baidu.com/f/search/res?qw=

6. 撰写信息收集报告

搜索引擎

yanweiqi

0 关注 0 粉丝 0 动态

关注关注

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

章鱼之家 2020-10-29

如何在Linux下安装部署分布式全文搜索引擎

Elasticsearch是一个开源的分布式全文本搜索和分析引擎。它支持RESTful操作，并允许您实时存储，搜索和分析大量数据。Elasticsearch是最流行的搜索引擎之一，可为具有复杂搜索要求的应用程序提供动力，例如大型电子商务商店和分析应用程序。

liangwenrong 2020-07-31

由于Elasticsearch是在 Lucene 基础上构建

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？后面会说到，Elasticsearch是搜索引擎，但不简单只能使用在搜索领域，他可以作用的场景非常多。Elastic 于 2018 年 6

IceStreamLab 2020-06-26

全文搜索引擎 Elasticsearch

全文搜索属于最常见的需求，开源的Elasticsearch是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。但是，你没法直接用 Lucene，必须自己写代码去调用它的接口。Ela

yanweiqi 2020-06-25

数据专家CNZZ简介

CNZZ统计提供多角度的数据统计、对比、以及生成报表功能。便于您更及时全面的掌握贵站情况。CNZZ统计中提供网站实时访问流量数据，在统计后台左侧菜单中提供每项数据报表的入口按钮，方便您查看相关数据。主要数据报表功能项为：流量分析、来源分析、受访分析、访客分

章鱼之家 2020-06-14

倒排索引

见其名知其意，有倒排索引，对应肯定，有正向索引。正向索引，反向索引更熟悉的名字是倒排索引。在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合。例如“文档1”经过分词，提取了20个关键词，每个关键词都会记录它在文档中的出现次数和出现位

章鱼之家 2020-06-08

网站优化：分析网站的快照没有更新的原因是什么?

作为一个网站优化者，每个人都应该知道百度快照。百度快照将随着网站内容的更新而更新。快照的更新速度与网站的更新速度成正比。如果你10天不更新，这意味着网站有问题。下面就让壹起航的小编将介绍为什么网站快照没有更新的原因。如果网站的外部链接质量不好，不仅会影响到

yanweiqi 2020-06-01

Elasticsearch到底哪点好？

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？之前在文章中也陆陆续续的提到过，龙叔是做搜索引擎的。人们通常将 Elastic Stack 称为 ELK Stack，目前 Elastic

IceStreamLab 2020-05-31

1、网络爬虫

　　网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或脚本。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚木，可以自动采集所有其能够访问到的页而内容，以获取相关数据。

athrenzala 2020-05-30

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。现在头条搜索刚开始，比如容易收录网站，大家可以试试。而且还可以官网认证，都是免费的。

athrenzala 2020-05-28

【汉文】SEO白帽和SEO黑帽的技术区别

SEO白帽这个名词我相信很多从业SEO优化的人最经常听到的就是这个名词，其实任何做SEO优化的人都可以称自己为SEO白帽子，在SEO大牛个人认为：SEO并没有真正意义上的黑帽白帽之分，可以说这两者所使用的技术都是交错、相互、有关联的。任何SEO优化人员在操

chenluhan 2020-05-28

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，和通数据库Elasticsearch客户真实实践分享文中涉及到的图片特征提取，使用了yongyuan.name的VGGNet库，再此表示感谢！“图片搜索”是作为导购类网站比较常见的一

etedyh 2020-05-10

Go语言中文分词技术使用技巧（一）

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。现在分词方法大致有三种：基于字符串配置的分词方法、基于理解的分词方法和基于统计的分词方法。今天为大家分享一个国内使用人数最多的中文分词工具Go

athrenzala 2020-04-17

怎么防止优化好的关键词忽然排名下降

当我们优化我们的网站时，有时我们发现我们优化好的关键词的排名突然变得不稳定。我们能设法避免吗?除非他或她必须更改标题，否则不要随意更改标题。这将导致整体关键词排名下降，并严重导致网站降级的迹象。页面的关键字密度与页面的关键字排名密切相关。有些网站管理员过于

huhu 2020-03-01

搜索引擎之倒排索引浅析

上一篇文章 ElasticSearch 术语中提到了倒排索引，那么这篇文章就来讲解下什么是倒排索引，倒排索引的数据结构以及 ElasticSearch 中的倒排索引。倒排索引也常被称为反向索引，是搜索引擎中非常重要的数据结构，为什么说它重要呢，我们首先

qiburen 2020-03-20

世界需要Cliqz，世界需要更多的搜索引擎

世界上只有很少的真正独立的搜索引擎。谷歌，必应，Yandex和百度是最著名的公司。大多数其他参与者只是对这四家搜索引擎结果的再加工，并且依赖于它们的功能和商业模式。又或者独立搜索引擎是非常本地化并且规模很小，不能成为大搜索引擎的替代。它是完全独立的，不使用

WEB程序员 2020-03-18

搜索引擎之倒排索引浅析

倒排索引也常被称为反向索引，是搜索引擎中非常重要的数据结构，为什么说它重要呢，我们首先拿一本书《重构改善既有代码的设计》举个例子：。想象一下你要搜索 case语句这个关键词在这本书的页码，你应该怎么办呢？有些技术类的书籍会在最后提供索引页，这本书的索

yanweiqi 2020-03-03

网站排名下降了怎么办？

定期检查网站的各种链接，看一下是否存在大量的无效链接，这些都会影响到访客和百度蜘蛛的浏览体验，时间久了，搜索引擎蜘蛛就会停止爬行网站，自然而然影响收录，严重的话网站还会被降权，另外建议一定要做404页面，这也是搜索引擎的建议。

柳永法的个人 2020-03-03

做好网站优化，必须注意这些问题

企业网站建设肯定是非常重要的。这一点被企业所深刻的认识到，但是网站建设不可以盲目进行，而是要有技巧性的完成，这里指的是后期优化工作，因为建站相关事宜，由建站公司来完成，只要是经验丰富的公司，都不会有什么问题，可以保证网站的效果，但是指望着网站上线后自己发挥

etedyh 2020-03-03

网站元数据meta标签

Meta标签是HTML语言中HEAD区的一个辅助性标签，它位于HTML文档头部的<head>标记和<title>标记之间，它提供用户不可见的信息。META标签有两个重要的属性：HTTP标题信息和页面描述信息。name属性是描述网页

柳永法的个人 2020-02-13

安科网

信息搜集之搜索引擎

yanweiqi

1. 信息搜集的作用

1.1 为什么信息收集

1.2 收集哪些信息

2. 传统搜索引擎

3. Google hack 语法

常见的Google语法

谷歌镜像站

谷歌黑客数据库

4. 网络空间引擎

基于物联网搜索，搜索联网的网络设备

5. 精细化搜索

6. 撰写信息收集报告

yanweiqi

相关推荐

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

如何在Linux下安装部署分布式全文搜索引擎

由于Elasticsearch是在 Lucene 基础上构建

全文搜索引擎 Elasticsearch

数据专家CNZZ简介

倒排索引

网站优化：分析网站的快照没有更新的原因是什么?

Elasticsearch到底哪点好？

1、网络爬虫

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

【汉文】SEO白帽和SEO黑帽的技术区别

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

Go语言中文分词技术使用技巧（一）

怎么防止优化好的关键词忽然排名下降

搜索引擎之倒排索引浅析

世界需要Cliqz，世界需要更多的搜索引擎

搜索引擎之倒排索引浅析

网站排名下降了怎么办？

做好网站优化，必须注意这些问题

网站元数据meta标签

yanweiqi