一步一步学习elasticsearch7(一)
<译> https://www.elastic.co/guide/en/elasticsearch/reference/current/elasticsearch-intro.html 只是简单翻译了官方文档
elasticsearch简介
> Elasticsearch是Elastic Stack核心的分布式搜索和分析引擎 > Logstash和Beats有助于收集,聚合和丰富您的数据并将其存储在Elasticsearch中 > Kibana使您能够以交互方式探索,可视化和分享数据洞察,并管理和监控堆栈 > Elasticsearch是索引,搜索和分析魔术发生的地方 > Elasticsearch为所有类型的数据提供实时搜索和分析 > 无论您是结构化文档还是非结构化文本,数字数据或地理空间数据,Elasticsearch都可以以支持快速搜索的方式 有效地存储和索引它 > 您可以远远超出简单的数据检索和聚合信息,以发现数据中的趋势和模式 > 随着您的数据和查询量的增长,Elasticsearch的分布式特性使您的部署能够与其一起无缝地增长 > 虽然不是每个问题都是搜索问题,但Elasticsearch提供了处理各种用例数据的速度和灵活性
应用用例
- 将搜索框添加到应用或网站
- 存储和分析日志,指标和安全事件数据
- 使用机器学习实时自动建模数据行为
- 使用Elasticsearch作为存储引擎自动化业务工作流程
- 使用Elasticsearch作为地理信息系统(GIS)管理,集成和分析空间信息
- 使用Elasticsearch作为生物信息学研究工具存储和处理遗传数据
数据结构
Elasticsearch是一个分布式文档存储。 Elasticsearch不是将信息存储为行列数据,而是存储已经序列化为JSON文档的复杂数据结构。当群集中有多个Elasticsearch节点时,存储的文档将分布在群集中,并且可以从任何节点立即访问。 存储文档时,它会在1秒内实时索引并完全可搜索。 Elasticsearch使用称为倒排索引的数据结构,支持非常快速的全文搜索。倒排索引列出任何文档中出现的每个唯一单词,并标识每个单词出现的所有文档。 索引可以被视为优化的文档集合,每个文档都是字段的集合,这些字段是包含数据的键值对。默认情况下,Elasticsearch会为每个字段中的所有数据编制索引,并且每个索引字段都具有专用的优化数据结构。例如,文本字段存储在反向索引中,数字和地理字段存储在BKD树中。使用每个字段的数据结构来汇编和返回搜索结果的能力使Elasticsearch如此之快。 Elasticsearch还具有无模式的能力,这意味着可以索引文档而无需显式指定如何处理文档中可能出现的每个不同字段。启用动态映射后,Elasticsearch会自动检测并向索引添加新字段。这种默认行为使您可以轻松索引和浏览数据只需开始索引文档,Elasticsearch将检测并将布尔值,浮点和整数值,日期和字符串映射到相应的Elasticsearch数据类型。 但是,最终,您比Elasticsearch更了解您的数据以及您希望如何使用它。您可以定义规则来控制动态映射并显式定义映射,以完全控制字段的存储和索引方式。 1.区分全文字符串字段和精确值字符串字段 2.执行特定于语言的文本分析 3.优化字段以进行部分匹配 4.使用自定义日期格式 5.使用无法自动检测的数据类型,如geo_point和geo_shape 6.为不同目的以不同方式索引相同字段通常很有用。例如,您可能希望将字符串字段索引为 全文搜索的文本字段和用于排序或聚合数据的关键字字段。或者,您可以选择使用多个语言分析器来处理包含用户输入的字符串字段的内容。 7.在索引期间应用于全文字段的分析链也在搜索时使用。查询全文字段时,查询文本在索引中查找术语之前会进行相同的分析。
搜索和分析
虽然您可以将Elasticsearch用作文档存储并检索文档及其元数据,但真正的强大功能来自于能够轻松访问基于Apache Lucene搜索引擎库构建的全套搜索功能。 Elasticsearch提供了一个简单,一致的REST API,用于管理集群,索引和搜索数据。出于测试目的,您可以直接从命令行或通过Kibana中的Developer Console轻松提交请求。从您的应用程序中,您可以使用Elasticsearch客户端作为您选择的语言:Java,JavaScript,Go,.NET,PHP,Perl,Python或Ruby。 搜索您的dataedit Elasticsearch REST API支持结合了两者的结构化查询,全文查询和复杂查询。结构化查询类似于可以在SQL中构造的查询类型。例如,您可以搜索员工索引中的性别和年龄字段,并按hire_date字段对匹配项进行排序。全文查询查找与查询字符串匹配的所有文档,并按相关性对其进行排序 - 它们与您的搜索字词的匹配程度如何。 除了搜索单个术语外,您还可以执行短语搜索,相似性搜索和前缀搜索,并获取自动填充建议。 是否要搜索地理空间或其他数字数据? Elasticsearch将优化数据结构中的非文本数据编入索引,以支持高性能的地理和数字查询。 您可以使用Elasticsearch的全面JSON样式查询语言(查询DSL)访问所有这些搜索功能。您还可以构建SQL样式的查询以在Elasticsearch内本地搜索和聚合数据,JDBC和ODBC驱动程序使各种第三方应用程序能够通过SQL与Elasticsearch进行交互。 分析您的dataedit 通过Elasticsearch聚合,您可以构建复杂的数据摘要,并深入了解关键指标,模式和趋势。聚合使您无法找到众所周知的“大海捞针”,而是回答以下问题: 1.大海捞针有多少针? 2.针的平均长度是多少? 3.根据制造商细分的针的中位长度是多少? 4.在过去的六个月中,每一天都在干草堆里添加了多少针? 5.您还可以使用聚合来回答更微妙的问题,例如: 你最受欢迎的针头制造商是什么? 是否有任何异常或异常的针丛? 由于聚合利用了用于搜索的相同数据结构,因此它们也非常快。这使您可以实时分析和可视化数据。您的报告和仪表板会随着数据更改而更新,以便您可以根据最新信息采取措施。 更重要的是,聚合与搜索请求一起运行。您可以在同一数据中,在单个请求中同时搜索文档,过滤结果和执行分析。并且因为聚合是在特定搜索的上下文中计算的,所以您不仅要显示所有70针的数量,而是显示与用户的搜索条件匹配的70针的数量 - 例如,所有尺寸70不粘刺绣针。 但是等等,还有更多的想要自动分析您的时间序列数据?您可以使用机器学习功能在数据中创建正常行为的准确基线,并识别异常模式。通过机器学习,您可以检测到: 与值,计数或频率的时间偏差相关的异常 统计稀缺 一个人口的不寻常行为 最好的部分?您无需指定算法,模型或其他与数据科学相关的配置即可完成此操作。
可伸缩性和弹性:集群、节点和碎片
Elasticsearch始终可用,可根据您的需求进行扩展。它通过自然分配来实现这一点。您可以将服务器(节点)添加到群集以增加容量,Elasticsearch会自动在所有可用节点上分配数据和查询负载。无需彻底检查您的应用程序,Elasticsearch了解如何平衡多节点群集以提供规模和高可用性。节点越多,越好。
这是如何运作的?在封面下,Elasticsearch索引实际上只是一个或多个物理分片的逻辑分组,其中每个分片实际上是一个自包含的索引。通过跨多个分片在索引中分发文档,并将这些分片分布在多个节点上,Elasticsearch可以确保冗余,这可以防止硬件故障,并在节点添加到群集时提高查询容量。随着集群的增长(或收缩),Elasticsearch会自动迁移分片以重新平衡集群。
有两种类型的分片:主分片和副本。索引中的每个文档都属于一个主分片。副本分片是主分片的副本。副本提供数据的冗余副本,以防止硬件故障并增加服务读取请求(如搜索或检索文档)的容量。
索引中的主分片数在创建索引时是固定的,但副本分片的数量可以随时更改,而不会中断索引或查询操作。
关于分片大小和为索引配置的主分片数量,存在许多性能考虑因素和折衷方案。分片越多,维护这些索引的开销就越大。分片越大,当Elasticsearch需要重新平衡群集时,移动分片所需的时间越长。
查询大量小分片使得每个分片的处理速度更快,但查询意味着更多的开销,因此查询较少数量的较大分片可能会更快。简而言之......这取决于。
旨在将平均分片大小保持在几GB到几十GB之间。对于具有基于时间的数据的用例,通常会看到20GB到40GB范围内的分片。
避免大量碎片问题。节点可以容纳的分片数量与可用堆空间成比例。作为一般规则,每GB堆空间的分片数应小于20。
确定用例的最佳配置的最佳方法是使用您自己的数据和查询进行测试。
出于性能原因,群集中的节点需要位于同一网络上。在不同数据中心的节点之间平衡群集中的分片只需要太长时间。但是高可用性架构要求您避免将所有鸡蛋放在一个篮子里。如果在一个位置发生重大中断,则另一个位置的服务器需要能够接管。无缝连接。答案?跨群集复制(CCR)。
CCR提供了一种自动将索引从主群集同步到可作为热备份的辅助远程群集的方法。如果主群集出现故障,则辅助群集可以接管。您还可以使用CCR创建辅助群集,以便在地理位置接近用户时提供读取请求。
跨群集复制是主动 - 被动的。主群集上的索引是活动的leader索引并处理所有写入请求。复制到辅助群集的索引是只读关注者。
与任何企业系统一样,您需要工具来保护,管理和监控您的Elasticsearch集群。集成到Elasticsearch中的安全性,监控和管理功能使您可以将Kibana用作管理集群的控制中心。数据汇总和索引生命周期管理等功能可帮助您智能地管理数据
相关推荐
另外一部分,则需要先做聚类、分类处理,将聚合出的分类结果存入ES集群的聚类索引中。数据处理层的聚合结果存入ES中的指定索引,同时将每个聚合主题相关的数据存入每个document下面的某个field下。