【Elasticsearch】分桶聚合功能概述

这些聚合功能可以根据它们的作用和应用场景分为几大类，以下是分类后的结果：

1.基础聚合（Basic Aggregations）

• Terms（字段聚合）

根据字段值对数据进行分组并统计。

例子：按产品类别统计销售数量。

• Histogram（直方图）

将数值数据分桶并统计每个桶内的数据数量。

例子：按年龄区间统计用户数量。

• Date histogram（日期直方图）

按固定时间间隔对日期数据进行分桶并统计。

例子：按月统计用户注册数量。

• Range（范围聚合）

根据数值范围对数据进行分桶并统计。

例子：按价格区间统计商品数量。

• Missing（缺失值）

统计缺失字段的数据。

例子：统计用户未填写地址的数量。

• Global（全局聚合）

对整个数据集进行全局统计。

例子：计算总销售额。

2.时间序列聚合（Time Series Aggregations）

• Date histogram（日期直方图）

按固定时间间隔对日期数据进行分桶并统计。

例子：按月统计用户注册数量。

• Auto-interval date histogram（自动间隔日期直方图）

根据数据的时间分布自动划分时间间隔，并生成直方图。

例子：分析网站访问日志，自动按小时或天生成访问量直方图。

• Time series（时间序列）

按时间顺序对数据进行聚合和分析，常用于趋势分析和预测。

例子：分析股票价格的时间序列变化。

3.地理聚合（Geospatial Aggregations）

• Geo-distance（地理距离）

根据地理坐标计算距离。

例子：计算用户与最近的门店之间的距离。

• Geohash grid（Geohash网格）

使用Geohash算法将地理区域划分为网格，并统计网格内的数据。

例子：统计不同地区的用户分布。

• Geohex grid（Geohex网格）

使用Geohex算法划分地理区域并统计数据。

例子：分析城市中不同区域的交通流量。

• Geotile grid（地理瓦片网格）

使用地理瓦片技术划分区域并统计数据。

例子：分析全球范围内的气象数据分布。

4.文本和分类聚合（Text and Categorization Aggregations）

• Categorize text（文本分类）

将文本数据归类到预定义的类别中。

例子：将新闻文章分类为体育、财经、娱乐等。

• Significant terms（显著项聚合）

找出数据中显著的项，通常用于文本分析，识别重要或异常的关键词。

例子：分析用户评论，找出显著的负面或正面词汇。

• Significant text（显著文本聚合）

找出文本数据中显著的文本片段，通常用于情感分析或异常检测。

例子：分析产品评论，找出显著的负面或正面评论片段。

5.采样和过滤聚合（Sampling and Filtering Aggregations）

• Filter（过滤器）

根据条件过滤数据。

例子：过滤出价格大于100元的商品。

• Filters（多过滤器）

使用多个过滤条件对数据进行分类。

例子：根据价格和品牌分类商品。

• Sampler（采样器）

从数据集中抽取样本进行聚合，用于减少计算量，提高性能。

例子：从大量日志数据中抽取10%的样本进行分析。

• Random sampler（随机采样器）

从数据集中随机抽取样本。

例子：从大量用户中随机抽取100个用户。

• Diversified sampler（多样化采样器）

从数据集中随机抽取多样化样本。

例子：从大量商品中随机抽取不同类别的样本。

6.嵌套和复杂结构聚合（Nested and Complex Structure Aggregations）

• Children（子聚合）

在嵌套文档结构中，对子文档进行聚合操作。

例子：在电商数据中，对订单中的商品明细进行聚合。

• Parent（父聚合）

在嵌套文档结构中，对父文档进行聚合操作。

例子：统计每个订单的总金额。

• Reverse nested（反向嵌套聚合）

在嵌套文档结构中，从子文档聚合到父文档。

例子：统计每个商品所属订单的数量。

• Nested（嵌套聚合）

在嵌套文档结构中进行聚合操作。

例子：在多级评论结构中统计评论数量。

• Composite（复合聚合）

结合多个聚合条件，生成更复杂的聚合结果。

例子：按地区和产品类别统计销售额。

7.统计和分析聚合（Statistical and Analytical Aggregations）

• Frequent item sets（频繁项集）

找出数据中频繁出现的项集。

例子：在购物篮中找出频繁购买的商品组合。

• Rare terms（稀有项聚合）

找出数据中出现频率较低的项。

例子：找出罕见的用户行为。

• Variable width histogram（可变宽度直方图）

根据数据分布动态调整直方图的桶宽度，适合处理数据分布不均匀的情况。

例子：分析用户收入分布，动态调整桶宽度以更好地展示数据。

• Subtleties of bucketing range fields（范围字段分桶的微妙之处）

在对范围字段进行分桶时需要注意的细节，例如如何处理边界值、如何选择合适的桶宽度等。

例子：在按价格区间分桶时，需要考虑是否包含边界值。

8.网络和IP聚合（Network and IP Aggregations）

• IP prefix（IP前缀）

根据IP地址的前缀进行聚合。

例子：按IP段统计访问来源。

• IP range（IP范围）

统计特定IP范围内的数据。

例子：统计来自某个IP段的流量。

---

通过这样的分类，可以更清晰地理解每种聚合功能的用途和适用场景，便于在实际数据分析中选择合适的工具。

按照聚合功能是否涉及单个桶（Single Bucket）或多个桶（Multi-Bucket）进行分类，可以将这些聚合功能分为两大类。单桶聚合主要用于对整个数据集或特定子集进行全局统计，而多桶聚合则用于将数据划分到多个桶中进行分组统计。

1.单桶聚合（Single Bucket Aggregations）
单桶聚合通常用于对整个数据集或特定子集进行全局统计，不涉及将数据划分到多个桶中。

1.1 Global（全局聚合）

• 作用：对整个数据集进行全局统计，不考虑数据的分组或分桶。

• 例子：计算总销售额。

• 响应：返回整个数据集的总销售额。

1.2 Missing（缺失值聚合）

• 作用：统计缺失字段的数据。

• 例子：统计用户未填写地址的数量。

• 响应：返回缺失地址的用户数量。

1.3 Filter（过滤器聚合）

• 作用：根据条件过滤数据后进行统计。

• 例子：过滤出价格大于100元的商品数量。

• 响应：返回符合条件的商品数量。

1.4 Sampler（采样器聚合）

• 作用：从数据集中抽取样本进行聚合。

• 例子：从大量日志数据中抽取10%的样本进行分析。

• 响应：返回抽取样本的聚合结果。

1.5 Reverse Nested（反向嵌套聚合）

• 作用：在嵌套文档结构中，从子文档聚合到父文档。

• 例子：统计每个商品所属订单的数量。

• 响应：返回每个商品所属订单的总数。

2.多桶聚合（Multi-Bucket Aggregations）
多桶聚合用于将数据划分到多个桶中进行分组统计，每个桶代表一个特定的分组条件。

2.1 Terms（字段聚合）

• 作用：根据字段值对数据进行分组并统计。

• 例子：按产品类别统计销售数量。

• 响应：返回每个产品类别的销售数量，例如“电子产品：100件，服装：200件”。

2.2 Histogram（直方图）

• 作用：将数值数据分桶并统计每个桶内的数据数量。

• 例子：按年龄区间统计用户数量。

• 响应：显示每个年龄区间的用户数量。

2.3 Date Histogram（日期直方图）

• 作用：按固定时间间隔对日期数据进行分桶并统计。

• 例子：按月统计用户注册数量。

• 响应：显示每月注册用户数的变化趋势。

2.4 Range（范围聚合）

• 作用：根据数值范围对数据进行分桶并统计。

• 例子：按价格区间统计商品数量。

• 响应：显示每个价格区间的商品数量。

2.5 Date Range（日期范围聚合）

• 作用：统计特定日期范围内的数据。

• 例子：统计2024年1月1日至2024年12月31日内的订单数量。

• 响应：返回该日期范围内的订单总数。

2.6 Geo-Distance（地理距离聚合）

• 作用：根据地理坐标计算距离并分桶。

• 例子：计算用户与最近的门店之间的距离。

• 响应：返回距离最近的门店及其距离。

2.7 Geohash Grid（Geohash网格聚合）

• 作用：使用Geohash算法将地理区域划分为网格，并统计网格内的数据。

• 例子：统计不同地区的用户分布。

• 响应：显示每个网格内的用户数量。

2.8 Geohex Grid（Geohex网格聚合）

• 作用：使用Geohex算法划分地理区域并统计数据。

• 例子：分析城市中不同区域的交通流量。

• 响应：显示每个区域的流量分布。

2.9 Geotile Grid（地理瓦片网格聚合）

• 作用：使用地理瓦片技术划分区域并统计数据。

• 例子：分析全球范围内的气象数据分布。

• 响应：显示每个瓦片区域的气象数据。

2.10 IP Range（IP范围聚合）

• 作用：统计特定IP范围内的数据。

• 例子：统计来自某个IP段的流量。

• 响应：返回该IP范围内的流量数据。

2.11 Multi Terms（多字段聚合）

• 作用：根据多个字段进行分组并统计。

• 例子：按国家和城市统计用户数量。

• 响应：显示每个国家和城市的用户数量。

2.12 Composite（复合聚合）

• 作用：结合多个聚合条件，生成更复杂的聚合结果。

• 例子：按地区和产品类别统计销售额。

• 响应：显示每个地区不同产品的销售额。

2.13 Significant Terms（显著项聚合）

• 作用：找出数据中显著的项，通常用于文本分析。

• 例子：分析用户评论，找出显著的负面或正面词汇。

• 响应：返回显著的关键词及其重要性评分。

2.14 Significant Text（显著文本聚合）

• 作用：找出文本数据中显著的文本片段。

• 例子：分析产品评论，找出显著的负面或正面评论片段。

• 响应：返回显著的文本片段及其重要性评分。

2.15 Variable Width Histogram（可变宽度直方图）

• 作用：根据数据分布动态调整直方图的桶宽度。

• 例子：分析用户收入分布，动态调整桶宽度以更好地展示数据。

• 响应：显示更合理的收入分布直方图。

2.16 Time Series（时间序列聚合）

• 作用：按时间顺序对数据进行聚合和分析。

• 例子：分析股票价格的时间序列变化。

• 响应：返回股票价格随时间的变化趋势。

2.17 Auto-Interval Date Histogram（自动间隔日期直方图）

• 作用：根据数据的时间分布自动划分时间间隔，并生成直方图。

• 例子：分析网站访问日志，自动按小时或天生成访问量直方图。

• 响应：显示每天的访问量峰值和低谷。

2.18 Frequent Item Sets（频繁项集聚合）

• 作用：找出数据中频繁出现的项集。

• 例子：在购物篮中找出频繁购买的商品组合。

• 响应：发现“牛奶+面包”是常见的购买组合。

2.19 Rare Terms（稀有项聚合）

• 作用：找出数据中出现频率较低的项。

• 例子：找出罕见的用户行为。

• 响应：返回出现次数较少的行为类型。

2.20 Diversified Sampler（多样化采样器）

• 作用：从数据集中随机抽取多样化样本。

• 例子：从大量商品中随机抽取不同类别的样本。

• 响应：返回包含不同类别商品的样本集合。

2.21 Random Sampler（随机采样器）

• 作用：从数据集中随机抽取样本。

• 例子：从大量用户中随机抽取100个用户。

• 响应：返回随机抽取的用户样本。

2.22 Nested（嵌套聚合）

• 作用：在嵌套文档结构中进行聚合操作。

• 例子：在多级评论结构中统计评论数量。

• 响应：返回每个顶级评论下的子评论数量。

2.23 Children（子聚合）

• 作用：在嵌套文档结构中，对子文档进行聚合操作。

• 例子：在电商数据中，对订单中的商品明细进行聚合。

• 响应：统计某个订单中不同商品的数量。

2.24 Parent（父聚合）

• 作用：在嵌套文档结构中，对父文档进行聚合操作。

• 例子：统计每个订单的总金额。

• 响应：返回每个订单的金额总和。

2.25 Categorize Text（文本分类聚合）

• 作用：将文本数据归类到预定义的类别中。

• 例子：将新闻文章分类为体育、财经、娱乐等。

• 响应：文本“NBA总决赛”被分类到“体育”类别。

---

总结

• 单桶聚合：主要用于全局统计，不涉及分组，适合对整个数据集或特定子集进行简单统计。

• 多桶聚合：用于将数据划分到多个桶中进行分组统计，适合对数据进行更细粒度的分析，例如按时间、数值范围或类别进行分组。

【Elasticsearch】分桶聚合功能概述

相关文章

0207作业

微信小程序~电器维修系统小程序

关于大模型 AGI 应知应会＿生在AI发展的时代

Effective Objective-C 2.0 读书笔记——类对象

#渗透测试#批量漏洞挖掘#微商城系统 goods SQL注入漏洞

【服务器知识】如何在linux系统上搭建一个nfs

深入了解越权漏洞：概念、危害与防范

flutter安卓打包签名