当前位置: 首页 > news >正文

hive聚合函数多行合并

在数据仓库和大数据处理的场景中,Hive提供了强大的SQL查询能力,其中包括聚合函数用于处理和合并多行数据。本文将深入探讨Hive中的几种常见聚合函数及其在多行合并中的应用。

一、Hive中的常见聚合函数

Hive提供了多种聚合函数,这些函数可以将多行数据合并成单行数据。常见的聚合函数包括:

  1. COUNT:统计行数
  2. SUM:求和
  3. AVG:计算平均值
  4. MAX:求最大值
  5. MIN:求最小值
  6. COLLECT_SET:将一列的值去重后合并为集合
  7. COLLECT_LIST:将一列的值合并为列表
  8. CONCAT_WS:将一列的字符串值按指定分隔符合并为单个字符串

二、具体应用实例

1. 基本聚合函数

假设有一个表 transactions,结构如下:

CREATE TABLE transactions (user_id INT,amount DOUBLE,transaction_date STRING
);

表中的数据如下:

user_idamounttransaction_date
1100.02023-01-01
1150.02023-01-02
2200.02023-01-01
250.02023-01-03

通过以下查询语句,我们可以统计每个用户的交易总额、平均交易额、最大交易额和最小交易额:

SELECTuser_id,SUM(amount) AS total_amount,AVG(amount) AS average_amount,MAX(amount) AS max_amount,MIN(amount) AS min_amount
FROMtransactions
GROUP BYuser_id;

查询结果如下:

user_idtotal_amountaverage_amountmax_amountmin_amount
1250.0125.0150.0100.0
2250.0125.0200.050.0
2. 使用COLLECT_SET和COLLECT_LIST

如果我们希望收集每个用户所有的交易日期,并去除重复的日期,可以使用 COLLECT_SET

SELECTuser_id,COLLECT_SET(transaction_date) AS transaction_dates
FROMtransactions
GROUP BYuser_id;

查询结果如下:

user_idtransaction_dates
1["2023-01-01", "2023-01-02"]
2["2023-01-01", "2023-01-03"]

如果需要保留所有交易日期的顺序(包括重复),可以使用 COLLECT_LIST

SELECTuser_id,COLLECT_LIST(transaction_date) AS transaction_dates
FROMtransactions
GROUP BYuser_id;

查询结果如下:

user_idtransaction_dates
1["2023-01-01", "2023-01-02"]
2["2023-01-01", "2023-01-03"]
3. 使用CONCAT_WS进行字符串合并

如果希望将每个用户的交易日期合并为一个字符串,可以使用 CONCAT_WS函数:

SELECTuser_id,CONCAT_WS(',', COLLECT_LIST(transaction_date)) AS transaction_dates
FROMtransactions
GROUP BYuser_id;
​

查询结果如下:

user_idtransaction_dates
12023-01-01,2023-01-02
22023-01-01,2023-01-03
http://www.lqws.cn/news/95635.html

相关文章:

  • 不动产登记区块链系统(Vue3 + Go + Gin + Hyperledger Fabric)
  • 《前端面试题:CSS对浏览器兼容性》
  • 酷狗概念版4.1.6深度体验:探索音乐新境界的便捷之选
  • 【C++11】折叠引用和完美转发
  • 防火墙在OSI模型中的层级工作(2025)
  • 【Node.js 深度解析】npm install 遭遇:npm ERR! code CERT_HAS_EXPIRED 错误的终极解决方案
  • PCI DSS培训记录
  • graphviz, dot, Error: lost rA sA edge; 独立的模块
  • Spring Boot + MyBatis-Plus 读写分离与多 Slave 负载均衡示例
  • 从0开始学习R语言--Day16--倾向得分匹配
  • 鸿蒙UI开发——组件的自适应拉伸
  • 后端解决跨域问题的三种方案:注解配置 vs 全局配置 vs 过滤器配置(附完整代码详解)
  • Hadoop HDFS 体系结构与文件读写流程剖析
  • 解决 idea提示`SQL dialect is not configured` 问题
  • 学习threejs,交互式神经网络可视化
  • RAG入门 - Reader(2)
  • Web3如何重塑数据隐私的未来
  • JsonCpp 库如何集成到Visual studio
  • 【Visual Studio 2022】卸载安装,ASP.NET
  • 动态规划十大经典题型状态转移、模版等整理(包括leetcode、洛谷题号)
  • 基于LLaMA-Factory和Easy Dataset的Qwen3微调实战:从数据准备到LoRA微调推理评估的全流程指南
  • 每日算法刷题Day21 6.3:leetcode二分答案2道题,用时1h20min(有点慢)
  • 关于Qt项目配置,项目编译生成的库文件路径详解
  • Git 常用命令 - 服务器用
  • LangChain系列之LangChain4j集成Spring Bot
  • es 的字段类型(text和keyword)
  • https(SSL)证书危机和可行的解决方案
  • 软考 系统架构设计师系列知识点之杂项集萃(79)
  • (10)Fiddler抓包-Fiddler如何设置捕获Firefox浏览器的Https会话
  • 进阶配置与优化:配置 HTTPS 以确保数据安全传输