当前位置: 首页 > news >正文

spark 执行 hive sql数据丢失

spark-sql 丢失数据

1.通过spark执行hive sql 的时候,发现 hive 四条数据,spark 执行结果只有两条数据
目标对应的两条数据丢失

select date, user_id, pay from dim.isr_pay_failed where user_id = ‘*******’

hive-sql 结果:
| date | user_id | pay |
| 20250425| d34342343* | 7 |
| 20250425| d34342344* | 7 |
| 202504525| d34342345* | 7 |
| 202504524| d34342346* | 7 |

spark-sql 结果
| 202504525| d34342345* | 7 |
| 202504524| d34342346* | 7 |

原因

表结构很总 user_id 为 CHAR 类型:
CHAR 类型数据在spark 和 hive 中存在如下差异:
Hive 类型 Spark SQL 类型 关键差异与注意事项
CHAR 不足补空格。建议通过 TRIM() 或改用 VARCHAR 避免填充问题。
TIMESTAMP TimestampType 时区敏感:Hive 默认使用服务器时区,Spark 需通过 spark.sql.session.timeZone
统一配置。

解决方式

select date, user_id, pay from dim.isr_pay_failed where triim(user_id) = ‘*******’;
问题解决

http://www.lqws.cn/news/172729.html

相关文章:

  • IDEA运行Tomcat出现乱码问题解决汇总
  • C++_哈希表
  • 自托管图书搜索引擎Bookologia
  • 从0开始学习R语言--Day18--分类变量关联性检验
  • 【Spark征服之路-2.3-Spark运行架构】
  • 基于cornerstone3D的dicom影像浏览器 第二十九章 自定义菜单组件
  • VUE解决页面请求接口大规模并发的问题(请求队列)
  • 分布式微服务系统架构第144集:FastAPI全栈开发教育系统
  • LCTF液晶可调谐滤波器在多光谱相机捕捉无人机目标检测中的作用
  • 应用案例 | 设备分布广, 现场维护难? 宏集Cogent DataHub助力分布式锅炉远程运维, 让现场变“透明”
  • 计算机视觉顶刊《International Journal of Computer Vision》2025年5月前沿热点可视化分析
  • 使用MinIO搭建自己的分布式文件存储
  • Git分布式版本控制工具
  • 【p2p、分布式,区块链笔记 MESH】Bluetooth蓝牙通信 BLE Mesh协议的拓扑结构 定向转发机制
  • 人机融合智能 | “人智交互”跨学科新领域
  • python中的经典视觉模块:OpenCV(cv2)全面解析
  • 计算机视觉与深度学习 | 基于MATLAB的图像特征提取与匹配算法总结
  • 小白如何在cursor中使用mcp服务——以使用notion的api为例
  • 【 java 集合知识 第二篇 】
  • Lombok 的 @Data 注解失效,未生成 getter/setter 方法引发的HTTP 406 错误
  • Spark 之 DataFrame 开发
  • 准确--k8s cgroup问题排查
  • http头部注入攻击
  • CVAT标注服务
  • Caliper 配置文件解析:config.yaml 和 fisco-bcos.json 附加在caliper中执行不同的合约方法
  • Ubuntu 基于sdl 音频学习的基础代码
  • 【MATLAB去噪算法】基于ICEEMDAN联合小波阈值去噪算法
  • 【SpringBoot自动化部署】
  • LangChainGo入门指南:Go语言实现与OpenAI/Qwen模型集成实战
  • Matlab实现任意伪彩色图像可视化显示