当前位置: 首页 > news >正文

Clickhouse统计指定表中各字段的空值、空字符串或零值比例

下面是一段Clickhouse SQL代码,用于统计指定数据库中多张表的字段空值情况。代码通过动态生成查询语句实现自动化统计,处理逻辑如下:

  1. 从系统表获取指定数据库(替换your_database)中所有表的字段元数据
  2. 根据字段类型动态生成对应的空值统计逻辑
  3. 使用sum聚合函数统计空值记录数
  4. 计算空值占比百分比
  5. 结果包含数据库名、表名、字段名、字段类型、空值计数、总行数和空值占比
SELECT database,table,column,type,count_empty,total_rows,ROUND(count_empty * 100.0 / total_rows, 2) AS percentage
FROM (SELECT database,table,column,type,CASE WHEN type LIKE 'String%' THEN(SELECT sum(TRIM(IFNULL({col}, '')) = '') FROM {db}.{tbl})WHEN type IN ('UInt8','UInt16','UInt32','UInt64','Int8','Int16','Int32','Int64','Float32','Float64') THEN(SELECT sum(IFNULL({col}, 0) = 0) FROM {db}.{tbl})ELSE (SELECT sum({col} IS NULL) FROM {db}.{tbl})END AS count_empty,(SELECT count() FROM {db}.{tbl}) AS total_rowsFROM system.columns WHERE database = 'your_database' AND table IN ('table1', 'table2', 'table3')  -- 替换为需要分析的表名SETTINGS allow_experimental_analyzer = 1, format_template = 'SELECT \'{database}\', \'{table}\', \'{column}\', \'{type}\', ${{col:Identifier}}, ${{tbl:Identifier}}, ${{db:String}}'
)

使用说明:

  1. 替换数据库名:将代码中的'your_database'改为实际数据库名
  2. 指定表名:修改table IN列表中的表名(如'table1', 'table2'
  3. 执行结果:查询将输出7列统计结果

处理逻辑说明:

字段类型处理方式空值定义
StringTRIM(IFNULL(字段, '')) = ''空字符串
数值类型IFNULL(字段, 0) = 0数值0
其他类型字段 IS NULLNULL值

输出列说明:

列名说明
database数据库名称
table表名称
column字段名称
type字段类型
count_empty空值记录数(空串/0/NULL)
total_rows表总行数
percentage空值占比百分比(保留两位小数)

注意:对于数值类型字段,真实值为0的记录也会被统计在内。若需区分真实0值和空值,需要额外的业务逻辑处理。

http://www.lqws.cn/news/203059.html

相关文章:

  • 机器学习监督学习实战五:六种算法对声呐回波信号进行分类
  • Mac 安装git心路历程(心累版)
  • ARM SMMUv3简介(一)
  • # 主流大语言模型安全性测试(二):英文越狱提示词下的表现与分析
  • Spring IoC 模块设计文档
  • FreeRTOS任务调度过程vTaskStartScheduler()任务设计和划分
  • LeetCode--24.两两交换链表中的结点
  • go-zero微服务入门案例
  • vite+tailwind封装组件库
  • 如何配置 MySQL 允许远程连接
  • 《探秘局域网广播:网络世界的 “大喇叭”》
  • 64、js 中require和import有何区别?
  • Xilinx FPGA 重构Multiboot ICAPE2和ICAPE3使用
  • LeetCode 高频 SQL 50 题(基础版)之 【子查询】· 上
  • 【力扣链表篇】19.删除链表的倒数第N个节点
  • CRMEB 中 PHP 快递查询扩展实现:涵盖一号通、阿里云、腾讯云
  • A Survey on the Memory Mechanism of Large Language Model based Agents
  • LeetCode 08.06 面试题 汉诺塔 (Java)
  • uniapp 对接腾讯云IM群公告功能
  • 图上合成:用于大型语言模型持续预训练的知识合成数据生成
  • Linux中MySQL的逻辑备份与恢复
  • NamedParameterJdbcTemplate 使用方法及介绍
  • Readest(电子书阅读器) v0.9.53
  • Python爬虫-爬取各省份各年份高考分数线数据,进行数据分析
  • 使用 C/C++ 和 OpenCV 提取图像的感兴趣区域 (ROI)
  • Mysql批处理写入数据库
  • Opencv查找图形形状的重要API讲解
  • Cursor实现用excel数据填充word模版的方法
  • C#报价系统陈列展示成本核算系统项目管理系统纸品非纸品报价软件
  • linux 用户态时间性能优化工具perf/strace/gdb/varlind/gprof