当前位置: 首页 > news >正文

数据的评估与清洗篇---评估数据

数据清洗

        原料在手,我们就可以开始分析了吗?No,no,no.就像买完菜以后,下一步不是做菜,而是先翻看一下菜上有没有泥,有没有土或者小虫子,再做相应的清洗处理。数据分析也是一样,杂乱且质量不佳的数据并非我们进行分析所需的理想数据,直接动手分析只会得到不干净的分析结果。那我们要如何评估数据呢?

评估数据

        评估数据的时候,主要看两个方面:结构和内容。

结构

        如果原始数据在结构方面存在问题,我们将处理前结构存在问题的数据称为乱数据,与之对应的是整洁数据。整洁数据根据埃德加·科德(Edgar F. Codd)提出的第三范式,埃德加·科德是关系数据库理论的奠基人,他提出的关系数据库模型为现代数据库系统奠定了基础。第三范式下的整洁数据包括了以下三个特点:

1.每列是一个变量(如身高列不应混合cmm单位)

2.每行是一个观察值(如学生考试成绩不应跨行存储)

3.每个单元格是一个值(如姓名列不应包含张三;李四

任何不符合以上三个特点的数据都是乱数据。

内容

        如果原始数据在内容方面存在问题,我们将处理前内容存在问题的数据称为脏数据,与之对应的是干净数据。脏数据可能存在的问题包括:

1.丢失数据(有些值为空缺),空缺值的影响大小取决于具体情况,有些时候可以允许某些列的数据不全,但我们仍然要进行评估,否则可能会导致错误的分析。比如:如果我们没有考虑到有同学缺考,存在成绩缺失,直接用总分数除以总人头数求平均就会导致计算结果被缺失值拉低

2.重复数据(数据中有些观察值重复出现),有些值的重复不是问题,比如说班级里学生的性别很难不重复;但若有两个人学号,姓名,性别,身高完全一致,这就是有问题。而且学号作为班级里学生的唯一标识符,就这个变量存在重复已经是不正确的了。

3.不一致数据(不同数据值

http://www.lqws.cn/news/99235.html

相关文章:

  • TSN 中的 CBS(Credit-Based Shaper)功能详解
  • 低谷才是出成绩
  • C#对象扩展方法:提升对象操作的灵活性与效率
  • 【Web应用】若依框架:基础篇13 源码阅读-前端代码分析
  • 物联网数据归档方案选择分析
  • 24.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--单体转微服务--认证微服务
  • 华为盘古 Ultra MoE 模型:国产 AI 的技术突破与行业影响
  • 更新已打包好的 Spring Boot JAR 文件中的 class 文件
  • Vue.js教学第十八章:Vue 与后端交互(二):Axios 拦截器与高级应用
  • 从汇编的角度揭秘C++引用,豁然开朗
  • 硬件工程师笔记——555定时器应用Multisim电路仿真实验汇总
  • CRM管理软件的数据可视化功能使用技巧:让数据驱动决策
  • SpringBoot 之 JWT
  • 8.RV1126-OPENCV 视频中添加LOGO
  • Web后端快速入门(Maven)
  • OSCP备战-BSides-Vancouver-2018-Workshop靶机详细步骤
  • Vert.x学习笔记-Verticle原理解析
  • Java数据校验:确保数据完整性和正确性
  • Modbus转Ethernet IP赋能挤出吹塑机智能监控
  • ChatGPT实战嵌入式开发应用指南与代码演示
  • 笔记本/台式C盘扩容:删除、压缩、跨分区与重分配—「小白教程」
  • 调用.net DLL让CANoe自动识别串口号
  • [Java恶补day14] 56. 合并区间
  • SQL 筛选出在表1但不在表2中的数据
  • Express 集成Sequelize+Sqlite3 默认开启WAL 进程间通信 Conf 打包成可执行 exe 文件
  • 【Redis】set 类型
  • qt控制台程序与qt窗口程序在读取数据库中文字段的差异!!巨坑
  • MySQL 如何判断某个表中是否存在某个字段
  • 基于PostGIS的GeoTools执行原生SQL查询制图实践-以贵州省行政区划及地级市驻地为例
  • React从基础入门到高级实战:React 高级主题 - React设计模式:提升代码架构的艺术