数据的评估与清洗篇---评估数据
数据清洗
原料在手,我们就可以开始分析了吗?No,no,no.就像买完菜以后,下一步不是做菜,而是先翻看一下菜上有没有泥,有没有土或者小虫子,再做相应的清洗处理。数据分析也是一样,杂乱且质量不佳的数据并非我们进行分析所需的理想数据,直接动手分析只会得到不干净的分析结果。那我们要如何评估数据呢?
评估数据
评估数据的时候,主要看两个方面:结构和内容。
结构
如果原始数据在结构方面存在问题,我们将处理前结构存在问题的数据称为乱数据,与之对应的是整洁数据。整洁数据根据埃德加·科德(Edgar F. Codd)提出的第三范式,埃德加·科德是关系数据库理论的奠基人,他提出的关系数据库模型为现代数据库系统奠定了基础。第三范式下的整洁数据包括了以下三个特点:
1.每列是一个变量(如身高
列不应混合cm
和m
单位)
2.每行是一个观察值(如学生考试成绩不应跨行存储)
3.每个单元格是一个值(如姓名
列不应包含张三;李四
)
任何不符合以上三个特点的数据都是乱数据。
内容
如果原始数据在内容方面存在问题,我们将处理前内容存在问题的数据称为脏数据,与之对应的是干净数据。脏数据可能存在的问题包括:
1.丢失数据(有些值为空缺),空缺值的影响大小取决于具体情况,有些时候可以允许某些列的数据不全,但我们仍然要进行评估,否则可能会导致错误的分析。比如:如果我们没有考虑到有同学缺考,存在成绩缺失,直接用总分数除以总人头数求平均就会导致计算结果被缺失值拉低
2.重复数据(数据中有些观察值重复出现),有些值的重复不是问题,比如说班级里学生的性别很难不重复;但若有两个人学号,姓名,性别,身高完全一致,这就是有问题。而且学号作为班级里学生的唯一标识符,就这个变量存在重复已经是不正确的了。
3.不一致数据(不同数据值