库管理系统内置的大数据工具,例如 Apache Hive。或者使用 SAS 或 IBM SPSS 等分析系统清理数据。
使用脚本清理-专家自己编写脚本,例如使用Python 编写。这些脚本根据指定的规则处理数据并清理数据。
手动清理——专家检查样品并消除错误。这种方法很少使用,通常用于小样本或作为辅助方法。
在清理过程中,专家或程序会使用不同的方法 - 例如,纠正一些数据,从数据库中删除一些数据。以下是在清理过程中可以对数据执行的操作的一些示例。
删除。如果数据重复或者矛盾,则会根据某种算法将其删除。例如,对于拍摄,您可以仅保留录音的第一个副本或最后一个副本。对于矛盾来说 - 只有其中一种含义。
比较。当信息因地而异时使用此方法。根据一系列标 电话号码库 准对数据进行比较 - 结果,选择与真实值相似的值来替代不正确的值。
假设同一个用户的电话号码在两个不同的地方记录不同。您可以看看这款手机是如何排在第三位的,看看哪个值是正确的。
予以纠正。要替换数据,并不总是需要将其与数据库中的其他值进行比较。例如,使用字典可以纠正单词中的拼写错误 - 它描述了如何正确拼写特定的单词。明显的“异常值”被一些平均值所取代。
假设某个地方有一个括号,而不是一个人的名字。这显然是一个错误——数据计算有误。您可以用一些平均值代替名字,例如“Tatyana Kuznetsova”。
所选方法必须有效地清除样本中的错误,无论样本是从一个来源收集还是从不同的渠道获取数据。重要的是,这种方法得到专家使用的工具的支持,并且可以适应变化 - 例如其他数据源。
另请阅读
Daniil Yugay:“最终,我的工作与我的爱好相吻合。我是一名数据分析师”
数据清理如何发生:阶段
此处列出的清洁步骤是近似的。根据样品、清洁方法和其他因素,该过程可能会有所不同。需要这个例子来给出清洁工作总体上是什么样的概念。
数据分析。在开始清洁之前,专家会分析样品以了解其污染程度和包含哪些错误。他可以手动进行部分分析,但通常会使用特殊服务来实现这一点——它们确定并显示样本中数据的属性。例如,它们显示“价格”字段中的值范围:异常值将立即可见。
思考整个过程。一旦数据科学家获得了元数据(即有关数据的数据),他们就可以决定如何准确地清理样本。在这个阶段,他确定需要进行哪些转换,使用哪些规则和方法。