数据清理包括哪些步骤?
0 999
0
该提问暂无详细描述
收藏
2021-03-04 13:43 更新 小眼的铁板烧 •  3528
共 2 个回答
高赞 时间
0

一般意义上的数据清理

收藏
2021-03-04 15:37 更新 小眼的铁板烧 •  3528
0

汇入资料

首先,必须确保有正确的工具来清理数据。Excel和Google表格适用于电子表格上的小型数据集,但不适用于数据库或大型数据集。如果有数据库或更大的数据集,则可能需要使用基于云的软件来清理数据并建立管道。

建立资料(合并/合并)

将所有数据导入一个位置时,可以开始通过合并将这些数据集组合在一起。但是由于数据库或大数据是以有组织的,通常是以关系的方式存储的,因此需要有逻辑地组合它们。例如,需要找到一个主键来将两个表连接在一起,并确保合并多个表时列和架构也相似。

重复数据删除,提取,处理丢失的数据并重建

这是最为复杂的部分。需要处理的数据可能很混乱。也许你只是想过滤掉不相关的记录,更改列名,处理丢失的数据,并删除重复的数据等。所有这些都需要根据你自己的领域知识,有时需要一些数学/统计信息来完成。如果数据太难处理,也可以考虑找专家请执行。因为与非专业人员相比相比,他们花费的时间可能少得多。

验证和质量检查

接下来,你需要确保数据适合应用程序。无论是构建应用程序,图表,仪表板,表格还是存档,都要确保数据适合不同的生产需求。最好的方法之一是自己建立一个快速图表,然后查看数据是否有意义。

发布/传输/演示…

一旦可以处理好数据,就可以开始传输或发布数据。 如果经过所有这些步骤,数据仍然很模糊,则可以使用数据清理软件轻松进行导入,合并,查找,替换,删除重复数据和过滤数据。

转载自:https://www.quora.com/What-steps-should-be-included-in-a-data-cleansing-process

收藏
2021-03-04 15:38 更新 空心人 •  3378