数据处理
数据处理通常是“积累和处理数据元素以产生有意义的信息”。数据处理处理“信息处理”的子集,即观察者可以检测到的任何方式的信息更改(处理)。数据处理不同于文字处理,因为后者仅处理文本而不是数据。但是,数据挖掘本身就是一个过程,该过程又分为几个阶段。
CRISP模型
我们将以数据挖掘的CRISP模型(称为跨行业标准流程)作为参考。 该模型提供了数据挖掘项目的生命周期,项目的各个阶段,每个阶段各自的任务以及它们之间的不同关系的描述。 数据挖掘项目生命周期包括六个阶段:业务理解,数据理解,数据准备,建模,评估和部署。
数据挖掘的生命周期
仅仅依靠这样简短的描述,我们不可能确定所有关系。但是,必须指出,不同阶段之间的相互作用对于确保总体愿景至关重要。也就是说,各阶段之间存在依赖性并且会产生相互作用。在这个过程中,完成每个阶段的任务后,必须要检查它们对其余部分的影响,以保持过程的一致性。 数据挖掘过程的任何阶段或任务之间都可以存在关系,根据过程的目标,其上下阶段甚至可能会随着用户对数据的兴趣而变化。 与上面讨论的类似,一旦部署解决方案,数据挖掘就不会结束。在此过程中发现的隐藏信息以及解决方案本身可能会引发新的问题,从而导致重新启动改进过程中的所有阶段,以便使后续的挖掘过程将从先前的经验中受益。 以下是每个阶段的小细节:
业务了解
这是过程的开始阶段。它着重于从业务角度出发理解目标和项目要求。 在这之后,有必要获得对数据的了解(我们总是从业务角度重复进行此操作),并将其转变为数据挖掘问题的定义,并根据计划的目标制定初步计划。
了解数据
数据理解阶段从初始数据收集开始,继续进行一些活动,并熟悉这些活动,从而确定数据质量问题。 数据质量具有多个维度:准确性(反映正在发生的事情),完整性(完整的数据在系统中),可用性(在需要时可访问),相关性,详细程度和一致性(所有领域或系统中的相同数据) ,因此有必要检查这些维度中每个维度的数据。 通过这种方式,我们可以开始发现数据中隐含的信息,检测那些有趣的信息集或信息子集,从而形成假设,进而能够不断发现隐藏信息。
数据准备
在此阶段,我们希望数据能够涵盖所有必要的活动,因此要调整原始源数据并将其近似为最终数据集(将成为建模工具源的数据)。 数据准备或清理任务将重复执行,而不是按任何顺序进行。在这些任务中,我们需要选择表,记录和属性,以及转换和清理数据来准备建模工具。
建模
现如今存在多种数据建模技术,它们都可用于此过程的此阶段。在获取知识之后,我们要选择适当的数据建模技术(始终根据业务和项目目标)并加以应用。 在这个过程中,我们要寻求以下四种类型的关系:
- 类-将观察值分配给预定组。
- 聚类:根据预定标准构建相似观察的组。
- 关联:观察用于识别变量之间的关联。
- 顺序模式:它是关于识别行为模式和趋势。
通过这些技术,我们也可以进行:表征或汇总,辨别或对比,关联分析,分类,预测,聚类或聚类检测,异常检测,演化和偏差分析...等等。
评估
经过上一个阶段,我们在此阶段的项目中已经建立了一个模型。为了确保满足为项目提出的质量标准,有必要从数据分析的角度对其进行评估。也就是说,在进行最终部署并将其投入生产之前,重要的是进行一系列测试以及对模型创建过程中执行的每个步骤的审查,这有助于将获得的模型与业务进行比较目标。 一个关键目标是看其是否满足了所有业务期望,并确保没有任何“差距”或未填补的差距。
部署和利用
在此阶段,将对数据挖掘过程的结果进行开发和使用,这取决于我们的需求,即可以像生成报告一样简单,也可以像重复执行跨数据挖掘一样复杂。因此,在很多情况下,执行开发的是客户自己而不是数据分析师。 数据挖掘是一个反复的过程,因此模型的创建并不意味着项目的结束。通过该过程获得的知识可以再次完美地用作输入信息,以完成整个KKD过程的另一个循环。 也就是说,一旦将发现的知识呈现给用户,就可以改进评估措施,可以改进挖掘,可以再次选择或转换新数据或添加新的数据源...所有这些都可以获取不同甚至是更合适的结果。 转载自:https://www.quora.com/What-is-the-procedure-of-data-mining