商业洞察力所必须的数据探索和数据准备

什么是数据探索?

数据探索或者探索数据分析(EDA)提供了一系列探索工具把我们对实时数据的基本理解变成数据分析。数据探索最终的结果是可以极大地提高我们对数据结构,数据的分布以及相互之间的关系的理解。数据探索也可以让数据科学家拥有之前难以获得的对商业的更好的洞悉。

数据探索是数据分析的第一步,理解商业数据是我们做出一个很好的决策的必要步骤,这其中就包括总结数据集的主要功能,比如它的大小,规律,特性,准确性等等。

这整个流程都是由数据分析的一个团队使用相应的分析工具以及一些高级的软件(比如R)来进行的。数据探索可以集合一些手工的方法加上一些自动化的工具比如数据可视化,图表以及初步的报告等。

什么是数据准备?

数据准备应用于相应的商业数据分析。数据准备的过程包括收集,清理以及合并对应的数据到一个文件,这样就可以为后期的数据分析所使用。

为什么数据的准备是必须的?

  1. 过滤掉结构凌乱的,不一致的以及无序的数据
  2. 把多个实时的数据源连接起来。
  3. 快速地报告数据
  4. 处理一些从特定文件收集来的数据(比如PDF 文档)

数据准备的流程

这里,我们介绍一些数据准备的标准流程,基本各大商业公司都是这样做的:

收集数据

这是所有商业的最开始的步骤,这一步中,从不同的数据源收集数据是非常必要的 — 我们可以从任何的数据收集数据,不管是商品的目录还是专业的资料。

发现数据

下一步就是发现数据,这时候理解数据并把它们按类分成不同的数据集是非常重要的。因为第一步我们可能收集了很多数据,这一步的过滤可能会占用很长的时间。

清洗和验证数据

这一步是非常重要的,我们可以把错误的或者我们认为没有用的数据过滤掉。这里有以下这些重要的步骤:

  1. 移除不必要和异常的数据
  2. 使用相应的模式来提炼数据
  3. 使用锁来保护敏感数据
  4. 填充数据流中的空挡

清洗数据之后,我们需要测试团队去帮忙再次检查所有的精炼数据。

转换数据

转换数据根据定义好的数据来维护相应的格式以及数据入口,也便于更多的人理解数据。

存储数据

这是上述所有步骤的最后一步。当数据清理之后,我们就可以使用第三方工具了,比如商业智能工具进行分析。

数据准备的好处

数据准备其实有这些好处:

  1. 在处理之前快速地解决错误。
  2. 通过清洗产生数据并且重新组织了数据集
  3. 高质量的数据有助于你高效迅速地分析数据。

数据探索的方法

数据探索有两种格式:自动和手动。绝大多数分析人员倾向于使用自动分析方法,比如数据可视化工具,主要是因为他们的准确率很高而且速度很快。手动分析一般就是通过Excel的表格或者写一些script来过滤和探索数据。

数据探索是数据挖掘的必不可少的步骤,现在有很多分析数据的技术,比如:

  1. 单变量分析: 这是数据分析中最简单的格式,单变量就是说数据中只有一个变量。
  2. 双变量分析:这是定量分析的最简单的格式,它使用两个变量(比如x,y)来分析他们之间的关系。
  3. 多变量分析:多变量分析是指使用多余一个变量来进行分析(比如多元回归或者GLM ANOVA)
  4. 主要元件的分析:这个分析就是把一些可能相关的变量转变成小的不相关的变量。

数据探索之后的步骤就是数据发现,这时候一些商业的智能功能就可以来探查趋势,序列,事件并用可视化的方法把他们展现给商业经理。

数据探索的工具

现在有很多商业的智能化工具和数据可视化软件,一些比较常用的数据分析工具包括微软的Power BI, Qlik以及Tableau。

数据探索和准备的步骤

输出的质量总是取决于输入的质量,因此提供数据输入的质量也是对最终输出的一种保证。

为了创建可预测的model,下面就是理解,清理和准备数据的步骤:

  1. 变量识别
  2. 单变量的分析
  3. 双变量的分析
  4. 缺失数据的处理
  5. 越界数据的处理
  6. 变量的转换
  7. 变量的创建

下面我们就对每一步来分别讨论:

变量的识别

在这一步,你需要首先识别输入和输出的变量。然后识别数据的类型已经对这些数据进行分类。下面我们来看一个具体的例子。

假如一个学校想预测学生的比例(通过或者不通过)。这时候,你需要首先收集预测的变量,目标变量,数据的类型已经数据的分类。

下面就是定义的不同种类的变量:

Understanding attributes of data
Attributes of data

单变量分析

在单变量分析中,变量是一个一个地进行探索的。这个方法取决于变量的类型是绝对的还是连续的。

  1. 绝对变量:也称之为离散变量,有两个或更多的离散值。可以使用连个尺度来进行测试,每个绝对值的数量和百分数,可以用柱状图来显示。
  2. 连续变量:连续变量是一个定量的参数比如高度,宽度或者时间之类的。连续变量可以是任何值,并且可以分成很小的递增片段。

双变量分析

双变量分析就是分析两个变量,通常用来找出两个变量之间是否有什么联系,通常包含变量X和变量Y。

举一个双变量分析的例子:

  1. 离散点
  2. 回归分析
  3. 相关系数
bivariate scatter example

缺失数据的处理

立即缺失数据是非常有必要的,因为假如我们没有很好地处理他,那么最终的结果正确率可能会受到很大的影响。这样我们的预测和分类就会都不准确。

Finding missing values in dataset

越界处理

所谓的越界数据就是一些数据和其它数据相距特别远,这些数据应当从数据集中去除掉。这个可以通过直接看数据的表格或者工作簿识别出来。

Cleaning outliers

变量的转换

数据并不总是适合分析的格式,因此我们需要在分析数据之前进行数据的转换。所谓的转换就是通过一个函数或者一个数学的操作来处理每个数据。

总结

终上所述,使用正确的工具,一个组织可以很简单地有效地探测和展示数据。就和任何别的事情一样,有计划的聚焦必然可以产生最好的结果。

在你开始数据分析之前,你可以使用这些详细的信息来进行数据的发现和数据准备。

进一步的阅读

原文地址:https://dzone.com/articles/data-exploration-and-data-preparation-for-business

You may also like...

Leave a Reply

Your email address will not be published.