Monthly Archive: June 2020

0

商业洞察力所必须的数据探索和数据准备

什么是数据探索? 数据探索或者探索数据分析(EDA)提供了一系列探索工具把我们对实时数据的基本理解变成数据分析。数据探索最终的结果是可以极大地提高我们对数据结构,数据的分布以及相互之间的关系的理解。数据探索也可以让数据科学家拥有之前难以获得的对商业的更好的洞悉。 数据探索是数据分析的第一步,理解商业数据是我们做出一个很好的决策的必要步骤,这其中就包括总结数据集的主要功能,比如它的大小,规律,特性,准确性等等。 这整个流程都是由数据分析的一个团队使用相应的分析工具以及一些高级的软件(比如R)来进行的。数据探索可以集合一些手工的方法加上一些自动化的工具比如数据可视化,图表以及初步的报告等。 什么是数据准备? 数据准备应用于相应的商业数据分析。数据准备的过程包括收集,清理以及合并对应的数据到一个文件,这样就可以为后期的数据分析所使用。 为什么数据的准备是必须的? 过滤掉结构凌乱的,不一致的以及无序的数据 把多个实时的数据源连接起来。 快速地报告数据 处理一些从特定文件收集来的数据(比如PDF 文档) 数据准备的流程 这里,我们介绍一些数据准备的标准流程,基本各大商业公司都是这样做的: 收集数据 这是所有商业的最开始的步骤,这一步中,从不同的数据源收集数据是非常必要的 — 我们可以从任何的数据收集数据,不管是商品的目录还是专业的资料。 发现数据 下一步就是发现数据,这时候理解数据并把它们按类分成不同的数据集是非常重要的。因为第一步我们可能收集了很多数据,这一步的过滤可能会占用很长的时间。 清洗和验证数据 这一步是非常重要的,我们可以把错误的或者我们认为没有用的数据过滤掉。这里有以下这些重要的步骤: 移除不必要和异常的数据 使用相应的模式来提炼数据 使用锁来保护敏感数据 填充数据流中的空挡 清洗数据之后,我们需要测试团队去帮忙再次检查所有的精炼数据。 转换数据 转换数据根据定义好的数据来维护相应的格式以及数据入口,也便于更多的人理解数据。 存储数据 这是上述所有步骤的最后一步。当数据清理之后,我们就可以使用第三方工具了,比如商业智能工具进行分析。 数据准备的好处 数据准备其实有这些好处: 在处理之前快速地解决错误。...

0

AI中数据标注(Labeling)的介绍

整个世界正充斥着各种各样的数据,仅仅在2018年,就产生了超过30ZB的数据。 任何一个AI项目中,对专业人员来说,数据的好坏都是一个非常关键的部分。 有时候,我们项目所需要的数据根本就不存在,另外一些时候,这些数据是存在的,但是我们无法获取 — 比如被竞争对手所垄断。当然,还有时候,我们可以获取到数据,但是这些数据却不能直接拿来被我们使用,本文就讨论在这种情况下我们该如何处理。 什么是数据标注? 现如今,大量的数据并不少见,但若你想拿他们来训练Machine Learning和Deep Learning的model,就需要对这些数据进行处理,让他们可以被用来部署,训练和调试对应的Model。Machine Learning和Deep Learning的Model需要大量的被仔细标注过的数据进行训练。而这个对原始数据进行处理和准备的过程我们就称之为数据的标注(Labeling)或者数据注解(Annotation)。AI分析公司Cognilytica的数据显示,对数据相关的处理消耗了整个AI项目的超过80%的时间(如图红色数字所示): 如何进行数据的标注? 一个公司或组织所拥有的数据大部分都是没有被标注的,而标注数据是AI工作或者项目的基础。 标注数据:为特定model进行数据的标注和注解,以便这些数据可以被用来预测。通俗地讲,数据标注包括数据的标志,注释,调节(moderation),分类,抄写和加工。 被标注的数据可以突出相关的特性并且可以根据不同的特征进行分类–可以用来被model分析模式并预测新的目标。比如自动驾驶中使用的计算机视觉,专业人员可以用专门的视频标注工具来显示街道路标,行人的位置以及其他的车辆,并用这些信息来训练相应的Model。 数据标注包括以下的部分: 使用工具加强数据 品质保证 处理迭代 管理数据标签 训练新的数据标签 项目的计划 成功的衡量 流程的操作化 数据标注的挑战 在一个典型的AI项目中,专业人员可能会遇到下面这些挑战: 低质量的数据标注:低质量的数据标注可能是由五花八门的原因导致的。而其中最显著的原因之一就是任何组织和流程背后都存在的三大要素:人,流程以及技术。 不能够大规模地进行数据的标注:当数据量很大或者商业、项目的体量变大之后,规模化的数据标注就显得尤为重要。因为很多组织都是内部人员进行数据标注的,他们也经常会遇到数据标注规模化的问题。 难以忍受的成本或者得不到想要的结果:通常一些公司或者AI的项目经理要么会雇佣高薪的数据科学家和专业人员来处理数据标注,要么会雇佣一批业余人员来做这件事。然后这两者都会产生意想不到的问题。前者因为他们的薪水很高,所以带来的成本就会很大。后者则会因为业余人员的标注不能很好的满足数据训练的要求。如何在这两者之间找到一个平衡将会特别重要。 谁可以标注数据? 训练一个machining learning的model需要大量的标注的数据。更为重要的是这些数据通常都是由人工进行标注的。有调查显示:2019年,公司在数据标注上的花费查过17亿美元。而预计到2024年这个数据可能会到41亿美元。这样的预测昭示着数据标注将会是一个很有前途的职业。Cognilytica认为数据标注并不需要对相应的领域特别精通。当然,也有很多AI专家说有相关领域的工作经验是非常重要的。这也就意味着即使业余的同学经过相应的培训也是可以胜任这一工作的。 切记:训练一个machining learning的model需要大量的标注的数据。而这些数据通常都是由人工进行标注的。...

0

MongoDB和Couchbase analytics(解析)的对比分析

计算的目的是背后的洞察而不是数据本身 — Richard Hamming 所谓的商业运行就是一个分析哪些需要改变,该改变成什么然后据此改变商业本身的螺旋上升的过程。作正确的分析,你就如滚雪球般不停上升,反之,则不断的螺旋下降。 Couchbase, 是一个诞生在web 2.0世界中的一个新NoSQL系统,能够满足高扩展性,高性能以及高可靠性的要求。从最简单的键值对到复杂的大规模查询,搜索以及解析,Couchbase都可以很好的处理。而这些都是通过在Couchbase的多维架构中集成特定的引擎来实现的。其中查询和解析服务都是通过N1QL来进行交互的,为什么要用同样的语言来建造两个完全不同的引擎?这是因为: “一刀切”的时代已经一去不复返了 — Michael Stonebraker 查询引擎是为了正常的操作工作来设计的,而解析引擎则是为分析操作来设计的。我们在之前的文章中曾对这两者进行过比较并给出了对应的建议。MongoDB也是通过同样的路径来处理类似的查询和解析操作的。 去年,MongoDB也官宣了它们为分析流程而实现的解析节点,本文将对两种解析引擎的使用场景进行比较和分析。 Couchbase的高层架构 Couchbase内建解析器:高层架构 MongoDB解析节点: 下面我们来比较一下MongoDB解析节点和Couchbase解析所支持的特性:   MongoDB解析节点 Couchbase解析 文档 https://docs.atlas.mongodb.com/reference/replica-set-tags/ https://docs.couchbase.com/server/6.5/analytics/introduction.html 架构 使用一个次要的备份节点拷贝所有的操作数据,查询的语言是一样的(MQL),查询的过程和真实的操作过程是一致的 解析的节点是独立的,它拥有的数据是支持用户自定义的一个真实数据的子集。查询的语言也是一样的(N1QL)。查询的过程是专为更大的数据而设计的(具体见下面) 架构细节 Atlas Mapped Analytics Nodes Couchbase Analytics:...