AI中数据标注(Labeling)的介绍

整个世界正充斥着各种各样的数据,仅仅在2018年,就产生了超过30ZB的数据。

任何一个AI项目中,对专业人员来说,数据的好坏都是一个非常关键的部分。

有时候,我们项目所需要的数据根本就不存在,另外一些时候,这些数据是存在的,但是我们无法获取 — 比如被竞争对手所垄断。当然,还有时候,我们可以获取到数据,但是这些数据却不能直接拿来被我们使用,本文就讨论在这种情况下我们该如何处理。

什么是数据标注?

现如今,大量的数据并不少见,但若你想拿他们来训练Machine Learning和Deep Learning的model,就需要对这些数据进行处理,让他们可以被用来部署,训练和调试对应的Model。Machine Learning和Deep Learning的Model需要大量的被仔细标注过的数据进行训练。而这个对原始数据进行处理和准备的过程我们就称之为数据的标注(Labeling)或者数据注解(Annotation)。AI分析公司Cognilytica的数据显示,对数据相关的处理消耗了整个AI项目的超过80%的时间(如图红色数字所示):

如何进行数据的标注?

一个公司或组织所拥有的数据大部分都是没有被标注的,而标注数据是AI工作或者项目的基础。

标注数据:为特定model进行数据的标注和注解,以便这些数据可以被用来预测。通俗地讲,数据标注包括数据的标志,注释,调节(moderation),分类,抄写和加工。

被标注的数据可以突出相关的特性并且可以根据不同的特征进行分类–可以用来被model分析模式并预测新的目标。比如自动驾驶中使用的计算机视觉,专业人员可以用专门的视频标注工具来显示街道路标,行人的位置以及其他的车辆,并用这些信息来训练相应的Model。

数据标注包括以下的部分:

  1. 使用工具加强数据
  2. 品质保证
  3. 处理迭代
  4. 管理数据标签
  5. 训练新的数据标签
  6. 项目的计划
  7. 成功的衡量
  8. 流程的操作化

数据标注的挑战

在一个典型的AI项目中,专业人员可能会遇到下面这些挑战:

  1. 低质量的数据标注:低质量的数据标注可能是由五花八门的原因导致的。而其中最显著的原因之一就是任何组织和流程背后都存在的三大要素:人,流程以及技术。
  2. 不能够大规模地进行数据的标注:当数据量很大或者商业、项目的体量变大之后,规模化的数据标注就显得尤为重要。因为很多组织都是内部人员进行数据标注的,他们也经常会遇到数据标注规模化的问题。
  3. 难以忍受的成本或者得不到想要的结果:通常一些公司或者AI的项目经理要么会雇佣高薪的数据科学家和专业人员来处理数据标注,要么会雇佣一批业余人员来做这件事。然后这两者都会产生意想不到的问题。前者因为他们的薪水很高,所以带来的成本就会很大。后者则会因为业余人员的标注不能很好的满足数据训练的要求。如何在这两者之间找到一个平衡将会特别重要。

谁可以标注数据?

训练一个machining learning的model需要大量的标注的数据。更为重要的是这些数据通常都是由人工进行标注的。有调查显示:2019年,公司在数据标注上的花费查过17亿美元。而预计到2024年这个数据可能会到41亿美元。这样的预测昭示着数据标注将会是一个很有前途的职业。Cognilytica认为数据标注并不需要对相应的领域特别精通。当然,也有很多AI专家说有相关领域的工作经验是非常重要的。这也就意味着即使业余的同学经过相应的培训也是可以胜任这一工作的。

切记:训练一个machining learning的model需要大量的标注的数据。而这些数据通常都是由人工进行标注的。

当前的趋势:各个公司都是如何进行数据标注的?

大的公司经常使用内部人员来进行数据标注。而没有足够资源的工作则会把这一工作外包出去。

MBH(莫比嗨客)就是一个中国很大的数据标注外包公司。

亚马逊有一个服务称之为土耳其机器人(Mechanical Turk)它可以帮助中小型工资联系人工标注,按劳付费。

公司使用软件,人工以及相关的流程来清洗和组织数据。总的来说他们有四种方式来开发:

  1. 雇佣:包括雇佣全职或者兼职的人员(包括专业人员)来处理AI项目的方方面面,当然也包括数据标注。
  2. 管理的团队:他们是有经验的并且培训过的专门从事数据标注工作的人员。
  3. 合同工:包括自有职业者和临时工。
  4. 众包:最后,公司也可能选择一个大的第三方平台来满足大的人员的需求。

因此,最后你觉得哪一种方式是你喜欢的呢?使用内部人员还是外包给一个专业的代理?

原文链接:

https://dzone.com/articles/an-introduction-to-data-labeling-in-artificial-int

You may also like...

Leave a Reply

Your email address will not be published.