历史上的今天

今天是:2024年10月24日(星期四)

正在发生

2019年10月24日 | 数据标注呈现爆发式增长,改产业是否会成下一个富士康?

发布者:会哭的蓝精灵 来源: 21ic关键字:富士康  人工智能  数据标注行业 手机看文章 扫描二维码
随时随地手机看文章

人工智能发展带动了数据标注行业的兴起,尤其在自动驾驶领域,其广泛使用的AI深度学习算法,需要大量训练样本进行不断的算法优化,这些训练样本就是被标注过的原始数据。随着大型科技公司、银行和其他机构尝试利用人工智能来改善其产品和服务,中国对数据标注的需求正在呈现爆发式的增长。


放下农耕工具投入AI建设

“我很高兴我所从事的行业正在迅速成为中国的一个繁荣产业。”95后大学生小谭对第一财经记者表示,小谭刚毕业一年,于今年年初加入了一家海外数据标注公司,该公司今年刚宣布进入中国市场。


数据标注行业已经开始为中国一些偏远城市和农村的劳动力创造新的就业机会,他们放下农耕工具,开始投入AI发展的浪潮中。



小谭告诉记者,她的一些同事是从偏远的农村地区专门来到无锡上班的。“我们会在网上公布一些招聘信息,从其他地方赶来面试的人还是很多的。”她说,“能够接触更多的信息和技术对我们的改变还是很大的。”


现在,她和同事每天都和海量的数据打交道,具体工作包括规则的理解、员工的培训和数据的质检等等。“AI成形乃至更完善都是经过我们的操作才能够变得更智能。”


据小谭所说,普通标注员每天要处理600~700条信息,给不同的图像和语音文字进行标注。同时标注员的工作最终要质检人员进行工作审核,以达到最终客户方的要求。标注员和质检员的结构比例是1:3,也就是一个质检员需要检查3个标注员的工作。


他们所在的这家名为Appen(澳鹏)的澳大利亚数据标注企业已经在上海开设了分公司,公司还在近期启动无锡的运营中心。

澳鹏(Appen)CEO Mark Brayan告诉第一财经记者:“我们看中的是中国巨大的人工智能市场和企业对数据的需求,并且将为中国创造技术型人才的就业机会。”

澳鹏的标注对象包括语音、文字、图像和视频等领域,并将标注好的数据统一卖给分布在全球的技术、汽车和电子商务等类型的大型企业。


“无锡在人员、房价等方面有成本洼地,而且地处中国东部,能覆盖江浙沪区域,早期能与上海总部形成快速的互动,加上无锡的产业结构优势也相当明显,比如制造业和传统IT等。”澳鹏全球高级副总裁、中国总经理田小鹏告诉第一财经记者。


明年年底,无锡中心将扩张至2000人的规模,当然其中相当一部分是众包人员。此外,澳鹏还规划在中国的西南、东北等地建立第二和第三分中心,加大中国的布局力度。


创造大量零工就业岗位

数据标注公司之所以在近两年来兴起,与中国人工智能发展初期所需要的大量的数据密不可分。随着百度和阿里巴巴等中国科技巨头对人工智能的落地应用需求进一步增加,标注自动驾驶汽车拍摄素材的工作也成为数据标注公司很重要的内容之一。

数据标注人员的具体工作是,在屏幕上的每个物体周围插入一个个数码方框,并在下拉菜单上对其标注——车辆、人员、障碍物、动物。如果他们选择“车辆”,则会出现有更多选项的另一个下拉菜单——小型车、摩托车、卡车和火车等。


由于科技公司所需要的数据量巨大,数据标注公司会把很大一部分标注工作分包出去,这就创造了大量的就业。以澳鹏为例,公司全职员工仅600人,但是全球范围雇用的劳动力总人数达到了100万。“我们每个月要向50000名众包员工发放工资,创造了很多的零工就业机会。”Brayan告诉第一财经记者。


既推动了AI发展,又促进了就业,数据标注被套上了新时代“富士康”的光环。比如在距离贵阳市中心50公里的百鸟河数字小镇,就有一个规模500人的“数据工场”,500名标注员中,近一半是附近一家扶贫高职的学生。据了解,他们一个月能挣到1500元,经济上足以自立,还能补贴家用,相比餐厅辛苦端盘子或者送外卖这类兼职工作,数据标注相对轻松且体面。


小到用数据爬虫抓取互联网现存数据,并进行拉框,大到根据用户定制化的硬件以及场景需求,去完成数据的采集与多维度数据标注。数据标注行业,如今正朝着专业化、细分化、场景化的方向不断演进。而在这一过程中,一批诸如百度数据众包、云测数据等企业和团队也应运而生。


未来靠人还是靠机器

海外的数据标注市场正在趋向成熟,类似澳鹏这样的企业开始收购中小微数据平台,将自己的议价能力提高到新的水平。


今年3月,澳鹏以高达3亿美元的价格收购了另一家数据标注公司Figure Eight。Brayan认为,其技术可以和Figuer Eight互补。不过也有很多业内人士对此表示出了质疑,认为此举是将该领域带向“垄断”的局面。


与此同时,中国团队已经开发出一套人工智能的数据标注系统。该软件可将标注的人工工作总量降低,为ADAS及自动驾驶系统开发提供高质量、低成本的数据支撑。


据介绍,为了加快ADAS、智能网联、自动驾驶等相关技术发展进程,清华大学苏州汽车研究院经过近两年的技术研发与数据验证,于2019年9月成功推出了国内首个基于大数据自动标注软件的服务平台,并已与上汽、一汽、陕汽重卡等企业达成合作。


基于深度学习、集成学习、传感器融合等技术,该自动标注软件可根据客户需要提供图片、视频等多种形式的数据采集和标注服务。软件还集成方便易用的手工修改和标注工具,进一步提高工作效率。


与其配套的标注管理服务平台可以在线进行任务分发、管理、验收、修改、存档等全工作流程管理,标注人员端和管理人员端可以实现数据库共享与更好的分工协作。


不过,这个行业短时间内仍将属于劳动密集型行业。“我们认为数据标注的很多工作还是要依靠人类标注员,因为机器的能力目前可能还达不到所需的精度。我们也注意到机器在数据标注方面的发展潜力,但至少在今天这并不会对我们的业务造成影响。”Brayan说。

目前,许多数据标注公司仍然主要集中在北京和上海等大城市,但技术含量较低的标注业务正在将部分新技术资金分流到较小的城镇,为当地提供农业和制造业之外的就业机会。


关键字:富士康  人工智能  数据标注行业 引用地址:数据标注呈现爆发式增长,改产业是否会成下一个富士康?

上一篇:5G时代“刷脸”提速增温,安全防线应如何加固?
下一篇:出门问问推全新TicPods 2系列AI交互真无线耳机,充电盒更小

推荐阅读

集微网消息 10月23日晚间,欧菲科技发布《关于收购富士胶片镜头相关专利及富士天津全部股权的公告》。据悉,富士胶片株式会社(以下简称“富士胶片”)是一家日本企业,富士胶片控股株式会社持有其100%的股权,富士胶片的主营业务涵盖影像事业和医疗健康及高性能材料事业等领域。而富士胶片光电(天津)有限公司(以下简称“富士天津”)是一家在中国天津...
LGD 近期公布了第三季度财报,出现严重亏损,CEO 对员工表示公司生存正在面临威胁。 全球 LCD 面板市场长期供过于求,主因为中国制造商大举扩充产能。 南韩面板大厂 LG Display 也招架不住,第三季出现罕见亏损,反映业者在现今市场所面临的种种艰难处境。 日经新闻、Pulse News 报导,根据 LG Display 周三(23 日)公布的数据,今年第三季(7-9...
10月23日,国务院新闻办举行新闻发布会。工业和信息化部副部长王志军介绍“十三五”工业通信业发展成就。工信微报消息显示,王志军表示,“十三五”确定的主要目标任务即将如期完成,综合实力再上新台阶。据介绍,2016-2019年,战略性新兴产业加快发展,高技术制造业、装备制造业增加值占规上工业增加值的比重分别达到14.4%和32.5%。此外,王志军指出,“...
某家台积电供应链高层私底下大吐苦水,台积电每半年都会砍供应链厂商价格,「不要看我们是台积电供应链,好像光鲜亮丽,其实很辛苦的!」继5纳米后,全球晶圆代工龙头台积电3纳米制程也预计2022年7月正式投产。 无论5纳米、3纳米甚至有望2024年启动量产的2纳米制程,台积电都刻意扶植本地供应链厂商,加快供应链本土化。 由于要通过台积电制程验证门槛...

史海拾趣

问答坊 | AI 解惑

变频器技术发展方向预测

变频器技术发展方向预测 变频器是运动控制系统中的功率变换器。当今的运动控制系统包含多种学科的技术领域,总的发展趋势:驱动的交流化,功率变换器的高频化,控制的数字化、智能化和网络化。因此,变频器作为系统的重要功率变换部件,提供可控的 ...…

查看全部问答∨

关于PESQ和PEAQ

请教一下这个PESQ和PEAQ到底有什么具体的区别???…

查看全部问答∨

自适应滤波的verilog程序

自适应滤波的verilog程序求助,最近在做自适应滤波lms算法的verilog编程,我在数字信号处理的FPGA实现(第二版)中看到有相关的程序,但为什么仿真的输出都是不定值呢,权系数f0,f1就是不定值,mult是用quartus产生的ip核产生的,谁能帮我看一下啦 ...…

查看全部问答∨

请教MAX7219驱动8个LED显示全亮的问题!

关于max7219的显示 我是电子爱好者,近日有个MAX7219的片子,用89C2051 想编个程序显示看看,结果不可以,我感觉没有问题,但我要显示的8个led一上电就全亮,再就没有熄灭过,怎么回事呢,软件问题还是硬件问题,百思不得其解,请问哪位大虾给各指 ...…

查看全部问答∨

新手求助 希望各位能帮帮忙

我是学软件工程的 大三就要分方向 有嵌入式和数据库两个方向 听说嵌入式很好 只是很难入门 学校不好的话硬件设施根本无法满足学生的需要 至于数据库 容易一点 但发展空间没有前者好 我感到很迷茫 到底学哪个呢 目前的就业形势哪个更好 希望各位学哥 ...…

查看全部问答∨

诡异的12864 proteus仿真

废话先不多说,先上全部程序: 打点函数,用proteus仿真结果让我郁闷,都不知道错在哪。 #include<AT89X52.h> #define DataPort P2                  //数据端口 sbit E   ...…

查看全部问答∨

Oops SIGSEGV错误,请教一下如何分析定位

Oops SIGSEGV: 0000 [#1] Modules linked in: embxmailbox(P) stgfb_core(P) led st7105_ks nandbm embxloopback(P) embxshell(P) mme_host(P) embxshm(P) stapi_ioctl(P) stapi_core(P) Pid : 5705, Comm:        &nbs ...…

查看全部问答∨

想买个ARM开发板,请给我点建议

  我现在51单片机学的差不多了,我的专业是电子信息科学与技术,我想以后往嵌入式开发方向发展。   想先自学ARM,所以想买个板子。但是不大清楚arm7,arm9之类的。   希望有过经历的学长给我点建议,大概买什么 ...…

查看全部问答∨

什么叫封装了TCP/IP协议的无线模块

西门子的MC3i封装TCP/IP了吗,所谓封装是一个什么概念 我发现一些所谓的封装了TCP/IP协议的GPRS Modem和我用mc39i拨号上网毫无区别,都是通过AT指令的,所以对这些概念开始模糊了 哪位大侠解释下,谢谢…

查看全部问答∨

关于QueryPerformanceCounter的问题

我在wince5.0里来了一个中断就执行下面的语句:  QueryPerformanceCounter(&uCurrentTick); RETAILMSG(IR_DEBUG_MSG,(TEXT("The uCurrentTick Time is:%x\\r\\n"),uCurrentTick.QuadPart)); 为什么每次输出的值都是一样的啊?请各位好汉 ...…

查看全部问答∨
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved