这一劳动力市场,印度世界最大!80%“数据工人”来自村镇

人工智能(AI)产业的高速发展催生出一个重要职业——AI数据标注。它通过为机器学习的原始数据(如图片、视频等)打上标签,让计算机不断识别这些数据的特征,从而实现自主识别。

这是2023年2月15日在美国旧金山拍摄的waymo公司无人驾驶出租车 新华社/美联
AI数据标注职业产生之初,标注员们往往能获得相对丰厚的薪酬,且部分标注工作的门槛较低,入职难度不大。但如今,AI数据标注员正逐步向人力成本更低的城市下沉。
一直以软件外包闻名,且人力成本较低的印度,就在此背景下崛起为世界重要的外包数据标注服务商,甚至被认为是最有潜力成为世界最大的数据标注劳动力市场。很多人不知道的是,80%以上印度AI数据标注师(或称数据工人)来自农村和小城镇。
1 抢抓“数据标注”市场
在距离新德里市中心约30分钟车程的诺伊达数据注释公司Cogito Tech的办公隔间内,数百名刚从大学毕业的年轻人,正在用数字工具识别和标记他们屏幕上的图像。Cogito Tech与美国公司Labelbox合作,主要为通过训练机器执行人工智能相关任务的公司开发数据标签软件。
在印度南部喀拉拉邦小镇曼纳卡德一间不起眼的办公室里,十几位女工紧盯电脑屏幕,为自动驾驶汽车的车载摄像头摄录的车辆、交通信号灯、道路标志和行人的图像进行高亮显示和标记。这项工作最有挑战性的,是精确标记被称为LIDAR(光探测和测距)的远程传感器捕获的数据,该传感器为自动驾驶汽车创建3D地图,以获得对周围物体的感知信息。
在印度西部城市普那(Pune)的郊区卡拉迪(Kharadi),忙完一天的工作后,一些村民会习惯性地打开智能手机上的一个应用程序,对着手机用他们的母语马拉地语(马哈拉施特拉邦地方语言)朗读故事或念一段句子。作为印度人工智能初创公司Karya的数据工人,他们的声音将用于训练马拉地语的人工智能模型。
有30万注册用户的印度数据标注众包平台Playment,每天吸引着超过2万名“高技能顶级玩家”,他们看似在玩游戏,实际上是在为自动驾驶汽车、机器人以及无人机等项目手动标识数据,帮助公司加速其机器学习,并从中赚取每人每月2万~3万卢比(1卢比约合0.086元人民币)收入。
这些案例中的主角,都可以被称为“数据标注师”。
由于训练数据的数量和质量对人工智能模型的准确性和有效性至关重要,而标记训练数据集不仅是一项耗时、复杂的繁琐工作,且需要大量劳动力,因此缺乏适当资源的科技公司便开始寻求外包数据注释服务。印度过去数年来的IT外包实践,恰好使其成为这种外包数据标注的重要目的地。
印度软件与服务业企业协会(NASSCOM)高级副总裁兼首席战略官古普塔在接受专注IT趋势的《分析印度》杂志采访时表示,数据标注在印度算是一个新兴行业,每个人都意识到它带来的巨大机会——人工智能需要被正确标注、分类和匿名处理的海量数据。
“数据标注公司在印度纷纷诞生,就适应了这一日益增长的市场需求,为此许多公司正在利用全球‘零工'人才库。”印度人工智能公司HEAL Software Inc.首席销售和营销官穆克莱告诉《分析印度》杂志。“印度为数据标注市场提供了巨大的人才库,他们具有基本的计算机技能,可以随时使用智能手机,与美欧的时差甚至都可能成为一种资产。”穆克莱强调。
NASSCOM在一份关于数据标注市场潜力的报告中称,截至2021年,约有7万印度人从事数据标注工作,其市场规模估计为2.5亿美元,约60%的收入来自美国。预计到2030年,印度的数据标注市场价值可能超过70亿美元,通过全职和兼职就业模式雇用的数据标注劳动力将达100万人。印度目前是世界上最大的数据注释劳动力市场之一。
2 他们来自乡村和小城镇
据NASSCOM调查,目前印度超过80%的数据标注员来自农村和小城镇;超过90%的数据标注公司在二三线城市建立了中心。印度农村和小城镇无疑在新兴的生成式人工智能(GenAI)的发展机会中发挥着重要作用。
代表印度数据标注公司较高水平的Infolks,就是由科拉瑟里在其家乡喀拉拉邦的一个偏远小村庄库马拉普图尔创建的。科拉瑟里创业能取得成功,也得益于他的数据标注师经历。
据媒体报道,家境贫寒的科拉瑟里在十二年级(印度高中阶段)时便辍学。为养家糊口,他曾尝试打过多种零工。2014年,23岁的科拉瑟里在亚马逊公司旗下的众包平台Mechanical Turk上注册,并开始为全球各地的公司提供数据标注服务。尽管没有任何学位,也不知道什么叫数据标注,但这些并不妨碍科拉瑟里出色的发挥。两年半时间内,他完成了30多万项数据标注任务,被批准率高达99.8%。
科拉瑟里在众包平台上的高评级受到一家从事数据标注的德国公司关注,这家公司希望他成立一个团队。于是在2016年,科拉瑟里凭借2.5万卢比的初始投资和6名员工,在自己的家乡启动了Infolks。
经过几年发展,与该公司合作的企业客户已超过130家,其中包括戴姆勒(2022年更名为梅赛德斯-奔驰集团股份公司)以及不少国际大牌科技公司。Infolks大约75%的业务集中于自动驾驶汽车领域,此外还为医疗保健、机器人和农业等领域的客户提供数据标注服务。
值得一提的是,无论事业发展如何,科拉瑟里始终坚持把工作机会留在自己的家乡,“公司的愿景是将我们的村庄打造成一个全球性村庄,并为农村地区年轻人提供发展机会”。
目前,Infolks雇用的几百名员工大部分来自库马拉普图尔及其周边地区,新员工在接受为期两个月的图像标注工具培训后,便可上岗。“经过适当培训,所有人都可以在没有任何AI技术背景的情况下进行图像标注——你只需要快速学习”,科拉瑟里经常这样以亲身经历激励新入职者。
米塔创立的NextWealth公司,也是一家立志为小镇青年创造就业机会的人工智能公司。在此之前,米塔曾在印度信息技术巨头维布络有限公司(Wipro)担任首席技术官长达20年。目前NextWealth的6个中心雇有5000名员工,从事人工智能和机器学习数据服务以及后台工作,这些中心均开设于一些印度不知名的小城镇。
米塔在接受《分析印度》杂志专访时表示,生成式人工智能的美妙之处在于,它不会将来自偏远地区的人们拒之门外。他认为,小城镇的毕业生已被证明具有高度的可培训性和大规模可用性,他们关注细节,具有积极的工作态度。与大城市相比,小城镇员工的流失率更低,岗位更具稳定性。
3 “赋予尊严的工作”
在印度的数据标注师中,最富特色的当属为人工智能初创公司Karya提供数据的乡村众包员工。Karya在梵文中意为“赋予尊严的工作”。该公司不仅雇用大量农村地区妇女,还专门建立了基于智能手机的数字工作平台,旨在通过语音、文本、图像和视频创建高质量的数据集,以训练涉及12种濒临消失的印度地方语言和方言的大型语言模型。
Karya见证了大量成功案例,来自乡下的“数据标注师”的故事不仅被多家媒体报道,也激励着更多农村人加入到人工智能入门级工作中。
纳亚克来自印度东部奥里萨邦一个盛产手工艺装饰品的村落,一次偶然机会使她成为Karya公司的数据工人。在纳亚克看来,她的工作非常简单、自由且收入不菲——在任何空闲时间里,拿出手机点开一个应用程序,然后用其母语奥里亚语(奥里萨邦地方语言)说话,当语音文本被录下来后就可得到报酬。
工作的第一周,纳亚克便拿到4000卢比薪水,这比她和丈夫通过制作手工艺品换取的每月不足1000卢比的收入高出数倍。
村民昌德里卡是Karya在卡纳塔卡邦雇用的数据工人,仅仅通过大声朗读其母语卡纳达语文本,她便可赚取每小时约5美元的工资,这几乎是印度官方最低工资的20倍。一旦语音剪辑被验证为准确,她还会额外获得50%的奖金。
通过自己的声音改变自家经济状况,这令乡村数据标注师们感到很振奋,虽然他们并不理解自己工作的意义是什么。为此公司为员工想出了一个最简单的解释:“你们正在教计算机说你们的母语”。Karya运营总监萨希什库马尔告诉《分析印度》杂志,“对于语言录音,农村人实际上比城市人做得更好,他们不容易分心,工作时全神贯注。”
如今,与微软和谷歌均有合作关系的Karya公司,数据收集工作已经惠及印度24个邦的3.5万农村人口,员工通过智能手机完成了超过3500万小时的付费数据任务,每位员工每小时的报酬不少于5美元。
微软印度研究院研究员古哈告诉印度《经济时报》记者,Karya收集的数据质量远远优于其使用过的任何其他来源。这表明,“如果你公平地支付工人工资,他们就会更多地投入工作,最终结果就是获得更好的数据”。
4 AI会取代AI数据工人吗
帕德玛普里亚于2021年在Infolks开始从事数据标注工作——给道路上的图像等贴标签,以训练无人驾驶汽车的人工智能模型。帕德玛普里亚告诉《印度快报》专栏作家迈赫罗塔,这份工作让她能够养家糊口,成为家里的顶梁柱。不过这也让她总是担心,机器总有一天会学到一切,导致人类失业。
帕德玛普里亚的老板科拉瑟里似乎也有同样的预感。迈赫罗塔在她的文章中援引科拉瑟里的话说,“(既然)呼叫中心的工作已经由机器人接管,那么数据标注工作也可能会消失。几年前,我们甚至没有听说过这个行业。我不知道它什么时候会结束,但这一天总会到来。”
毕竟在AI面前,无论成本还是效率,人类几乎毫无优势。苏黎世大学研究发现,在成本上,ChatGPT平均每个标注成本低于0.003美元,仅为众包平台的1/20;在效率上,如在相关性、立场、主题等任务中,ChatGPT是人类的4倍。
来自美国卡耐基梅隆大学、耶鲁大学和加州大学伯克利分校的一组研究人员更是发现:GPT-4在数据集标注表现上优于他们雇用的最熟练的众包员工。有评论认为,AI数据标注员需要做好被AI取代的准备。目前在自动驾驶领域,已经有车企开始采用AI进行标注。
印度排名前列的数据标注公司iMerit的技术和营销副总裁纳塔拉詹则有另一番见解。他对印度前沿技术信息网站FactorDaily记者表示,基于AI的自动标注工具并不是一种威胁,因为自动标注工具本身就是人工标注训练的结果。当你试图解决某个问题时,这些自动化工具只能帮你达到有限水平,但要超越这个水平,还需要定制标注。纳塔拉詹强调,即便AI已经达到某种水平,也永远不会达到百分之百,它将始终是一个不断学习和改进的过程。
基于上述乐观分析,一些印度业内人士表示,印度的数据标注市场和标注公司还未发展到顶峰。正如NASSCOM所指出的,目前印度数据标注市场仍在加速发展,75%的参与者处于初始和成长期。这意味着印度的数据标注业还有巨大成长空间,而市场的壮大必将吸引更多从事数据标注的劳动力参与进来。
栏目主编:秦红 文字编辑:宋彦霖
大家都在看
-
能源危机只是开始,不到24小时,全球最大资管遭挤兑,特朗普玩砸了 能源是全球经济的命脉,毕竟石油是工业的血液,谁也离不了石油。但是对于当下的美国来说,金融才是其一切的核心。而就在所有人都在盯着中东冲突是否外溢,油价的顶峰到底是多少的时候,没想到,当下美国面临的最大危 ... 世界最大03-13
-
情绪如同洪水猛兽,一发不可收拾 思想和维度,在不同的年龄,出现不同的分判,有人用降维态度去沟通孩子,有人用重复效应来面对对面的人,还有人用错误视角开窥探别人。人,一半是情绪开关,一半是亲情锁甲,拿得出的台词,是父母给的第一套模板,拿 ... 世界最大03-12
-
连线两会 从“饰品”到“芯片基石”,金刚石正探索新的行业空间。文|《中国企业家》记者 马吉英见习记者 施思羽编辑|米娜头图摄影|马吉英“我们无意间做出了一个新产业。”在回忆公司如何涉足培育钻石领域,并成为行业头部 ... 世界最大03-12
-
留不住的东西太多了,尽力就好 拿什么留人,用说话打骰子的方式吗?拿什么拒人千里,用贫穷和众生相吗?妖魔鬼怪拜年的季节,不是别人跑得快,是自己没有技能抵抗啊。关门吧,做一个惜字如面的人,爱惜自己的羽毛,珍惜自己的年龄,不要用卑微去遇 ... 世界最大03-11
-
今年真的破防了 今年真破防,别人说的,等的,追的,是因为他们没有 ,我是真有,我一不图人,二不图钱,用自卑打掉遇见,用记忆不全打掉贪婪,未来的自己,你来上号吧,怕你回忆,我不敢记录生活,怕你流泪,我都不敢多走太多路。 ... 世界最大03-11
-
探访山东青岛世界建设规模最大海底道路隧道 丁翔 摄 3月8日,青岛胶州湾第二隧道项目施工正酣。该项目是世界建设规模最大、长度最长、综合实施难度最高的海底道路隧道,采用明挖、盾构和钻爆法组合工法施工。该项目主线南线盾构段由中铁十四局集团负责施工,采 ... 世界最大03-10
-
比秦始皇陵大3倍!世界最大帝陵藏在陕西一座山里,建了整整107年 大山里的秘密:世界最大帝陵千古一帝的山陵之选千年沧桑与未解之谜 世界最大03-10
-
拥有全球最大海运船队和全球最大港口群,我国已成世界最大海运国 2026年全国两会的“代表通道”与“委员通道”接连传来重磅消息,央广网等媒体报道称:全国人大代表、远洋船长倪迪和全国政协委员、海事教授李颖分别证实,中国已手握全球规模最大的海运船队、全球最大的世界级港口群 ... 世界最大03-10
-
同类型全球最大!我国首艘大型压裂船“海洋石油696”正式交付 我国首艘自主设计建造的集成式大型压裂工程船——“海洋石油696”今天(3月10日)在浙江舟山正式交付,填补了我国海上油气压裂增产技术与工程装备的空白,对提升我国海洋油气开发能力、保障国家能源安全具有重要意义 ... 世界最大03-10
-
欧美执法机构联手捣毁黑客论坛LeakBase,据称规模“世界最大” IT之家 3 月 6 日消息,近年来,网络犯罪规模迅速扩大。此前估算显示,到 2025 年,全球因网络犯罪造成的损失将达到 10.5 万亿美元(IT之家注:现汇率约合 72.55 万亿元人民币)。今天晚间,据外媒 Tom's Hardware ... 世界最大03-07
相关文章
- 欧美执法机构联手捣毁黑客论坛LeakBase,据称规模“世界最大”
- 有一种男人: 十分可恶
- 世界最大跨径独柱式三塔空间缆悬索桥建成
- 世界最大!今日正式通车
- 全球顶级禁地!43万平米孤岛盘踞40万毒蛇,误入者活不过2分钟?
- 全球最大!高23米、长98米,就在武汉
- “全球最大毒枭”被击毙细节曝光:情人“带路”到藏身地,25名国民警卫队员激战中阵亡
- “全球最大毒枭”被击毙细节披露:军方追踪其情人及关系网络,由情人“带路”到藏身地,激烈交火后捕获,25名国民警卫队员阵亡
- 全世界最大的城市“五常市”!
- 朗斯主帅:巴黎是世界上最大的俱乐部之一,我们现在没想着争冠
- 全球最大的“省”到底有多大呢?面积真堪比1个印度、5个法国
- 当年铁了心要独立,成为全球最大国中之国,现在穷的连邻国都嫌弃
- 600毫米巨型火箭炮亮相,金正恩称世界威力最大,射程覆盖韩全境
- 金正恩亲自驾驶火箭炮车,称“世界威力最大”,画面公开,喜形于色
- 金正恩亲自驾驶火箭炮车,称“世界威力最大”
- 现场画面:金正恩出席火箭炮赠送仪式,600毫米大口径火箭炮亮相,“世界上威力最大的聚焦式超强力攻击武器”
- 法媒:世界最大垂直农场,机器人种菜
- 穷得只剩下钱!坐拥世界最大银矿却三度破产,西班牙到底输在哪?
- 1120米,世界最大跨度!建设进度条刷新
- 世界最大跨度双层斜拉-悬索协作大桥主塔封顶
热门阅读
-
泷泽萝拉作品,光看一眼就让人欲罢不能 07-14
-
高岗事件真相令人震惊 究竟有何隐秘内幕 07-14
-
北京大裤衩 也就是中央电视台总部大楼 10-24
-
江户四十八手 看一看可以年轻十岁 11-01
-
柳州莫菁视频流出,最终判定是男友所为触及法律底线 11-14
-
揭秘翁帆怀孕真相 杨振宁和翁帆的孩子 11-15
-
世界上最大的火车站,在中国(100个足球场大) 05-26
