这一劳动力市场,印度世界最大!80%“数据工人”来自村镇

发布者:隔水望伊人 2024-5-31 13:13

人工智能(AI)产业的高速发展催生出一个重要职业——AI数据标注。它通过为机器学习的原始数据(如图片、视频等)打上标签,让计算机不断识别这些数据的特征,从而实现自主识别。

这是2023年2月15日在美国旧金山拍摄的waymo公司无人驾驶出租车 新华社/美联

AI数据标注职业产生之初,标注员们往往能获得相对丰厚的薪酬,且部分标注工作的门槛较低,入职难度不大。但如今,AI数据标注员正逐步向人力成本更低的城市下沉。

一直以软件外包闻名,且人力成本较低的印度,就在此背景下崛起为世界重要的外包数据标注服务商,甚至被认为是最有潜力成为世界最大的数据标注劳动力市场。很多人不知道的是,80%以上印度AI数据标注师(或称数据工人)来自农村和小城镇。

1 抢抓“数据标注”市场

在距离新德里市中心约30分钟车程的诺伊达数据注释公司Cogito Tech的办公隔间内,数百名刚从大学毕业的年轻人,正在用数字工具识别和标记他们屏幕上的图像。Cogito Tech与美国公司Labelbox合作,主要为通过训练机器执行人工智能相关任务的公司开发数据标签软件。

在印度南部喀拉拉邦小镇曼纳卡德一间不起眼的办公室里,十几位女工紧盯电脑屏幕,为自动驾驶汽车的车载摄像头摄录的车辆、交通信号灯、道路标志和行人的图像进行高亮显示和标记。这项工作最有挑战性的,是精确标记被称为LIDAR(光探测和测距)的远程传感器捕获的数据,该传感器为自动驾驶汽车创建3D地图,以获得对周围物体的感知信息。

在印度西部城市普那(Pune)的郊区卡拉迪(Kharadi),忙完一天的工作后,一些村民会习惯性地打开智能手机上的一个应用程序,对着手机用他们的母语马拉地语(马哈拉施特拉邦地方语言)朗读故事或念一段句子。作为印度人工智能初创公司Karya的数据工人,他们的声音将用于训练马拉地语的人工智能模型。

有30万注册用户的印度数据标注众包平台Playment,每天吸引着超过2万名“高技能顶级玩家”,他们看似在玩游戏,实际上是在为自动驾驶汽车、机器人以及无人机等项目手动标识数据,帮助公司加速其机器学习,并从中赚取每人每月2万~3万卢比(1卢比约合0.086元人民币)收入。

这些案例中的主角,都可以被称为“数据标注师”。

由于训练数据的数量和质量对人工智能模型的准确性和有效性至关重要,而标记训练数据集不仅是一项耗时、复杂的繁琐工作,且需要大量劳动力,因此缺乏适当资源的科技公司便开始寻求外包数据注释服务。印度过去数年来的IT外包实践,恰好使其成为这种外包数据标注的重要目的地。

印度软件与服务业企业协会(NASSCOM)高级副总裁兼首席战略官古普塔在接受专注IT趋势的《分析印度》杂志采访时表示,数据标注在印度算是一个新兴行业,每个人都意识到它带来的巨大机会——人工智能需要被正确标注、分类和匿名处理的海量数据。

“数据标注公司在印度纷纷诞生,就适应了这一日益增长的市场需求,为此许多公司正在利用全球‘零工'人才库。”印度人工智能公司HEAL Software Inc.首席销售和营销官穆克莱告诉《分析印度》杂志。“印度为数据标注市场提供了巨大的人才库,他们具有基本的计算机技能,可以随时使用智能手机,与美欧的时差甚至都可能成为一种资产。”穆克莱强调。

NASSCOM在一份关于数据标注市场潜力的报告中称,截至2021年,约有7万印度人从事数据标注工作,其市场规模估计为2.5亿美元,约60%的收入来自美国。预计到2030年,印度的数据标注市场价值可能超过70亿美元,通过全职和兼职就业模式雇用的数据标注劳动力将达100万人。印度目前是世界上最大的数据注释劳动力市场之一。

2 他们来自乡村和小城镇

据NASSCOM调查,目前印度超过80%的数据标注员来自农村和小城镇;超过90%的数据标注公司在二三线城市建立了中心。印度农村和小城镇无疑在新兴的生成式人工智能(GenAI)的发展机会中发挥着重要作用。

代表印度数据标注公司较高水平的Infolks,就是由科拉瑟里在其家乡喀拉拉邦的一个偏远小村庄库马拉普图尔创建的。科拉瑟里创业能取得成功,也得益于他的数据标注师经历。

据媒体报道,家境贫寒的科拉瑟里在十二年级(印度高中阶段)时便辍学。为养家糊口,他曾尝试打过多种零工。2014年,23岁的科拉瑟里在亚马逊公司旗下的众包平台Mechanical Turk上注册,并开始为全球各地的公司提供数据标注服务。尽管没有任何学位,也不知道什么叫数据标注,但这些并不妨碍科拉瑟里出色的发挥。两年半时间内,他完成了30多万项数据标注任务,被批准率高达99.8%。

科拉瑟里在众包平台上的高评级受到一家从事数据标注的德国公司关注,这家公司希望他成立一个团队。于是在2016年,科拉瑟里凭借2.5万卢比的初始投资和6名员工,在自己的家乡启动了Infolks。

经过几年发展,与该公司合作的企业客户已超过130家,其中包括戴姆勒(2022年更名为梅赛德斯-奔驰集团股份公司)以及不少国际大牌科技公司。Infolks大约75%的业务集中于自动驾驶汽车领域,此外还为医疗保健、机器人和农业等领域的客户提供数据标注服务。

值得一提的是,无论事业发展如何,科拉瑟里始终坚持把工作机会留在自己的家乡,“公司的愿景是将我们的村庄打造成一个全球性村庄,并为农村地区年轻人提供发展机会”。

目前,Infolks雇用的几百名员工大部分来自库马拉普图尔及其周边地区,新员工在接受为期两个月的图像标注工具培训后,便可上岗。“经过适当培训,所有人都可以在没有任何AI技术背景的情况下进行图像标注——你只需要快速学习”,科拉瑟里经常这样以亲身经历激励新入职者。

米塔创立的NextWealth公司,也是一家立志为小镇青年创造就业机会的人工智能公司。在此之前,米塔曾在印度信息技术巨头维布络有限公司(Wipro)担任首席技术官长达20年。目前NextWealth的6个中心雇有5000名员工,从事人工智能和机器学习数据服务以及后台工作,这些中心均开设于一些印度不知名的小城镇。

米塔在接受《分析印度》杂志专访时表示,生成式人工智能的美妙之处在于,它不会将来自偏远地区的人们拒之门外。他认为,小城镇的毕业生已被证明具有高度的可培训性和大规模可用性,他们关注细节,具有积极的工作态度。与大城市相比,小城镇员工的流失率更低,岗位更具稳定性。

3 “赋予尊严的工作”

在印度的数据标注师中,最富特色的当属为人工智能初创公司Karya提供数据的乡村众包员工。Karya在梵文中意为“赋予尊严的工作”。该公司不仅雇用大量农村地区妇女,还专门建立了基于智能手机的数字工作平台,旨在通过语音、文本、图像和视频创建高质量的数据集,以训练涉及12种濒临消失的印度地方语言和方言的大型语言模型。

Karya见证了大量成功案例,来自乡下的“数据标注师”的故事不仅被多家媒体报道,也激励着更多农村人加入到人工智能入门级工作中。

纳亚克来自印度东部奥里萨邦一个盛产手工艺装饰品的村落,一次偶然机会使她成为Karya公司的数据工人。在纳亚克看来,她的工作非常简单、自由且收入不菲——在任何空闲时间里,拿出手机点开一个应用程序,然后用其母语奥里亚语(奥里萨邦地方语言)说话,当语音文本被录下来后就可得到报酬。

工作的第一周,纳亚克便拿到4000卢比薪水,这比她和丈夫通过制作手工艺品换取的每月不足1000卢比的收入高出数倍。

村民昌德里卡是Karya在卡纳塔卡邦雇用的数据工人,仅仅通过大声朗读其母语卡纳达语文本,她便可赚取每小时约5美元的工资,这几乎是印度官方最低工资的20倍。一旦语音剪辑被验证为准确,她还会额外获得50%的奖金。

通过自己的声音改变自家经济状况,这令乡村数据标注师们感到很振奋,虽然他们并不理解自己工作的意义是什么。为此公司为员工想出了一个最简单的解释:“你们正在教计算机说你们的母语”。Karya运营总监萨希什库马尔告诉《分析印度》杂志,“对于语言录音,农村人实际上比城市人做得更好,他们不容易分心,工作时全神贯注。”

如今,与微软和谷歌均有合作关系的Karya公司,数据收集工作已经惠及印度24个邦的3.5万农村人口,员工通过智能手机完成了超过3500万小时的付费数据任务,每位员工每小时的报酬不少于5美元。

微软印度研究院研究员古哈告诉印度《经济时报》记者,Karya收集的数据质量远远优于其使用过的任何其他来源。这表明,“如果你公平地支付工人工资,他们就会更多地投入工作,最终结果就是获得更好的数据”。

4 AI会取代AI数据工人吗

帕德玛普里亚于2021年在Infolks开始从事数据标注工作——给道路上的图像等贴标签,以训练无人驾驶汽车的人工智能模型。帕德玛普里亚告诉《印度快报》专栏作家迈赫罗塔,这份工作让她能够养家糊口,成为家里的顶梁柱。不过这也让她总是担心,机器总有一天会学到一切,导致人类失业。

帕德玛普里亚的老板科拉瑟里似乎也有同样的预感。迈赫罗塔在她的文章中援引科拉瑟里的话说,“(既然)呼叫中心的工作已经由机器人接管,那么数据标注工作也可能会消失。几年前,我们甚至没有听说过这个行业。我不知道它什么时候会结束,但这一天总会到来。”

毕竟在AI面前,无论成本还是效率,人类几乎毫无优势。苏黎世大学研究发现,在成本上,ChatGPT平均每个标注成本低于0.003美元,仅为众包平台的1/20;在效率上,如在相关性、立场、主题等任务中,ChatGPT是人类的4倍。

来自美国卡耐基梅隆大学、耶鲁大学和加州大学伯克利分校的一组研究人员更是发现:GPT-4在数据集标注表现上优于他们雇用的最熟练的众包员工。有评论认为,AI数据标注员需要做好被AI取代的准备。目前在自动驾驶领域,已经有车企开始采用AI进行标注。

印度排名前列的数据标注公司iMerit的技术和营销副总裁纳塔拉詹则有另一番见解。他对印度前沿技术信息网站FactorDaily记者表示,基于AI的自动标注工具并不是一种威胁,因为自动标注工具本身就是人工标注训练的结果。当你试图解决某个问题时,这些自动化工具只能帮你达到有限水平,但要超越这个水平,还需要定制标注。纳塔拉詹强调,即便AI已经达到某种水平,也永远不会达到百分之百,它将始终是一个不断学习和改进的过程。

基于上述乐观分析,一些印度业内人士表示,印度的数据标注市场和标注公司还未发展到顶峰。正如NASSCOM所指出的,目前印度数据标注市场仍在加速发展,75%的参与者处于初始和成长期。这意味着印度的数据标注业还有巨大成长空间,而市场的壮大必将吸引更多从事数据标注的劳动力参与进来。

栏目主编:秦红 文字编辑:宋彦霖

大家都在看

  • 更“世界”的世界杯要来了:哪些纪录有望改写?谁将是最大黑马?

    更“世界”的世界杯要来了:哪些纪录有望改写?谁将是最大黑马? 2026年美加墨世界杯开幕已经进入倒计时。作为史上首次由三个国家联合承办、首次扩军至48支球队的世界杯,本届赛事有了不同于以往的更多看点。图为橱窗展示足球队队服。中新社记者 廖攀 摄世界杯更“世界”了在连续七 ... 世界最大06-10

  • 全球最大!开工了!

    全球最大!开工了! 6月9日,世界最大的27.1万立方米超大型LNG运输船,在中船集团沪东中华造船正式开工建造。今天开工建设的27.1万立方米LNG运输船总长344米,配套国产最新薄膜围护系统,载货容积、节能环保、航行安全等关键性能实现全 ... 世界最大06-10

  • 世界最大跨度!这座大桥成功合龙

    世界最大跨度!这座大桥成功合龙 6月9日,世界最大跨度公铁两用无砟轨道斜拉桥——崇启公铁长江大桥主桥成功合龙。崇启公铁长江大桥是我国“八纵八横”高速铁路网沿江通道主干线路——沪渝蓉沿江高铁的关键控制性工程,全长4.09公里,主跨400米,横 ... 世界最大06-10

  • 27.1万立方米!全球最大,今日开建!

    27.1万立方米!全球最大,今日开建! ◎ 张文豪 科技日报记者 王春6月9日,全球首批次、世界最大27.1万立方米QC-Max型超大型LNG运输船,在中国船舶集团旗下沪东中华造船(集团)有限公司正式开工建造。LNG船被誉为造船工业“皇冠上的明珠”。此次开工的2 ... 世界最大06-10

  • 15层楼高、一年"抠"出60亿度电!世界最大"海上心脏"在广东跳动

    15层楼高、一年"抠"出60亿度电!世界最大"海上心脏"在广东跳动 世界最大海上换流站“海风之心”在广东阳江海域完成安装,163台风机并联供电,输电损耗降低60%。比这个超级工程更令人振奋的,是施工团队在实战中磨砺出的三项世界纪录——柔性直流输电、国产特种系泊缆、毫米级浮托 ... 世界最大06-08

  • 首飞成功!世界最大!中国这周杀疯了

    首飞成功!世界最大!中国这周杀疯了 72米高的火箭刚刚冲破云霄,两艘"海上巨无霸"紧跟着在大连交付——这周,中国硬核实力简直是一路狂飙,从天上到海上,从田间到深海,每个领域都在狠狠刷新自己的天花板。星辰大海,商业航天跑出"中国速 ... 世界最大06-07

  • 阿根廷牧民一脚踢出世界最大恐龙骨架,比波音客机还长

    阿根廷牧民一脚踢出世界最大恐龙骨架,比波音客机还长 大家可能好奇了,这地球上最大的动物能有多大?我告诉大家,蓝鲸是当今海洋里的巨无霸,能长到三十米,一百多吨。但是,如果有人说陆地上曾经走着一种比波音737客机还长的动物,你敢信吗?事情要从1987年说起。阿根 ... 世界最大06-07

  • 全球十大,中美各占三席

    全球十大,中美各占三席 在你心目中,最具未来感的城市是哪一座?换句话说,你最希望生活在哪里,以见证正在走来的未来?近日,香港城市大学从全球100个城市中评出十大“领先未来城市”。其中,中美各有3个,分别是北京、上海、香港,以及波 ... 世界最大06-07

  • 这是吓人,还是噱头?全球最大AI公司:AI自我进化,脱离人类控制

    这是吓人,还是噱头?全球最大AI公司:AI自我进化,脱离人类控制 最近几年以来,整个全球的科技界,AI是发展最快的。各大巨头,都是不遗留余力发展AI,催生了5万多亿美元市场的英伟达,也让全球的内存供不应求,一年涨三四位。也诞生了OpenAI、Anthropic这样的估值万亿美元的AI新贵 ... 世界最大06-06

  • 世界规模最大海上换流站完成安装

    世界规模最大海上换流站完成安装 图为“海风之心”在运输船的托举下与导管架进行对接。 陈 航摄(人民视觉)本报北京6月5日电 (记者王浩)记者从中国长江三峡集团有限公司获悉:6月4日,在广东阳江海域,世界规模最大海上换流站“海风之心”顺利完成安 ... 世界最大06-06