探秘贵阳高新区数据标注产业:AI赋能的核心支撑如何构建

6月18日,走进位于贵阳高新区的贵州鼎联数据有限公司数据标注基地,数十名数据标注师,正为自动驾驶、智能客服、电商推荐等领域进行数据标注。这群特殊的“数字工匠”,他们每天点击鼠标超万次,在像素与代码间编织着人工智能的神经网络。
贵州鼎联数据有限公司(以下简称鼎联数据)成立于2023年,是一家专注于互联网数据信息技术服务的大数据企业。致力于数据要素标准体系的建设与发展,为智慧出行、智慧教育、新零售等多个领域提供通用性、支撑性的 AI 数据标注及审核服务 。
“人工智能技术的飞速发展离不开海量高质量数据的支撑,数据采集与标注是AI模型训练的基石。为此我们打造了行业领先的‘一站式AI数据生产与管理平台’。”贵州鼎联数据有限公司项目总监李元旭表示,平台通过多模态数据处理技术与全流程标准化管理,为AI大模型训练提供从数据采集、标注到交付的全流程低成本、高效率、高质量数据处理服务,同时还构建了覆盖项目发包、智能培训、生产质检、结算支付的全流程一体化的灵活用工平台,可为前沿领域交付专业、可靠且极具成本效益的AI数据解决方案。
“数据标注是什么?通俗地说,就是‘给AI当好老师’,我们实际上是在给机器构建认知世界的坐标系,通过为图片、视频等数据标注边界框,最终形成机器能理解的‘知识图谱’。”李元旭表示,数据标注主要包括筛选、清洗、分类、注释、标记、质检等环节,对于提升数据供给质量、推动人工智能创新发展具有重要支撑作用,是人工智能产业发展的先决条件。
在智慧出行领域,鼎联数据已与京东、滴滴等知名互联网企业及新能源车企展开合作。
“我们利用数据标注技术,通过对大量数据的处理和校准,能让打车软件、外卖软件的路径规划更加精准、高效。” 李元旭介绍道。
“这条斑马线角度存在偏移,必须修正。”在鼎联数据的开放办公区,质检组长陈晓薇正在复核自动驾驶数据。
“数据标注最基本的就是画框,比如检测目标是车,标注员就需要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能‘学坏’。”陈晓薇补充说道,标注员就是无人驾驶车的“眼睛”,需要对行车记录仪拍摄的大量图片进行细致处理,标注出道路上的障碍物、车道线、行人等信息。这些标注后的数据将返回给企业,用于训练自动驾驶模型,使自动驾驶技术更加安全可靠。
在标注任务方面,鼎联数据的项目丰富多样,包括图片标注、语音标注、文本标注等。
在隔壁的语音标注间,鼎联数据的“AI老师”们正将方言转化为机器可读的语义标签。“贵州话的儿化音特别多,像‘赶场’要说成‘赶gɑ̄ng’。”标注员王小梅向记者展示着方言标注规范,“现在我们的方言数据库已经支持17种细分语种,连‘恁个’这种重庆俚语都能精准识别。”
“AI的发展,离不开大量的数据和劳动力投入。数据标注产业其实是人工智能的前端,它需要大量的人力资源来参与,这也是我们搭建一站式灵活用工生态的原因。”李元旭告诉记者,通过全流程一体化的灵活用工平台,从业者在接受平台线上培训测试后即可上岗,目前平台已汇聚了约 10万用户。
此前,陈霞也从没想到自己会成为人工智能领域中的一员。如今,她已经是一名资深的数据标注师了。“之前我不了解数据标注这个行业,文本识别、拉框、贴合等这些词汇对我而言很陌生。我标注的自动驾驶项目最初大多是2D平面图片,适用于一些简单的户外路面识别系统,在经过系统培训与实践考核后,逐步接触3D立体标注以还原真实驾驶场景,后期更涉及2D/3D融合标注及手势采集,用以提升智能系统对驾驶员行为的识别精度。”陈霞表示,未来将了解更多人工智能行业的前沿趋势,掌握语义分割、文本标注等更多技能,努力从标注师成长为培训师,为有志从事这个行业的人提供培训、指导服务。
“今年初,国家发展改革委、国家数据局、财政部、人力资源和社会保障部四部门联合发布《关于促进数据标注产业高质量发展的实施意见》,首次对数据标注这一新兴产业进行系统谋划,这为我们的下步工作指明了方向。”李元旭表示,未来鼎联数据将探索建设“数据标注产业园”,在中药材、茶两个领域探索建立贵州中药材高质量数据集与贵州茶高质量数据集,为中药材与茶产业提供从育苗种植到终端销售的全程服务,助力贵州中药材和茶产业高质量发展。(王轩禹)
来源:贵阳市高新区官网
分享让更多人看到
- 评论
- 关注