标题摘要内容
【产业资讯】深圳首批高质量AI语料数据即将开放
来源: | 作者:AIIAIC | 发布时间: 2026-02-04 | 46 次浏览 | 分享到:
深圳首批高质量AI语料数据即将开放:11个数据集背后的政企协作新范式

近日,深圳市政务服务和数据管理局发布《2025年语料券专项资金拟开放数据集的公示》,标志着深圳市在推动人工智能语料开放共享、培育数据要素市场方面迈出实质性一步。本次公示涉及中国电信深圳分公司、中国联通深圳分公司、华测检测等7家企业共计11个高质量数据集,涵盖通信、人口统计、工业质检、语音方言、建筑安全、植物识别与百科问答等多类场景。
这不仅是一次简单的数据公开,更是一次政企协作、共建高质量AI训练资源的创新实践,为深圳打造人工智能先锋城市注入了真实的“数据燃料”。

一、哪些数据即将开放?

根据公示清单,本次拟开放的数据集类型丰富、来源多元,均已通过合规审核与脱敏处理,具备较强的AI训练与应用价值:

  1. 通信与用户行为类(中国电信、中国联通):包括用户画像、境外漫游统计、街道级人口归属与流动数据等,为城市治理、商业洞察等提供统计级数据支撑。
  2. 工业与质检类(华测检测、深视创新):涵盖食品订单分类、工业生产瑕疵(磁材、玻璃等)标注数据,助力AI在智能制造与质量检测领域的落地。
  3. 语音与图像类(百川数安、智造建筑信息):包括多地方言音频及转写文本、建筑施工现场安全隐患识别对话数据集,推动AI在语音识别与安全监控场景的应用。
  4. 自然与知识类(华傲数据):植物图片与描述数据集、中文词条问答对数据集,为视觉AI与知识问答系统提供优质语料。

所有数据集均强调“已做脱敏处理”,不包含具体个人与企业敏感信息,符合国家安全、隐私保护与商业秘密相关法规要求,体现了数据开放与安全合规并重的原则。

二、为何要推动语料数据开放?

人工智能大模型的训练与优化,高度依赖高质量、大规模、多样化的语料数据。然而,现实中企业往往面临数据获取成本高、合规风险大、数据孤岛等问题。
深圳此次通过“语料券专项资金”政策,以开放奖励”和“采购资助双轨并行的方式,鼓励企业通过公共数据开放平台分享脱敏后的高质量数据,同时支持企业通过数据交易所合规采购语料,形成“开放共享+合规流通”的双轮驱动模式。
根据《深圳市人工智能语料券专项资金操作规程》,企业开放语料最高可获得100万元奖励,采购语料最高可获200万元资助。这种“以奖促开、以资助购”的机制,实质上是政府以资金为杠杆,引导社会数据资源有序进入公共训练资源池,降低AI创新门槛。

三、数据合规与安全是前提

在数据价值释放的同时,深圳此次公示特别突出了数据的合规性与安全性。所有拟开放数据集均经数据交易所或第三方专业机构出具合规报告,完成匿名化、脱敏处理,并明确说明“未发现包含具体个人和企业等主体的敏感信息”。
这一做法不仅符合《个人信息保护法》《数据安全法》等法律法规要求,也为企业在数据流通与使用中划清了安全红线,树立了实践范例。

 四、下一步:从“数据开放”到“生态共建”

本次公示的11个数据集,将在深圳市政府数据开放平台(opendata.sz.gov.cn)的“人工智能语料数据开放专题”页面上架,后续还将根据企业开放情况持续扩容。
这不仅是深圳在数据要素市场化配置改革中的一次重要尝试,更是推动人工智能产业从“模型竞争”走向“数据生态协作”的关键布局。通过构建高质量、合规可信的公共语料库,深圳正逐步搭建起一个支撑AI技术创新与产业落地的数据基础设施。
未来,随着更多企业加入数据开放行列,深圳有望形成覆盖更多行业、更多模态的语料资源网络,为AI大模型研发、垂直场景应用提供源源不断的“数据养料”,进一步巩固其在人工智能领域的创新引领地位。
提示
本次公示期为2026年1月28日至2月3日。如对公示内容有异议,可向深圳市政务服务和数据管理局书面反馈。
数据是AI的基石,合规是流通的前提。深圳正在书写一本“政企协同、开放共赢”的AI语料新篇章。


声明

· 文章来源:深圳图表

· 如需转载请注明出处、原作者和保持信息完整性。

· 如认为本文/本公众号中存在侵犯相关知识产权的内容,请与我们联系【contact@openislands.cn】。