近三个月高质量数据集相关新闻汇总(2025年9月-12月)

2025-12-12 14:34 栏目: 产业洞察 查看()

高质量数据集建设:政策、实践与展望

国家数据战略推动下的AI-Ready数据集发展动态

国家层面动态

2025年12月7日

国家数据局发布重磅数据成果

截至2025年9月底,我国已建成高质量数据集总量超500PB

核心成果:

  • 7个数据标注基地引进和培育标注企业362家
  • 标注从业人员达8.5万人
  • 带动数据标注相关产值163亿元

意义:标志着我国高质量数据集建设已进入规模化发展阶段,是"人工智能+"行动框架下推动数据要素与人工智能深度融合的重要成果。

2025年9月13日

首批"高质量数据集典型案例"发布

入选案例代表:人民网"主流价值语料库"

  • 入库3000多万篇基础语料
  • 31万对问答语料
  • 500多万对图文语料

评选规模:经严格申报推荐、专家评审,最终遴选出104个典型案例

覆盖领域:涵盖科学研究、工业制造、农业农村、智慧能源、交通运输等10多个重点领域,以及低空经济、具身智能等创新领域。

2025年8月28日

《高质量数据集建设指引》发布

发布背景:在2025中国国际大数据产业博览会上发布

核心内容:提出"1+1"参考路径(建设方法论和运营体系),指导高质量数据集建设

截至2025年6月,全国已建设高质量数据集超3.5万个,总量超400PB,数据交易机构累计交易额近40亿元

地方政府积极行动

2025年12月10日

山西发布煤炭工业高质量数据集

亮点:聚焦井工煤矿安全生产场景

特色:高标准治理(脱敏、标准化、增强降噪、标注、测试验证等流程)保障数据质量

意义:为煤矿AI模型训练提供多样选择,推动AI技术在安全生产领域的应用

2025年12月3日

广东举办首届高质量数据集创新大赛

主题:"数聚湾区,智创未来"

创新机制:采用"揭榜挂帅"模式

聚焦领域:工业制造、医疗健康、科技创新等

目标:探索数据价值转化新路径,为人工智能模型训练提供"燃料"

2025年12月1日

宿迁首批行业高质量数据集发布

数量:遴选20个高质量数据集

领域:涉及智能制造、智慧出行、电商物流、医疗健康、城市治理等重点行业

目标:依托产业、科技、人才优势整合数据资源,加速提升数据供给能力

2025年10月24日

武汉市发布高质量数据集支持政策

奖补标准:对完成高质量数据集建设并通过评审的组织机构,按核定总投资的25%给予不超过200万元奖励

支持条件:要求数据集可直接用于AI模型训练,支撑人工智能模型检索增强、智能体开发等前沿技术

意义:为武汉打造"人工智能+数据要素"融合发展新高地提供政策支持

8.5万
数据标注从业人员
163亿
数据标注相关产值(元)
500PB
高质量数据集总量
3.5万
高质量数据集数量

行业典型案例

2025年10月22日

北斗"通导遥一体化"多模态应急高质量数据集

创新点:构建北斗"通导一体"数据高可靠传输体系,解决"三断"极端场景下数据传输难题

应用效果:

  • 已在湖北、湖南、陕西等省份实现部署应用
  • 累计安装终端约4万台
  • 处理数据超千万条

价值:为极端灾害条件下应急通信与资源调度提供高质量数据支撑

2025年11月18日

四川公布首批数据标注基地试点城市

试点城市:宜宾、内江、自贡、遂宁

先行单位:自然资源部第三地理信息制图院等5家机构

典型案例:地震监测预报预警多模态联合数据集

山西
湖北
四川
江苏宿迁
广东
湖北武汉

产业生态发展

国家数据局强调"AI-Ready"概念

AI-Ready数据集三大要求:

  • 技术可行:数据集必须包含模型训练所需的信息要素
  • 实用便捷:数据集易于提取,无需大量预处理
  • 质量保障:数据集能有效提高人工智能模型性能

"人工智能要发挥更大作用,生成式大模型只是第一步,未来更关键的是行业智能体的开发。而行业智能体的训练,离不开高质量行业数据集的支撑。"

— 一位上市公司负责人
2025年11月

多地密集出台高质量数据集建设规划

政策趋势:北京、重庆、贵州、江西等地在11月相继发布相关政策,强调加快建设高质量数据集

共同点:均将高质量数据集视为人工智能与实体经济融合的核心载体

高质量数据集已成为推动人工智能与实体经济深度融合的关键基础设施,各地正加快布局,推动数据要素价值释放。

核心要点总结

  • 规模化发展:我国高质量数据集建设已进入规模化阶段,总量超500PB
  • 政策引领:国家数据局发布《高质量数据集建设指引》,提供明确路径指导
  • 地方实践:山西、宿迁、广东、武汉等地积极探索行业应用与政策创新
  • 产业生态:数据标注产业初具规模,从业人员8.5万,相关产值163亿元
  • 技术标准:"AI-Ready"成为高质量数据集的核心标准,强调技术可行、实用便捷和质量保障
  • 应用深化:从通用大模型训练转向行业智能体开发,行业数据集需求激增

高质量数据集建设动态报告 | 数据来源:国家数据局及各地政府公开信息 | 制图:2025年12月

扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

服务咨询/技术咨询/技术建议/数据集获取/行业交流

郑重申明:魁卓科技以外的任何单位或个人,不得使用该案例作为工作成功展示!