开发数据要素 推进数实融合(附图片)
9月24日,在2025年中国国际信息通信展上,中国工程院院士邬贺铨作了题为《开发数据要素推进数实融合》的主旨演讲。邬贺铨提出,当前我国已经进入智能体时代,发展潜力较大。AI是数实融合的一个最大变量,上云是数实融合的关键,要以数据为抓手,借助AI破解数实融合难题。
邬贺铨表示,目前,我国数据要素市场化还面临障碍,数据价值没有充分释放,72%的企业认为数据权属不清,所以拒绝数据共享。“企业对数据的应用还存在一些担心,一是不会用,需要一定的技术。二是不敢用,因为可能会涉及用户的隐私以及数据安全问题。三是不愿用,投入产出不一定得到回报。”他提到,现在中小企业的云化成本基本能够占到营收的8%以上,如果用加密能耗还要增加更多。麦肯锡预计,这种数据的应用投入产出回报周期要五年多。对此,邬贺铨提出,企业数据应用存在障碍,激活数据要素价值需要在技术、制度和生态上协同,要完善数据的全生命周期开发、安全以及服务。
邬贺铨从数据采集、预处理、存储、使用等方面谈及如何激活数据要素价值。
基础设施方面,目前我国拥有较为完备的网络基础设施,正在加快建设计算单元、存储单元等算力基础设施。除此之外,需要有数据流通利用基础设施,包括数据的汇聚、数据的加工以及数据的应用。
数据采集方面,邬贺铨提到可以利用API、爬虫、传感器采集,但传感器采集成本很高,目前来看,用AI生成数据是一种趋势,“如果我们反复用AI迭代,最后数据严重失真,模型是会崩溃的,所以AI生成的数据必须加以标注”。此外,邬贺铨认为,数据需要进行编目,归类数据的结构、来源、用途、更新时间以及访问权限。数据清洗方面,要注重匿名化脱敏。
存下来的数据如何使用?邬贺铨提到,首先是明确企业使用数据的需求,并在数据调用上严格考察第三方服务商的安全资质,数据开发时可以利用网上的开源工具,但是在调用工具的时候需要强制执行一些安全策略。除了调用工具开发数据,还需要调用模型和算力,评估模型是否合适,使用容器的办法,实现模型服务的快速部署以及调用模型的工具链。此外,要构建可信计算环境,包括网络、平台、硬件、应用、云的可信等。
此外,邬贺铨提出,数据的利用关键是见成效,一是全流程优化;二是跨域协同创新,数据打破行业边界;三是价值乘数效应,通过数据资本化变现。