邬贺铨:建设可信数据空间 开发网络数据资源
近日,中国互联网络信息中心联合中国科学院计算机网络信息中心、中国互联网协会共同主办的2024(第五届)中国互联网基础资源大会在京召开。中国工程院院士邬贺铨受邀出席并发表题为“建设可信数据空间 开发网络数据资源”的主旨演讲。邬贺铨院士围绕数据要素在推动高质量发展中的关键作用,深入探讨了人工智能、数据基础设施、数据资源管理与应用等多个话题。
以下为邬贺铨院士演讲内容,经整理发布
人工智能大模型正在从传统语言模型向场景模型、多模态模型及推理模型发展。智能体是人工智能发展的重要应用,可以分解任务,具有形成思维链、记忆及调用工具等能力,是人工智能与物理实体结合的桥梁。
数据资源是重要的生产要素,可信数据空间是解决数据融合和数据安全问题的有效方法,支持跨境数据管理,提供数据源的认证、接入者身份认证、数据目录检索、敏感数据过滤、格式转换等功能。
AI时代扩展了数字资源的管理范畴,数据安全管理变得尤为重要,需要建立相关企业之间的网络安全威胁情报共享机制,提高数据存储的安全性。
建设可信数据空间、开发网络数据资源是当前的重要任务之一。我们需要推动人工智能技术的创新和应用,加强数据资源的管理和开发,以支持数字经济的发展。
一是数据要素与人工智能的融合发展
邬贺铨院士指出,当前人工智能已成为推动经济社会发展的重要力量,而数据则是人工智能发展的核心要素。随着基础大模型的广泛应用,人工智能正在从传统的语言大模型向场景大模型、多模态模型乃至推理模型发展。这些模型的上云和终端应用,不仅降低了企业使用大模型的门槛,还推动了数字化转型的深入发展。
邬贺铨院士强调,尽管基础大模型在行业中的直接应用有限,但通过加入行业数据进行训练,可以优化为行业大模型,进而在供应链、市场营销、智能客服等领域展现出巨大的应用潜力。同时,智能体作为人工智能的重要应用形式,通过任务分解、推理能力、外部工具调用等功能,为数据资源增加了新的场景和价值。
二是数据基础设施的建设与升级
数据基础设施是数字基础设施的重要组成部分,对于推动数据要素的高质量发展具有关键作用。邬贺铨院士指出,随着数据的爆发式增长,传统的网络设施已难以满足数据流通和利用的需求。因此,必须加快数据基础设施的建设和升级,包括算力设施、数据流通利用设施等。
在算力设施方面,邬贺铨院士强调,随着云边端协同和异构算力的发展,算力、存力、运力和网络资源的可调度性成为关键。同时,元数据的统一注册和寻址标准也对数据的访问和管理至关重要。在数据流通利用设施方面,则需要加强算力调度、算力检测、数据融合和安全等方面的功能实体建设,以支持数据的高效流通和利用。
三是数据资源的管理与应用
数据资源是数据要素的核心组成部分,对于推动高质量发展具有重要意义。然而,当前中国数据资源的存储和开放比例较低,且存在数据标注难度大、数据开放与隐私保护挑战等问题。为此,邬贺铨院士提出了一系列针对性解决方案。
首先,在数据标注方面,应探索运用人工智能技术辅助数据标注,提高标注效率和准确性。同时,对人工智能生成的数据进行水印标记,以提升数据来源的可追溯性和可信度。其次,在公共数据开放与隐私保护方面,政府掌握大量数据资源但开放共享时需要进行去标识化处理,以保障个人隐私。对于跨境数据流动,则需实现匿名化以防止用户敏感信息泄露。此外,还应限制对数据的非法访问,通过IPv6等技术手段实现路径溯源和数据流动的可控性。
在数据资源的应用方面,应推动AI上云、向终端下沉,将智能体嵌入物理实体。通过模型即服务(MaaS)等平台,企业可以在云端微调自身数据并应用大模型,推动数字化转型。同时,终端设备的升级也实现了嵌入大模型的能力,提升了设备的空间计算能力和隐私保护水平。
四是可信数据空间与数据可控共享
可信数据空间是保障数据安全与可控共享的重要手段。可以通过构建可信数据空间实现数据加密存储与管理,确保数据可用但不可见。在垂直行业企业和IT企业的合作中,可信数据空间可以让IT企业在封闭的可信空间内对数据进行开发与计算,从而保障数据安全。
同时,可信数据空间还可以支持跨境数据流动的管理。通过加密存储和远程修改密钥等手段,数据提供方可以确保数据在跨境传输和使用过程中的可控性和合规性。此外,可信数据空间还可以提供数据挖掘工具软件、安全加密计算等同态加密计算支持以及交易清算结算服务等功能,为数据资源的全面应用提供有力保障。
五是网络安全与数据保护
网络安全是数据要素高质量发展的重要保障。当前许多企业在数据应用过程中面临较大的网络安全压力,必须高度重视防范数据被劫持的风险。为此,应从多个方面采取管控措施,包括限制数据访问的时间、次数和访问点等。同时,还应加强对外部攻击的防范,形成社会化网络安全体系以应对日益严峻的网络安全威胁。
在数据保护方面,应加强对敏感数据的去标识化和匿名化处理工作,并探索运用区块链等技术手段解决数据的归属性与资产性确认问题。此外,还应推动数据交易体系的完善和发展,提高场内交易比例并降低场外交易风险,为数据要素的全面应用提供有力支持。
最后,IPv6是新型数据基础设施的关键技术。域名、网址、IP地址这些都是传统数字基础设施寻址的依据,新型的数据基础设施需要设置标识提供可寻址的能力,IPv6已经可以用在标识用户群的身份、数据流的属性、数据流的服务质量,但是仍然需要重视对智能体小程序的标识和对元数据标识的需求,要创新网络数据资源的管理和开发模式,支持社会和产业的数字化转型。