关于信息基础设施的思考
孙凝晖
2025年2月20日
一、信息基础设施的演变
基础设施是人类社会发展的基石。人类社会经历了农业时代、工业时代、信息时代,如今来到了智能时代,这四个时代分别孕育出了关键的基础设施,满足了人类对资源的基本需求,也反映出人类对资源进行抽象的能力(如图1)。农业时代孕育了交通基础设施,集装箱这个人造物成为实现货物全球交通运输的关键抽象;工业时代孕育了能源基础设施,电力是人类发明的一种二次能源,作为标准化能源的抽象,成就了能源转换、储存、传输、使用的能源基础设施;信息时代孕育了信息基础设施,网页作为数据的抽象,成为信息全球共享的主要载体。当前智能时代无论是大数据、还是深度学习以及人工智能大模型,都是构建在数据空间之上的,新的数据基础设施正在形成过程中,其中数据流通、智能算力和AI模型与网络基础设施日益融合,将催生新的抽象。
图1:关键基础设施的演进图
信息时代最大的变化是人类构建了赛博空间(Cyberspace),它可以简单地被看成一个三层架构(如图2)。第一层是计算机空间,其核心目标是实现对计算设备的互联,以及对人类符号化数理知识的加工处理;第二层是信息空间,其核心目标是实现对网页的互联,以及对人类社会向网络空间映射的各类数字化信息的加工处理;第三层是数据空间,其核心目标是实现对以数据为核心的人工智能要素的互联,以及对数据进行分析、压缩等深度加工以生成模型。
信息基础设施是赛博空间中基础的公共服务平台。
图2:赛博网络空间的演进
第一层计算机空间的核心功能是对知识的加工处理(如图3)。自20世纪60年代起,经历了四个阶段。初始阶段为大型计算机的互联;第二个阶段是个人计算机的互联,个人计算机的普及促进了机与机之间的紧密联系;第三个阶段,智能手机的兴起进一步推动了人与人之间的广泛互联;在第四个阶段,各种物端设备被纳入互联网络,实现了人、机、物的全面互联。在计算机空间,信息处理的主要对象为人类符号化的数理知识,超级计算机作为加工知识的核心装备,其基础设施化就是网格计算。在计算机空间的发展初期,美国国防部的阿帕网(ARPANET)计划成为率先推动者。
图3:计算机空间
第二层信息空间的核心功能是对信息的加工处理(如图4)。自20世纪80年代起,经历了三个阶段,最初是网页的静态互联,随后是信息流的动态连接,未来还要实现对元宇宙中数字人的连接,实现赛博空间中信息的无缝互联互通。在信息空间,主要对象可以归纳为人类社会活动向数字空间的投影,数据中心计算机作为信息加工处理的核心装备,其基础设施化就是云计算的基础设施。在信息空间的发展初期,美国的信息高速公路计划是率先推动者。
图4:信息空间
第三层数据空间的核心功能是模型的加工处理(如图5)。自2010年起,大数据分析与机器学习技术使得数据的广谱关联成为可能,GPT大模型的出现则促进了算力的互联互通,未来,随着成千上万模型的涌现和AGI通用人工智能的出现,将实现模型与智能体间的广泛连接。当前,计算资源的进一步基础设施化是算力网,使得20世纪60年代超前提出的技术理念Utility Computing正逐渐变成现实。在数据空间的发展初期,中国在这一轮信息技术变革中没有落后,人工智能2.0、东数西算工程、数据流通利用基础设施等国家计划,使得中国成为率先推动者。
图5:数据空间
信息基础设施的变化,主要在于智能三要素——算力、数据、算法的基础设施化,以及对网络基础设施带来的影响。下面从行动计划、终端、超级入口、通信网络、互联网络、计算、数据、电力等八个关键特征分析信息基础设施的演变规律(如图6)。
行动计划。计算时代以“机”为中心,在ARPANET政府行动计划的推动下,实现了计算机全球连接;互联网时代以“人”为中心,在信息高速公路政府行动计划的推动下,实现了信息资源全球共享;智能时代以“物和数”为中心,主要目标是实现智能三要素即算力、算法和数据的公用事业化(utility)。计算所在2018年组建网络计算创新研究院时,制定了信息高铁计划,有组织地开展这方面的科研工作,并在南京麒麟区建设了信息高铁综合试验场。
终端。计算时代经历了从哑终端向个人计算机(PC)的转变;互联网时代则见证了从功能手机向智能手机的演进;智能时代的终端形态主要包括智能物端和具身计算机,其中智能硬件、可穿戴设备、VR设备等属于智能物端,智能机器人、人形机器人、自主无人系统等属于具身计算机。
超级入口。计算时代访问信息基础设施的主要入口是操作系统;互联网时代访问信息基础设施的主要入口是浏览器(browser)和移动应用程序(APP);智能时代访问信息基础设施的新入口还没有形成,智能体(Agent)可能是模型基础设施的使用入口,模型工厂(AI Foundry)可能是算力和数据基础设施的一种超级使用入口。
通信网络。计算时代的通信基础设施主要是光网络,提供了骨干级数据传输;互联网时代的通信基础设施主要是WiFi网和蜂窝通信网,提供了终端的广泛接入;智能时代的通信基础设施主要目标是物端的泛在连接,其中物联网连接了多种多样的传感器,工业通信网提供了工业环境里有保障的连接,卫星通信网则提供了地球空间范围内全覆盖性连接,这些共同保障了信息系统对物理世界的全面感知与实时操纵。
互联网络。计算时代的计算机网络以IP网络为核心,技术策略是地址驱动;互联网时代构造了完整的全球互联网,技术策略是尽力而为,出现了域名服务、P2P网络、CDN等众多网络基础设施技术;智能时代的网络基础设施还在发展过程中,确定与弹性传输的技术策略逐渐成为共识,在网络的控制面、策略面需要有新的路由机制。互联网络需要增加新的特性以适应数据流通、分布式AI算法、算力服务化的需求。安全是一项伴生需求,在信息基础设施的发展过程中,同步地发展出了网络连接安全、信息内容安全、智能算法安全等基础设施。
计算。计算时代的算力中心是超算中心,它的公用事业化是网格计算;互联网时代的算力中心是边缘计算节点和互联网数据中心(IDC),它的公用事业化是公有云;智能时代的算力中心则变为智算中心,算力(超算、智算、通算)的全面公用事业化、服务化就是算力网,云计算变成算力网中的一个算力站,算力网需要有新的全局命名机制,以及超越容器的新资源抽象(如任务闭包)。前两个时期均未形成明确的基础设施调度体系,直至智能时代出现了对全局调度中心的强烈需求,包括区域一体化算力网、全国一体化算力网的调度中心、以及算力与网络、算力与电力、算力与数据、算力与模型等融合调度能力。
数据。计算时代没有形成数据基础设施,数据被结构化抽象成文件、记录后,组织成文件系统、数据库和数据仓库,在局域环境中被加工利用;互联网时代诞生了万维网这样的数据基础设施,数据被结构化抽象成为网页,组装成网站,再通过WWW协议在广域环境中关联与加工利用,并诞生了如Web搜索引擎、推荐引擎这样的超级网站,也是应用层基础设施。智能时代正在建立数据流通利用基础设施,服务大数据分析、人工智能等新型应用;文件、网页、数据库记录等数据被结构化抽象成数据件(Dateware),再通过数据工程组装成数据场,数据场构建于同一个组织内,权属可以通过行政手段认定,在这里就可以被加工利用了;进一步,基于多种可信流通协议(如数联网、IDS、数据登记、数据交易所)在开放环境中构建可信数据空间,实现私域数据在公域环境中的共享复用、广谱关联与可信流通,进行深度加工利用。数据件的基本标识可作为数据空间的全局命名信息。
模型是智能时代出现的一类新型数据,未来将出现模型基础设施,它是智能三要素中算法的公用事业化。随着人工智能技术的发展,模型基础设施从Hugging Face形式,演进至基础大模型,再演进到模联网。模联网类似于企业信息化的SOAP等服务计算技术,通过对模型的操作与互操作协议,将多种多样的模型连接起来,为智能体等智能任务提供服务。
电力。前两个时期电力基础设施主要体现在UPS供电、风冷、液冷、相变冷却等机房基础设施上;智能时代则催生了绿电直供,大幅降低电力成本。
图6:信息基础设施的演变
信息高铁计划设想的终极目标是:在智能时代,信息基础设施达到与工业时代的物流、电流、信息流等基础设施相仿的低成本水平,大幅降低全社会在AI赋能的应用层创新的门槛,使得全球发达经济体外的60亿人能从中获益。
当前可以从以下八个方面,降低构建信息基础设施的成本:1)采用28-12nm成熟工艺制造芯片,相较于7-3nm先进工艺,成本降低了一个数量级,再通过芯粒集成技术弥补了芯片集成度的不足;2)推动开源芯片的广泛使用,显著降低了CPU和NPU处理器的设计成本,使得场景定制芯片的设计门槛大幅降低;3)推动开源软件如操作系统、AI框架等的发展,显著降低了智能系统软件栈的成本;4)中国在通信与互联网基础设施建设方面已取得了低成本优势,当前亟需提升其安全性与网络弹性;5)推动数据要素化与数据流通利用技术,有效降低了数据的全社会使用成本;6)推动区域一体化算力网、全国一体化算力网和模型工厂等全局共享技术的发展,显著降低AI应用的算力资源成本与人力资源成本;7)普及DeepSeek等开源的基础大模型,性能与国际顶尖大模型相媲美,成本呈数量级降低,促进场景定制模型的普及,以及大模型推理的私有化部署;8)提高采用绿色电力的比例,使算力中心电价降低至化石能源的三分之一。
二、信息高铁综合试验场
信息高铁浓缩了我们对智能时代信息基础设施的认知,建设信息高铁综合试验场,对形成信息基础设施的中国技术体系能起到十分重要的作用。这些年信息高铁行动计划的实践为信息基础设施增加了几个新的技术特征:低熵高通量(算力)、全局调度、模型工厂(超级入口),并在信息高铁综合试验场上进行了部署与验证。
我国对自然科学领域服务科学发现的大科学装置给予了高度重视,促进了基础学科的繁荣发展,然而在技术发明领域的工程技术试验平台方面,长期缺乏足够的关注。对比一下美国在这方面的布局情况,自2000年以来,美国持续构建服务信息技术创新的试验平台,如emulab、CloudLab、GINI等,为原始性创新提供了丰富的土壤。历史证明,美国通过前瞻性布局技术试验平台推动了美国在超级计算机、互联网、云计算、网格计算、分布式计算、星链等技术上的领先。
信息高铁综合试验场目前已经部署了九大试验场(如图7),布局在算力层、网络层、数据与应用层,分别是:国产算力芯片试验场、算力并网试验场、空天地无线接入试验场、CENI未来网络试验场、全国一体化算力网调度试验场、端边云低熵计算试验场、合肥可信数据空间试验场、模型工厂试验场、郑州/南京城市一体化算力网试验场。
图7:信息高铁综合试验场布局
三、算力
为什么算力会在智能时代热起来?简单对比一下互联网时代和智能时代的一个代表性应用对算力的需求,可以得到答案。一次典型的用户搜索,对计算资源的消耗在G量级(即10的9次方),而执行一次典型的LLM推理,对计算资源的消耗则上升至T量级(即10的12次方)。由此可见,LLM推理过程对计算资源消耗相较于用户搜索高出三个数量级,算力的重要性凸显出来。对计算资源的显著需求,成为制约人工智能技术普及到互联网应用那样程度的关键因素。尽管DeepSeek显著降低对计算资源的需求接近一个数量级,但相较于互联网应用,仍存在巨大差距。
算力的提法是借鉴电力,那么计算性能等同于算力吗?我们对算力这个术语的内涵,以及对应的英文单词Computility进行了阐述(见《中国计算机学会通讯》,2022年12月)。人们对计算能力的关注从早期单一的计算速度变到计算性能,关注的维度增加了,再演进到算力,内涵更加丰富。算力的简单理解是计算性能的通俗化表述(从算力产生的视角),其内涵拓展为消耗计算资源产生效益的能力(从算力消耗的视角),其本质是计算资源的共享与服务化。电力作为一种二次能源,由发电、输电、变电、配电及用电等环节构成了一个能源的生产与消费系统。类似地,算力也可视为计算资源的一种二次封装,而算力网则是由算力站、算力并网、算网融合调度、算力任务编排、算力数据传输及算力终端等环节,共同组成了计算资源的生产与消费系统。
计算成为算力需要核心三要素:计算二次封装、算力基础设施化、算力终端。
第一个核心要素,计算的二次封装,涉及对计算资源、计算架构、计算消耗的封装技术。计算资源的封装技术包括容器、任务闭包(task closure)、算力池等;计算架构的封装技术包括跨平台虚拟机JVM、CVM等;计算消耗的封装技术包括超算、智算、通算的算力单一计量方法(如BOPs),算力供给能力的量化单位(算力的“瓦”),用户端算力消耗的量化单位(算力的“度”)。
算力网中计算的基本抽象将会发生哪些改变?如图8所示,算力基本抽象包括原子化编排、资源空间管理、算力资源封装三个层次,按照技术的演进,算力基本抽象从<线程,进程,CPU时间片>,发展到<微服务,容器,虚拟机池>,再发展到<任务闭包,网程,算力池>。在IT 1.0的大型主机阶段,并行与分布式应用是在线程抽象的基础上构建,进程是对计算资源分配与调度的基本单元,可以跨CPU时间片运行;在IT 2.0的云计算阶段,实现了计算能力的虚拟化,微服务是云原生应用原子化编排的抽象,容器是对基础软硬件资源的封装,云应用可以跨虚拟机运行;在IT 3.0的算力网阶段,对全网计算资源要用“一台大电脑”的思想提供新的抽象,任务闭包可以在端边云异构平台上流动和运行;网程是对端上的物理机、边上的虚拟机、云上并网的算力池,进行统一封装,形成一个智能应用的私有资源空间;算力网上的异地、异属、异构的算力资源并网后,形成可一体化调度的算力池。
图8:计算的基本抽象演变
第二个要素,算力基础设施化,如图9所示,类比于电力的源网储荷,可以依次分解成四层:算力站、算力并网与算力数据输运、算网融合调度与算力任务编排、算力终端。
图9:算力基础设施化结构图
第三个要素,算力终端,这部分还没有收敛,使用算力的超级入口可能是AI4S模型工厂、AI终端、智能物端等。智能手机(移动终端)是云计算得以普及化的基石,同理,人工智能终端(算力终端)将成为算力服务普及化的基石。
四、数据空间
智能时代,数据发生了什么根本改变?
数据是一种客观存在(being),一直都是信息技术的关键要素,在智能时代,它被赋予了资源要素与价值加工两重新属性。资源要素属性是从经济学角度,强调作为经济要素数据的流通性,内容涵盖数据汇聚、处理、流通、应用、运营、安全保障等多个方面(参考“数据20条”政策)。数据要素化是数据生命周期不断外延的必然结果。如图10所示,数据的生命周期逐渐从单个应用,外延到组织,最终外延到整个社会。在第一个阶段,数据存在于特定的业务信息系统的边界内,产生了多种数据库;到了第二个阶段,数据需要在一个组织的企业信息系统的各个业务系统中共享流动,产生了数据仓库、数据中台技术;到了第三个阶段,数据存在于社会化信息系统中,需要最大范围地共享与流动,产生了数字对象、数据登记与数据交易所、数据件等技术。
图10:数据生命周期演化图
价值加工属性是从IT技术角度,强调对数据的深度加工与增值利用;智能大模型就是数据的百炼成钢,数据加工的需求涉及加工组件(如数据标注、数据件)、加工工艺(如广谱关联分析、深度学习算法)、加工动力(如算力网)等。
两个属性由此催生了新的技术体系,在数据“供得出”方面催生了物联网(数据获取)、数据标注等;在数据“流得动”方面催生了数联网、可信数据空间等;在数据“用得好”方面催生了数据件与数据场、AI-ready数据工程等。
在智能时代,数据的组织、流通、使用都发生了改变。
首先,智能时代数据是如何被组织起来的?不同时代的数据组织体系如图11所示。在计算时代,数据被抽象成文件,组织成文件系统,在网络文件系统中实现共享。在网络时代,数据被抽象成网页,组织成网站,海量网页被搜索和推荐引擎进一步重构成信息流,最终在万维网中实现了信息的全球共享。在智能时代,我们的构想是将数据件定义为数据的最小抽象单元,类似于钢铁加工中的铸件,它是铁矿石经过粗加工后形成标准化产品;数据场是数据件汇集的组织形式,在数据场中可以便利地进行数据深加工;在此基础上构建可信数据空间,支持在广域范围内进行私域数据的流通利用;在更高的监管层,形成国家数据空间,在此需要考虑体现出国家主权属性,如管辖权与治理权;进一步构建国际数据空间,依据国际社会形成的规范,实现数据的跨境流动。
图11:不同时代数据体系的构成
如图12所示,对比分析了国家主权属性在网络空间与数据空间的不同体现。在对外防卫方面,网络空间需要网络关防系统,数据空间需要数据跨境流通关防系统。对内治理可分成物理层、逻辑层以及内容层。在物理层,网络空间涉及网络基础设施的建设与运营,数据空间则关注数据枢纽、行业数仓等数据基础设施的建设与运营;在逻辑层,网络空间国家承担了IP地址分配、网站备案等管理职责,数据空间则涵盖了数据登记、数据交易所、战略数据储备等管理职能;在内容层,网络空间国家负责互联网内容的监管,数据空间则着重于数据安全的治理,如基础大模型预训练数据的安全治理。
图12:国家主权属性:网络空间 vs 数据空间
其次,智能时代的数据是如何流通利用的?相比于互联网时代的信息全球共享,智能时代的数据流通更加关注可信与价值释放模式。用于数据流通的可信数据空间应归纳成若干基本型,其定义可由<基本单元、空间结构、价值释放模式>三个维度进行界定。类比地,原子场、电磁场、引力场等物理场由<基本粒子或物体、力的相互作用、运动规律>三个维度界定了基本型。可信数据空间分为四个基本型,分别是:互联互操作型、可用不可见型、可信交换型、聚合加工型。
第一种类型为互联互操作型(如图13),其典型技术体系为数联网,可用<数据对象、数联网协议、Web信息流通模式>三元组归纳,该体系的核心思想是通过数据的相互联结、相互操作,实现数据价值的释放。第二种类型为可用不可见型(如图14),其典型技术体系为数据金库,可用<数据元件、数据金库、银行资金流通模式>三元组归纳,该体系的核心思想是通过集中式监管,实现对高价值数据的控制,支持数据的可用不可见。第三种类型为可信交换型(如图15),其典型技术体系为IDS,可用<数据集、IDS连接器、土地/房屋流通模式>三元组归纳,该体系的核心思想是通过一个具有公信力的组织或协会,实现数据的可信交换,数据交易所也属于这种类型。第四种类型为聚合加工型(如图16),其典型技术体系为数场,可用<数据件、数据场、图书馆知识流通模式>三元组归纳,该体系的核心思想是数据加工方主导数据流通,以类似于网络主播的商业模式实现广域范围内数据的有序汇聚,支撑数据的深加工。
图13:互联互操作型
图14:可用不可见型
图15:可信交换型
图16:聚合加工型
智能时代数据的使用方式主要是机器学习与大模型训练,需要发明一套数据件系统将原始数据变成AI-ready数据。数据件(Dataware)是数据流动与使用的基本单位,通过对异质多源数据的语义、结构、基本操作等进行标准化封装,使得数据本体与数据主体、数据应用“解耦”,让数据在不同使用主体、不同应用系统间可信流转。在云计算中,容器(docker)是对应用程序及其资源依赖的封装,让算法可以在不同平台上一键运行,同理,数据件让数据可以在不同的机器学习平台上被方便地加工利用(如图17)。
图17:容器(docker)和数据件(Dataware)
以AI大模型精调场景为例,通过数据件构造IDE实现预训练、指令微调、向量数据件的快速构造与组装,被大模型训练直接调用,可大幅简化传统数据工程的工作量(如图18)。
图18:AI-ready数据件组装工具
五、模型工厂
智能体(Agent)是模型基础设施的使用入口,模型工厂(AI Foundry)则是使用算力和数据基础设施来加工模型、部署智能应用的超级入口。
DeepMind公司研制的AlphaFold系列软件,在已经研究了70年的“蛋白质折叠”问题上,作出了突破性贡献,其领导者Hassabis 和 Jumper获得了2024年的诺贝尔化学奖。AlphaFold的获奖代表了科研范式的重大改变,是融合大模型、大算力、大数据、大团队服务科学研究的典范。那么,在科研领域如何支撑起成千上万个AlphaFold-Like团队呢?AI赋能行业应用如何达到互联网赋能那样的普及程度?这就需要为智能时代信息基础设施提供一个使用算力、算法、数据来加工模型的低门槛通用入口,模型工厂就是这样的一个平台。
模型工厂概念的提出借鉴了芯片代工厂在集成电路产业的定位与功能。芯片产业模式的变迁如图19所示,它从设计-制造一体化模式,演变到无制造厂(Fabless)模式(即Foundry),再演变到今天的集成芯片模式。其中,Foundry即芯片代工厂的意思,为芯片设计的普及起到了关键作用,促使了英伟达、高通等芯片企业的崛起。借鉴芯片产业,大模型的开发也可以分割成两个生态:场景与业务相关的大模型设计生态,和智能计算技术相关的大模型代工厂生态。
图19:芯片产业模式的变迁
在当前人工智能产业中,设计-制造一体化的IDM模式占据主导地位,国家与地方政府提供的大模型训练基础设施仍处于算力供应的初级阶段,商汤AI云、百度千帆等平台正逐步向大模型代工厂的角色迈进。当人工智能产业孕育出类似于芯片领域台积电、中兴国际这样的代工企业时,将催生出众多专注于大模型设计的创新型企业,专注于用好大模型的行业应用也会更加繁荣。相较于IDM企业,芯片代工厂拥有各自独特的优势,例如丰富的IP资源、多类型且极致优化的生产线、物理设计服务、制造产能、成品率等。同理,每个大模型代工厂也需构建自身的竞争优势,例如数据AI-ready能力、高效训练或推理流水线、弹性或轻量化部署能力、智算中心的性价比、算力网调度能力、丰富的Build-in模型库、开源模型储备库等(如图20)。国家数据流通利用基础设施在这个生态中可以起到为各行各业提供大模型代工所需的基础材料的作用。
图20:芯片代工与大模型代工
模型工厂的参考架构如图21所示,算力网是基础底座,功能区主要包括AI-ready数据件、AI训推平台、模型集市、智能应用等。图22给出了AI4S模型工厂更细化的架构,底层是模型、数据、算力三个基础设施,中间开发环境层包括五条AI生产流水线,上层是科学智能的三类用户接口。目前,AI4S模型工厂系统已经开发了七个子系统,包括:AI-ready数据件、高效训推平台、基于算力统一度量的算力优选、模型集市、算力网云函数开发平台、多智能体开发框架、智能应用服务平台。
图21:模型工厂的参考架构
图22:AI4S模型工厂架构
六、智能计算机
智能时代的终端包括智能硬件、可穿戴设备、VR设备等智能物端,智能机器人、人形机器人、自主无人系统等具身计算机,以及位于云端的智能超算,它们可以统称为智能计算机。
智能计算包含三个紧密耦合的核心要素:人工智能范式、核心智能应用、智能计算架构。归纳总结一下智能计算机的发展规律,在人工智能发展的初期(AI 1.0),符号主义范式占据主导地位,应用以专家系统为代表,曙光高性能计算机(HPC)是计算架构上的代表性成果,数值计算、数理逻辑和数据库等传统应用亦可视为属于符号主义技术路线。深度神经元网络出现后,连接主义范式成为主流(AI 2.0),深度学习与大语言模型成为核心应用,寒武纪神经网络处理器(NPU)是智能计算架构上的代表性成果。未来,当AGI来临时(AI 3.0),智能计算的核心要素三元组该如何演变呢?我们猜测,行为主义范式可能成为主要特征,具身智能应用与科学发现的智能范式将成为应用焦点,机器记忆机有望成为智能计算架构上的代表性成果。
李德毅院士在他的《认知机器如何创造》一书中提出了机器认知的四种基本模式(如图23),他认为:“在人类历史长河中,使用较多的是记忆驱动的经验模式(OOA),当人们对事物有了一定的认知,就能够运用知识对事物作出判断和推理,即运用知识驱动的推理模式(OODA),解决实际问题。人类的高级智能活动,无论是创造还是发现,都需要联想驱动的创造模式(OOCA)和假设驱动的发现模式(OOHA),这也是社会不断前进的真正动力。人类记忆是四种模式的共同交集。”
图23:机器认知的四种基本模式
再看一下人类是如何产生和加工记忆的。人类的记忆(memory)是一种信息加工系统,它对信息进行编码(encoding)、存储(storage)和提取(retrieval),记忆是形成人们的思维和行为的原料。Richard Atkinson与Richard Schiffrin率先提出记忆的三阶段模型,将记忆过程划分为三个主要阶段:感觉记忆(持续数秒)、工作记忆(持续20至30秒)以及长时记忆(长期)。信息都必须先经过感觉记忆和工作记忆的加工,最终进入长时记忆。工作记忆在这一模型中扮演着至关重要的角色,它负责信息的临时处理和操纵。从心理学的视角,Transformer模型正是基于对工作记忆机制的模仿与借鉴。
对人类来说,记忆是十分重要的智能,没有机器记忆,恐怕也很难创造出通用人工智能(AGI)。大模型只为AI提供了以“概念、常识和事实”为主的语义记忆(知识),完全不具备具身体验型记忆。为此,需要研究机器记忆机制,基于脑科学关于感觉记忆、工作记忆和长时记忆的三阶段记忆模型,针对程序性记忆、时空情景记忆、情感记忆和社会记忆等具身型记忆,构建记忆编码、存储和提取的计算模型,实现智能体的自主学习和持续发展。机器记忆系统通过积累与整合其与物理世界的交互经验,形成动态可扩展的世界模型和认知智能模型。
我们提出一个猜想,未来将会发明一种行为主义通用计算机——机器记忆机(如图24)。符号主义下的通用计算机就是传统计算机,也可以称之为布尔代数机,其核心组件是CPU和存储体;连接主义下的通用计算机就是机器学习机,其核心组件是GPU和模型库;那么行为主义下的通用计算机就是机器记忆机,其核心组件可能是PIM(Processor in Memory)和记忆体。PIM能够直接对内存中的数据进行原位处理,无需将数据频繁地传输到CPU进行处理,它结合新型存储器件,可实现数据的即时存储和即时处理,为智能计算机的发展带来革命性的突破。
图24:机器智能的通用计算机
图25给出一种具身计算机(EC)的参考架构,主要思想是基于不同的存储器件支持不同阶段的记忆模型,形成一个高效的OODA智能处理流程,并且将符号主义、连接主义、行为主义的技术路线紧耦合起来。智能流的输入是传感器,输出是执行器。在认知的OODA环中,物理感知小模型负责处理短期记忆任务(Observe),深度学习大模型承担工作记忆的处理(Orient),场景知识提取机制专注于长期记忆的管理(Decide),复杂运动控制则通过定制硬件操作PLC库实现(Act)。在通用CPU/GPU分区则运行智能体、数理逻辑、数值计算、数据库这些基于严格的数学符号表达的应用。
图25:具身计算机参考架构
最后,讨论一下对科研发现的智能范式(第五范式)的认识,它将影响Z级智能超算的技术路线。
我们将科学发现的五种范式统一到以信息流为流通媒介的OOHV范式上(如图26)。在观测阶段(Observe),通过观测仪器进行数据采集;在模拟阶段(Orient),借助数值计算与大数据分析技术进行数据处理;在猜想阶段(Hypothesis),依托科学家的专业知识与科学理论进行假设构建;在实验阶段(Verify),则利用科学装置进行实验验证。从信息科学的视角看,科学发现的过程就是OOHV不断循环交换信息的过程。不同的科学范式,就是从不同的切入点进入OOHV循环,科学实验范式从O1或V进入循环,科学理论范式从H进入循环,科学计算范式和科学数据范式从O2进入循环,分别利用数值计算和大数据分析辅助科学发现,而在每个环节都利用到了信息技术。第五种科学研究范式——科学智能范式,就是通过人工智能技术赋能OOHV的每个环节,主要用到的AI技术包括:科学数据机器学习、HPC+AI计算、科学猜想大语言模型、具身智能等。
图26:科学智能范式
AI赋能高度依赖训练数据,AI4S在OOHV的不同阶段的数据来源与AI技术挑战如图27所示。在观测阶段(O1),从不同学科的观察仪器获取的观测数据,由AI模型处理,给科研人员使用,技术挑战是AI模型要跟物理性质锚定;在模拟阶段(O2),训练数据是由数值计算算法生成的,构建AI模型的难点是对高阶函数的拟合,AI模型嵌入到HPC程序中;在猜想阶段(H),结合学科知识与行业手册构建大型语言模型,由科研人员进行推理,技术挑战是强逻辑链,不能出现幻觉;在实验阶段(V),从不同专业的实验装置获取的传感数据,由AI模型处理,给控制系统使用,技术挑战是AI模型要跟数学控制模型耦合。
图27:科学智能的数据来源
(根据孙凝晖院士在2025年计算所春季战略规划会上的报告整理)