孙凝晖:对信息技术新体系的思考

(孙凝晖 2021年3月25日)

  对信息技术新体系的判断,除了要依据信息技术发展的宏观趋势外,还要放到新全球化下中国在世界的位置这个大背景下思考。以下是我对构建计算技术新体系以及相应的科研工作新模式的一些个人思考,跟大家分享。

  一、构建计算技术的C体系

  1. 从处理器生态看为什么中国需要C体系

  在智能时代,中国是继续跟随美国的技术体系,还是发展自己的技术体系?自己的技术体系未来能在新全球化的大环境下走向世界吗?


图1:中国处理器生态发展图示

  拿处理器来举例看当前的生态情况。图1是表示了处理器生态的发展演变趋势。处理器作为信息技术的底板,有生态和应用两个维度,可以画成九宫格形式。从生态的开放性,可以分成闭源指令、可授权指令和和可扩展指令;从应用的时代划分,可以分成服务器/桌面的IT 1.0阶段,移动应用的IT 2.0阶段,大数据/AIoT的IT 3.0阶段。有一条主线位于对角线上,也就是贝尔定律(注:每10年出现一类新的计算机种类,数量增加10倍),这条对角线是正面战场,是信息化中数量占比最大的部分,最早是Wintel,然后是ARM/Android,未来也许是RISC-V/泛在OS。图中还有两个生态,横的框标记的是PC处理器生态,纵的框标记的是服务器处理器生态。

  我们也可以从另外一个角度看,处理器的总体格局本质是三个生态控制体系的格局,简称为A体系、B体系、C体系。A体系是美国控制的生态,源自上世纪90年代美国主导发展的信息高速公路技术体系,历经40年,从中国的角度来看是“离了你我不行”,与美国捆绑,避免硬脱钩。B体系是中国为了国家安全必须打造的自主可控技术体系,是中国控制的生态,从关键技术角度以对美国技术体系进行仿制跟踪为主,以根据国内需求进行创新为辅,从中国的角度来看是“离了你我也行”,通过实施“信创工程”做原位替换,历经20年,我们守住了底线,但是它的适用空间还是有限的。未来30年,我们要面向智能时代构建C体系,它是中国与世界共建的技术体系,是世界控制的生态,从关键技术的角度我们要有原创性、基础、核心层的技术贡献,既解决中国的问题,也要解决世界的问题,从中国的角度来看是“我与你共建平衡”。新建科研机构在这方面要能起到引领作用。

  A、B、C三个体系都很重要,缺一不可,跟计算所有关的几个代表性公司都是构建3个体系的骨干力量之一。A体系的代表公司是海光,目标是依靠成本、人力和政策优势,最大限度地满足信息化主战场的需求,挤压主要竞争对手的利润空间;B体系的代表公司是龙芯,目标是为“全面脱钩”做好准备, 保障国内核心部门与关键行业的基本需求;C体系的代表公司是寒武纪,目标是依靠原创技术的领先优势,与主要竞争对手争夺未来的主流市场、国际市场的超额利润、特别是全球生态主导权。

  2. C体系的五项基本设计原则

  C体系是面向智能时代的新需求、新挑战、新市场的,在两个维度扩展开来,一个是贯穿芯片的负载、设计、制造工艺等,另一个是贯穿信息基础设施的端、边、网、云。做任何一件事情背后总是有一些哲学理念,这里也思考了一下C体系设计背后的基本原则,图2这些原则不是成功的充分条件,是必要条件,足够引发大的变化。总的理念就是要利用好中国特色,把集体意识强、执政能力强、场景多、工程师多、市场规模大这些我们的优势发挥出来,下面一一展开论述,其中“战胜”的对象是原有技术体系的一些核心技术原则。


图2:C体系的五项基本设计原则

  第一,内置安全机制战胜外挂式安全机制。A体系是按照外挂式安全方式设计的系统安全机制。什么是外挂式安全,打个比喻,就像设计房子,一开始设计的时候没想到要抗震,也没想到要防盗,设计好了之后,才想到要加固房梁,装防盗门、防盗窗、摄像头,门口还养一只狗,这叫外挂式安全。在信息系统设计中也是如此,不管是传输层、网络层还是计算层,都没有考虑安全。在传输层,传输技术基于香农定理设计,重在容量提升,忽略安全;在网络层,基于TCP/IP协议、DNS和PKI,安全也都是打补丁,网络架构也没有考虑安全;在计算层,冯诺依曼计算架构在上世纪50年代提出时,重在提升计算性能,也未考虑安全。未来要把安全“基因”内置在系统设计中。

  第二,开放跨层优化战胜分层优化。目标是要在传统信息技术分层发展模式的基础上,通过制定接口与标准规范,发挥中国的体制优势,实现产业界的跨层垂直优化,提升系统性能。如图3所示,首先对比信息技术体系和火箭技术体系构建上的不同,火箭技术体系是底座很大,越往上越小,最上面是重载火箭,所以不容易被制约。信息技术体系是越往上越大,上面是应用、软件,下面是设备、芯片、工艺,越往下越小,这里说的小是指市场小,所以很容易被制约。A体系是分层优化的,Intel在一层,IBM在一层,Google在一层,每一层自己去优化,好处是这种方法在每一层做好了都可以是一个伟大的公司,坏处就是很难跨层垂直优化。国际巨头IBM曾经采用工艺、材料、芯片、设备、软件、应用的全栈贯通式布局,在银行、保险等高价值领域获取了巨额利润。但在互联网时代,被Google、Intel、TSMC等分层优化企业用更高的性能价格比打败了。所以我们需要发展出性价比更高的垂直技术体系,做到既保持分层的优势,又要有垂直优化的能力,才能突破高市场壁垒。


图3:信息技术体系的结构图

  第三,多态场景加速战胜数种通用芯片。美国国情是人少、工程师少、高价值市场大、半导体制造业先进,对美国来说最经济合算、有效的就是用数种CPU+GPU通用芯片,依靠先进的半导体工艺,覆盖广阔的场景。我国国情是人多、工程师多、场景多、市场更大也更加碎片,半导体制造业相对长期落后,那么我们是不是可以用100种面向专门领域的芯片,依靠第二项原则软硬贯通优化,来获得竞争优势呢?最近寒武纪研制的思元270 NPU芯片,执行AI任务的综合性能功耗价格比是同期NVIDIA通用GPU Tesla V100芯片的10倍以上,就是一个多态场景加速的例子。

  第四,高并发实时处理与传输战胜片面追求高性能。中国人多、资源相对少,所以面临更加严重的高并发问题。美国可能这个问题就轻得多,他们人少、资源多。就像早高峰堵车一样,车很多的情况下,出入口设计如果不合理,测调能力如果也没有,那基础设施投入的有效性会在一个拐点急剧下降,这就是我们提出高通量概念的动机。国家高通量信息基础设施的目标是,将数据量提升1000倍以上,带宽提升100倍以上,支持实时连接千亿物端,降低处理延迟5倍以上,端到端延迟可达毫秒级,实现数据传输与处理的协同优化,能有效支持实时延迟敏感类的应用。

  第五,敏捷开发方法与开源生态战胜创新门槛高应用生态垄断。敏捷设计是应对碎片化应用场景的最有效方式,开源是打破技术垄断的最有效进攻方式。通过极致优化形成成本优势,抢占中低端市场,将竞争对手压向高端,赢得时间窗口,是以弱胜强的有效策略。我国的制造业就是这么发展起来的,为什么贸易战我们不怕?是得益于制造业极致的成本优势,把中低端全部占有,做到无可替代,然后再一点点往中端、高端走。回顾开源生态在“人机物”各个阶段的历史作用,在“机”的时代,操作系统开源,导致IBM被X86替代,Intel占据数据中心90%的市场就是得益于开源Linux;在“人”的时代,APP的开源,导致X86被ARM取代,智能手机行业得益于开源Android;现在是“物”的时代,开源的泛在操作系统加上开源的指令集,是否导致ARM被RISC-V替代呢?

  这里列举了一个在科学院内构建C体系芯片的一个“配置”:1)用于国产28纳米工艺的光刻机、光刻胶、大硅片,2)超高性能价格比的28纳米制程技术,3)开源的EDA工具链、开源CPU核、开源关键IP、开源芯粒(Chiplet)技术,4)云化的芯片敏捷设计工具与平台,5)芯片设计的普及教育与培训,针对海量场景打造领域专用体系结构DSA芯片创新平台。

  3. 基于C体系的计算所网络计算方向科研布局

  基于C体系的信息系统生态的特征是开放、可控、安全、联邦制。首先要开放,经济发展的双循环强调以内循环为依托的新全球化,必须更加开放。同时也要可控,不能被制约,还要安全,支持物理世界与虚拟世界的深度融合,对安全的要求更高。为什么提出联邦制?IT学科跟科学发现学科不一样,信息技术跟经济与社会是很紧密联系的,发展IT技术的策略必须考虑经济的要素。类比于政治制度,欧盟是典型的联邦制,美国各个州也是联邦,我们能不能用联邦制构建信息产业的新生态,按照习近平总书记的指示精神,“共建人类命运共同体”,也许是中国IT产业重新迈向全球化的一个新思路。

  图4是把计算所的网络计算部分工作根据C系统的思路做了一下梳理,分成芯片、系统、互连网络、分布式系统、应用等层次。在芯片层,计算所有高通量CPU、NPU、DPU等多态加速器;在系统层,有高通量计算机、智能计算机、边缘物端计算机等新型计算系统;在网络层,有虚拟路由器、天地一体接入网等新型网络设备;在分布式系统层,之前没有部署,未来要做算力网,其实计算所提出的信息高铁信息基础设施的本质就是算力网,过去的信息高速公路本质是数据网,信息高铁本质是新一代的广域分布式系统;上层是应用层,舆情、农业、纪检等信息化都是我们信息高铁专列。各层之间有些是依赖关系,有些是支撑关系。


图4:基于C体系的计算所网络计算方向科研布局

  二、构建新技术体系需要科研新模式

  1. 科研新布局


图5:十四五期间计算所的科研布局

  如果我们要建C体系,科研工作要有新模式。首先,C 体系与信息高铁是什么关系?狭义的理解,C体系在计算所内就等于关键核心芯片,广义的理解,还要加上信息高铁,加上智能计算系统,加上数据科学与计算智能,三横一竖,竖是智能计算系统,可以把芯片、系统和数据科学连起来,关键核心芯片是底座,信息高铁是信息基础设施,数据科学与计算智能作为C体系的时代驱动力。计算科学、网络科学是曾经的驱动力,IT 1.0时代主要靠计算科学驱动,IT 2.0时代主要靠网络科学驱动,IT 3.0时代是靠数据科学与计算智能驱动。

  对计算所来说,做智能算法和做应用的研究,要起到类似“机头”的作用,要与信息高铁“专列”、智能计算机“专用机”、 关键核心芯片“DSA专芯”紧密耦合,带动整个C体系的大势前进。

  2.协同新模式

  构建新体系比研制一个新设备要复杂得多,需要多个团队的紧密协同。如果用军队作战来类比,一个研究所就像一个军分区,研究中心是基本作战单元,是个独立团,研究所最擅长的组织方式就是独立团各打各的仗,好一点的创办一个企业,形成研究中心与企业的协同模式。构建新体系需要总指挥制,能够指挥多个团队打一场目标明确、混成协同的战役。计算所目前还没有这个组织能力,也没有这样的模式,建立总指挥制的协同新模式在未来是非常重要的。

  举几个协同科研的例子,比如信息高铁,计算所需要指挥N个研究团队+M个企业+1个南京研究院共同参与;智能计算机需要计算所N个研究团队+之江实验室1个研究中心+军科委1个创新中心共同参与。我们要学习AVS模式的成功经验,队伍分布在全国各地,合起来干一个大一点的事情。未来怎么利用科学院四个大学计算机学院的教育资源,计算所企业家俱乐部的产业资源,怎么联合更多的力量,这是我们要摸索实践的。

  另外计算所科研工作还要跟中关村、紫金山、之江等这些新型实验室建立紧密耦合的合作关系,这样团结起来才能打大仗、打硬仗,在国家科研攻关大局中发挥计算所独特的作用。

  3. 四个圈新关系

  十多年前计算所做规划时把计算所的外部关系归纳成四个圈,即计算所本部、可达、可控、可管四个圈。在构建新体系的新形势下,计算所外部关系的四个圈的位置关系发生了变化。四个圈不是从中央到外扩散的关系了,而是不断放大、耦合的关系。如图6所示,计算所本部不是在中央了,而是在左边,是源头,然后是计算所的企业、国家实验室、F4大学(科学院的4所大学),然后是联合实验室企业、合作大学,最后是图灵企业(计算所图灵基金投资企业)、ICT企业家俱乐部、校友会等,是一个耦合的关系。这就像用很多棋子布了一个局,如何共同做事?相互之间靠什么串起来,靠权力?靠资本?靠人脉?还是靠理念?这是我们要思考的。


图6:四个圈的计算所内外关系

  4. 学术讨论新境界

  最后构建新体系需要建设学术讨论的新境界,包括三个境界。第一个境界叫做论事,例如信息高铁紫金山论坛;第二个境界叫论学科,例如通信计算融合香山论坛;第三个境界,叫论思想,例如盘古学术道场。构建新体系需要好氛围,谈事、谈学,谈道,缺一不可。

(根据孙凝晖院士在2021年计算所春季战略规划会上的报告整理)

附件: