在近期召开的中共中央政治局常务委员会会议上,中央明确提出要加快5G网络、数据中心等新型基础设施建设进度。这是近年来,数据中心首次被列入加快建设的条目,数据中心作为新基建中的一个亮点,引起了业界的高度关注。
区别于传统基建,新基建主要发力于科技端,主要包括5G建设等七大领域。随着互联网进入云2.0时代,行业云兴起,更多的企业成为云化、数字化的主角,5G、云计算、工业互联网等新一代信息技术的应用离不开海量数据的处理、存储和软件的云化。随着新基建的推进,云计算服务部署提速,相关设备及服务需求增加,数据中心作为底层基础设施有望持续增长,数据中心建设及扩容的步伐也会相应加快。
从中长期看,数据中心等数字经济领域的基础设施应该在技术和资金允许的情况下适度超前布局,带动应用市场的繁荣。在当前大国科技竞争的大背景下,加大对新基建领域的投入,有助于稳增长、稳就业,释放国内经济增长潜力,有效缓解新冠肺炎疫情对全国经济的冲击,缩小与发达国家的数字鸿沟。可以预见,新基建来袭会对数据中心产业产生重大影响,势必将开启新一轮增长期。
数据中心规模化效益凸显,超大规模组网亟需破局
互联网行业的蓬勃发展带动了数据和流量不断向数据中心聚集。为充分发挥数据中心的规模效益,大幅降低业务部署成本和维护成本,运营商、互联网、云服务提供商等行业中的大型公司纷纷建设了超大规模数据中心。自2013年以来,超大规模数据中心的数量增长了两倍,其中以亚马逊、苹果、谷歌、Facebook和微软为首,单园区最大服务器规模已经突破30万台,很多大型园区服务器规模在2万台到10万台之间。到2019年第三季度末,这些大型数据中心中有504个正在运营,还有超过150个新的超大规模中心正在建设中。
可以预见,在新基建的推动下,撒胡椒面式数据中心投资建设方式或将成为过去,更多的集中式、大手笔的投资方式将加速超大规模数据中心的建设。在这个大背景下,如何继续提高数据中心规模化效益,构建更大规模的数据中心网络,是每个数据中心架构设计师都要面对的挑战。
组建超大规模数据中心主要受限于两方面的因素:一个是业界主流的交换网络设备的转发能力和端口密度;另一个则是网络架构设计思想,需具备极高的可扩展性和可管理性,以期能按POD进行数据中心网络的交付,并最终具备灵活扩展到承载更大规模集群的能力。目前业界主流设备已经可以提供基于12.8T芯片、支持32个400G端口的TOR交换机,预计2022年将会出现50T以上的大容量芯片,支持64个800G端口以及最新的112G SerDes技术。
同时,数据中心网络已经从最初传统的3-Tier架构演进到扁平化、无阻塞的叶脊(Leaf-Spine)架构,并基于这种架构还在不断进行迭代演进。Facebook去年公开了其新一代的数据中心架构F16,在spine平面对其上一代数据中心架构F4进行扩展,把4个128端口、400Gbit/s交换机升级为16个128端口、100Gbit/s架构的交换机,并采用Minipack spine交换机和基于Tomahawk-3(Minipack)、Tomahawk-2(Wedge 100S)ASIC的Wedge 100S交换机,据称可以拥有4倍于F4架构的容量,更加方便升级和使用。可以预见,未来在业界的共同努力下,数据中心在网络架构、设备转发能力以及端口密度等方面有望取得新的突破,以支持更超大规模的数据中心组网。
无损、智慧、开源或成为数据中心网络能力的三驾马车新基建势必将推进5G、AI、大数据、云计算等业务飞速发展,这些新业务对网络,尤其是数据中心网络在转发效率、高效运维、开放架构等诸多方面提出了更为苛刻的需求,未来数据中心网络需要在无损、智慧、开源这三大方面全面提升能力,为新一代业务应用保驾护航。
无损数据中心提升网络确定性和高效转发能力
未来在公有云、人工智能等应用中将广泛采用语音交互、图像交互等新型的技术,这些交互服务通过访问线上数据库、云数据中心等来满足不同需求,诸如浸入式体验、全息通信、机器人看护等应用。由于这些应用需要通过网络传输和处理大规模多媒体信息,且设备密度和总信息量巨大,需要数据中心网络在极短时间内将大量的数据转换成实时的信息以及行为,保证交互服务在后台访问的时候能够避免丢包,减少时延并提高吞吐量,由此对数据中心网络提出了无损转发的需求。
目前,无损网络技术已经在互联网、金融等行业得到应用。以某银行业为例,基于无损网络技术,在数据中心引入智能拥塞调度手段来加速网络通信,经实测最终存储集群IOPS性能提升了20%,单卷性能达到35万IOPS,可以为用户提供像访问本地盘一样的使用体验。随着人工智能的飞速发展,工业控制、远程医疗、自动驾驶等越来越多的应用将走入我们的生活,而无损数据中心网络无疑为我们提供了一个极佳选择。
智慧化能力有望解决海量数据中心运维困境
数据中心规模扩张以后,设备数量呈倍数增长,设备种类也大大增多,如何实现海量设备的统一管理,实现业务到网络的联动,提高运维效率,降低运维成本,是大规模数据中心急需解决的问题之一。此外随着云、SDN、NFV等技术在数据中心加速落地,转控分离、三层解耦以及统一编排等技术引入也使得数据中心业务逻辑愈加复杂,故障排障难度大幅提升,传统运维模式已经难以为继。
基于AI和Telemetry的智能运维是利用数据智能替换人工经验,期望在自动化的基础上实现遥测、大数据分析、机器学习和网络引导等功能,监控和管理潜在的网络安全问题,帮助数据中心更快地适应不断变化的业务需求,提高运营的洞察力,最终实现基于意图的网络。
当前网络智慧化产业处于蓬勃发展中,重点集中在网络开局部署、网络变更校验、故障智能定界/定位、故障预测、业务分析以及预测等方面,寻求在数据采集、大数据分析、AI、决策闭环等环节实现精细化检测和可视化管理,变被动运维为主动运维。虽然目前还受制于AI学习模型的精确、网络设备特性不足等制约因素,但人工智能的发展必将引发再一次网络运维的变革。
开放架构设备催生数据中心新的产业生态
数据中心开放式的架构给白盒交换机提供了发展良机,白盒交换机与传统交换机的区别在于:白盒交换机采用开放的体系架构,可实现硬件与软件的解耦,需要部署一套集中的网络操作系统。
目前SONIC操作系统逐渐成为白盒交换机的事实标准,SONIC通过SAI层,将交换机进行接口抽象设计,向上提供统一的API接口,向下对接不同ASIC芯片,彻底解决了上层软件需适配不同ASIC芯片的问题。此外,芯片层面也不断开放,通过可编程接口来自定义芯片对于数据包的处理逻辑,实现按需添加新功能、新协议或者对原有协议进行优化等能力,极大提升了灵活性。
随着白盒交换机生态系统的发展,硬件、网络操作系统以及协议软件等逐步成熟,越来越多的客户投入到白盒交换机的研发和使用中,尤其在互联网行业,基于开放架构的白盒交换机已经在大型互联网公司的云数据中心规模部署。随着业务的精细化发展,对网络的定制化的需求越来越多,自主可控的开源设备将会发挥出更大的作用。