本文作者宗志刚(花名瑄珉),网络领域从业十五余年,现任阿里云网络产品线资深技术专家,负责阿里云网络洛神平台的技术规划、架构设计以及网元产品研发工作。在刚刚过去的云栖大会上,宗志刚做了“洛神3.0:应用-云-边-端一体的新一代云网络平台”的主题分享,详细阐释了阿里云新一代洛神云网络平台的技术架构升级。本文根据作者的演讲内容整理而成。
到今天,阿里云网络产品已经演进到了第三代。
云网络1.0时代,主要实现数据中心云化后的多租户隔离的网络,它的技术特点就是在云上Region内实现了大规模的overlay网络。
随着企业上云的步伐加快,越来越多的企业上云,特别是大型、超大型企业上云,因为全球服务的要求,云网络不仅要支持数据中心内部的网络,还要支持多个数据中心的全球互联,同时云上/云间的流量激增,企业的业务也丰富多样。这个阶段的网络,我们称为云网络2.0时代。
在技术上,支持跨域网络的虚拟化,同时为了提供性能更高、灵活性更好的网络,软硬件一体化、云原生方式的弹性架构,开始规模化应用在云网络中。从2020年开始,云网络产品和技术逐步走向边缘和应用,支撑5G/IoT应用的上云,我们定义为云网络3.0时代。
阿里云网络产品技术平台叫洛神,它是阿里云飞天操作系统的内核组件之一,负责网络的虚拟化,与计算虚拟化平台神龙、存储虚拟化平台盘古以及物理资源管理平台天基共同组成了飞天的内核基础,并向上支撑构建了阿里云丰富的IaaS、PaaS产品。
洛神·云网络平台的总体技术架构,是一个非常典型的SDN+NFV架构,最底部是物理网络基础设备,提供网络最基础的连通能力;向上是转发面,洛神平台使用多种类型的资源来进行数据面的转发,例如传统的x86裸金属服务器,国产化ARM CPU,还有目前已经规模应用的可编程芯片;在转发数据面之上,构建了一个NFV平台,叫CyberStar平台,用于管理底层不同的转发资源,提供统一抽象的能力,例如弹性资源扩缩容能力,资源异构屏蔽能力等,提升上层业务网元的研发效率;在此之上,是业务网元自身的转发逻辑。在控制面,洛神平台使用集中式的SDN控制器,实现各网元的业务编排。另外,为了保障整个网络的高效运维和运营,洛神平台还构建了一个智能运维分析平台,内部叫做齐天平台,依靠大数据驱动,实现网络的智能运维和运营。
当前在网运行的阿里云网络规模部署的是洛神2.0平台,简单来说,它是一个三位一体网络:
首先,云网一体:主要是阿里云网络资源的覆盖已经全球化,目前已经有24个Region,75个可用区,280+个POP接入节点;
其次,软硬一体:主要体现在数据面,使用FPGA以及可编程芯片方式,极大提升了数据面转发性能,其中VPC网关单台可达到3.2T,不仅满足超大类型客户的转发性能需求,还可以提升大象流的吞吐,提升网络的可靠性;
最后,伸缩一体:阿里云网络的应用网元,基于洛神CyberStar NFV平台,可以实现阿里云网元任意规格分钟级的弹性。
从2020年开始,我们启动洛神3.0的研发,其关键的场景是应用-云-边-端一体化的智能化网络。网络最核心的价值是连接——连接应用,连接端,连接不同地域不同类型的网络;应用-云-边-端一体的连接场景,我们总结成三种主要连接方式:
应用-云-边-端一体化的场景,对云网络的技术提出了更高的要求,总结下来,包括如下几个方面:
针对云网络3.0时代的应用场景对技术的要求,洛神3.0开启了相关技术的研发,也取得了一些阶段性成果:
云边端一体,中心云延伸到边缘,包括客户的IDC;为了提升体验以及统一运维,需要VPC从中心延伸到边缘,而不是独立的数据中心,这就要求网络的管控系统依然是统一的,但是管理系统管理的网络范围和实例数会大大增加,管理链路的环境也会增加很多复杂度,在此种环境下,洛神平台的管控系统进行了开发,其中最重要的变化是我们统一的各种网关的南向,采用新的内存数据库抽象网关不同对象之间的关系,做到联动下发,批量下发,来提升管控的处理性能,支持例如单VPC千万实例,亿级配置,每秒千条路由刷新的能力。
在数据面,边缘的场景非常多样化,因此造成了一定的复杂度,但有一个共性,就是空间有限,对成本敏感,但功能特性一个都不能少,流量模型还具有多样性。在这个点上,洛神云网络平台对VPC网关设备做了融合处理,这里的融合不仅是简单的部署在一台物理设备中,底层的转发资源也做了池化,以便及时应对不同资源模型,同时也要保证架构上的解耦,与中心云的网关架构保持一致。
上面主要是网络连接广度方面的一些技术,在纵向深度上,简化应用的连接,我们提升了阿里云洛神CyberStar平台的能力,将服务链的能力集成到平台中,这样基于CyberStar平台的网元之间可以非常简单地实现连接,例如最近在公测的NAT FW产品,用户不需要配置任何路由,只需要勾选集成的产品选项,就可以实现NAT和FW之间的自动引流,大大简化了应用的连接复杂度。
最后,网络连接得更广、更深,网络的边界在扩大,网络运维运营的复杂度也会大大提升,网络的控制面是针对单网元的,是一个垂直化的部件,但是网络是一张网,需要全局视角,例如某个网元转发流量下跌,到底是自身问题还是底层vswitch问题,还是EIP问题;例如版本发布变更,业务是否全部恢复,都需要全局视角。针对这些场景,洛神平台升级了齐天大数据智能分析系统,齐天系统已经开发并稳定运行了数年,之前更多是内部使用,保证整个洛神云网络的平稳运行,为我们对外提供的云网络产品和服务保驾护航;洛神3.0开始,我们也推出了产品化服务——NIS网络智能服务,采用与齐天大数据系统相同的架构。
这是齐天大数据平台的总体架构,相关监控数据会采集到数据中台层,进行数据格式的标准化,统一数据访问接口,最终由云网络智能算法平台使用相关的算法模型对这些数据进行清洗、分析,得到关于异常的检测、关联、根因的定位以及网络优化信息,并通过API传输给网络运维工程师和云上的用户。