磐霖Family
2022/04/02
阅读量:3425

CCF-A级IEEE INFOCOM2022收录PPIO云边资源优化框架“EdgeMatrix”

近日,PPIO边缘云联合创始人王闻宇(原PPTV联合创始人)以及PPIO边缘云首席科学家王晓飞(天津大学教授,国家级青年人才)提出了云边资源优化框架“EdgeMatrix”,其相关著作被收录至CCF-A级国际顶级学术会议IEEE INFOCOM2022

云边资源优化框架“EdgeMatrix”是PPIO核心技术团队就边缘云系统对海量异构网络设备管控所面对的诸多挑战所提出的框架,目的在于使边缘云系统在复杂网络环境下为用户服务提供强有力的SLA(服务等级协议Service Level Agreement)保证,所需求解时间降低了数十倍。

此前,艾瑞咨询发布了《2021年中国边缘云计算行业展望报告》,报告预计,到2030年中国边缘云计算市场规模接近2500亿元。海量异构的网络设备需要得到有效管控,而边缘云系统有望对其实施有效管控并助其真正实现无处不在的计算,与此同时,多资源异构、资源竞争和网络系统动态等诸多挑战也随之产生。

作为一家专注于边缘计算领域的全球化云服务企业,PPIO一如既往地将先进算法、技术与实际边缘云系统落地领域,对边缘计算行业做出持续的努力与卓越的贡献。此次“EdgeMatrix”的提出,体现了PPIO在科研学术上的专注,通过云边协同领域多年的经验积累,受到业内知名人士和实验室的关注及认可,形成了强有力的竞争壁垒。未来,PPIO将持续输出应用实践、项目经验、技术干货等分享,在促进边缘计算产业健康可持续发展的道路上不断贡献自身力量。

在此分享该著作的重点内容,英文原版可至PPIO官微下载

 

边缘云系统有望对海量异构的网络设备进行有效管控,真正实现无处不在的计算。然而,对于服务提供商而言,复杂的网络环境为保证服务等级协议(Service Level Agreement, SLA)带来了诸多挑战:多资源异构、资源竞争和网络系统动态。在本文中,我们为边缘云系统设计了一个框架EdgeMatrix,如图1,以保证多种SLA的同时最大化系统吞吐量。

图1 EdgeMatrix架构

 

首先,EdgeMatrix引入了网络化多智能体演员-评判家算法,将物理资源重新定义为逻辑隔离的资源组合,我们称每一个资源组合为一个cell。

然后,我们使用聚类算法将具有相似特征的cell分成不同的集合,每一个具有相似特征的cell集合称之为一个channel,其中不同的channel可以提供不同的SLA保证。

此外,我们设计了一种多任务机制来解决边缘云集群之间的联合服务编排和请求调度问题,与传统方法相比,显著减少了运行时间。

最后,为了保证系统稳定性,EdgeMatrix采用了双时间尺度框架,即在大时间尺度上协调资源和服务,在小时间尺度上调度请求。基于真实追踪数据的实验结果,验证了EdgeMatrix在复杂网络环境下具有「提高系统吞吐量,减少SLA违规,比传统方法显著减少运行时间」等优势,如图5。

 

动机与挑战

 

在云计算中,服务提供商可以基于SLA向用户提供可靠的服务。在本文中,我们基于云计算中的SLA思想,提出EdgeMatrix,它可以使边缘云系统在复杂网络环境下为用户服务提供强有力的SLA保证。

尽管在边缘云系统中基于SLA为用户提供可靠的服务可以显著提高系统效率,但在具体实施过程中仍面对三个固有的挑战:

(i) 多资源异构:地理分布的边缘节点具有不同的计算能力、通信能力和系统架构;

(ii) 资源竞争:不同类型的服务有不同的资源需求,造成不同服务之间的资源竞争,从而影响请求的服务效率;

(iii) 网络系统动态:由于用户需求和网络设备的随机波动,网络系统的请求负载和可用资源处于不断的动态变化中。因此,目前边缘云系统迫切需要资源重新定义的架构来满足用户的SLA。

 

技术挑战和解决方案

 

在本文中,为了更好地应对边缘云系统的三个固有挑战,我们的工作重点是资源定制、服务编排和请求调度,如图2。

图2 三大挑战及其应对方案

 

资源定制

 

网络化系统的多资源异构性给边缘云系统中用户提供可靠服务带来了严峻的问题,因为异构边缘节点增加了服务编排和请求调度的不确定性。设计传统方法来考虑系统中大量的异构节点是具有挑战性的,即大量的约束导致算法过于复杂甚至无法解决。

因此,我们引入了网络化多智能体演员-评判家算法,为边缘云系统中的各种用户服务提供定制的隔离资源,通过离线集中训练和在线分布式执行提供轻量级模型并提高系统稳定性。具体来说,我们将边-边节点(横向)和边-云节点(纵向)的资源进行定制,形成逻辑上隔离的资源组合,称为边-云系统中的cell。

我们进一步将具有相似特征(资源、延迟等)的一组cell称为channel,这意味着每个资源通道对应一种SLA。宏观上,channel也可以分为横向和纵向两类。如图1所示,我们将此框架称为 EdgeMatrix。

图3 大时间尺度下资源定制器的工作流程

 

服务编排

 

服务之间的资源竞争会导致SLA得到保证的请求数量减少,即吞吐量减少。想象一个场景,一个服务占用了一个节点上的大部分内存资源,在这种情况下,即使其他服务只需要很少的内存资源,编排也会受到严重的不利影响。因此,我们设计在EdgeMatrix中基于混合整数线性规划,解决多种资源异构下的服务编排问题,以减少资源竞争的负面影响,并通过并行运行多任务机制显著减少解决方案的运行时间。

图4 双尺度框架下的服务编排器和请求调度器的工作流程

 

请求调度

 

网络系统的动态对调度算法的适应性提出了重大挑战。请求调度是确定请求是否可以被成功服务的最后一个环节。面对网络化的系统动态,请求调度算法的设计对系统的鲁棒性起着至关重要的作用。具体来说,为了保证系统的稳定性,我们采用了双时间尺度框架来协调EdgeMatrix内的每个组件,如图3、图4所示:在大时间尺度(frame)依次进行资源定制和服务编排,在小时间尺度(slot)进行请求调度。

 

性能与评测

 

我们基于真实的数据集得出的数据表明EdgeMatrx能够很好的应对边缘云系统中的多资源异构性、资源竞争、网络系统动态性这三个问题。例如我们通过调整节点之间的资源方差以设置不同的资源异构性,实验结果显示EdgeMatrix在资源异构性最强比最弱情况下的系统性能仅下降了3.9%。此外,相较于在传统的系统中执行服务编排和请求调度,在EdgeMatrix的环境中执行这两步操作所需求解时间降低了数十倍。

图5 实验效果图

 

接下来,特别针对K8S@edgeAIOps@EdgeSDN@Edge三项技术体系展开介绍。

 

异构服务的统一编排——K8S@Edge

 

K8s@Edge敏捷部署系统,可基于原生Kubernetes提供以容器为核心的管理服务,完全兼容原生Kubernetes,具有安全隔离、高资源利用率、秒级弹性、轻运维与灰度发布功能,支持统一编排、业务快速接入,能够服务于客户轻松实现云边一体化协同

图6 K8s@Edge敏捷部署系统架构图

 

边缘云系统的自动化运维——AI Ops@Edge

 

AI Ops@Edge基于大数据和人工智能的智能调度算法,使资源在细颗粒度下进行精确调度,可提升资源的利用率。具体来说,PPIO研发了一整套经济学的撮合机制,参考了博弈论的知识,既考虑供给节点的效益,也考虑需求业务的效益,建立了一套交易和调度模型,大大降低了错误调度、重复调度,使得系统内资源利用率以及整体调度效率得到有效提升。

图7 AI Ops@Edge基础架构

 

资源虚拟化技术——SDN@Edge

 

SDN@Edge重构了服务器间的网型架构,建立一套高效虚拟的传输网络,降低传输成本50%以上,使容忍弱网环境成为可能,从而提升用户体验。我们采用数据驱动的多点下载技术和抗网络丢包的弱网传输技术,在播放超高清视频的时候,流畅度比传统CDN提高300%以上。

 

关于中国计算机学会(CCF)

CCF是中国计算机学会(China Computer Federation ,简称CCF),成立于1962年,是国内首个中国计算机领域的全国一级学会,代表了国内计算机行业的最高级别产学研团体。CCF针对国际知名学术会议和期刊进行了分级评定,其中A级收录个数占比仅为13.9%,计算机网络领域的A级会议总共有4个,IEEE INFOCOM则位居其中,是计算机网络领域40年来权威的学术大会。

IEEE INFOCOM是全球网络通信领域学者的盛会、大会,因为其规模宏大、收录论文包罗万象、评委团阵容强大,数百人的评委团几乎包括了全球网络通信领域所有一流的研究者。INFOCOM对其论文的质量要求严格:新颖、有价值、观点清晰、证据合理,因此正式论文的录取率近几年一直控制在20%以下,其中2022年全球范围内仅录取了227篇。

 

来源:PPIO