介绍gydF4y2Ba

近年来,技术景观已经迅速整合物联网(物联网)驱动的基础设施gydF4y2Ba1gydF4y2Ba。这一转变的根本驱动因素一直在增加计算能力以及降低成本的计算设备gydF4y2Ba1gydF4y2Ba。计算已成为提供负担得起的和可以实现的,大量的从物联网传感器和致动器生成的数据推动的增长模式,如边缘和云计算gydF4y2Ba2gydF4y2Ba。避免发送所有数据云高communication-latencies后端,利用计算资源在近期解决方案gydF4y2Ba边缘gydF4y2Ba网络的gydF4y2Ba3gydF4y2Ba。有资源接近用户有助于减少数据处理时间,提高用户预期的服务质量(QoS)gydF4y2Ba3gydF4y2Ba。然而,由于计算资源数量的增加和应用程序工作负载在小时间尺度表现出不稳定的波动,这样的资源管理变得更加复杂gydF4y2Ba4gydF4y2Ba。静态heuristic-based解决方案是无效的在这样的设置,和现代的解决方案依赖于数据驱动的方法,如深度学习(DL)。一个这样的DL的方法,即深层神经网络(款),已成为越来越受欢迎的在管理混合edge-cloud平台。在基础款方法有效地处理大规模的计算基础设施,由于建模精度高和不稳定的适应能力设置如果提供足够的数据gydF4y2Ba4gydF4y2Ba。在这项工作中,我们利用款edge-cloud计算平台有效的资源管理变革计算景观和优化服务交付。gydF4y2Ba

挑战gydF4y2Ba

高效的资源管理问题edge-cloud平台是具有挑战性的。这是著名的任务调度的情况下,这指的是放置在可用资源的任务优化QoS。输入任务的数量和edge-cloud设备增加,有效地调度任务成为挑战gydF4y2Ba5gydF4y2Ba。这是大多数现代应用程序的非平稳特点加剧了gydF4y2Ba6gydF4y2Ba。即使现代的基于神经网络的解决方案,大多数方法都不能有效地适应非平稳的场景。特别是,作为神经网络训练一组pre-collected数据,他们倾向于gydF4y2Ba学习gydF4y2Ba在给定数据数据模式。这些数据的形式可以是应用程序的执行踪迹edge-cloud环境,包括资源利用特点,如CPU、内存、磁盘和网络带宽消耗的计算设备上运行的工作负载。然后训练款可以预测,例如,利用特征在未来的步伐,促进网络资源管理。这也允许我们使用神经网络gydF4y2Ba代理人gydF4y2BaQoS得分,帮助优化gydF4y2Ba6gydF4y2Ba,gydF4y2Ba7gydF4y2Ba。然而,款会面临的问题gydF4y2Ba数据饱和gydF4y2Ba给予更多的痕迹时,模型并不能提高其预测性能gydF4y2Ba6gydF4y2Ba,gydF4y2Ba8gydF4y2Ba。这已被确认为一种常见的问题在过去gydF4y2Ba8gydF4y2Ba,特别是由于接触偏见在训练时间的特点是具体edge-cloud配置用于生成训练数据gydF4y2Ba6gydF4y2Ba。gydF4y2Ba

现有方法和批评gydF4y2Ba

数据饱和问题的基于神经网络的资源管理方法已经在一定程度上解决使用耦合的模拟器,也称为co-simulators文学gydF4y2Ba6gydF4y2Ba。其他方法结合分析方法和神经网络来模拟物理环境gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10gydF4y2Ba。不过,这些方法通常模型一个小套模拟器的具体方面,如能源消耗或响应时间,使用一个低保真代孕款。通常,这种方法不够健壮,适用于一般的模拟器。与低保真代理人直接预测QoS估计未来的步伐,模拟器的行为特征编码信息edge-cloud设备gydF4y2Ba11gydF4y2Ba,使他们能够执行一个高保真QoS估计分数。然而,这类信息通常是编码在模拟器系统参数由人类专家gydF4y2Ba12gydF4y2Ba,gydF4y2Ba13gydF4y2Ba。这些参数包括典型的通信延迟、功耗的概要文件,任务分配开销在边缘和云的机器gydF4y2Ba14gydF4y2Ba。联合仿真驱动的方法,类似于一个数字的孪生兄弟,事件驱动模拟器几乎是用来执行多个决策和观察它们如何影响环境和QoS的分数。这使我们探索out-of-distribution数据,使神经模型推广设置前所未有的在训练和减轻数据饱和gydF4y2Ba15gydF4y2Ba。此外,模拟器还可以促进注入信息代理的系统行为优化的方法。此外,挥发性场景可以经历重大变化趋势的数据,比如资源利用率运行工作负载的时间序列。这被称为gydF4y2Ba高动力gydF4y2Ba在edge-cloud设置gydF4y2Ba16gydF4y2Ba。这样的变化趋势也可以非常频繁,称为gydF4y2Ba高波动性gydF4y2Baedge-cloud环境中gydF4y2Ba17gydF4y2Ba。Co-simulators也可以方便获取额外的数据在线没有执行资源管理决策在现实基础设施,促进神经模型适应活力和波动。然而,基于联合仿真的方法面临两个重要的缺点。首先,它已被观察到的简化和假设设置human-encoded模拟器参数产生一个模拟器生成的现实差距估计与实际执行在现实环境gydF4y2Ba18gydF4y2Ba。这减少了使用模拟器的可信度避免数据饱和现在偏差泄漏到管道由于假设由人类专家联合仿真模拟器参数而设置。第二,在高度不稳定的工作负载的情况下,执行几个模拟时间效率低下或计算重,使其无效等大规模设置与资源有限的边缘设备运行模拟。gydF4y2Ba

贡献gydF4y2Ba

在这项工作中,我们的目标是解决上面所述的基于联合仿真的方法这两个缺点。我们开发一个新的框架,调用gydF4y2BaSimTunegydF4y2Ba模拟器,旨在优化参数的现实差距,提高模拟的估计。洞察力,我们使用的关键是利用一个基于代理模型作为低保真款双胞胎的模拟器。这个代理模型使用hand-encoded模拟器参数、环境和工作负载特征生成QoS的估计。是训练模拟高保真模拟器的距离可以匹配QoS的估计。考虑跟踪来自一个真实的环境中,然后使用这个代理更新模拟器参数,线下和线上,这样的现实模拟估计与真实值之间的差距最小化。然后使用调谐模拟器参数执行数据进行扩展,以支持数据驱动的调度器。实验与多个先进的调度器真正edge-cloud平台上演示调谐模拟器可以提高QoS分数相比hand-encoded参数和基线调优方法。具体来说,SimTune减少能源消耗和响应时间分别高达14.7%和7.6%相比,基于基线与DL edge-cloud平台工作负载。gydF4y2Ba

大纲gydF4y2Ba

其余的提出了一个简短的背景与动机和相关工作”gydF4y2Ba背景和相关工作gydF4y2Ba”一节。”gydF4y2Ba方法gydF4y2Ba”部分介绍了系统模型,制定和SimTune方法问题。然后我们验证并展示的功效SimTune基础资源管理政策”gydF4y2Ba评价gydF4y2Ba”一节。最后,“gydF4y2Ba结论gydF4y2Ba”一节总结了工作,并提出了未来的发展方向。gydF4y2Ba

背景和相关工作gydF4y2Ba

提出了许多数据驱动调度方法在edge-cloud计算环境中有效地管理资源。这些方法通常依赖于数据驱动款生成基于QoS的估计和运行非常宽或梯度优化的决策空间优化目标分数。gydF4y2Ba

调度方法gydF4y2Ba

最先进的调度方法利用款或搜索策略来找到最优调度决策gydF4y2Ba19gydF4y2Ba。例如,一条线的工作使用进化搜索方法(如粒子群优化(PSO)使用一个训练有素的基础款QoS代理gydF4y2Ba20.gydF4y2Ba,gydF4y2Ba21gydF4y2Ba,gydF4y2Ba22gydF4y2Ba。其他方法利用遗传算法对QoS意识到决策优化gydF4y2Ba23gydF4y2Ba,gydF4y2Ba24gydF4y2Ba。通常,这种方法运行一个非常宽的搜索方案与非本地跳跃,使用交叉和mutation-like收敛到一个最佳的操作。然而,非常宽的方法需要更长时间收敛gydF4y2Ba25gydF4y2Ba并不是可伸缩gydF4y2Ba26gydF4y2Ba基于作为梯度方法。这个问题是戈壁等缓解非常优化的调度器gydF4y2Ba6gydF4y2Ba,天啊gydF4y2Ba7gydF4y2Ba。这些方法的调度决策和国家edge-cloud系统资源利用特点的工作负载和雾节点和输出QoS的估计。利用反向传播来输入gydF4y2Ba6gydF4y2Ba,gydF4y2Ba即。gydF4y2Ba修复神经网络参数和更新款的调度决策基于梯度的输出,这些方法找到最优调度决策。然而,连续近似的离散优化问题是已知在某些情况下给非最优决策gydF4y2Ba27gydF4y2Ba因此,我们认为基于非常和梯度调度程序在这工作。另一种分类方法是那些利用强化学习,在离散时间控制优化设置,如分布式计算gydF4y2Ba28gydF4y2Ba,gydF4y2Ba29日gydF4y2Ba,gydF4y2Ba30.gydF4y2Ba。这种方法依赖于深层神经网络直接预测决策而不是QoS估计。例如,一些方法模型调度问题作为一个马尔可夫决策过程(MDP)和使用deep-reinforcement学习策略,即深q学习(DQL)安排工作负载在异构计算环境gydF4y2Ba28gydF4y2Ba,gydF4y2Ba29日gydF4y2Ba,gydF4y2Ba30.gydF4y2Ba。策略梯度方法,等gydF4y2Ba31日gydF4y2Ba训练预测最优调度决定款而不是直接的Q值。最近的一个方法,异步优势Actor-Critic (A3C),是一个策略梯度方法,安排工作负载使用一对Actor-Critic款代理gydF4y2Ba32gydF4y2Ba。这些方法依赖于数据来训练他们的模型,使痕迹edge-cloud环境中的资源管理决策。我们认为这些方法在我们的评估测试的效果调整模拟器对QoS的离线训练和在线调整神经网络用于这些方法。gydF4y2Ba

模拟器调优gydF4y2Ba

现实差距的担忧在模拟器已经强调了过去,尽管资源管理以外的领域gydF4y2Ba13gydF4y2Ba,gydF4y2Ba18gydF4y2Ba。模拟被远离现实主义的根源是仿真参数的调优不当需要模拟不同场景。例如,在一个边缘模拟器,模拟边缘设备的能源消耗对于一个给定的工作负载,电源配置文件通常是由人类专家使用现有的分析数据gydF4y2Ba33gydF4y2Ba。然而,这个配置文件,gydF4y2Ba即。gydF4y2Ba,电力消耗CPU利用率不同可能会改变根据周围环境的温度,冷却解决方案以及设备特征。因此,拥有一个预设剖面曲线可能不是有助于看不见的配置。这种简化的假设产生模拟和真正的度量值之间的差异。考虑现代模拟器日益复杂化的数以百万计的参数,每个都有成千上万的可能值,运行一个蛮力方法是棘手的。为了解决这个问题,之前的工作如Sim2Real杠杆进化优化策略gydF4y2Ba18gydF4y2Ba。Sim2Real迭代更新模拟器参数,进行模拟和计算模拟和真实值之间的偏差。然而,对于复杂的模拟器,运行一个高保真模拟每次有很高的计算开销,因此,限制的迭代的数量可以执行更新参数。另一种方法,DiffTunegydF4y2Ba13gydF4y2Ba,使用一个可微的代理模型,可以快速生成模拟分数和可以用来更新仿真参数。然而,DiffTune只能用于调整模拟器参数离线,我们不能使用代理进行在线数据扩充和微调的调度方法。DiffTune假定可微的代理和连续近似的离散优化问题;这可能不是最理想的大多数设置仿真参数通常采取分类值。我们在工作解决这个问题通过开发一个基于深层神经网络低保真模拟器和使用基于梯度参数更新。这些假设限制我们使用一套严格的神经或分析模型来优化仿真参数。放弃这些假设,使用更精确的神经模型和非线性激活函数(如如ReLU或乙状结肠)sub-gradients和舍入,限制了这种方法的性能gydF4y2Ba34gydF4y2Ba,gydF4y2Ba35gydF4y2Ba。我们在“经验证明这一点gydF4y2Ba评价gydF4y2Ba”一节。gydF4y2Ba

图1gydF4y2Ba
图1gydF4y2Ba

系统模型。gydF4y2Ba

方法gydF4y2Ba

系统模型gydF4y2Ba

在这项工作中,我们假设一个典型edge-cloud与多个异构边缘和云计算环境中的节点broker-worker设置gydF4y2Ba6gydF4y2Ba,gydF4y2Ba12gydF4y2Ba,gydF4y2Ba24gydF4y2Ba。概述系统的模型图。gydF4y2Ba1gydF4y2Ba。所有工作负载生成的形式从用户数据和处理任务。通过物联网传感器和收集的数据传递到计算通过网关设备,如智能手机和smartwatches设置。这是典型的智能或smart-hospital环境旨在利用数据和人工智能应用程序处理它,例如,运行能源优化或病人护理gydF4y2Ba4gydF4y2Ba。每个任务也将QoS指标如服务期限有关。这样的期限也被称为服务水平目标(SLOs)。任务的形式实现虚拟化的码头工人容器应用程序,能够进行方便的管理和安全计算gydF4y2Ba36gydF4y2Ba。容器应用程序和SLOs edge-cloud代理转发,这需要所有资源管理决策。它监视和云节点和边缘产生的痕迹系统资源利用率和QoS指标等特征。代理还利用了一个离散事件驱动高保真模拟配合运行SimTune低保真代理模型的方法。调谐模拟器使用调度程序决定最优调度决策。物理环境中的决策制定集装箱的形式分配或迁移到各自的边缘或云节点。此外,我们假设一个有界的执行时间表,我们分成固定大小的线程调度间隔。我们考虑一个gydF4y2Babag-of-taskgydF4y2Ba工作负载模型中创建一组新的任务在每个间隔和所有任务可以单独安排。gydF4y2Ba

图2gydF4y2Ba
图2gydF4y2Ba

SimTune管道。gydF4y2Ba

配方gydF4y2Ba

如上所述,我们认为一个有界的时间离散成固定大小的间隔,每个人gydF4y2Ba\三角洲(\ \)gydF4y2Ba秒。我们表示gydF4y2BatgydF4y2Bath间隔的gydF4y2Ba\ (I_t \)gydF4y2Ba,在那里gydF4y2Ba\ (t \ \ {1 \ ldots t \} \)gydF4y2Ba。我们定义的gydF4y2Ba状态gydF4y2Baedge-cloud环境资源利用率指标的收集包括CPU、RAM和磁盘的主机。这也包括网络拓扑系统图的每条边组成的延迟和网络带宽等参数。我们表示状态的时间间隔gydF4y2Ba\ (I_t \)gydF4y2Ba通过gydF4y2Ba\ (G_t \)gydF4y2Ba。我们也表示时间序列的工作负载特性和调度决策的形式利用CPU、内存、磁盘和网络带宽和一个炎热的编码的主机配置,间隔gydF4y2Ba\ (I_t \)gydF4y2Ba通过gydF4y2Ba\ (W_t \)gydF4y2Ba。高保真模拟器用一个函数gydF4y2Ba

$ $ \{对齐}开始Q_t = f (W_t G_t;\φ_t) \{对齐}$ $gydF4y2Ba
(1)gydF4y2Ba

在哪里gydF4y2Ba\ \(φ_t \)gydF4y2Ba表示模拟器参数区间gydF4y2Ba\ (I_t \)gydF4y2Ba和gydF4y2Ba\ (Q_t \)gydF4y2Ba表示年底QoS参数集gydF4y2Ba\ (I_t \)gydF4y2Ba。因此,模拟器作为高保真模型,模拟了调度决策gydF4y2Ba\ (W_t \)gydF4y2BaQoS参数估计在未来的步伐。我们表示gydF4y2Ba测量gydF4y2BaQoS度量的gydF4y2Ba\ (I_t \)gydF4y2Ba通过gydF4y2Ba酒吧\ ({\ {Q}} _t \)gydF4y2Ba。考虑系统状态的跟踪,工作负载特征和QoS指标gydF4y2Ba\ (\ mathcal {T} = \ {(W_0 G_0, {Q}}{\酒吧_0),\ ldots (W_T G_T, {Q}}{\酒吧_T) \} \)gydF4y2Ba,我们可以生成一个gydF4y2Ba模拟gydF4y2BaQoS跟踪按照方程(gydF4y2Ba1gydF4y2Ba)为每一个步伐gydF4y2BatgydF4y2Ba。这给了我们一个模拟跟踪gydF4y2Ba\ (\ {{Q} _0, \ ldots {Q} _T \} \)gydF4y2Ba。考虑QoS指标作为密集的向量,我们可以量化的现实差距模拟器参数集gydF4y2Ba给所有t \ \(\φ_t \)gydF4y2Ba在L2范数gydF4y2Ba

$ $ \{对齐}开始RG_t左= \ \ |{\酒吧{Q}} _t——Q_t \ \ |。\{对齐}$ $gydF4y2Ba
(2)gydF4y2Ba

过去曾被观察到,数据驱动的调度器依靠模拟估计优化资源管理决策gydF4y2Ba6gydF4y2Ba,gydF4y2Ba7gydF4y2Ba,我们需要确保我们能现实的桥梁,以避免由于不设置模拟器参数偏差和错误。弥合这一差距将转化为更高的质量通过模拟器训练数据生成和直接转化为更高的QoS分数(我们证明这一点”gydF4y2Ba评价gydF4y2Ba”一节)。因此,我们的目标是最小化的现实差距,确保模拟估计接近身体生成的。这可以作为制定gydF4y2Ba

$ ${对齐}& \ \开始暗流{\φ_t \通用电气0 \尽管t}{{最小化\文本。}}{}和{}\总和_ {t = 1} ^ t RG_t = \绿色{\酒吧{Q}} _t -文本Q_t \绿色\ \ & \{酸处理}{}和{}{Q} _t = {f} (W_t \φ_t G_t;给所有\ t。\ \θ)\{对齐}$ $gydF4y2Ba
(3)gydF4y2Ba

SimTunegydF4y2Ba

我们没有gydF4y2Ba\ (Q_t \)gydF4y2Ba开始时gydF4y2Ba\ (I_t \)gydF4y2Ba,上述优化问题无法解决后离线收集跟踪动态指标数据的每一个步伐。找到最优gydF4y2Ba\ \(φ_t \)gydF4y2Ba在每一个步伐,我们利用一个基于款模型开发的低保真代理模型模拟器,模拟器的输入,它的参数和输出另一组QoS的估计gydF4y2Ba

$ $ \开始{对齐}{\ widehat {Q}} _t = {\ widehat {f}} (W_t \φ_t G_t;\θ)\{对齐}$ $gydF4y2Ba
(4)gydF4y2Ba

在哪里gydF4y2Ba\θ(\ \)gydF4y2Ba表示神经网络的参数。现在我们有两种高低保真度模型的物理环境,我们更新模拟器参数在图的三个步骤总结。gydF4y2Ba2gydF4y2Ba。首先,我们更新的神经网络参数(gydF4y2Ba\θ(\ \)gydF4y2Ba)最小化损失函数gydF4y2Ba

$ $ \{对齐}开始L_t左= \ \ | Q_t - {\ widehat {Q}} _t \ \ |, \{对齐}$ $gydF4y2Ba
(5)gydF4y2Ba

对于每一个步伐gydF4y2BatgydF4y2Ba。这将确保聚合参数,说gydF4y2Ba\(θ^ * \ \)gydF4y2Ba这样的代理模型gydF4y2Ba紧密的代表gydF4y2Ba模拟器。这允许我们使用gydF4y2Ba\ ({\ widehat {f}} \)gydF4y2Ba的代理gydF4y2BafgydF4y2Ba并生成估计gydF4y2Ba\ (Q_t \)gydF4y2Ba一个步伐gydF4y2BatgydF4y2Ba。第二,我们修正参数gydF4y2Ba\(θ^ * \ \)gydF4y2Ba和更新模拟器参数gydF4y2Ba\ \(φ_t \)gydF4y2Ba的现实差距降到最低模拟器利用代理的现实差距作为一个代理。进步优化神经网络参数(gydF4y2Ba\θ(\ \)gydF4y2Ba)如动量和余弦退火方便快速和可伸缩的优化也gydF4y2Ba\ \(φ_t \)gydF4y2Ba形成鲜明对比,典型的模拟器不允许这个gydF4y2Ba6gydF4y2Ba。为此,香草随机梯度方法可以用来更新gydF4y2Ba\ \(φ_t \)gydF4y2Ba在每一个步伐,直到收敛gydF4y2Ba

$ ${对齐}\ \开始φ_t \ leftarrow \φ_t - \伽马\ cdot \微分算符_{\φ_t} \左\ |{\酒吧{Q}} _t - {\ widehat {f}} \离开(W_t \φ_t G_t;θ^ * \ \)\ \ |,\{对齐}$ $gydF4y2Ba
(6)gydF4y2Ba

在哪里gydF4y2Ba\γ(\ \)gydF4y2Ba步长。上面的方程给出了迭代规则更新仿真参数,这样训练有素的代理之间的现实差距和真正的跟踪是最小化。然而,上述假定分类仿真参数的连续松弛等核心的数量在一个主机(自然)或机器是否支持硬件加速或超线程(二进制值)。为了绕过这个问题,我们使用Gradient-Directed蒙特卡罗(GDMC)优化gydF4y2Ba37gydF4y2Ba。要做到这一点,我们执行离散扰动gydF4y2Ba\ \(φ_t \)gydF4y2Ba从当前值,建立一个树。树中的每个节点都被表示为一个有序gydF4y2Ba\ ((v, \φ_t, n) \)gydF4y2Ba在哪里gydF4y2Ba\ \(φ_t \)gydF4y2Ba设定的参数值,gydF4y2Ba我\ \ (v ^)gydF4y2Ba是一个价值估计和gydF4y2BangydF4y2Ba是访问该节点的频率。每个节点有多个子节点gydF4y2Ba\(\{(\φ_t ^我n ^我)\}_i \)gydF4y2Ba我们选择一个节点在每个蒙特卡罗选择阶段,Upper-Confidence-Bound呢gydF4y2Ba

$ $ \{对齐}v ^我开始——\微分算符_{\φ_t} \左\ |{\酒吧{Q}} _t - {\ widehat {f}} \离开(W_t \φ_t G_t;正确\θ^ * \)\ \ | - \√6{\压裂{c \ ln {n}} {n_i}} \{对齐}$ $gydF4y2Ba

最小化,gydF4y2BacgydF4y2Ba是一个勘探参数。的gydF4y2Ba\(\微分算符_{\φ_t} \绿色{\酒吧{Q}} _t - {\ widehat {f}} (W_t \φ_t G_t;θ^ *)\ \绿色\)gydF4y2Ba一项旨在选择节点的方向梯度和gydF4y2Ba\ \√{\压裂{c \ ln {n}} {n_i}} \)gydF4y2Ba确保其他扰动也探索了。当我们选择子节点时,我们计算gydF4y2Ba\ (v ^ = \绿色{\酒吧{Q}} _t - {\ widehat {f}} (G_t W_t \φ_t ^我;θ^ *)\ \绿色\)gydF4y2Ba。在每一个这样的计算树的叶子节点,这样我们backpropagate值gydF4y2BavgydF4y2Ba的频率加权平均gydF4y2Ba我\ \ (v ^)gydF4y2Ba它的子节点。当我们执行多个部署和访问频率增加,第三项减少的价值,我们执行高于勘探开发。最后,我们选择最高的模拟参数gydF4y2Ba我\ \ (v ^)gydF4y2Ba。执行上面的迭代更新gydF4y2Ba\ \(φ_t \)gydF4y2Ba我们获得gydF4y2Ba\ \(^ *φ_t \)gydF4y2Ba这样代理的现实差距最小化。最后,我们使用gydF4y2Ba\ \(^ *φ_t \)gydF4y2Ba参数来生成数据使用模拟器训练数据驱动的调度器。我们还可以利用低保真执行动态代理gydF4y2Ba\ \(φ_t \)gydF4y2Ba优化生成gydF4y2Ba\ \(^ *φ_t \)gydF4y2Ba在每一个时间间隔。gydF4y2Ba

这个管道提供了三个关键优势相比,之前的工作。首先,作为神经网络提供了快速和可伸缩的推理,我们还可以利用它来进行在线数据生成和调整调度程序。第二,优化方法基于反向传播过去输入显示承诺,能够优化输入的一个重要的优势快速模拟调谐时间降到最低。第三,每个传入的数据点,我们可以调整gydF4y2Ba\θ(\ \)gydF4y2Ba然后模拟参数gydF4y2Ba\ \(φ_t \)gydF4y2Ba动态适应工作负载和系统仿真参数随时间变化特征。gydF4y2Ba

图3gydF4y2Ba
图3gydF4y2Ba

低保真代孕SimTune模拟器的神经网络的形式。输入包括负载特性的时间序列值,模拟参数和边缘拓扑作为全连通图。QoS的输出是一个矢量估计。gydF4y2Ba

低保真代理模型gydF4y2Ba

中所描述的“gydF4y2Ba介绍gydF4y2Ba”一节中,我们使用深层神经网络实现低保真模型。提出了神经网络架构的概述在无花果。gydF4y2Ba3gydF4y2Ba。其他的讨论,我们把下标标识步伐gydF4y2BatgydF4y2Ba没有普遍性。工作负载特征来推断时间趋势,我们利用一个变压器模型提高了学习效率gydF4y2Ba38gydF4y2Ba。变压器是一个多头关注基于神经模型,该模型已被证明是可伸缩比古典回归建模方法gydF4y2Ba38gydF4y2Ba。因此,gydF4y2Ba

$ ${对齐}\ \开始开始{对齐}W ^ 1 & = \ textrm {TransformerEncoder} (W) \ \ W ^ 2 & = \ textrm {ReLU} (\ textrm{前馈}(W ^ 1))。结束\{对齐}\{对齐}$ $gydF4y2Ba
(7)gydF4y2Ba

然而,在这种前馈网络,我们使用蒙特卡罗辍学(MCD)贝叶斯推理测试时间gydF4y2Ba39gydF4y2Ba。与传统的辍学生,MCD使在推理时辍学。这让我们多次运行推理,获得一个随机输出,具体模型工作负载的波动性质特征。来推断模拟器参数,我们使用一个前馈网络,gydF4y2Ba

$ ${对齐}\ \开始开始{对齐}\φ^ 1 & = \ textrm {ReLU} (\ textrm{前馈}(\φ)),\ \ \φ^ 2 & = \ textrm {ReLU} (\ textrm {LayerNorm} (\ textrm{前馈}(\φ^ 1)+ \φ^ 1))。结束\{对齐}\{对齐}$ $gydF4y2Ba
(8)gydF4y2Ba

在哪里gydF4y2Ba\ (\ textrm {LayerNorm} \)gydF4y2Ba操作可实现输出稳定的训练。之间的skip-connection首先前馈网络的输出,第二有利于更快地传播梯度和提高准确性gydF4y2Ba40gydF4y2Ba。我们也推断出系统状态,gydF4y2Ba即。gydF4y2Ba,使用神经网络图拓扑图形边缘gydF4y2Ba41gydF4y2Ba。我们首先形成一个与所有主机完全连通图表示为图节点。主机的特点gydF4y2Ba\ (h ^ j \)gydF4y2Ba是用gydF4y2Ba\ (e ^ j \)gydF4y2Ba。然后我们通过图通过gated-graph卷积网络捕捉inter-host依赖从新的任务分配。在这里,主机的功能gydF4y2Ba\ (h ^ j \)gydF4y2Ba在图中所有其他主机聚合gydF4y2BargydF4y2Ba曲线玲珑,导致一个嵌入gydF4y2Bar \ (e ^ {j} _ {} \)gydF4y2Ba图中的每个主机节点。具体来说,控制阶段是意识到作为一个封闭的单元(格勒乌)导致复发gydF4y2Bagraph-to-graphgydF4y2Ba更新gydF4y2Ba41gydF4y2Ba为:gydF4y2Ba

$ ${对齐}\ \开始开始{对齐}e ^ j_ {0} & = \ textrm{双曲正切}\离开(W \ e ^ {j} + b \右),\ \ x_q ^强生= \ _ {j}和W ^问e ^ {j} _ {q1}, \ \ e_q ^ {j} & = \ textrm{格勒乌}\离开(e_ {q1} ^ j,间{q} ^ {j} \右),结束\{对齐}\{对齐}$ $gydF4y2Ba
(9)gydF4y2Ba

在第二个方程进行曲线玲珑的特点直接邻居图中。然而,对于大规模的图,以确保我们捕捉国际任务和主机的相关性,我们执行上述卷积步骤gydF4y2BargydF4y2Ba次了。这里,格勒乌是一个递归神经网络决定之前的输出卷积迭代的weightage对最新的迭代。这允许模型有效规模与输入图的大小没有显著损失性能。所有主机的堆叠表示表示为gydF4y2Ba\ (G ^ 1 \)gydF4y2Ba。三个编码然后连接和发送到变压器译码器来生成一个向量的QoS指标gydF4y2Ba

$ ${对齐}\ \开始开始{对齐}E ^ 1 & = \ textrm {TransfomerDecoder} \离开(W ^ 2 \φ^ 2 G ^ 1 \右),\ \ {\ widehat {Q}} & = \ textrm{乙状结肠}\离开(\ textrm{前馈}\左(E ^ 1 \) \右)。结束\{对齐}\{对齐}$ $gydF4y2Ba
(10)gydF4y2Ba

乙状结肠激活函数使输出范围(0,1),给我们规范化QoS的分数。总的来说,神经网络的目标来推断模拟QoS指标使用工作负载特征,模拟参数和系统信息。gydF4y2Ba

离线调度程序培训gydF4y2Ba

培训代理模型,我们使用一个随机调度程序和随机扰动的模拟器参数来生成一个数据跟踪gydF4y2Ba\ (\ {(G_t \φ_t W_t, Q_t) \} _t \)gydF4y2Ba。这使我们能够覆盖一个大输入状态。使用这样的跟踪,我们可以训练一个代理模型gydF4y2Ba\ ({\ widehat {f}} (W_t \φ_t G_t;θ)\ \)gydF4y2Ba通过最小化损失函数gydF4y2Ba

$ ${对齐}L = \ \开始总和_t L_t = \总和_t \左\ | Q_t - {\ widehat {f}} (W_t \φ^ * _t G_t;\θ)\ \ |,\{对齐}$ $gydF4y2Ba
(11)gydF4y2Ba

给聚合网络参数gydF4y2Ba\(θ^ * \ \)gydF4y2Ba。使用这个,一个物理系统的跟踪gydF4y2Ba\ (\ {(G_t、W_t \φ_t, {Q}}{\酒吧_t) \} _t \)gydF4y2Ba模拟器,我们调优参数gydF4y2Ba\ \(^ *φ_t \)gydF4y2Ba。模型使用规范化的QoS指标从训练模拟器和真实系统。现在,我们有一个高保真的调度器gydF4y2BafgydF4y2Ba和低保真代理gydF4y2Ba\ ({\ widehat {f}} \)gydF4y2Ba,我们可以利用它们来训练一个调度程序gydF4y2BaggydF4y2Ba生成调度决策系统的输入状态。我们为间隔表示调度决策gydF4y2Ba\ (I_t \)gydF4y2Ba通过gydF4y2Ba\ (D_t = g (G_t W_t) \)gydF4y2Ba。因此调度器通常是数据驱动的,我们利用痕迹使用随机生成的调度器gydF4y2Ba调优gydF4y2Ba模拟器gydF4y2Ba\ (f (\ cdot;φ\ ^ * _t) \)gydF4y2Ba。使用这样一个模拟器,我们生成一个跟踪系统状态和模拟QoS估计gydF4y2Ba\ (\ {(G_t, W_t Q_t) \} _t \)gydF4y2Ba训练gydF4y2BaggydF4y2Ba。gydF4y2Ba

图一个gydF4y2Ba

在线调度gydF4y2Ba

我们现在描述SimTune框架艾滋病在明智的决策。算法1中概述了。拥有一个训练有素的调度器gydF4y2BaggydF4y2Ba,我们在每个间隔生成调度决策gydF4y2Ba\ (I_t \)gydF4y2Ba作为gydF4y2Ba\ (D_t = g (G_t W_t) \)gydF4y2Ba(第3行)。考虑到系统中的活力,在每个时间间隔gydF4y2Ba\ (I_t \)gydF4y2Ba我们形成一例证,估计QoSgydF4y2Ba\ ({\ widehat {Q}} _ {t + 1} \)gydF4y2Ba对于给定状态gydF4y2Ba\ (G_ {t + 1}, W_ {t + 1}) \)gydF4y2Ba使用gydF4y2Ba\ \(^ *φ_t \)gydF4y2Ba和更新gydF4y2Ba\ \(^ *φ_t \)gydF4y2Ba来gydF4y2Ba\ \(φ* _ ^ {t + 1} \)gydF4y2Ba通过最小化代理现实差距gydF4y2Ba\ \(绿色{\酒吧{Q}} _ {t + 1} - {\ widehat {f}} (W_ {t + 1},φ\ ^ * _ {t}, G_t;θ^ *)\ \绿色\)gydF4y2Ba(5 - 6行)。这使我们能够动态地调整在线模拟器参数以减少现实差距。使用新的参数集gydF4y2Ba\(φ_ {t + 1} \ \)gydF4y2Ba,我们产生额外的数据集gydF4y2Ba\ (\ {(G_t、W_t \φ* _ ^ {t + 1}, {\ widehat {Q}} _t) \} _ {t + 1} \)gydF4y2Ba调整调度程序模型gydF4y2BaggydF4y2Ba(7 - 8行)。注意,我们使用代理的QoS估计gydF4y2Ba\ ({\ widehat {f}} \)gydF4y2Ba确保多步模拟痕迹可以快速生成,减少整体决定的时间框架。这还允许我们做出决定通知新的模拟器参数,因此更新系统的趋势。gydF4y2Ba

评价gydF4y2Ba

试验台gydF4y2Ba

我们考虑一个混合edge-cloud计算设置16覆盆子π4 b节点,8和4 gb RAM和另一个8 8 gb RAM。这允许设置有异构节点有不同的记忆能力。我们的云环境由34个虚拟机配置从微软Azure云平台。我们在云基础设施,使用不同的虚拟机类型gydF4y2Ba即。gydF4y2Ba,gydF4y2Bab₂gydF4y2Ba与双核CPU和4 gb内存,gydF4y2BaB4msgydF4y2Ba四核CPU和16 gb的RAM和gydF4y2BaB8msgydF4y2Baocta-core CPU和32 gb RAM。我们考虑一个地理上分布的云环境。我们的环境由20的vmgydF4y2BaUK-SouthgydF4y2BaAzure的数据中心和14gydF4y2BaEast-USgydF4y2Ba数据中心。的gydF4y2BaUK-SouthgydF4y2Ba集群由10gydF4y2Bab₂gydF4y2Ba和10gydF4y2BaB4msgydF4y2Ba节点,而我们gydF4y2BaEast-USgydF4y2Ba集群由7gydF4y2BaB4msgydF4y2Ba和7gydF4y2BaB8msgydF4y2Ba节点。我们的资源管理策略是运行在云中的代理节点gydF4y2BaUK-SouthgydF4y2Ba位置,是一个gydF4y2BaD16asv4gydF4y2Ba节点与一个16核心CPU和64 GB RAM。执行成本从Azure定价计算器gydF4y2Ba42gydF4y2Ba。的功耗值增量的10%的CPU利用率Azure VM类型是来自中远模拟器gydF4y2Ba6gydF4y2Ba,gydF4y2Ba43gydF4y2Ba,其中包括的功耗特点gydF4y2Bab₂gydF4y2Ba,gydF4y2BaB4msgydF4y2Ba和gydF4y2BaB8msgydF4y2BaAzure vm来源于标准的绩效评估公司(规范)基准库gydF4y2Ba44gydF4y2Ba。我们忽略的能耗特征冷却基础设施在先前的工作gydF4y2Ba6gydF4y2Ba,gydF4y2Ba14gydF4y2Ba。因为这些权力特征可能out-of-distribution工作负载和我们使用传入的工作负载请求的一部分作为CPU利用率的一个代理,绝对值的报告摘要粗略估计能耗。gydF4y2Ba

工作负载gydF4y2Ba

为了评估SimTune的性能,我们使用AIoTBench基准gydF4y2Ba45gydF4y2Ba。这是一个广泛使用的基于ai计算基准套件包括各种真实的计算机视觉应用程序实例gydF4y2Ba46gydF4y2Ba。七个特定的应用程序类型对应的CNN神经网络图像分类。这包括三个典型的重量级网络:ResNet18 ResNet34, ResNext32x4d,以及四个轻量级网络:SqueezeNet1-0, GoogleNet, MobileNetV2 MnasNet。这些神经模型从不同的行业应用,表明这一基准捕捉真实的工作负载。在数据处理方面,我们使用50可可数据集的照片gydF4y2Ba47gydF4y2Ba。我们在实验中,使用间隔时间gydF4y2Ba即。gydF4y2Ba,gydF4y2Ba\三角洲(\ \)gydF4y2Ba如每5分钟前工作gydF4y2Ba6gydF4y2Ba,gydF4y2Ba30.gydF4y2Ba,gydF4y2Ba48gydF4y2Ba。评价该方法在一个受控的环境中,我们抽象描述的用户和物联网层”gydF4y2Ba方法gydF4y2Ba”部分,使用一个离散型概率分布来实现任务容器实例。因此,在每个调度间隔的开始,我们从泊松分布和创建新任务gydF4y2Ba\ \λ= 1.2 (\)gydF4y2Ba均匀采样,七个应用程序gydF4y2Ba6gydF4y2Ba。bag-of-tasks工作负载的分布是一种自然选择模型,常见的边缘环境中gydF4y2Ba49gydF4y2Ba,gydF4y2Ba50gydF4y2Ba。每个任务都有一个关联的SLO期限产生之前的工作gydF4y2Ba6gydF4y2Ba。当响应时间超过了最后期限,我们称之为SLO的侵犯。我们的任务是执行使用码头工人容器。我们运行所有实验100调度区间,每个区间是300秒长,给总试验时间8小时20分钟。我们平均五分和使用不同的工作负载类型,以确保统计显著性在我们的实验。gydF4y2Ba

图4gydF4y2Ba
图4gydF4y2Ba

比较的QoS参数(平均间隔)SimTune对基线的方法。gydF4y2Ba

模型训练和假设gydF4y2Ba

对于培训,我们随机数据集分割成80%的训练,20%的测试数据。我们使用的学习速率gydF4y2Ba\ (10 ^ {4}\)gydF4y2Ba重量衰变gydF4y2Ba\ (10 ^ {5}\)gydF4y2Ba在gydF4y2Ba亚当gydF4y2Ba优化器优化损失函数。学习速率参数被设置为每个网格搜索中提到的现实差距损失最小化方程(gydF4y2Ba11gydF4y2Ba)。我们使用早期收敛的停止准则。gydF4y2Ba

基线gydF4y2Ba

我们比较SimTune和四个基线如下所述。这些方法是优化模拟器参数,我们比较SimTune在6个先进的调度器:算法、GA、DQL, A3C、戈壁和哪(参见“gydF4y2Ba背景和相关工作gydF4y2Ba更多细节”一节)。这些都是选择不同类型的调度策略。算法和遗传算法是基于搜索的调度器,而DQL和A3C利用强化学习。戈壁和天使用基于神经网络的代理模型运行梯度优化和发现算法调度决策。调度器都旨在最小化的归一化能量消耗和平均响应时间完成任务gydF4y2Ba6gydF4y2Ba。gydF4y2Ba

  • 人类集gydF4y2Ba使用预设模拟器参数来生成所需的离线和在线训练数据调度方法。gydF4y2Ba

  • 计+西文gydF4y2Ba使用一个heteroskedastic高斯过程(HGP)gydF4y2Ba51gydF4y2Ba的低保真代理模拟器和进化搜索(ES)的策略gydF4y2Ba18gydF4y2Ba模拟器参数进行优化。gydF4y2Ba

  • LSTM + SGDgydF4y2Ba使用一个Long-Short-Term-Memory (LSTM)神经网络从DiffTune激活函数可微的动机gydF4y2Ba13gydF4y2Ba。它还使用随机梯度下降法(SGD)执行梯度优化的模拟参数。gydF4y2Ba

  • LSTM + Sim2RealgydF4y2Ba还使用一个LSTM神经网络作为低保真代孕的模拟器基于mutation-crossover进化搜索策略来优化模拟器参数在Sim2Real完成gydF4y2Ba18gydF4y2Ba。类似于Sim2Real和DiffTune方法,gydF4y2Ba计+西文gydF4y2Ba,gydF4y2BaLSTM + SGDgydF4y2Ba和gydF4y2BaLSTM + Sim2RealgydF4y2Ba利用高保真模拟器生成的动态数据在线调度程序培训。我们也不动态模拟器参数调优这些方法gydF4y2Ba13gydF4y2Ba,gydF4y2Ba18gydF4y2Ba。gydF4y2Ba

评价指标gydF4y2Ba

测试的有效性和性能改进SimTune方法,我们比较end-term非规范QoS指标。我们比较的能源消耗edge-cloud上述试验台千瓦gydF4y2Ba\ \ cdot \ ()gydF4y2Ba人力资源平均在100年间隔我们运行一个实验。我们也测量的平均响应时间系统中完成任务。能源消耗和响应时间指标帮助我们区分每个调优的调度程序的有效性(或预设)模拟器。我们也比较平均SLO违反的完成任务。进一步,我们比较执行成本(美元)的云机器的使用率成本以及边缘设备的能源消耗成本。我们的总成本摊销完成集装箱的数量。最后,我们还比较决策模型的开销通过观察任务得到的平均等待时间分配给主机和每个方法的平均调度时间。gydF4y2Ba

表1消融分析。gydF4y2Ba
图5gydF4y2Ba
图5gydF4y2Ba

可扩展性分析SimTune与不同数量的节点和基线edge-cloud设置。gydF4y2Ba

与基线相比gydF4y2Ba

图gydF4y2Ba4gydF4y2Ba比较SimTune的QoS指标与基准方法的先进的调度器。SimTune优于基线在大多数指标,如降低能耗和响应时间达14.7%和7.6%,分别。具体地说,在能源方面,gydF4y2BaLSTM + Sim2RealgydF4y2Ba3.714千瓦的最低消费吗gydF4y2Ba\ \ cdot \ ()gydF4y2Ba人力资源在所有基线,平均所有调度器。SimTune减少3.124千瓦gydF4y2Ba\ \ cdot \ ()gydF4y2Ba人力资源,gydF4y2Ba即gydF4y2Ba最好,14.7%低于基线。SimTune能够提高能源效率相比gydF4y2Bahuman-setgydF4y2Ba由于能力值调整权力边缘的剖面特征和云主机。没有模拟优化,数据驱动的调度器训练使用规范权力配置文件,这可能不是最理想的表征的功耗特点考虑到不同的工作负载AIoTBench应用程序的性质。此外,平均响应时间,gydF4y2BaLSTM + SGDgydF4y2Ba基线提供了15.45秒平摊在所有调度器。SimTune给较低的响应时间为14.28秒,低于7.6%gydF4y2BaLSTM + SGDgydF4y2Ba。能源消耗和响应时间的改进主要是由于较低的现实差距衡量的损失函数在情商。gydF4y2Ba11gydF4y2Ba)。SimTune聚合损失值是0.0345,而损失的基线是最低的gydF4y2BaLSTM + Sim2RealgydF4y2Ba方法同0.1922。这是由于SimTune捕捉能力的时间趋势使用变压器编码器以及空间相关性利用gated-graph卷积网络。低损耗值确保了数据生成的模拟器和代理更接近真实值,减轻曝光和提供更多的偏见问题gydF4y2Ba现实的gydF4y2Ba数据调度程序。这直接转化为更好的QoS的分数。低响应时间如果SimTune也会导致重大改进的SLO违反率。最低的平均所有基线是通过违反率gydF4y2Ba计+西文gydF4y2Ba平均为0.153,而SimTune给SLO违反率为0.135,比最好的分数低了11.8%。同样,我们看到SimTune给最低的平均执行成本为0.650美元,低于7.86%最合算的基线,gydF4y2Ba即。gydF4y2Ba,gydF4y2BaLSTM + Sim2RealgydF4y2Ba平均成本为0.706美元。随机梯度下降法相比,基于GDMC参数更新使SimTune更新分类参数。gydF4y2BaLSTM + SGDgydF4y2Ba使用连续松弛参数更新相反,它已被证明比GDMC表现不佳gydF4y2Ba37gydF4y2Ba。这是通过蒙特卡罗辍学低保真Bayseian推理的神经网络模型。最后,我们也看到降低SimTune方法调度时间,多亏了低保真代理被用于生成动态数据动态调度程序培训(第7行算法1)。这也意味着更低的平均等待时间的任务。gydF4y2Ba

烧蚀分析gydF4y2Ba

测试的重要性SimTune的混合方法,利用高保真模拟器和低保真代理,我们修改方法如下。首先,我们考虑一个模型没有高保真模拟器生成离线训练数据和利用代孕本身。我们称这种方法gydF4y2BaSimTune w / o高保真gydF4y2Ba。第二,我们将低保真代理模型替换为高保真模拟器生成数据的在线培训在SimTune调度器。我们称这种方法gydF4y2BaSimTune w / o夸张gydF4y2Ba。表gydF4y2Ba1gydF4y2Ba介绍了SimTune和烧蚀模型的结果。没有离线训练的高保真模拟器(gydF4y2BaSimTune w / o高保真gydF4y2Ba),我们观察到的QoS指标下降;例如,SLO违反率增加了5.4%。这是由于缺乏未知的模拟器配置代理导致的贫困线下培训的调度器。此外,没有代理(gydF4y2BaSimTune w / o夸张gydF4y2Ba),在线数据生成更费时,产生较高的调度和等待时间和低劣的QoS的分数。例如,SLO违反率增加13%,当我们不使用低保真模型。这说明混合的有效性SimTune高低保真度的方法。gydF4y2Ba

图6gydF4y2Ba
图6gydF4y2Ba

调优时间SimTune和基线模型与不同数量的节点edge-cloud设置。gydF4y2Ba

可扩展性分析gydF4y2Ba

SimTune的性能测试方法在不同尺度,我们生成QoS分数不同大小的edge-cloud试验台。我们用1:2的比例进行控制实验和云边缘节点,我们使用相同数量的4 gb和8 gb RAM覆盆子π4 b节点环境和在我们的优势gydF4y2Bab₂gydF4y2Ba英-。云虚拟机输入籍我们不同边缘设备的数量从2到16日的云节点数量是4到32。这给节点的总数从6至48。我们保持gydF4y2Ba\λ(\ \)gydF4y2Ba参数设置的大小比例。6节点设置gydF4y2Ba\ \λ= 0.16 (\)gydF4y2Ba和48个节点设置gydF4y2Ba\ \λ= 1.28 (\)gydF4y2Ba。平均分数大小不同的网络,在所有调度方法,图中所示。gydF4y2Ba5gydF4y2Ba。随着节点数的增加,能源消耗和执行成本。然而,SimTune给最低的能源消耗和运营成本在所有模型。响应时间和SLO违反率没有显示显著偏差的基准模型。由于高争用的可能性有限数量的设备的情况下,我们看到响应时间和因此SLO违反通常更高的利率9或更少的节点。即使在这种情况下SimTune给更好的成绩与基线相比。这主要是由于封闭图形的能力卷积网络规模有效性能与输入图的大小gydF4y2Ba52gydF4y2Ba。我们也比较模拟器参数的调优时间不同数量的节点设置在无花果。gydF4y2Ba6gydF4y2Ba。当模拟器参数是静态的gydF4y2Ba人类集gydF4y2Ba,没有优化开销。然而,这限制了其在非平稳环境下动态参数可能需要更新。内参数更新方法为基础,SimTune最低调优时间由于其基于变压器的设计,使我们能够提供一起调优数据代替复发模型的自回归推断风格等gydF4y2BaLSTM + SGDgydF4y2Ba和gydF4y2BaLSTM + Sim2RealgydF4y2Ba。gydF4y2Ba

结论gydF4y2Ba

本文提出SimTune,框架桥模拟真实和现实差距QoS的痕迹。SimTune利用基于代理模型的低保真神经网络调优参数的高保真模拟器。SimTune方法训练神经网络替代模拟模拟器并更新模拟器参数使用代理现实差距作为一个代理和更新基于参数使用梯度蒙特卡罗搜索策略。更新后的参数然后使用模拟器用于生成离线数据使用代理和在线数据来训练一个数据驱动的调度器。实验与现实生活中的基于ai基准应用程序在异构edge-cloud实验表明SimTune给至少14.7%降低能源消耗,低响应时间和11.8%低7.6% SLO违反率相比,先进的基线。这说明的重要性模拟器调优优QoS情报领域的优势。未来的工作将调查SimTune方法的应用还包括额外的资源管理决策等资源配置和自动定量gydF4y2Ba53gydF4y2Ba。我们也致力于探索的应用SimTune容错计算的领域。gydF4y2Ba