无人机辅助移动边缘计算的计算卸载优化:一种深度确定性策略梯度方法（4）——DDPG-based算法

参考文献：

[1] Wang Y , Fang W , Ding Y , et al. Computation offloading optimization for UAV-assisted mobile edge computing: a deep deterministic policy gradient approach[J]. Wireless Networks, 2021:1-16.doi：https://doi.org/10.1007/s11276-021-02632-z

4 DDPG-based算法

4.1 状态空间

在无人机辅助的MEC系统中，状态空间由 k 个用户、一个无人机及其环境共同确定。时间槽 i 处的系统状态可定义为:
$\begin{aligned} s_{i}=&\left(E_{\text {battery }}(i), \mathbf{q}(i), \mathbf{p}_{1}(i), \ldots, \mathbf{p}_{K}(i), D_{\text {remain }}(i),\right.\\ &\left.D_{1}(i), \ldots, D_{K}(i), f_{1}(i), \ldots, f_{K}(i)\right), \end{aligned}$
式中， $E_{\text {battery }}(i)$ 为 i 时刻无人机电池剩余能量， $\mathbf{q}(i)$ 为无人机位置信息， $\mathbf{p}_{K}(i)$ 为无人机服务的UE k的位置信息， $D_{remain}(i)$ 为整个时间段系统需要完成的剩余任务大小， $D_{K}(i)$ 为UE k在 i 时刻随机生成的任务大小， $f_{K}(i)$ 表示UE k的信号是否被障碍物阻挡。特别是当 $i = 1$ ， $E_{\text {battery }}(i)=E_b$ 和 $D_{remain}(i)=D$ 。

4.2 行动空间

agent根据系统当前状态和所观察的环境，选择待服务的动作包括 i 时刻被服务的UE $k^{\prime}$ 、无人机飞行角度、无人机飞行速度、任务卸载比等，动作 $a_i$ 表示为:
$a_{i}=\left(k(i), \beta(i), v(i), R_{k}(i)\right)$
值得注意的是，DDPG 中的演员网络输出连续的动作。被 agent 选择的动作变量 UE $k(i)\in [0,K]$ 需要进行离散化，即如果 $k (i) = 0$ ，则 $k^{\prime}=1$ ;如果 $k(i)\neq 0$ ，则 $k^{\prime}=\lceil k(i)\rceil,$ 其中 $\lceil \cdot \rceil$ 为向上取整操作。在一个连续动作空间内，可以精确优化无人机的飞行角度、飞行速度和任务卸载比，即 $\beta(i) \in[0,2 \pi]$ , $\in\left[0, v_{\max }\right]$ ，以及 $R_k(i) \in\left[0, 1\right]$ 。对以上四个变量进行联合优化，使系统成本最小。

4.3 奖励函数

agent 的行为是基于奖励的，选择合适的奖励函数对 DDPG 框架的性能起着至关重要的作用。我们的目标是通过最小化问题 (9) 中定义的处理延迟来实现回报最大化，如下所示:
$r_{i}=r\left(s_{i}, a_{i}\right)=-\tau_{\text {delay }}(i)$
其中，时间槽 i 的处理延迟为
$\tau_{\text {delay }}(i)=\sum_{k=1}^{K} \alpha_{k}(i) \max \left\{t_{\text {local }, k}(i), t_{U A V, k}(i)+t_{t r, k}(i)\right\}$
，并且如果 $k=k^{\prime}$ ，则 $\alpha_{k}(i)=1$ ;否则 $\alpha_{k}(i)=0$ 。通过DDPG算法，可以找到使Q值最大化的动作。系统的长期平均报酬可以用 Bellman 方程表示为:
$Q_{\mu}\left(s_{i}, a_{i}\right)=\mathbb{E}_{\mu}\left[r\left(s_{i}, a_{i}\right)+\gamma Q_{\mu}\left(s_{i+1}, \mu\left(s_{i+1}\right)\right)\right]$

4.4 状态标准化

在 DNN 的训练过程中，输入在每一层的分布会随着前一层参数的变化而变化，这需要较低的学习速率和细致的参数初始化，从而减慢了训练的速度。Ioffe 和 Szegedy 提出了一种批处理归一化机制，该机制允许训练使用更高的学习率，并且对初始化不那么小心。我们提出了一种状态归一化算法对观测状态进行预处理，从而更有效地训练 DNN 。值得注意的是，与Qiu的状态归一化算法不同，本文算法将每个变量的最大值与最小值之差作为尺度因子。所提出的状态归一化算法可以很好地解决输入变量的大小差异问题。

在我们的工作中，变量 $E_{\text {battery }}(i), \mathbf{q}(i), \mathbf{p}_{1}(i), \ldots, \mathbf{p}_{K}(i), D_{\text {remain }}(i), D_{1}(i), \ldots, D_{K-1}(i)$ 和 $D_{K-1}(i)$ 在状态集中处于不同的序列，这可能导致在训练中出现问题。如算法 1 所示，通过状态归一化对这些变量进行归一化，以防止出现这种问题。在状态归一化算法中，我们使用了五个尺度因子。每个因素可以解释如下。利用缩放因子 $\gamma_b$ 来缩小无人机电池容量。由于 UAV 和 UE 具有相同的 x 和 y 坐标范围，我们使用 $\gamma_x$ 和 $\gamma_y$ 分别缩小UAV和UE的x和y坐标。我们使用 $\gamma_{D_{rm}}$ 来缩小整个时间段内剩余的任务，使用 $\gamma_{D_{UE}}$ 来缩小时间段 i 内每个终端的任务大小。

4.5 训练与测试

对基于 DDPG 的计算卸载算法的学习和评估分为训练和测试两个阶段。基于DDPG的计算卸载训练算法如算法 2 所示。在训练过程中，对训练行为策略的批评家网络参数和演员网络参数进行迭代更新。算法 3 描述了计算卸载测试过程，采用了算法 2 中训练好的演员网络 $\theta^\mu$ 。需要注意的是，由于演员网络是用归一化状态进行训练的，所以在测试过程中，我们还需要对输入状态进行预处理。