矩阵博弈的复杂度下界

5 minute read

Published: February 16, 2026

Paper Reading: The Oracle Complexity of Simplex-based Matrix Games: Linear Separability and Nash Equilibria.

本文我们考虑建立如下单纯形矩阵博弈的优化复杂度下界：

\[\begin{align*} \max_{w \in W} \min_{p \in \Delta^n} p^\top A w = \max_{w \in W} \min_{l \in [n]} (Aw)_l. \end{align*}\]

这包含了很多基础性的问题。例如 (1) 当集合 $W$ 为单位范数球，等价于感知器问题，可以视作为一个最简单的单层神经网络。此时 $A$ 为数据集，$w$ 为线性模型的参数，求解上述问题等价于求解一个间隔最小的线形分类器；（2）当集合 $W$ 也为单纯形，等价于双玩家零和博弈问题，其中矩阵 $A$ 表示两个玩家不同对策的收益矩阵，求解上述问题等价求解两个玩家混合随机策略的Nash均衡点。我们将问题（1）和（2）分别称为 $\ell_2$/单纯形-问题和单纯形/单纯形问题。

下面，我们采用一个证明框架，给出上述设定 (1) 和设定 (2) 的复杂度下界。我们定义的oracle复杂度为矩阵乘法的次数，其中包括了左乘操作 $Aw$ 或者右乘操作 $p^\top A$.

Lower Bound for Problem (1)

The Construction

对于一个给定的算法，我们考虑如下高维函数构造, 其中$\alpha, \beta$ 为待定参数。首先初始化 $v_0 = \alpha 1$，然后对于随后的 $T+1$ 次迭代，对于算法如下的对抗oracle。

计算算法的查询点 $p_t$ 和 $w_t$.
选择 $u_t$ 为正交于向量组 $u_1,\cdots,u_{t-1}, w_1,\cdots,w_t$ 的一个单位向量。
抽取独立的标准高维高斯向量 $\xi_t$, 然后令 $v_t$ 为 $\beta \xi_t$ 到向量组 $v_0,\cdots,v_{t-1},p_1,\cdots,p_t$ 补空间的正交投影。
令 $A_t = \sum_{j=1}^t (v_{j-1} - v_j) u_j^\top$ 并且返回oracle为 $p_t^\top A_t$ 以及 $A_t w_t$.

容易注意到根据构造，上述等价于给出了一个困难的例子，其中矩阵 $A$为

\[\begin{align*} A = \sum_{t=1}^T (v_{t-1} - v_t) u_j^\top + v_T u_{T+1}^\top. \end{align*}\]

上述构造中的正交性可以保证每次迭代 $t$ 返回oracle $p_t^\top A$ 以及 $A w_t$ 只依赖于直到迭代 $t$ 中所拥有的部分知识即可。

下面用上述构造给出在假设 $\max_{l \in [n]} \Vert A_l \Vert \le 1$ 下寻找一个 $\epsilon$ 解的 $\tilde{\Omega}(\epsilon^{-2/3})$ 的复杂度下界。我们将证明拆分成如下三个步骤。

Step I: Seperator Exists

我们希望我们构造的例子存在一个线性分类器。我们选择单位向量 $\bar w = \frac{1}{\sqrt{T+1}} \sum_{t=1}^{T+1} u_t$. 对于这个平均的向量，成立

\[\begin{align*} &\max_{w: \Vert w \Vert \le 1}\min_{p \in \Delta^n} p^\top A w \ge \min_{p \in \Delta^n} p^\top A \bar w = \frac{\alpha}{\sqrt{T+1}}. \end{align*}\]

Step II: Algorithm Returns a Non-Separator

上一步我们证明了一个近似分类器的存在，但下一步我们证明我们的构造可以保证算法无法返回一个分类器。根据构造，我们有

\[\begin{align*} A w_{T+1} =& \sum_{t=1}^T (v_{t-1} - v_t) u_t^\top w_{T+1}. \end{align*}\]

定义向量 $r = (r_0,\cdots,r_T)$ 满足 $r_0 = u_1^\top w_{T+1}$, $r_T = u_T^\top w_{T+1}$, 以及对于其他的 $t$ 有 $r_t =u_t^\top w_{T+1} - u_{t+1}^\top w_{T+1}$. 因此，可以将上式重写为

\[\begin{align*} A w_{T+1} =& r_0 v_0 - \sum_{t=1}^T r_t v_t \\ =& \alpha r_0 1 - \beta \sum_{t=1}^T r_t (I - M_t M_t^\top ) \xi_t \\ =& \alpha r_0 1 - \beta \left( \sum_{t=1}^T r_t \xi_t - \sum_{t=1}^T r_t M_t M_t^\top \xi_t \right), \end{align*}\]

其中我们定义 $M_t$ 为向量组 $v_0,\cdots,v_{t-1},p_1,\cdots,p_t$ 的正交基。为了分析 $\min_{p \in \Delta^n} A w_{T+1} = \min_{l \in [n]}（A w_{T+1})_l$ 的大小，我们使用高维概率的集中不等式。为了便于理解，我们给出直觉上大致的估计而非完全严谨的证明，详细的推导可以见原论文。

首先我们对向量 $\sum_{t=1}^T r_t \xi_t$ 的每一个维度分别应用Hoeffding集中不等式可以知道其每一个维度都将集中在 $\Vert r_{1:T} \Vert$ 附近。而对于向量 $\sum_{t=1}^T r_t M_t M_t^\top \xi_t$ 由于投影的存在，事实上可以证明当维度足够高 (文中选择了 $n = \Omega(T^2)$ ) 的时候，该向量最小的一项应当小于 $\Vert r_{1:T} \Vert$。因此，遵循我们上述的直觉，我们可以证明高概率下一定有：

\[\begin{align*} \min_{l \in [n]}(A w_{T+1})_l \le \alpha r_0 - \frac{\beta}{4} \Vert r_{1:T} \Vert, \end{align*}\]

其中常数 $1/4$ 是由于使用集中不等式的误差导致。回顾向量 $r$ 的定义，我们定义新的向量组 $x_t = u_t w_{T+1}$, 那么可以将上面的不等式重写为

\[\begin{align*} \min_{l \in [n]}(A w_{T+1})_l \le \alpha x_0 - \frac{\beta}{4} \sqrt{ \sum_{t=1}^{T=1} (x_j - x_{j+1})^2 + x_{T^2} }. \end{align*}.\]

上式子是否为负事实上可以通过定义一个三对角矩阵 $M$ 的正定性来得到, 业绩分析什么时候成立 $x^\top M x \ge 0$. 经过简单的分析我们可以知道，当 $\alpha = O(\beta / \sqrt{T})$ 的时候，可以保证上式右端项为父，因此算法一定不能返回一个线性分类器，并且结合第一步，我们知道

\[\begin{align*} \max_{w: \Vert w \Vert \le 1}\min_{l \in [n]}(A w)_l - \min_{l \in [n]}(A w_{T+1})_l \ge \frac{\alpha}{\sqrt{T+1}}. \end{align*}\]

Step III: Bounded Norm

最后一步，我们验证构造满足矩阵 $A$ 的范数有界条件, 容易根据集中不等式得到

\[\begin{align*} \max_{l \in [n]} \Vert A_l \Vert = \tilde{O}( \alpha + \beta \sqrt{T}). \end{align*}\]

An $\tilde{\Omega}(1/T^{3/2})$ Lower Bound

最后，我们选取合适的参数 $\alpha, \beta$ 得到最终的复杂度下界。为了保证 $\max_{l \in [n]} \Vert A_l \Vert \le 1$，我们需要选择 $\alpha = O(1)$ 以及 $\beta = \tilde{O}(1/\sqrt{T})$. 为了保证第二步中的条件成立，我们需要选择 $\alpha = O(\beta/ \sqrt{T}) =\tilde{O}(1/T)$. 最终我们知道给出的下界为

\[\begin{align*} \Omega\left( \frac{\alpha}{\sqrt{T}} \right) = \tilde{\Omega}\left( \frac{1}{T^{3/2}} \right). \end{align*}\]

Lower Bound for Problem (2)

本节，我们采用类似的构造，证明关于问题(2) 的复杂度下界。

A Reduction

首先，我们证明，任意求解单纯形/单纯形博弈问题的算法，都可以求解如下的 $\ell_1$/单纯形-矩阵博弈问题：

\[\begin{align*} \max_{w: \Vert w \Vert_1 \le 1} \min_{p \in \Delta^n} p^\top A w = \max_{w: \Vert w \Vert_1 \le 1} \min_{l \in [n]} (Aw)_l. \end{align*}\]

给定一个收益矩阵为 $A \in \mathbb{R}^{n \times d}$ 的 $\ell_1$/单纯形-矩阵博弈问题的实例，我们可以用如下的方式调用收益矩阵为 $(A;-A) \in \mathbb{R}^{n \times 2d}$ 一个单纯形/单纯形博弈问题的求解器进行求解。每次我们从求解器中获得询问点 $p \in \mathbb{R}^d$ 和 $(w^+,w^-) \in \mathbb{R}^{2n}$, 然后返回oracle为 $p^\top A$ 以及 $A(w^+ - w^-)$. 进行 $T+1$ 次迭代后，我们最后输出点 $p_{T+1}$ 以及 $w_{T+1} = w_{T+1}^+ - w_{T+1}^-$ 满足 $\Vert w_{T+1} \Vert \le \Vert w_{T+1}^+ \Vert + \Vert w_{T+1}^- \Vert_1 = 1$. 我们可以证明上述这个归约给出了一个相同效率的单纯形/单纯形问题的求解器，推导如下:

\[\begin{align*} & \max_{\Vert w \Vert_1 \le 1} \min_{p \in \Delta^n} p^\top A w - \min_{p \in \Delta^n} p_{T+1}^\top Aw_{T+1} \\ = & \max_{w \in \Delta^{2d}} \min_{p \in \Delta^n} p^\top A (w^+ - w^-) - \min_{p \in \Delta^n} p_{T+1}^\top A(w_{T+1}^+ - w_{T+1}^-). \end{align*}\]

上式做左端项代表$\ell_1$/单纯形问题解的逼近程度，而右端项是我们上述算法给出的关于单纯形/单纯形问题解的逼近程度。等号成立的原因是：关于$\ell_1$/单纯形问题的解 $w^\ast$ 一定满足 $\Vert w^\ast \Vert_1$，而此时将 $w^\ast$ 的负元素和非负元素的绝对值分开，得到的向量 $(w^+, w^-)$ 一定满足 $(w^+, w^-) \in \Delta^{2d}$.

The Construction

经过上述分析，我们知道如果一个算法可以求解单纯形/单纯形问题，那么也可以在相同的时间内求解 $\ell_1$/单纯形问题。因此，为了构造单纯形/单纯形问题的复杂度下界，只需要构造 $\ell_1$/单纯形问题的复杂度下界即可。由之前关于问题（1）的构造启发，我们进行简单的修改得到如下构造：首先初始化 $v_0 = \alpha 1$，然后对于随后的 $T+1$ 次迭代，对于算法如下的对抗oracle。

计算算法的查询点 $p_t$ 和 $w_t$.
取独立的标准高维高斯向量 $\xi_t’$, 然后令 $u_t$ 为$\xi_t’$ 到向量组 $u_1,\cdots,u_{t-1}, w_1,\cdots,w_t$ 补空间的正交投影，后并且归一化使得模长为1的向量。
抽取独立的标准高维高斯向量 $\xi_t$, 然后令 $v_t$ 为 $\beta \xi_t$ 到向量组 $v_0,\cdots,v_{t-1},p_1,\cdots,p_t$ 补空间的正交投影。
令 $A_t = \sum_{j=1}^t (v_{j-1} - v_j) u_j^\top$ 并且返回oracle为 $p_t^\top A_t$ 以及 $A_t w_t$.

注意到只有步骤2进行了修改，目的是为了使用集中不等式来满足矩阵 $A$ 的每个元素有界的条件。

Step I: Seperator Exists

类似地，我们可以证明存在一个线性分类器。我们选择单位向量 $\bar w = \frac{1}{\Vert \sum_{t=1}^{T+1} u_t \Vert_1} \sum_{t=1}^{T+1} u_t$. 对于这个平均的向量，成立

\[\begin{align*} &\max_{w: \Vert w \Vert_1 \le 1}\min_{p \in \Delta^n} p^\top A w \ge \min_{p \in \Delta^n} p^\top A \bar w = \frac{\alpha}{\Vert \sum_{t=1}^{T+1} u_t \Vert_1} \ge \frac{\alpha}{\sqrt{d}\Vert \sum_{t=1}^{T+1} u_t \Vert_2} = \frac{\alpha}{\sqrt{d(T+1)}}. \end{align*}\]

Step II: Algorithm Returns a Non-Separator

由于之前分析中的第二步只依赖于 $u_t$ 正交于向量组 $u_1,\cdots,u_{t-1}, w_1,\cdots,w_t$，之前的分析仍然成立。回顾之前的结论，我们知道当 $\alpha = O(\beta / \sqrt{T})$ 的时候，可以保证上式右端项为父，因此算法一定不能返回一个线性分类器，并且结合第一步，我们知道

\[\begin{align*} \max_{w: \Vert w \Vert \le 1}\min_{l \in [n]}(A w)_l - \min_{l \in [n]}(A w_{T+1})_l \ge \frac{\alpha}{\sqrt{d(T+1)}}. \end{align*}\]

Step III: Bounded Elements

在这一步中，我们利用高维高斯分布的集中不等式，证明构造的矩阵 $A$ 中每一个元素都有界。根据矩阵 $A$ 的定义以及三角不等式，我们可以得到

\[\begin{align*} \max_{i,j} \vert A_{i,j} \vert \le \left \vert \sum_{t=1}^T (v_{t-1,i} - v_{t,i}) u_{t,j} \right \vert + \vert v_{T,i} \vert \vert u_{T+1,j} \vert. \end{align*}\]

当给定向量组 $v_0,\cdots, v_T$ 的前提下，向量 $u_t$ 作为球面上的均匀分布，我们知道其满足次高斯范数为 $O(1/d)$ 的次高斯分布。因此根据次高斯随机变量和的集中不等式，我们可以得到以高概率成立

\[\begin{align*} \left \vert \sum_{t=1}^T (v_{t-1,i} - v_{t,i}) u_{t,j} \right \vert = \tilde{O} \left( \sum_{t=1}^T (v_{t-1,i} - v_{t,i})^2/d \right). \end{align*}\]

再对右端项利用Young氏不等式，得到

\[\begin{align*} \left \vert \sum_{t=1}^T (v_{t-1,i} - v_{t,i}) u_{t,j} \right \vert = \tilde{O} \left( \frac{\alpha^2+\sum_{t=1}^T v_{t,i}^2}{d} \right). \end{align*}\]

下面，注意到 $v_{t,i} \mid v_{0,i}, \cdots, v_{t-1,i}$ 服从于方差小于 $\beta^2$ 的高斯分布，我们利用鞅差序列的集中不等式，可以得到以高概率成立着

\[\begin{align*} \left \vert \sum_{t=1}^T v_{t,i}^2 \right \vert = \tilde{O} \left( \beta^2 T \right) \end{align*}\]

因此我们知道以高概率成立

\[\begin{align*} \max_{i,j} \vert A_{i,j} \vert = \tilde{O} \left( \alpha / \sqrt{d} + \beta \sqrt{T/d} \right). \end{align*}\]

An $\tilde{\Omega}(1/T^{3/2})$ Lower Bound

最后，我们选取合适的参数 $\alpha, \beta$ 得到最终的复杂度下界。为了保证 $\max_{i,j} \vert A_{i,j} \vert \le 1$，我们需要选择 $\alpha = O(\sqrt{d})$ 以及 $\beta = \tilde{O}(\sqrt{d/T})$. 为了保证第二步中的条件成立，我们需要选择 $\alpha = O(\beta/ \sqrt{T}) =\tilde{O}(\sqrt{d}/T ))$. 最终我们知道给出的下界为

\[\begin{align*} \Omega\left( \frac{\alpha}{\sqrt{dT}} \right) = \tilde{\Omega}\left( \frac{1}{T^{3/2}} \right). \end{align*}\]

Share on

Twitter Facebook LinkedIn

Lesi Chen (陈乐偲)

矩阵博弈的复杂度下界

Lower Bound for Problem (1)

The Construction

Step I: Seperator Exists

Step II: Algorithm Returns a Non-Separator

Step III: Bounded Norm

An $\tilde{\Omega}(1/T^{3/2})$ Lower Bound

Lower Bound for Problem (2)

A Reduction

The Construction

Step I: Seperator Exists

Step II: Algorithm Returns a Non-Separator

Step III: Bounded Elements

An $\tilde{\Omega}(1/T^{3/2})$ Lower Bound

Share on

You May Also Enjoy

高阶凸优化的复杂度下界简证

外梯度法在凸优化的最优二阶以及高阶加速

外梯度法对于非凸优化的加速