跳转至正文
GZ Cloudhome Logo

广义特征向量

发布于:2023 年 7 月 6 日 at 19:55

特征向量与几何重数、代数重数

我们知道,给定矩阵 ARN×N\mathbf{A} \in \mathbb{R}^{N \times N},满足

Ax=λx\mathbf{A} \boldsymbol{x} = \lambda \boldsymbol{x}

的向量 xRN\boldsymbol{x} \in \mathbb{R}^NA\mathbf{A} 的特征向量,对应特征值 λR\lambda \in \mathbb{R}。为了求满足上式的特征向量,我们需要求 λ\lambda,使得

p(λ)=det(AλI)=0.p(\lambda) = \det \big( \mathbf{A} - \lambda \mathbf{I} \big) = 0.

这里面,p(λ)p(\lambda) 称作 A\mathbf{A} 的特征多项式(characteristic polynomial)。上式这个特征方程将会有 NλN_\lambda 个不同的解。根据这些解,特征多项式可以因式分解为

p(λ)=(λλ1)n1(λλ2)n2(λλNλ)nNλ.p(\lambda) = (\lambda - \lambda_1)^{n_1}(\lambda - \lambda_2)^{n_{2}} \dots (\lambda - \lambda_{N_\lambda})^{n_{N_\lambda}}.

上式中,nin_i 表示第 ii 个特征值的代数重数(algebraic multiplicity),我们有 i=1Nλni=N\sum_{i=1}^{N_{\lambda}} n_i = N。对于上式中的某个 λi\lambda_i,我们代入

(AλiI)x=0,(\mathbf{A} - \lambda_{i}\mathbf{I}) \boldsymbol{x} = 0,

并把 x\boldsymbol{x} 当作未知数,可以解出来对应的特征向量。然而,上式对应的解空间维数 mim_i (即 AλiI\mathbf{A} - \lambda_{i}\mathbf{I} 的零空间的维度)并不一定等于 nin_i。这个解空间的维度 mim_i 称作特征值 λi\lambda_i 的几何重数(geometric multiplicity)。事实上,我们有 1mini1 \le m_{i} \le n_i,即几何重数处于 1 和代数重数之间。当 mim_{i} 不幸小于 nin_i 时,对于特征值 λi\lambda_i 我们只能够找到 mim_i 个线性无关的特征向量;同时,这也意味着对于整个 A\mathbf{A} 而言,找到 NN 个线性无关的特征向量变成了不可能的任务,即 A\mathbf{A} 无法对角化。

当某个特征值 λi\lambda_i 的几何重数小于它的代数重数时,我们称这个特征值是为缺陷特征值(defective eigenvalue),对应的矩阵 A\mathbf{A} 也称为缺陷矩阵(defective matrix)。

广义特征向量

前面的分析告诉我们,对于特征值 λi\lambda_i,我们只能找到 mim_i 个特征向量,而剩下 nimin_i - m_i 个特征向量丢失了。那这些特征向量哪里去了呢?它们是否以某种“广义”特征向量的形式存在?

一个矩阵的幂次方可能比这个矩阵本身有更小的秩,基于这个思路,我们可以尝试去寻找 (AλiI)2\big( \mathbf{A} - \lambda_i \mathbf{I} \big)^2 的零空间,即看一看

(AλiI)2x=0\big( \mathbf{A} - \lambda_i \mathbf{I} \big)^2 \boldsymbol{x} = 0

的解。假设这里 mi=1m_i = 1ni=2n_i = 2,我们已经有一个普通的特征向量 x1\boldsymbol{x}_1 满足 (AλiI)x1=0(\mathbf{A} - \lambda_i \mathbf{I}) \boldsymbol{x}_1 = 0,那么 x1\boldsymbol{x}_1 也必然满足上式。刨去 x1\boldsymbol{x}_1,我们尝试去寻找是否还有其它的特征向量 x2\boldsymbol{x}_2 满足上式且与 x1\boldsymbol{x}_1 线性无关。这意味着

{(AλiI)x20(AλiI)2x2=0    (AλiI)x2=x1.\left\{ \begin{align*} \big( \mathbf{A} - \lambda_i \mathbf{I} \big) \boldsymbol{x}_2 &\neq 0 \\ \big( \mathbf{A} - \lambda_i \mathbf{I} \big)^2 \boldsymbol{x}_2 &= 0 \end{align*} \right. ~~\Leftrightarrow~~ \big( \mathbf{A} - \lambda_i \mathbf{I} \big) \boldsymbol{x}_2 = \boldsymbol{x}_1.

借此,我们即可求出 x2\boldsymbol{x}_2,且 x2\boldsymbol{x}_2x1\boldsymbol{x}_1 是线性无关的,满足关系

Ax2=x1+λix2.\mathbf{A} \boldsymbol{x}_2 = \boldsymbol{x}_1 + \lambda_i \boldsymbol{x}_2.

其实 x2\boldsymbol{x}_2 就是广义特征向量。加上 x1\boldsymbol{x}_1,至此我们已经找到了 ni=2n_i = 2 个广义特征向量。能否找到更多呢?答案是否定的,我们无法继续根据 (AλiI)x3=x2\big( \mathbf{A} - \lambda_i \mathbf{I} \big) \boldsymbol{x}_3 = \boldsymbol{x}_2 来找到更多属于特征值 λi\lambda_i 的广义特征向量了(我的有限实验表明,前式的 x3\boldsymbol{x}_3 是无解的),随着幂次的增大,零空间的维数在达到最大值之后不再增加。这也是符合直觉的:我们最多只能找到代数重数个数的广义特征向量。

由此引申,有广义特征向量(generalized eigenvector)的定义:

当一个向量 xm\boldsymbol{x}_m 满足

{(AλI)mxm=0(AλI)m1xm0\left\{ \begin{align*} (\mathbf{A} - \lambda \mathbf{I})^m \boldsymbol{x}_m &= 0 \\ (\mathbf{A} - \lambda \mathbf{I})^{m-1} \boldsymbol{x}_m &\neq 0 \end{align*} \right.

时,我们称这个向量是矩阵 A\mathbf{A} 关于特征值 λ\lambdamm 阶广义特征向量。

容易看出,广义特征向量是特征向量的推广,因为当 m=1m=1 时,广义特征向量即为普通特征向量。

约当链

某个特征值 λ\lambdamm 阶广义特征向量 xm\boldsymbol{x}_m 可以产生一个约当链(Jordan chain):{xm,xm1,,x1}\{ \boldsymbol{x}_m, \boldsymbol{x}_{m-1}, \dots, \boldsymbol{x}_1\},它们满足下面的关系,

xm1=(AλI)xmxm2=(AλI)2xm=(AλI)xm1xm3=(AλI)3xm=(AλI)xm2x1=(AλI)m1xm=(AλI)x2,\begin{align*} \boldsymbol{x}_{m-1} &= (\mathbf{A} - \lambda \mathbf{I}) \boldsymbol{x}_m \\ \boldsymbol{x}_{m-2} &= (\mathbf{A} - \lambda \mathbf{I})^2 \boldsymbol{x}_m = (\mathbf{A} - \lambda \mathbf{I}) \boldsymbol{x}_{m-1} \\ \boldsymbol{x}_{m-3} &= (\mathbf{A} - \lambda \mathbf{I})^3 \boldsymbol{x}_m = (\mathbf{A} - \lambda \mathbf{I}) \boldsymbol{x}_{m-2} \\ \vdots \\ \boldsymbol{x}_1 &= (\mathbf{A} - \lambda \mathbf{I})^{m-1} \boldsymbol{x}_m = (\mathbf{A} - \lambda \mathbf{I}) \boldsymbol{x}_2, \end{align*}

即对于 1jm11 \le j \le m-1,有

xj=(AλI)mjxm=(AλI)xj+1.\boldsymbol{x}_j = (\mathbf{A} - \lambda \mathbf{I})^{m-j} \boldsymbol{x}_m = (\mathbf{A} - \lambda \mathbf{I}) \boldsymbol{x}_{j+1}.

一个约当链中的各个广义特征向量线性无关。

有了约当链的定义,我们也可以继续定义标准基(canonical basis):如果 nn 个线性无关的广义特征向量构成的集合由约当链构成,那它就叫做标准基。

约当标准型

下面给出约当标准型的定义:假设 VV 是一个 nn 维的向量空间,矩阵 A\mathbf{A} 是这个空间到这个空间本身的一个线性映射。那么,若 A\mathbf{A} 的特征多项式可以转化为

p(λ)=±(λλ1)n1(λλ2)n2(λλNλ)nNλp(\lambda) = \pm (\lambda - \lambda_1)^{n_1} (\lambda - \lambda_2)^{n_2} \dots (\lambda - \lambda_{N_\lambda})^{n_{N_\lambda}}

的形式,其中 λ1,,λNλ\lambda_1, \dots, \lambda_{N_\lambda} 是各不相同的特征值,nin_i 是第 ii 个特征值的代数重数,A\mathbf{A} 相似于一个约当标准型(Jordan normal formJ\mathbf{J},其中每个 λi\lambda_iJ\mathbf{J} 的主对角线上出现 nin_i 次,J\mathbf{J} 中和 λi\lambda_i 相邻的上方元素取值为 1 或 0。更准确地,J\mathbf{J} 是一个约当矩阵,它的各个约当块对应同一个特征值。

约当矩阵 J\mathbf{J} 是我们能够对角化 A\mathbf{A} 的极限了。如果 A\mathbf{A} 是可对角化的,那么 J\mathbf{J} 只有主对角线有值。任何一个矩阵 A\mathbf{A} 都相似于一个约当矩阵,可以通过相似转换

J=M1AM\mathbf{J} = \mathbf{M}^{-1} \mathbf{AM}

来得到,其中 M\mathbf{M} 的各列即为 A\mathbf{A} 的广义特征向量。

矩阵的最小多项式

广义特征向量和矩阵的最小多项式相关。一个 N×NN \times N 矩阵 A\mathbf{A} 的最小多项式是一个首一(monic)多项式 μA\mu_\mathbf{A},且是满足 μA(A)=0\mu_\mathbf{A}(\mathbf{A}) = 0 的最小次幂的多项式。换言之,满足 μ(A)=0\mu(\mathbf{A}) = 0 的任何其它多项式都能够被 μA\mu_\mathbf{A} 整除。

我们尝试从广义特征向量的角度来推出最小多项式。假设矩阵 A\mathbf{A} 的第 ii 个特征值 λi\lambda_i 对应的代数重数为 nin_i,几何重数为 mim_i。当 nimi>0n_i - m_i > 0 时,AλiI\mathbf{A} - \lambda_i \mathbf{I} 的零空间(记为ker(AλiI)\ker (\mathbf{A} - \lambda_i \mathbf{I}))不足 nin_i,此时需要引入广义特征向量。假设 ker[(AλiI)ri]\ker \big[(\mathbf{A} - \lambda_i \mathbf{I})^{r_i}\big] 严格包含 ker[(AλiI)ri1]\ker \big[(\mathbf{A} - \lambda_i \mathbf{I})^{r_i-1}\big]ker[(AλiI)ri]=ni\Big | \ker \big[(\mathbf{A} - \lambda_i \mathbf{I})^{r_i}\big] \Big | = n_i,即当幂次增加到 rir_i 时,(AλiI)r(\mathbf{A} - \lambda_i \mathbf{I})^r 的零空间维数不再增加,那么和 λi\lambda_i 相关的所有广义特征向量都满足

(AλiI)rix=0,(\mathbf{A} - \lambda_i \mathbf{I})^{r_i} \boldsymbol{x} = 0,

其中 1rini1 \le r_i \le n_i

又因为 A\mathbf{A} 的所有特征值的广义特征向量共同构成了标准基,所以对于所有的 xRN\boldsymbol{x} \in \mathbb{R}^N,有

(Aλ1I)r1(Aλ2I)r2(AλNλI)rNλx=0.(\mathbf{A} - \lambda_1 \mathbf{I})^{r_1}(\mathbf{A} - \lambda_2 \mathbf{I})^{r_{2}} \dots (\mathbf{A} - \lambda_{N_\lambda} \mathbf{I})^{r_{N_\lambda}} \boldsymbol{x} = 0.

这也就意味着

(Aλ1I)r1(Aλ2I)r2(AλNλI)rNλ=0.(\mathbf{A} - \lambda_1 \mathbf{I})^{r_1}(\mathbf{A} - \lambda_2 \mathbf{I})^{r_{2}} \dots (\mathbf{A} - \lambda_{N_\lambda} \mathbf{I})^{r_{N_\lambda}} = 0.

因此,可以得到最小多项式

μA(λ)=(λλ1)r1(λλ2)r2(λλNλ)rNλ.\mu_\mathbf{A}(\lambda) = (\lambda - \lambda_1)^{r_1}(\lambda - \lambda_2)^{r_{2}} \dots (\lambda - \lambda_{N_\lambda})^{r_{N_\lambda}}.

考察 A\mathbf{A} 的特征多项式 pp

p(λ)=(λλ1)n1(λλ2)n2(λλNλ)nNλ,p(\lambda) = (\lambda - \lambda_1)^{n_1}(\lambda - \lambda_2)^{n_{2}} \dots (\lambda - \lambda_{N_\lambda})^{n_{N_\lambda}},

由于 nirin_i \ge r_i,所以

p(A)=0p(\mathbf{A}) = \mathbf{0}

必然成立。