特征向量与几何重数、代数重数
我们知道,给定矩阵 A∈RN×N,满足
Ax=λx
的向量 x∈RN 是 A 的特征向量,对应特征值 λ∈R。为了求满足上式的特征向量,我们需要求 λ,使得
p(λ)=det(A−λI)=0.
这里面,p(λ) 称作 A 的特征多项式(characteristic polynomial)。上式这个特征方程将会有 Nλ 个不同的解。根据这些解,特征多项式可以因式分解为
p(λ)=(λ−λ1)n1(λ−λ2)n2…(λ−λNλ)nNλ.
上式中,ni 表示第 i 个特征值的代数重数(algebraic multiplicity),我们有 ∑i=1Nλni=N。对于上式中的某个 λi,我们代入
(A−λiI)x=0,
并把 x 当作未知数,可以解出来对应的特征向量。然而,上式对应的解空间维数 mi (即 A−λiI 的零空间的维度)并不一定等于 ni。这个解空间的维度 mi 称作特征值 λi 的几何重数(geometric multiplicity)。事实上,我们有 1≤mi≤ni,即几何重数处于 1 和代数重数之间。当 mi 不幸小于 ni 时,对于特征值 λi 我们只能够找到 mi 个线性无关的特征向量;同时,这也意味着对于整个 A 而言,找到 N 个线性无关的特征向量变成了不可能的任务,即 A 无法对角化。
当某个特征值 λi 的几何重数小于它的代数重数时,我们称这个特征值是为缺陷特征值(defective eigenvalue),对应的矩阵 A 也称为缺陷矩阵(defective matrix)。
广义特征向量
前面的分析告诉我们,对于特征值 λi,我们只能找到 mi 个特征向量,而剩下 ni−mi 个特征向量丢失了。那这些特征向量哪里去了呢?它们是否以某种“广义”特征向量的形式存在?
一个矩阵的幂次方可能比这个矩阵本身有更小的秩,基于这个思路,我们可以尝试去寻找 (A−λiI)2 的零空间,即看一看
(A−λiI)2x=0
的解。假设这里 mi=1,ni=2,我们已经有一个普通的特征向量 x1 满足 (A−λiI)x1=0,那么 x1 也必然满足上式。刨去 x1,我们尝试去寻找是否还有其它的特征向量 x2 满足上式且与 x1 线性无关。这意味着
{(A−λiI)x2(A−λiI)2x2=0=0 ⇔ (A−λiI)x2=x1.
借此,我们即可求出 x2,且 x2 和 x1 是线性无关的,满足关系
Ax2=x1+λix2.
其实 x2 就是广义特征向量。加上 x1,至此我们已经找到了 ni=2 个广义特征向量。能否找到更多呢?答案是否定的,我们无法继续根据 (A−λiI)x3=x2 来找到更多属于特征值 λi 的广义特征向量了(我的有限实验表明,前式的 x3 是无解的),随着幂次的增大,零空间的维数在达到最大值之后不再增加。这也是符合直觉的:我们最多只能找到代数重数个数的广义特征向量。
由此引申,有广义特征向量(generalized eigenvector)的定义:
当一个向量 xm 满足
{(A−λI)mxm(A−λI)m−1xm=0=0
时,我们称这个向量是矩阵 A 关于特征值 λ 的 m 阶广义特征向量。
容易看出,广义特征向量是特征向量的推广,因为当 m=1 时,广义特征向量即为普通特征向量。
约当链
某个特征值 λ 的 m 阶广义特征向量 xm 可以产生一个约当链(Jordan chain):{xm,xm−1,…,x1},它们满足下面的关系,
xm−1xm−2xm−3⋮x1=(A−λI)xm=(A−λI)2xm=(A−λI)xm−1=(A−λI)3xm=(A−λI)xm−2=(A−λI)m−1xm=(A−λI)x2,
即对于 1≤j≤m−1,有
xj=(A−λI)m−jxm=(A−λI)xj+1.
一个约当链中的各个广义特征向量线性无关。
有了约当链的定义,我们也可以继续定义标准基(canonical basis):如果 n 个线性无关的广义特征向量构成的集合由约当链构成,那它就叫做标准基。
约当标准型
下面给出约当标准型的定义:假设 V 是一个 n 维的向量空间,矩阵 A 是这个空间到这个空间本身的一个线性映射。那么,若 A 的特征多项式可以转化为
p(λ)=±(λ−λ1)n1(λ−λ2)n2…(λ−λNλ)nNλ
的形式,其中 λ1,…,λNλ 是各不相同的特征值,ni 是第 i 个特征值的代数重数,A 相似于一个约当标准型(Jordan normal form) J,其中每个 λi 在 J 的主对角线上出现 ni 次,J 中和 λi 相邻的上方元素取值为 1 或 0。更准确地,J 是一个约当矩阵,它的各个约当块对应同一个特征值。
约当矩阵 J 是我们能够对角化 A 的极限了。如果 A 是可对角化的,那么 J 只有主对角线有值。任何一个矩阵 A 都相似于一个约当矩阵,可以通过相似转换
J=M−1AM
来得到,其中 M 的各列即为 A 的广义特征向量。
矩阵的最小多项式
广义特征向量和矩阵的最小多项式相关。一个 N×N 矩阵 A 的最小多项式是一个首一(monic)多项式 μA,且是满足 μA(A)=0 的最小次幂的多项式。换言之,满足 μ(A)=0 的任何其它多项式都能够被 μA 整除。
我们尝试从广义特征向量的角度来推出最小多项式。假设矩阵 A 的第 i 个特征值 λi 对应的代数重数为 ni,几何重数为 mi。当 ni−mi>0 时,A−λiI 的零空间(记为ker(A−λiI))不足 ni,此时需要引入广义特征向量。假设 ker[(A−λiI)ri] 严格包含 ker[(A−λiI)ri−1] 且 ker[(A−λiI)ri]=ni,即当幂次增加到 ri 时,(A−λiI)r 的零空间维数不再增加,那么和 λi 相关的所有广义特征向量都满足
(A−λiI)rix=0,
其中 1≤ri≤ni。
又因为 A 的所有特征值的广义特征向量共同构成了标准基,所以对于所有的 x∈RN,有
(A−λ1I)r1(A−λ2I)r2…(A−λNλI)rNλx=0.
这也就意味着
(A−λ1I)r1(A−λ2I)r2…(A−λNλI)rNλ=0.
因此,可以得到最小多项式
μA(λ)=(λ−λ1)r1(λ−λ2)r2…(λ−λNλ)rNλ.
考察 A 的特征多项式 p:
p(λ)=(λ−λ1)n1(λ−λ2)n2…(λ−λNλ)nNλ,
由于 ni≥ri,所以
p(A)=0
必然成立。