线代学习笔记

First Post:

2026-06-21

Last Update:

2026-06-23

Word Count:

5.6k

Read Time:

22 min

课程：线性代数 MIT 18.06 Linear Algebra

课本：Introduction to Linear Algebra 线性代数(原书第6版) (Gilbert Strang 吉尔伯特·斯特朗著)

一.消元法

以下讨论的矩阵为 $n$ 阶矩阵。

1.引入

我们从前经常接触线性方程组，例如

$\begin{cases} 2x + y = 8 \quad \text{(1)} \\ x + 2y = 7 \quad \text{(2)} \end{cases}$

常见解法为：

1.用式子 (1) 减去式子 (2) 的 2 倍：

2.式子 (2) × 2： $2x + 4y = 14$

3.(1) 减上式： $(2x + y) - (2x + 4y) = 8 - 14$ ，得 $-3y = -6$ ，解得 $y = 2$

4.代回 (2)： $x + 4 = 7$ ，解得 $x = 3$

可以发现：整个过程中， $x$ 和 $y$ 只是占位符，真正被操作的是系数和右边的数。

上述消元中的每一步，无非是三种基本操作：

把一个方程乘以一个非零常数
两个方程相加减
交换两个方程的顺序

可以发现：消元法的每一步，都是对矩阵的行做线性组合。而任何对行的线性组合，都等价于在矩阵左边乘一个特定的矩阵。

由此可以得到线性方程组的一个通用解法：先通过线性变换 $E$ ，使得 $EA=U$ ，从而将 $A$ 化为上三角矩阵，这样就可以从下往上依次回代解出所有未知量。

2.解的情况

将上例方程写成矩阵形式，为：

$\begin{bmatrix} 2& 1\\ 1& 2 \end{bmatrix} \begin{bmatrix} x\\ y \end{bmatrix} = \begin{bmatrix} 8\\ 7 \end{bmatrix}$

即为：

$x\begin{bmatrix} 2 \\ 1 \end{bmatrix}+ y\begin{bmatrix} 1 \\ 2 \end{bmatrix} = \begin{bmatrix} 8\\ 7 \end{bmatrix}$

可以发现： $Ax=b$ 本质是用系数矩阵的每个列向量进行线性组合，看是否能得到 $b$ 。

1.如果矩阵满秩，说明列空间内含有所有这个维度的向量，类似平面向量基本定理，可以证明这种线性组合是唯一的。

2.如果矩阵不满秩，则b可能不在列空间中，则无解；如果在，那么有无数解，且解的形式为：特解+零空间内的任一向量

关于唯一性的证明：

法一：

已知： $A$ 的列向量线性无关。
等价于： $A$ 的零空间里只有零向量。即， $A\mathbf{v} = \mathbf{0}$ 的唯一解是 $\mathbf{v} = \mathbf{0}$ 。

证明：

假设有两个解：设 $\mathbf{x}_1$ 和 $\mathbf{x}_2$ 都是方程 $A\mathbf{x} = \mathbf{b}$ 的解。
这意味着：
$A\mathbf{x}_1 = \mathbf{b}, \quad A\mathbf{x}_2 = \mathbf{b}$
相减，利用线性性质：
把两个等式相减：
$A\mathbf{x}_1 - A\mathbf{x}_2 = \mathbf{b} - \mathbf{b} = \mathbf{0}$
因为是线性变换，所以可以提取公因子：
$A(\mathbf{x}_1 - \mathbf{x}_2) = \mathbf{0}$
引入零空间：
这个等式说明，向量 $\mathbf{x}_1 - \mathbf{x}_2$ 被变换 $A$ 作用后，结果是零向量。
因此， $\mathbf{x}_1 - \mathbf{x}_2 \in N(A)$ （它属于 $A$ 的零空间）。
利用已知条件（列线性无关 $\Rightarrow$ 零空间只有零向量）：
我们已知 $A$ 的列向量线性无关，这意味着 $N(A) = \{\mathbf{0}\}$ 。
得出唯一性：
所以， $\mathbf{x}_1 - \mathbf{x}_2 = \mathbf{0}$ ，即 $\mathbf{x}_1 = \mathbf{x}_2$ 。

证毕。

法二：

已知： $A = [\mathbf{a}_1, \mathbf{a}_2, \dots, \mathbf{a}_n]$ ，且列向量 $\mathbf{a}_1, \dots, \mathbf{a}_n$ 线性无关。

证明：

用列向量写出方程：
方程 $A\mathbf{x} = \mathbf{b}$ 可以写成列向量的线性组合形式：
$x_1 \mathbf{a}_1 + x_2 \mathbf{a}_2 + \dots + x_n \mathbf{a}_n = \mathbf{b}$
这里 $\mathbf{x} = (x_1, \dots, x_n)^T$ 是未知的比例系数。
反证法（假设解不唯一）：
假设存在两组不同的系数 $(x_1, \dots, x_n)$ 和 $(y_1, \dots, y_n)$ ，都能组合出 $\mathbf{b}$ 。即：
$x_1 \mathbf{a}_1 + \dots + x_n \mathbf{a}_n = \mathbf{b}$ $y_1 \mathbf{a}_1 + \dots + y_n \mathbf{a}_n = \mathbf{b}$
相减，重组：
两式相减：
$(x_1 - y_1)\mathbf{a}_1 + (x_2 - y_2)\mathbf{a}_2 + \dots + (x_n - y_n)\mathbf{a}_n = \mathbf{0}$
触发线性无关的定义：
因为向量 $\mathbf{a}_1, \dots, \mathbf{a}_n$ 是线性无关的，根据定义，只有所有系数全为零时，它们的线性组合才能是零向量。
得出矛盾：
所以，必然有：
$x_1 - y_1 = 0,\quad x_2 - y_2 = 0,\quad \dots,\quad x_n - y_n = 0$
这意味着 $x_1 = y_1, x_2 = y_2, \dots, x_n = y_n$ 。两组系数完全相同。

证毕。

3.初等矩阵 E 和置换矩阵 P

我们希望将 $A$ 化为上三角矩阵，那么就需要对 $A$ 进行线性变换。

想快速写出 $E$ ，我们不能再使用矩阵乘法的列表示，而应用行，因为我们在对 $A$ 进行行变换。

例如：

$A=\begin{bmatrix} 2 & 3 &4\\ 4& 11 &14\\ 2 &8 &17 \end{bmatrix}$

初等行变换 $E_{21}$ 将第二行减去第一行的两倍，则

$E_{21}=\begin{bmatrix} 1 & 0 &0\\ -2& 1 &0\\ 0 &0 &1 \end{bmatrix}$

可以得到：

$\begin{bmatrix} 1 & 0 &0\\ -2& 1 &0\\ 0 &0 &1 \end{bmatrix}\begin{bmatrix} 2 & 3 &4\\ 4& 11 &14\\ 2 &8 &17 \end{bmatrix}=\begin{bmatrix} 2 & 3 &4\\ 0& 5 &6\\ 2 &8 &17 \end{bmatrix}$

为什么是这样？

可以发现，行向量 $(c_1, c_2, c_3)$ 的意思是：取 $c_1$ 份旧第一行 + $c_2$ 份旧第二行 + $c_3$ 份旧第三行，混合成新的一行。

设 $A = \begin{bmatrix} a & b & c \\ d & e & f \\ g & h & i \end{bmatrix},E = \begin{bmatrix} 2 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix}$ ，左乘 $E$ ：

新第一行：

$\begin{bmatrix} 2 & 0 & 0 \end{bmatrix} \begin{bmatrix} a & b & c \\ d & e & f \\ g & h & i \end{bmatrix} = 2 \times (a,b,c) + 0 \times (d,e,f) + 0 \times (g,h,i) = (2a, 2b, 2c)$

新第二行： $(0,1,0) \times A = (d,e,f)$ ，完全不变。
新第三行： $(0,0,1) \times A = (g,h,i)$ ，完全不变。

结果就是只有第一行被乘了 2，其他行原样不动。

当然，我们需要进行若干次这种操作，所以变换是复合变换。

但在一些情况下，0可能出现在主元的位置，我们需要进行行交换，这样的矩阵叫置换矩阵。

原理是类似的，不再赘述，仅举一例。

例如：

$A=\begin{bmatrix} 2 & 3 &4\\ 4& 11 &14\\ 2 &8 &17 \end{bmatrix},P=\begin{bmatrix} 1 & 0 &0\\ 0& 0 &1\\ 0 &1 &0 \end{bmatrix}$

可以得到：

$\begin{bmatrix} 1 & 0 &0\\ 0& 0 &1\\ 0 &1 &0 \end{bmatrix}\begin{bmatrix} 2 & 3 &4\\ 4& 11 &14\\ 2 &8 &17 \end{bmatrix}=\begin{bmatrix} 2 & 3 &4\\ 2 &8 &17\\ 4& 11 &14\\ \end{bmatrix}$

虽然与消元无关，不过还是提一下：关于行交换与列交换

同一个置换矩阵，左乘就是行交换，右乘就是列交换。

可以从几何意义上理解

左乘 $P$ 是在输出空间做变换

当左乘置换矩阵 $P$ 时：

$A \mapsto PA$

这相当于先用 $A$ 变换，然后在输出空间里把坐标轴交换。

例如 $P = \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}$ ，左乘 $A$ 得到的新矩阵 $PA$ ：

几何意义：把 $A$ 的每个像向量 $\mathbf{b}$ ，再进行一次关于直线 $y=x$ 的反射（交换两个坐标）。原来在 $(b_1, b_2)$ 的点，现在变成 $(b_2, b_1)$ 。

因此，行交换 = 重新排列输出空间的坐标轴顺序。

右乘 $Q$ 是在输入空间做变换

当右乘置换矩阵 $Q$ 时：

$A \mapsto AQ$

这相当于先在输入空间交换基向量，然后用 $A$ 变换。

同样用 $Q = \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}$ ，右乘 $A$ 得到 $AQ$ ：

几何意义：把输入的标准基 $\mathbf{e}_1, \mathbf{e}_2$ 先对调（ $\mathbf{e}_1' = \mathbf{e}_2,\ \mathbf{e}_2' = \mathbf{e}_1$ ），再被 $A$ 映射。原来的第一列（ $\mathbf{e}_1$ 的像）现在跑到第二列，第二列跑到第一列。

因此，列交换 = 重新排列输入空间的基向量顺序。

二.矩阵乘法和逆矩阵

1.矩阵乘法

定义：设矩阵 $A$ 为 $m \times n$ 矩阵，矩阵 $B$ 为 $n \times p$ 矩阵，则

$A \times B=C,C_{i,j}=\sum_{k=1}^n A_{i,k}\times B_{k,j}$

理解一：向量点积

操作： $C$ 的元素 $c_{ij}$ = $A$ 的第 $i$ 行 · $B$ 的第 $j$ 列（行点乘列）。

这是最基础的计算方式，适合手算具体元素。但它只关注“数字”，看不到矩阵整体的变换。

理解二：列线性组合

操作： $C$ 的第 $j$ 列 = $A$ 的各列以 $B$ 的第 $j$ 列为系数的线性组合。

这是你之前理解的“ $A\mathbf{x}$ = $A$ 的各列以 $\mathbf{x}$ 为系数的线性组合”的直接推广。它告诉你， $C$ 的每一列都是 $A$ 的列向量的某种“调配”。

理解三：行线性组合

操作： $C$ 的第 $i$ 行 = $B$ 的各行以 $A$ 的第 $i$ 行为系数的线性组合。

和上一种理解是对称的。 $A$ 的每一行给了“配方系数”，去混合 $B$ 的各行，产生 $C$ 的新行。

这是从“约束”视角看问题。左乘 $A$ 等价于对 $B$ 做行变换，而 $A$ 的每一行就是变换的“配方”。

理解四：列乘行

操作： $C$ = $(A \text{的第} 1 \text{列} \times B \text{的第} 1 \text{行}) + (A \text{的第} 2 \text{列} \times B \text{的第} 2 \text{行}) + \dots$

任何矩阵乘法都可以拆成一组若干个秩1矩阵之和。这是矩阵乘法的“微观”视角，揭示了任意矩阵的“秩分解”本质。

代数意义：

已知有 $C_{i,j}=\sum_{k=1}^n A_{i,k}\times B_{k,j}$

可以发现：每一项 $A_{i,k}\times B_{k,j}$ ，恰好是 $A$ 的第 $k$ 列的第 $i$ 个元素 与 $B$ 的第 $k$ 行的第 $j$ 个元素 的乘积。

而“ $A$ 的第 $k$ 列 × $B$ 的第 $k$ 行”这个矩阵，它的第 $i$ 行第 $j$ 列元素，正是 $A_{i,k}\times B_{k,j}$ 。

因此，这等价于：把所有“第 $k$ 列 × 第 $k$ 行”矩阵的对应元素加起来。

既然每个元素都相等，整个矩阵自然就相等。

这不是一个新发明，而是把标准定义的“先乘后加”换了个顺序：原来是对每个 $i,j$ 把 $k$ 的贡献加总；现在是固定每个 $k$ ，先算出它贡献的整个矩阵，再把所有矩阵加起来。因为加法满足交换律和结合律，两种顺序结果必然相同。

几何意义：

A的第一列乘B的第一行，得到的矩阵，是这个复合变换中，负责‘把输入向量按 B 的第一行规矩压缩，然后送到 A 的第一列方向’的那个独立变换。把所有这样的独立变换加起来，就得到了完整的复合变换。

任何线性变换都可以看作是一组“投影—拉伸”变换的叠加。每一个“列乘行” $\mathbf{a}_k \mathbf{e}_k^T$ 负责输入空间的第 $k$ 个坐标维度：它把整个空间先投影到那个坐标轴上，然后把投影得到的数值沿 $\mathbf{a}_k$ 方向拉伸。所有坐标维度的这种作用叠加起来，就恢复了完整的线性变换。

这种分解严格依赖于我们选定的输入基（标准基）。如果换一组基，分解的形式就会变化，但本质思想一样：线性变换是由它在各个基向量上的作用线性组合而成的，而“列乘行”正是这个线性组合的几何实现。

有个问题：行和输入向量的点积，为什么就成了“坐标值/权重”？

我们从复合变换 $AB$ 的角度看，把 $B$ 写成行向量， $A$ 写成列向量：

$AB = \sum_{k} \mathbf{a}_k \mathbf{b}_k^*$

当这个复合变换作用在 $\mathbf{x}$ 上时：

$(AB)\mathbf{x} = \sum_k \mathbf{a}_k (\mathbf{b}_k^* \mathbf{x})$

这里，括号里的 $\mathbf{b}_k^* \mathbf{x}$ —— 也就是 B 的第 k 行与输入向量的点积 —— 给出了一个标量 $y_k$ 。
而原式就变成了：

$(AB)\mathbf{x} = y_1 \mathbf{a}_1 + y_2 \mathbf{a}_2 + \cdots$

这不就是“用 $y_k$ 作为 A 的第 k 列的系数”吗？
所以，每一个 $y_k$ 就是在 A 的第 k 列方向上的坐标值（权重）。

为什么偏偏是点积？

因为任何一个从向量到标量的线性函数，都可以且只能写成“与某个固定向量的点积”。
B 的每一行恰好就是那个固定向量。它提取信息的方式必须是线性的，所以必定是点积。

理解五：分块乘法

操作：把 $A$ 和 $B$ 切成小块，把每个小块当成“标量”，按标准内积法相乘。前提是切出来的小块尺寸能合法相乘。

我不知道在干啥。

2.逆矩阵

定义:对于一个方阵 $A$ ，如果存在矩阵 $A^{-1}$ ，使得：

$A^{-1}A = I \quad \text{且} \quad AA^{-1} = I$

则称 $A$ 可逆（非奇异）， $A^{-1}$ 是 $A$ 的逆矩阵。

几何翻译：先做 $A$ ，再做 $A^{-1}$ ，等于什么都没做。 $A^{-1}$ 把 $A$ 对空间做的拉伸、旋转，原样拉回去。

重要事实：左逆 = 右逆。如果 $B$ 满足 $BA = I$ ，那么 $B$ 也一定满足 $AB = I$ 。逆矩阵是唯一的。

对于非方阵，没有通常意义上的逆，因为非方阵改变空间维数，无法完美“倒回去”。不过在后面可能会拓展广义上的逆。

对于一个 $n \times n$ 的方阵 $A$ ，以下条件全部等价。只要其中一个成立，其他所有条件也自动成立，它们都意味着 $A$ 可逆（非奇异）。

行列式非零： $\det(A) \neq 0$ 。
（几何意义：变换后空间体积不为零，没有压扁。）
满秩： $\operatorname{rank}(A) = n$ 。
（列空间维数 = 行空间维数 = $n$ ，变换后的输出空间仍是 $n$ 维。）
列向量线性无关：矩阵的所有列向量构成一组线性无关的向量组。
（没有冗余列，每一个列都提供了独立的新方向。）
行向量线性无关：矩阵的所有行向量构成一组线性无关的向量组。
（没有冗余方程/规矩，每一行都是一条独立的约束。）
列（行）向量构成 $\mathbb{R}^n$ 的一组基：列向量（或行向量）不仅线性无关，还能张成整个 $\mathbb{R}^n$ 。
零空间只有零向量： $N(A) = \{\mathbf{0}\}$ ，即 $A\mathbf{x} = \mathbf{0}$ 只有平凡解 $\mathbf{x} = \mathbf{0}$ 。
（没有非零向量被变换拍扁到原点。）
$A\mathbf{x} = \mathbf{b}$ 有唯一解：对任意 $\mathbf{b} \in \mathbb{R}^n$ ，方程组有且仅有一个解 $\mathbf{x} = A^{-1}\mathbf{b}$ 。
$A$ 是单射（一对一）：不同的输入产生不同的输出。
（由零空间只有零向量保证。）
$A$ 是满射（到上）：输出空间 $\mathbb{R}^n$ 中的每一个向量都被覆盖到。
（由列满秩保证。）
$A$ 是双射：既是单射又是满射，即线性变换是 $\mathbb{R}^n$ 到自身的同构。
所有特征值均不为零： $\lambda = 0$ 不是 $A$ 的特征值。
（没有特征方向被完全压缩到零。）
行列式可写成特征值的乘积： $\det(A) = \lambda_1 \lambda_2 \dots \lambda_n \neq 0$ ，因此所有 $\lambda_i \neq 0$ 。
$A$ 可写成初等矩阵的乘积： $A = E_1 E_2 \dots E_k$ ，其中每个 $E_i$ 是初等矩阵（对应一次行操作或列操作）。
（消元法可以将 $A$ 完全化为单位矩阵，每一步都是可逆的初等变换。）
$A$ 行等价于单位矩阵： $A \sim I$ ，即可以通过一系列初等行变换将 $A$ 化为单位矩阵 $I$ 。
存在左逆：存在矩阵 $B$ 使得 $BA = I$ 。
存在右逆：存在矩阵 $C$ 使得 $AC = I$ 。
（左逆和右逆如果存在，它们一定相等，且唯一地等于 $A^{-1}$ 。）
转置也可逆： $A^T$ 也是可逆的，且 $(A^T)^{-1} = (A^{-1})^T$ 。
行列式倒数： $\det(A^{-1}) = \frac{1}{\det(A)}$ ，所以行列式非零是前提。
$A$ 的列空间是整个 $\mathbb{R}^n$ ： $\text{col}(A) = \mathbb{R}^n$ 。
$A$ 的行空间是整个 $\mathbb{R}^n$ ： $\text{row}(A) = \mathbb{R}^n$ 。
$A$ 没有零奇异值：所有奇异值均大于零（奇异值分解中）。
二次型非退化： $A$ 可逆意味着由 $A$ 定义的二次型是满秩的（在实对称矩阵时可对角化且无零特征值）。

我们通常使用高斯-约当消元法求逆。

以二阶矩阵为例，设

$A=\begin{bmatrix} 1&3\\ 2&7 \end{bmatrix}, A^{-1}=\begin{bmatrix} a&c\\ b&d \end{bmatrix}$

因为

$\begin{bmatrix} 1&3\\ 2&7 \end{bmatrix} \begin{bmatrix} a&c\\ b&d \end{bmatrix}= \begin{bmatrix} 1&0\\ 0&1 \end{bmatrix}$

所以

$\begin{bmatrix} 1&3\\ 2&7 \end{bmatrix} \begin{bmatrix} a\\ b \end{bmatrix}= \begin{bmatrix} 1\\ 0 \end{bmatrix}$ $\begin{bmatrix} 1&3\\ 2&7 \end{bmatrix} \begin{bmatrix} c\\ d \end{bmatrix}= \begin{bmatrix} 0\\ 1 \end{bmatrix}$

这本质上是两个线性方程组，我们只需要两次高斯消元即可。

但这两个线性方程组非常有特点：它们的系数矩阵相同。

那我们为什么不能一块解这两个方程组？（这一步是我感觉这个方法里最帅的一步）

你这种感觉太对了。高斯-约当消元法确实“帅”，它把解方程组和求逆统一成了一个机械流程。

下面从你熟悉的高斯消元出发，一步步推出高斯-约当。

我们直接把所有右端项一起放进增广矩阵：

$[A \mid \mathbf{e}_1, \mathbf{e}_2, \dots, \mathbf{e}_n] = [A \mid I]$

然后对 $A$ 做消元，同时对所有右端列做相同的行变换。

当 $A$ 被消成 $I$ 时，每一列右端项就自动变成了对应方程组的解。这 $n$ 个解堆起来，恰好就是 $A^{-1}$ 。

所以增广矩阵变成了：

$[I \mid \mathbf{c}_1, \mathbf{c}_2, \dots, \mathbf{c}_n] = [I \mid A^{-1}]$

一个消元过程，同时解了 $n$ 个方程组。

这个方法在运算过程上的区别是他不是消成上三角然后回代，而是直接消成单位矩阵，这样解自动就出来了。

其实普通解方程也能这样，可能代码难度不一样？

三.A的LU分解

1.两个性质

$(A_1\times A_2\times\cdots\times A_n)^{-1}=A_1^{-1}\times A_2^{-1}\times\cdots\times A_n^{-1}$

这个比较显然。几何意义上理解非常直观。

$(A^{-1})^T=(A^T)^{-1}$

这个不显然。不会证。

2.怎么快速算矩阵乘法

对于一些操作意义明显的矩阵，是没必要计算的，可以直接执行操作。例如初等矩阵，置换矩阵等。

例如，假设消元过程是：

第一步：第2行减去第1行的 2 倍 → $E_1 = \begin{bmatrix} 1 & 0 & 0 \\ -2 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix}$
第二步：第3行减去新第2行的 3 倍 → $E_2 = \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & -3 & 1 \end{bmatrix}$

现在我们来乘 $E_2 E_1$ ：

从操作视角一步步推：

$E_1$ 作用：第二行变成了 (原第2行 - 2×原第1行)。
$E_2$ 作用：第三行要减去新第二行的 3 倍。新第二行 = 原第2行 - 2×原第1行。所以，新第三行 = 原第3行 - 3×(原第2行 - 2×原第1行) = 原第3行 - 3×原第2行 + 6×原第1行。

所以结果矩阵 $E_2 E_1$ 的第三行第一列会冒出 6！矩阵变成：

$E_2 E_1 = \begin{bmatrix} 1 & 0 & 0 \\ -2 & 1 & 0 \\ 6 & -3 & 1 \end{bmatrix}$

3.A的LU分解

这到底怎么发现的？？？

L指下三角矩阵，U指上三角矩阵。

我们先不考虑需要行交换的情况。

这种情况下，消元过程可写为 $EA=U$ ，然后再回代即可。

但可以发现，要算出这个 $E$ 还是计算量很大的，而且长的也不好。

但我们将这个式子写成 $A=E^{-1}U$ ，设 $L=E^{-1}$ ，发现这个 $L$ 只需要把每个 $E$ 的数填进去就行了。

为什么？

这是L的优美核心。我们来模拟L的生成过程。

L的定义：(L = E_1^{-1} E_2^{-1} E_3^{-1} \dots)，其中 (E_k) 是第k步消元的初等矩阵。

我们以三维为例，按消元顺序写：

(E_1^{-1})：把第2行加回第1行的 l₂₁ 倍
(E_2^{-1})：把第3行加回第1行的 l₃₁ 倍
(E_3^{-1})：把第3行加回第2行的 l₃₂ 倍

这些 (E^{-1}) 都是初等矩阵，代表一个简单的行操作。现在我们要计算它们的乘积 (L)。

关键来了：当我们从右往左依次施加这些操作到单位矩阵 (I) 上时，它们修改行的顺序和方式，保证了互不干扰。

我们一步步看：

初始状态：单位矩阵 (I) 的三行：
Row1 = (1,0,0)
Row2 = (0,1,0)
Row3 = (0,0,1)
第一步，施加 (E_3^{-1})（最右边，先作用）：把第3行加上第2行的 l₃₂ 倍。
Row3 变成 (0, l₃₂, 1)。Row2 不变。
此时，(E_3^{-1}) 只修改了 Row3，且它读的源行 Row2 还是原始的状态。
第二步，施加 (E_2^{-1})：把第3行加上第1行的 l₃₁ 倍。
Row3 再累加上 l₃₁ Row1 = (l₃₁, 0, 0)，变成 (l₃₁, l₃₂, 1)。Row1 不变。
*(E_2^{-1}) 只修改了 Row3，源行 Row1 还是原始的状态。
第三步，施加 (E_1^{-1})：把第2行加上第1行的 l₂₁ 倍。
Row2 变成 (l₂₁, 1, 0)。Row1 不变。
(E_1^{-1}) 只修改了 Row2，源行 Row1 还是原始的状态。

最终得到的矩阵就是：
Row1: (1, 0, 0)
Row2: (l₂₁, 1, 0)
Row3: (l₃₁, l₃₂, 1)

恰好每个倍数都落到了自己独一无二的格子，没有任何交叉污染。

为什么这个顺序这么完美？

因为消元顺序是“从上到下、从左到右”的，这保证了在计算逆操作乘积时，每次操作所用的“源行”都还没有被后续操作修改过。

具体来说：

计算逆乘积时，操作的顺序是原消元顺序的逆序。
原消元顺序：先(2,1)，再(3,1)，再(3,2)。
逆乘积顺序：先(3,2)⁻¹，再(3,1)⁻¹，再(2,1)⁻¹。
在(3,2)⁻¹操作时，它需要读第2行。此时第2行还没被任何操作动过（因为修改第2行的(2,1)⁻¹是最后才做的）。
在(3,1)⁻¹操作时，它需要读第1行，同样没被动过。
在(2,1)⁻¹操作时，它需要读第1行，还是没被动过。

所以，每一个逆操作，读取的“源行”都是纯净的原始单位矩阵的行。这导致每个倍数只影响目标行的一个位置，不会产生连环的依赖和填充。

如果消元顺序不是这样严格的先左后右、先上后下，这种优美性就会消失，L就会出现填充。

≡