符号¶

在本书中，我们遵循以下符号约定。注意：部分符号为占位符，其余则指代特定对象。一条通用经验是， “一个” 通常表明该符号是占位符，格式类似的符号可用于表示同类型的数值对象。例如：“\(x\)：一个标量（a scalar）”，代表任意标量，而 “\(\mathbb{Z}\)：整数集”，则特指由全部整数组成的集合。

数字¶

\(x\)：一个标量
\(\mathbf{x}\)：一个向量
\(\mathbf{X}\)：一个矩阵
\(\mathsf{X}\)：一个张量
\(\mathbf{I}\)：（某个给定维度的）单位矩阵，即主对角线上元素全部为1、非主对角元素全部为0的方阵
\(x_i\), \([\mathbf{x}]_i\)：向量\(\mathbf{x}\)第\(i\)个元素
\(x_{ij}\)，\(x_{i,j}\)，\([\mathbf{X}]_{ij}\)，\([\mathbf{X}]_{i,j}\)：矩阵\(\mathbf{X}\)第\(i\)行第\(j\)列的元素

集合论¶

\(\mathcal{X}\)：一个集合
\(\mathbb{Z}\)：整数集合
\(\mathbb{Z}^+\)：正整数集合
\(\mathbb{R}\)：实数集合
\(\mathbb{R}^n\)：\(n\)维实数向量集合
\(\mathbb{R}^{a\times b}\)：包含\(a\)行和\(b\)列的实数矩阵集合
\(\lvert \mathcal{X} \rvert\)：集合的基数，即集合内元素的数量
\(\mathcal{A}\cup\mathcal{B}\)：集合\(\mathcal{A}\)和\(\mathcal{B}\)的并集
\(\mathcal{A}\cap\mathcal{B}\)：集合\(\mathcal{A}\)和\(\mathcal{B}\)的交集
\(\mathcal{A}\setminus\mathcal{B}\)：集合\(\mathcal{A}\)和\(\mathcal{B}\)的差集，即仅在\(\mathcal{A}\)集合中不在\(\mathcal{B}\)的元素

函数和运算符¶

\(f(\cdot)\)：一个函数
\(\log(\cdot)\)：自然对数（以\(e\)为底）
\(\log_2(\cdot)\)：以2为底的对数
\(\exp(\cdot)\)：指数函数
\(\mathbf{1}(\cdot)\)：指示函数，若布尔型参数为真，则取值为1；否则取值为0
\(\mathbf{1}_{\mathcal{X}}(z)\)：集合成员指示函数；若元素\(z\)属于集合\(\mathcal{X}\)，则取值为1，否则取值为0
\(\mathbf{(\cdot)}^\top\)：向量或矩阵的转置
\(\mathbf{X}^{-1}\)：矩阵\(\mathbf{X}\)的逆
\(\odot\)：Hadmard（按元素乘）积
\([\cdot, \cdot]\)：连结
\(\|\cdot\|_p\)：\(L_p\)范数
\(\|\cdot\|\)：\(L_2\)范数
\(\langle \mathbf{x}, \mathbf{y} \rangle\)：向量\(\mathbf{x}\)和\(\mathbf{y}\)的内（点）积
\(\sum\)：对一组元素求和
\(\prod\)：对一组元素求积
\(\stackrel{\mathrm{def}}{=}\)：定义等价符号，表示左侧符号按定义等于右侧

微积分¶

\(\frac{dy}{dx}\)：\(y\)关于\(x\)的导数
\(\frac{\partial y}{\partial x}\)：\(y\)关于\(x\)的偏导数
\(\nabla_{\mathbf{x}} y\)：\(y\)关于\(\mathbf{x}\)的梯度
\(\int_a^b f(x) \;dx\)：\(f\)在\(a\)到\(b\)区间上关于\(x\)的定积分
\(\int f(x) \;dx\)：\(f\)关于\(x\)的不定积分

概率与信息论¶

\(X\)：一个随机变量
\(P(\cdot)\)：一个概率分布
\(X \sim P\)：随机变量\(X\)遵循概率分布\(P\)
\(P(X=x)\)：随机变量\(X\)取值为\(x\)这一事件所对应的概率
\(P(X \mid Y)\)：\(X\)关于\(Y\)的条件概率分布
\(p(\cdot)\)：一个与分布\(P\)关联的概率密度函数（PDF）
\({E}[X]\)：随机变量\(X\)的期望
\(X \perp Y\)：随机变量\(X\)和\(Y\)是独立的
\(X \perp Y \mid Z\)：随机变量\(X\)和\(Y\)在给定随机变量\(Z\)的条件下是独立的
\(\sigma_X\)：随机变量\(X\)的标准差
\(\mathrm{Var}(X)\)：随机变量\(X\)的方差，等于\(\sigma^2_X\)
\(\mathrm{Cov}(X, Y)\)：随机变量\(X\)和\(Y\)的协方差
\(\rho(X, Y)\)：随机变量\(X\)和\(Y\)的Pearson相关系数，等于\(\frac{\textrm{Cov}(X, Y)}{\sigma_X \sigma_Y}\)
\(H(X)\)：随机变量\(X\)的熵
\(D_{\mathrm{KL}}(P\|Q)\)：从分布\(Q\)到分布\(P\)的KL-散度（相对熵）

讨论