符号¶
在本书中,我们遵循以下符号约定。注意:部分符号为占位符,其余则指代特定对象。一条通用经验是, “一个” 通常表明该符号是占位符,格式类似的符号可用于表示同类型的数值对象。例如:“\(x\):一个标题 a scalar”,代表任意标量,而 “\(\mathbb{Z}\):整数集”,则特指全部整数组成的集合。
数字¶
\(x\):一个标量
\(\mathbf{x}\):一个向量
\(\mathbf{X}\):一个矩阵
\(\mathsf{X}\):一个张量
\(\mathbf{I}\):单位矩阵(维度给定),即对角元素全为1、非对角元素全为0的方阵
\(x_i\), \([\mathbf{x}]_i\):向量\(\mathbf{x}\)第\(i\)个元素
\(x_{ij}\),\(x_{i,j}\),\([\mathbf{X}]_{ij}\),\([\mathbf{X}]_{i,j}\):矩阵\(\mathbf{X}\)第\(i\)行第\(j\)列的元素
集合论¶
\(\mathcal{X}\):一个集合
\(\mathbb{Z}\):整数集合
\(\mathbb{Z}^+\):正整数集合
\(\mathbb{R}\):实数集合
\(\mathbb{R}^n\):\(n\)维实数向量集合
\(\mathbb{R}^{a\times b}\):包含\(a\)行和\(b\)列的实数矩阵集合
\(\lvert \mathcal{X} \rvert\):集合的基数,即集合内元素的数量
\(\mathcal{A}\cup\mathcal{B}\):集合\(\mathcal{A}\)和\(\mathcal{B}\)的并集
\(\mathcal{A}\cap\mathcal{B}\):集合\(\mathcal{A}\)和\(\mathcal{B}\)的交集
\(\mathcal{A}\setminus\mathcal{B}\):集合\(\mathcal{A}\)与集合\(\mathcal{B}\)的差集,即仅包括\(\mathcal{A}\)集合中不属于\(\mathcal{B}\)的元素
函数和运算符¶
\(f(\cdot)\):一个函数
\(\log(\cdot)\):自然对数(以\(e\)为底)
\(\log_2(\cdot)\):以2为底的对数
\(\exp(\cdot)\):指数函数
\(\mathbf{1}(\cdot)\):指示函数,若布尔型参数为真,则取值为1;否则取值为0
\(\mathbf{1}_{\mathcal{X}}(z)\):集合成员指示函数;若元素\(z\)属于集合\(\mathcal{X}\),则取值为1,否则取值为0
\(\mathbf{(\cdot)}^\top\):向量或矩阵的转置
\(\mathbf{X}^{-1}\):矩阵\(\mathbf{X}\)的逆
\(\odot\):Hadmard(按元素乘)积
\([\cdot, \cdot]\):连结
\(\|\cdot\|_p\):\(\ell_p\)范数
\(\|\cdot\|\):\(\ell_2\)范数
\(\langle \mathbf{x}, \mathbf{y} \rangle\):向量\(\mathbf{x}\)和\(\mathbf{y}\)的内(点)积
\(\sum\):对一组元素求和
\(\prod\):对一组元素求积
\(\stackrel{\mathrm{def}}{=}\):定义等价符号,表示左侧符号按定义等于右侧
微积分¶
\(\frac{dy}{dx}\):\(y\)关于\(x\)的导数
\(\frac{\partial y}{\partial x}\):\(y\)关于\(x\)的偏导数
\(\nabla_{\mathbf{x}} y\):\(y\)关于\(\mathbf{x}\)的梯度
\(\int_a^b f(x) \;dx\):\(f\)在\(a\)到\(b\)区间上关于\(x\)的定积分
\(\int f(x) \;dx\):\(f\)关于\(x\)的不定积分
概率与信息论¶
\(X\):一个随机变量
\(P(\cdot)\):一个概率分布
\(X \sim P\):随机变量\(X\)遵循概率分布\(P\)
\(P(X=x)\):随机变量\(X\)取值为\(x\)这一事件所对应的概率
\(P(X \mid Y)\):\(X\)关于\(Y\)的条件概率分布
\(p(\cdot)\):一个与分布\(P\)关联的概率密度函数(PDF)
\({E}[X]\):随机变量\(X\)的期望
\(X \perp Y\):随机变量\(X\)和\(Y\)是独立的
\(X \perp Y \mid Z\):随机变量\(X\)和\(Y\)在给定随机变量\(Z\)的条件下是独立的
\(\sigma_X\):随机变量\(X\)的标准差
\(\mathrm{Var}(X)\):随机变量\(X\)的方差,等于\(\sigma^2_X\)
\(\mathrm{Cov}(X, Y)\):随机变量\(X\)和\(Y\)的协方差
\(\rho(X, Y)\):随机变量\(X\)和\(Y\)的Pearson相关系数,等于\(\frac{\textrm{Cov}(X, Y)}{\sigma_X \sigma_Y}\)
\(H(X)\):随机变量\(X\)的熵
\(D_{\mathrm{KL}}(P\|Q)\):从分布\(Q\)到分布\(P\)的KL-散度(相对熵)