发现之前统计学习课的作业的研讨问题自己写的还行,先放在这,日后有时间再总结凸优化。
什么是判别式方法?什么是生成式方法?
判别式方法是判别式模型(Discriminative
model)使用的方法. 判别式模型直接对条件概率
典型的判别式模型为线性回归, 支持向量机, Logistics 回归等等. 判别式模型在数据的分布较为复杂(比如文本任务和视觉任务)时表现较好.
生成式方法为生成式模型(Generative
model)使用的方法. 生成式模型对
简而言之, 判别式模型需要学习出一个 decision boundary, 而生成式模型学习得到的是联合概率密度, 两者的共同目的都是最大化后验概率, 前者直接对后验概率进行建模, 后者则通过贝叶斯定理这一桥梁间接求解后验概率.
在底层工具对实值函数求导的实现时, 形状是值得注意的问题,
尤其是行向量与列向量, 例如对于 Numpy
而言行向量与列向量在进行矩阵运算时一视同仁, 其形状为 (l,)
,
但是如果将其 reshape 成形如 (a,b)
的形状,
就需要将其当成矩阵来对待, PyTorch 的张量计算与之类似,
同样需要额外注意形状的一致性.
使用梯度下降法优化参数,需要注意哪些问题?
对于最朴素的梯度下降法, 其中最重要的参数为学习率, 因此合适的学习率非常重要, 学习率过小会导致收敛速度慢, 学习率过大又会导致在最优解附近震荡.
对于深度学习中常用的梯度下降法的变体, 包括随机梯度下降以及对数据引入 Batch 之后的批量梯度下降方法等, 除了学习率的取值要合适以外, 有下面几点需要注意:
- 什么是 Gram 矩阵? (2) 计算 Gram 矩阵的作用是什么?
在线性代数中, Gram 矩阵是定义在内积空间
Gram 矩阵的作用:
感知机算法: 在感知机算法中,
由于其对偶问题要优化的目标函数中出现了
核函数与特征相似度: 在其他领域, 对于两个单位向量, 其余弦相似度等于两者的内积, 因此内积本身就可以作为一种相似度的度量, 于是 Gram 矩阵也与特征表示的相似性和样式分析相关。除此之外, 核函数也通常被表示为 Gram 矩阵, 这是因为核函数本身就是一种内积, 这在 SVM 中也能体现出来.
风格迁移: 深度学习中经典的风格迁移大体流程是: (1) 准备基准图像和风格图像; (2) 使用深层网络分别提取基准图像(加白噪声)和风格图像的特征向量(或者说是特征图feature map); (3)分别计算两个图像的特征向量的Gram矩阵,以两个图像的Gram矩阵的差异最小化为优化目标,不断调整基准图像,使风格不断接近目标风格图像.
(1)什么是拉格朗日函数的原始问题?(2)什么是拉格朗日函数的对偶问题?
给定一个凸优化问题:
然后引入拉格朗日函数
现在将
然而强对偶条件不总是成立的, 只有当原问题满足 Slater 条件时, 原问题与对偶问题之间才满足强对偶条件, 幸运的是, 大多数凸优化问题都是满足 Slater 条件的, 这条件只需要保证原问题的可行域内存在子集使得不等式约束都不能取到等号即可.
核函数经过哪些运算组合后, 仍然是核函数?
对于核函数
批量学习和随机梯度下降法,有什么区别?
批量梯度下降法和随机梯度下降法基于梯度下降法, 均需要借助目标函数的梯度值来更新参数, 两者的主要区别为更新参数时选择的数据量的不同.
批量梯度下降法 (BGD) 每次更新需要使用所有的训练样本, 设训练样本总共有
随机梯度下降法 (SGD) 在 BGD 的基础上改善了更新参数的方式,
由全部的样本改成了随机的一个样本, 也就是说更新方式为
在深度学习领域, 常用的优化器 SGD 并不是上文中的 SGD, 实际上应该称为
mini-Batch Gradient Descent 即 MBGD,
这是因为深度学习中对于大量的数据通常会将其分为 batch_size 个 batch,
而每次更新参数时随机选择某个批次的数据进行更新参数, 如下:
什么是“交叉验证”(cross-validation)?
通常在对数据集进行划分时会加入随机因素, 那么某一次的结果可能就不是完全可信的, 于是交叉验证应运而生.
交叉验证需要在同一数据集同一模型下进行多次实验,
只是每次将数据集划分为训练集和测试集的样本不同. 最常用的交叉验证方法是
当样本数较少时, 可令
使用 EM 算法进行鸢尾花分类的思想是什么?
EM 算法全称最大化期望算法, 它用来解决极大似然估计不能使用的场景, 这些场景下往往会出现隐变量.
EM 的一个重要应用场景是高斯混合模型的参数估计,
当它用在鸢尾花分类或者是其他任意一个分类问题上时,
就已经做了数据服从混合高斯分布的假定,
混合高斯分布时若干个高斯分布的加权求和, 如下
Parzen窗估计法的主要思想是什么?
Parzen 窗是一种经典的非参数估计方法, 能够描述多维数据的分布状态。基本思想是用一定范围内样本点的分布密度,对总体概率密度函数进行估计。
设有
那么落入
上面的窗函数又被称为方窗函数即