PCA是一种无监督的映射方法,LDA是一种有监督的映射方法。PCA只是将整组数据映射到
最方便表示这组数据的坐标轴上,映射时没有利用任何数据内部的分类信息。因此,虽然做了PCA后,整组数据在表示上更加方便(降低了维数并将信息损失降到了最低),但在分类上也许会变得更加困难;LDA在增加了分类信息之后,将输入映射到了另外一个坐标轴上,有了这样一个映射,数据之间就变得更易区分了(在低纬上就可以区分,减少了很大的运算量),它的目标是使得类别内的点距离越近越好,类别间的点越远越好。
2、最大似然估计和贝叶斯方法的区别?p(x|X)是概率密度函数,X是给定的训练样本的集
合,在哪种情况下,贝叶斯估计接近最大似然估计?
最大似然估计把待估的参数看做是确定性的量,只是其取值未知。利用已知的样本结果,反
推最有可能(最大概率)导致这样结果的参数值(模型已知,参数未知)。贝叶斯估计则是
把待估计的参数看成是符合某种先验概率分布的随机变量。对样本进行观测的过程,把先验
概率密度转化为后验概率密度,利用样本的信息修正了对参数的初始估计值。
当训练样本数量趋于无穷的时候,贝叶斯方法将接近最大似然估计。如果有非常多的训练样本,使得p(x|X)形成一个非常显著的尖峰,而先验概率p(x)又是均匀分布,此时两者的本质是相同的。
3、为什么模拟退火能够逃脱局部极小值?
在解空间内随机搜索,遇到较优解就接受,遇到较差解就按一定的概率决定是否接受,这个概率随时间的变化而降低。实际上模拟退火算法也是贪心算法,只不过它在这个基础上增加了随机因素。这个随机因素就是:以一定的概率来接受一个比单前解要差的解。通过这个随机因素使得算法有可能跳出这个局部最优解。
4、最小错误率和最小贝叶斯风险之间的关系?
基于最小风险的贝叶斯决策就是基于最小错误率的贝叶斯决策,换言之,可以把基于最小错
误率决策看做是基于最小风险决策的一个特例,基于最小风险决策本质上就是对基于最小错
误率公式的加权处理。
5、SOM的主要功能是什么?怎么实现的?是winner-all-take-all策略吗?
SOM是一种可以用于聚类的神经网络模型。
自组织映射(SOM)或自组织特征映射(SOFM)是一种使用非监督式学习来产生训练样本的输入空间的一个低维(通常是二维)离散化的表示的人工神经网络(ANN)。自组织映射
与其他人工神经网络的不同之处在于它使用一个邻近函数来保持输入控件的拓扑性质。
SOM网络中,某个输出结点能对某一类模式作出特别的反应以代表该模式类,输出层上相邻的结点能对实际模式分布中相近的模式类作出特别的反映,当某类数据模式输入时,对某一输出结点产生最大刺激(获胜结点),同时对获胜结点周围的一些结点产生较大刺激。在训练的过程中,不断对获胜结点的连接权值作调整,同时对获胜结点的邻域结点的连接权值作调整;随着训练的进行,这个邻域范围不断缩小,直到最后,只对获胜结点进行细微的连接权值调整。
不是winner-all-take-all策略。获胜结点产生刺激,其周围的结点也会产生一定程度的兴奋。
6、期望算法需要哪两步?请列出可能的公式并做必要的解释。
E-Step和M-Step。E-Step叫做期望化步骤,M-Step为最大化步骤。
整体算法的步骤如下所示:
1、初始化分布参数。
2、(E-Step)计算期望E,利用对隐藏变量的现有估计值,计算其最大似然估计值,以此实现期望化的过程。
3、(M-Step)最大化在E-步骤上的最大似然估计值来计算参数的值
4、重复2,3步骤直到收敛。
Q⑹旷 1 2)=Ez[logp(X,Z|B)|XQ 卜1 F-step,根据之前的0值求数据的期望
0(i = argmax Q
(0| 0(i_1)
M-step :求0使期望最大化,作为下一次E-step的0值。
7、在核密度估计(kernel density estimation )中,核独立就代表特征独立吗?朴素贝叶斯分类器的基本假设是什么?
不能。(?????)
The Na?/e Bayes classifier makes the assumptio n that the features are class-c on diti on ally independent 。
D
P(x|u)j) =「[P(x(d)|u)j)
d=1
3、假设数据维度(dimensionality )比给定的训练样本的个数多很多,请用芟依赖
于数据的数量,而不是依赖于数据的维度。
1这个协方差矩阵的每个元素有什么意义?协方差矩阵的每个元素是各个向量元素之间的协方差,从上到下分别是向量的第一个和第一个元素之间的协方差,
2计算这数据集两个主成分( principal components )
PCA使计算复杂
2) 求协方差矩阵的特征值和特征向量
3) 选择主成分,将特征值按照从大到小的顺序排序,选择其中最大的
的k个特征向量分别作为列向量组成特征向量矩阵。
4 )将样本点投影到选取的特征向量上。
9、假设一个数据集(covarianee matrix )的协方差矩阵是
k个,然后将其对应
数据集是二维的,四个元素从左到右
12,21,22
1 )计算协方差矩阵,得到协方差矩阵
切二E[X「E(Xd][X2-耳勿]
矩阵:AH=^ A, H是特征向量
矩阵的特征方程的表达式为|入E-A|=0
(入-1)(入-1) -1/4=0 入=3/2 或者1/2
3) 为什么PCA能够移除特征之间的相关性?
PCA在降维的时候要尽量保存数据集中的有效信息,映射的方法是基变换,数据集在某个基上的投影值(也是在这个基上的坐标值)越分散,方差越大,这个基保留的信息也就越多。信息量保存能力最大的基向量一定是就是数据集的协方差矩阵的特征向量,并且这个特征向
coding scheme, so that is x n is from class w k, t nk=1, and t nj=0, for all other j , j z k。假设数据点的描绘是独立于这个模型的,用最大似然估计在先验概率是n k=N k/N的情况下求解,
N k是数据点的数量由w k确定。
解:
11、对于下列模式:
{(0,0)T, (1,1)T, (-1,-1)T, (2,2)T, (-2,-2)T, (1,-1)T,(-1,1)、,使用K-L转换(或者说就是PCA)降低特征维数至一维,并给出详细的计算步骤。
Step1 :求x和y的平均值。然后对于所有的样例,都减去对应的均值。
X的均值是0, y的均值是0
X:0 1 -1 2 -2 1 -1
Y: 0 1 -1 2 -2 -1 1
Step2:求协方差矩阵(应该除以n-1 ,不是n,所以错的)
Step3:求协方差矩阵的特征值和特征向量
特征值:20/7 4/7
特征向量:(入E-A) X=0,入=20/7时,特征向量是[1,1]T,入=4/7时,特征向量是[1,-1] T
Step4:将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特
征向量分别作为列向量组成特征向量矩阵。所以选入=20/7,特征向量矩阵是[1,1]T。
Step5 :将样本点投影到选取的特征向量上。
DataAdjust就是减去均值后的样本矩阵,EigenVector就是特征向量矩阵最后的结果就是0 2 -2 4 -4 0 0
12、使用基本分支定界法去执行特征选择的先决条件( prerequisite )是什么?为什么它适用于降低计算代价?
先决条件是假设单调性,增加特征只会增加目标函数的值。
在这样的假设条件下,增加特征的顺序对结果不会造成影响,就避免去搜索仅仅特征顺序不
同的解,减少了计算代价。
13、在特征选择方面,SFS( sequential forward selection )和SBS( sequential backward
selecti on )有什么区别?当最佳的特征子集从大量的特征中选出以后,两种方法哪一个是令人满意的?
特征子集X从空集开始,每次选择一个特征x加入特征子集X,使得特征函数J( X)最优。简单说就是,每次都选择一个使得评价函数的取值达到更优的特征加入,是一种简单的贪心
算法。
从特征全集O开始,每次从特征集O中剔除一个特征x,使得剔除特征x后评价函数值达到最优。SFS适用于最佳特征子集包含的特征个数较少的情况。SBS适用于最佳特征子集包含特征个
数较多的情况。
SFS缺点是只能加入特征而不能去除特征。
SBS序列后向选择与序列前向选择正好相反,它的缺点是特征只能去除不能加入。
另外,SFS与SBS都属于贪心算法,容易陷入局部最优值。
双向搜索(BDS , Bidirectional Search ):算法描述:使用序列前向选择(SFS)从空集开始,同时使用序列后向选择(SBS)从全集开始搜索,当两者搜索到一个相同的特征子集C时停止搜索。
增L去R选择算法(LRS):该算法有两种形式:
<1>算法从空集开始,每轮先加入L个特征,然后从中去除R个特征,使得评价函数值最优。
(L> R )
<2>算法从全集开始,每轮先去除R个特征,然后加入L个特征,使得评价函数值最优。(L< R )
序列浮动选择(Sequential Floating Selection ) :序列浮动选择由增L去R选择算法发
展而来,该算法与增L去R选择算法的不同之处在于:序列浮动选择的L与R不是固定的,而是“浮动”的,也就是会变化的。
14、线性SVM勺目标函数是什么?支持非线性SVM勺基本解决思路是什么?非支持向量是可移除的吗?为什么?既然计算代价会随着样本的数量缩放,哪种方法被用来减轻
(alleviate )这个负担?
目标函数:min 1/2 || w || subject to yi ( w Xi+b) > 1,i=1,2,…,N 最大化Margin
非线性SVM的基本思想是低维线性不可分,把它投影到高维空间中使线性可分。是的,可移除,因为它对构成超平面不做贡献。
先聚类,找出中心点,对中心点用SVM进行分类,以减轻负载。
15、非线性SVM是否和径向基函数(radial basis function )具有一些相似性,如果有的话是什么?
SVM和RBF超平面表达方式一样,都是将低维线性不可分的数据映射到高维。只是优化时目标函数不同,SVM是最大化Margin,RBF是最小化错误率。
16、如果需要设计一个脸部识别系统并且在这个系统中输入的图片样本的维度和训练样本
的数量相比通常非常高,都有哪些处理步骤?对于每一步,你能列出一个或者多个解决方法
吗?怎么评价你设计的这个系统的错误率?图像输入:使用摄像头或者从图库中获取。
图像预处理:由于光照,环境以及人为影响,大多数情况下,系统采集的原始照片来自不同
背景,不同条件,收到随机的干扰,这些图片不能被直接利用。光线补偿、高斯平滑处理。
特征提取:可以使用PCA进行特征提取。
训练分类器:使用SVM对已知样本进行分类。
后处理
如何评价:采用交叉验证,对原始数据进行分组,一部分做为训练集(train set), 另一部分做为验证集(validation set), 首先用训练集对分类器进行训练,在利用验证集来测试训练
得到的模型(model),以此来做为评价分类器的性能指标。
17、Given a set of data poin ts{x n} ,we can defi ne the con vex hull to be the set of
all points x given by x= 刀a nxn where 刀a n=1, a n > 0.Consider a second set of
points{yn}together with their corresponding convex hull. Show that if their convex
hull in tersect ,the two sets of poin ts{x1}a nd{y1} cannot be lin early separable.
感知器学习:能够处理线性可分的情况,如果线性不可分,则不具有收敛性,其优化准则是最小化错误。MSE能够保证收敛性,但线性可分时不一定能够找到实现分类的超平面,其优化准则是最小化训练数据到超平面的平方和。
19、多层感知器中,什么方法用来避免过拟合?权重衰减,及早终止,增加噪声。
20、在RBF(径向基函数)中,为什么在线性转换之后要跟一个非线性转换?哪些非监督方
法能够用来选择RBF center ?
低维线性不可分,映射到高维线性可分。
随机选择、聚类、密度估计
21、结构风险最小化的基本原则是什么?
同时最小化经验风险和VC纬度,使二者达到平衡。
22、在kernel density estimation 中,核独立就表明特征独立吗?最大似然估计是怎样被用来为KDE选择bandwidth parameter 的?朴素贝叶斯分类器的基本假设是什么?基本的KNN方法对噪声特征敏感,哪种方法能够用来改进这个?
不是;
结合似然函数进行交叉验证。经常使用留一交叉验证的方法最大化伪似然。特征是类条件独立的,公式在上面。
对特征设置权重,以表达该特征的信息内容或作用价值。如果度量相似度的距离公式中对特
征赋予不同权重,特征的权重一般根据各个特征在分类中的作用确定,或者根据特征在训练
样本中的分类作用确定。
23、考虑错误率,随机子抽样(random subsampling)方法和自助抽样法(Bootstrap Method)的区别?
随机二次抽样:无放回的采样,一次数据只会被选择一次。
自助法:有放回的采样,一个数据可能被选择多次,更符合现实情况(在每次验证时增大方
差)
24、S howthat if X1 and X2 are two points in high dimensional space,the hyperplane(超
平面)bisecting (二分)the segment(分段)with end points X1,X2,leaving X1 at its
T 2 2
positive side, is give n by (X1-X2)X-1/2||X1|| +1/2||X2|| =0。
25、
26、梯度下降和拉格朗日乘子法
曲fit 导hiSKJT :
口点X 。到超平面S: w*x+b=O (注:全为N 维向屋)距离” 的计算过程为:
i 殳点“在平而S 上的投影为g 则w.Xi+bO 由于向量农与S 平面的法向SwT 行菠所以 辺范数
X H - ^―n (A a
=科“;+
4 +?
I I
j 1
II nil
w ? x {) + b
I"
I w ?衣 1=1 M I!玄 A JEF +…+3和汩=||
I ; ) +廿(策匚一斗)十…宀H |X o =耳)
”斗比八鼻八0 -{ir'x'p +
診精理.+ irx-
屡二所以|| 閒F -I u<¥;0+ U \v^ + ?. + 2 F a+ b|*| H- *.x n+b|
晞a
w