当前位置：文档之家› 特征值分解与奇异值分解

特征值分解与奇异值分解

特征值：一矩阵A作用与一向量a，结果只相当与该向量乘以一常数λ。即A*a=λa，则a 为该矩阵A的特征向量，λ为该矩阵A的特征值。

奇异值：设A为m*n阶矩阵，A H A的n个特征值的非负平方根叫作A的奇异值。记

(A)

为σ

上一次写了关于PCA与LDA的文章，PCA的实现一般有两种，一种是用特征值分解去实现的，一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中，往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面，也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法，它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示，这些小矩阵描述的是矩阵的重要的特性。就像是描述一个人一样，给别人描述说这个人长得浓眉大眼，方脸，络腮胡，而且带个黑框的眼镜，这样寥寥的几个特征，就让别人脑海里面就有一个较为清楚的认识，实际上，人脸上的特征是有着无数种的，之所以能这么描述，是因为人天生就有着非常好的抽取重要特征的能力，让机器学会抽取重要的特征，SVD是一个重要的方法。

在机器学习领域，有相当多的应用与奇异值都可以扯上关系，比如做feature reduction的PCA，做数据压缩（以图像压缩为代表）的算法，还有做搜索引擎语义层次检索的LSI（Latent Semantic Indexing）

另外在这里抱怨一下，之前在百度里面搜索过SVD，出来的结果都是俄罗斯的一种狙击枪（AK47同时代的），是因为穿越火线这个游戏里面有一把狙击枪叫做 SVD，而在Google上面搜索的时候，出来的都是奇异值分解（英文资料为主）。想玩玩战争游戏，玩玩COD不是非常好吗，玩山寨的CS有神马意思啊。国内的网页中的话语权也被这些没有太多营养的帖子所占据。真心希望国内的气氛能够更浓一点，搞游戏的人真正是喜欢制作游戏，搞Data Mining的人是真正喜欢挖数据的，都不是仅仅为了混口饭吃，这样谈超越别人才有意义，中文文章中，能踏踏实实谈谈技术的太少了，改变这个状况，从我自己做起吧。

前面说了这么多，本文主要关注奇异值的一些特性，另外还会稍稍提及奇异值的计算，不过本文不准备在如何计算奇异值上展开太多。另外，本文里面有部分不算太深的线性代数的知识，如果完全忘记了线性代数，看本文可能会有些困难。

一、奇异值与特征值基础知识：

特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系，我在接下来会谈到，特征值分解和奇异值分解的目的都是一样，就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧：

1）特征值：

如果说一个向量v是方阵A的特征向量，将一定可以表示成下面的形式：

这时候λ就被称为特征向量v对应的特征值，一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成下面的形式：

其中Q是这个矩阵A的特征向量组成的矩阵，Σ是一个对角阵，每一个对角线上的元素就是一个特征值。我这里引用了一些参考文献中的内容来说明一下。首先，要明确的是，一个矩阵其实就是一个线性变换，因为一个矩阵乘以一个向量后得到的向量，其实就相当于将这个向量进行了线性变换。比如说下

面的一个矩阵：

它其实对应的线性变换是下面的形式：

因为这个矩阵M乘以一个向量(x,y)的结果是：

上面的矩阵是对称的，所以这个变换是一个对x，

y轴的方向一个拉伸变换（每一个对角线上的元素将会对一个维度进行拉伸变换，当值>1时，是拉长，当值<1时时缩短），当矩阵不是对称的时候，假如说矩阵是下面的样子：

它所描述的变换是下面的样子：

这其实是在平面上对一个轴进行的拉伸变换（如蓝色的箭头所示），在图中，蓝色的箭头是一个最主要的变化方向（变化方向可能有不止一个），如果我们想要描述好一个变换，那我们就描述好这个变换主要的变化方向就好了。反过头来看看之前特征值分解的式子，分解得到的Σ矩阵是一个对角阵，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列）

当矩阵是高维的情况下，那么这个矩阵就是高维空间下的一个线性变换，这个线性变化可能没法通过图片来表示，但是可以想象，这个变换也同样有很多的变换方向，我们通过特征值分解得到的前N个特征向量，那么就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向，就可以近似这个矩阵（变换）。也就是之前说的：提取这个矩阵最重要的特征。总结一下，特征值分解可以得到特征值与特征向量，特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么，可以将每一个特征向量理解为一个线性的子空间，我们可以利用这些线性的子空间干很多的事情。不过，特征值分解也有很多的局限，比如说变换的矩阵必须是方阵。

（说了这么多特征值变换，不知道有没有说清楚，请各位多提提意见。）

2）奇异值：

下面谈谈奇异值分解。特征值分解是一个提取矩阵特征很不错的方法，但是它只是对方阵而言的，在现实的世界中，我们看到的大部分矩阵都不是方阵，比如说有N个学生，每个学生有M科成绩，这样形成的一个N * M的矩阵就不可能是方阵，我们怎样才能描述这样普通的矩阵呢的重要特征呢？奇异值分解可以用来干这个事情，奇异值分解是一个能适用于任意的矩阵的一种分解的方法：

假设A是一个M * N的矩阵，那么得到的U是一个M * M的方阵（里面的向量是正交的，U里面的向量称为左奇异向量），Σ是一个M* N的矩阵（除了对角线的元素都是0，对角线上的元素称为奇异值），V’(V的转置)是一个N * N的矩阵，里面的向量也是正交的，V里面的向量称为右奇异向量），从图片来反映几个相乘的矩阵的大小可得下面的图片

那么奇异值和特征值是怎么对应起来的呢？首先，我们将一个矩阵A的转置 * A，将会得到一个方阵，我们用这个方阵求特征值可以得到：

这里得到的v，就是我们上面的右奇异向量。此外我们还可以得到：

这里的σ就是上面说的奇异值，u就是上面说的左奇异向量。奇异值σ跟特征值类似，在矩阵Σ中也是从大到小排列，而且σ的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前r大的奇异值来近似描述矩阵，这里定义一下部分奇异值分解：

r是一个远小于m、n的数，这样矩阵的乘法看起来像是下面的样子：

右边的三个矩阵相乘的结果将会是一个接近于A的矩阵，在这儿，r越接近于n，则相乘的结果越接近于A。而这三个矩阵的面积之和（在存储观点来说，矩阵面积越小，存储量就越小）要远远小于原始的矩阵A，我们如果想要压缩空间来表示原矩阵A，我们存下这里的三个矩阵：U、Σ、V就好了。

二、奇异值的计算：

奇异值的计算是一个难题，是一个O(N^3)的算法。在单机的情况下当然是没问题的，matlab在一秒钟内就可以算出1000 * 1000的矩阵的所有奇异值，但是当矩阵的规模增长的时候，计算的复杂度呈3次方增长，就需要并行计算参与了。Google的吴军老师在数学之美系列谈到SVD的时候，说起Google实现了SVD的并行化算法，说这是对人类的一个贡献，但是也没有给出具体的计算规模，也没有给出太多有价值的信息。

其实SVD还是可以用并行的方式去实现的，在解大规模的矩阵的时候，一般使用迭代的方法，当矩阵的规模很大（比如说上亿）的时候，迭代的次数也可能会上亿次，如果使用Map-Reduce框架去解，则每次Map-Reduce完成的时候，都会涉及到写文件、读文件的操作。个人猜测Google云计算体系中除了Map-Reduce以外应该还有类似于MPI的计算模型，也就是节点之间是保持通信，数据是常驻在内存中的，这种计算模型比Map-Reduce在解决迭代次数非常多的时候，要快了很多倍。

Lanczos迭代就是一种解对称方阵部分特征值的方法（之前谈到了，解A’* A得到的对称方阵的特征值就是解A的右奇异向量），是将一个对称的方程化为一个三对角矩阵再进行求解。按网上的一些文献来看，Google应该是用这种方法去做的奇异值分解的。请见Wikipedia上面的一些引用的论文，如果理解了那些论文，也“几乎”可以做出一个SVD了。

由于奇异值的计算是一个很枯燥，纯数学的过程，而且前人的研究成果（论文中）几乎已经把整个程序的流程图给出来了。更多的关于奇异值计算的部分，将在后面的参考文献中给出，这里不再深入，我还是focus在奇异值的应用中去。

三、奇异值与主成分分析（PCA）：

主成分分析在上一节里面也讲了一些，这里主要谈谈如何用SVD去解PCA的问题。PCA的问题其实是一个基的变换，使得变换后的数据有着最大的方差。方差的大小描述的是一个变量的信息量，我们在讲一个东西的稳定性的时候，往往说要减小方差，如果一个模型的方差很大，那就说明模型不稳定了。但是对于我们用于机器学习的数据（主要是训练数据），方差大才有意义，不然输入的数据都是同一个点，那方差就为0了，这样输入的多个数据就等同于一个数据了。以下面这张图为例子：

这个假设是一个摄像机采集一个物体运动得到的图片，上面的点表示物体运动的位置，假如我们想要用一条直线去拟合这些点，那我们会选择什么方向的线呢？当然是图上标有signal的那条线。如果我们把这些点单纯的投影到x轴或者y轴上，最后在x轴与y轴上得到的方差是相似的（因为这些点的趋势是在45度左右的方向，所以投影到x轴或者y 轴上都是类似的），如果我们使用原来的xy坐标系去看这些点，容易看不出来这些点真正的方向是什么。但是如果我们进行坐标系的变化，横轴变成了

signal的方向，纵轴变成了noise的方向，则就很容易发现什么方向的方差大，什么方向的方差小了。

一般来说，方差大的方向是信号的方向，方差小的方向是噪声的方向，我们在数据挖掘中或者数字信号处理中，往往要提高信号与噪声的比例，也就是信噪比。对上图来说，如果我们只保留signal方向的数据，也可以对原数据进行不错的近似了。

PCA的全部工作简单点说，就是对原始的空间中顺序地找一组相互正交的坐标轴，第一个轴是使得方差最大的，第二个轴是在与第一个轴正交的平面中使得方差最大的，第三个轴是在与第1、2个轴正交的平面中方差最大的，这样假设在N维空间中，我们可以找到N个这样的坐标轴，我们取前r个去近似这个空间，这样就从一个N维的空间压缩到r维的空间了，但是我们选择的r个坐标轴能够使得空间的压缩使得数据的损失最小。

还是假设我们矩阵每一行表示一个样本，每一列表示一个feature，用矩阵的语言来表示，将一个m * n的矩阵A的进行坐标轴的变化，P就是一个变换的矩阵从一个N维的空间变换到另一个N维的空间，在空间中就会进行一些类似于旋转、拉伸的变化。

而将一个m * n的矩阵A变换成一个m * r的矩阵，这样就会使得本来有n个feature的，变成了有r个feature了（r < n)，这r个其实就是对n

个feature的一种提炼，我们就把这个称为feature的压缩。用数学语言表示就是：

但是这个怎么和SVD扯上关系呢？之前谈到，SVD得出的奇异向量也是从奇异值由大到小排列的，按PCA的观点来看，就是方差最大的坐标轴就是第一个奇异向量，方差次大的坐标轴就是第二个奇异向量…我们回忆一下之前得到的SVD式子：

在矩阵的两边同时乘上一个矩阵V，由于V是一个正交的矩阵，所以V转置乘以V得到单位阵I，所以可以化成后面的式子

将后面的式子与A * P那个m * n的矩阵变换为m * r的矩阵的式子对照看看，在这里，其实V就是P，也就是一个变化的向量。这里是将一个m * n 的矩阵压缩到一个m * r的矩阵，也就是对列进行压缩，如果我们想对行进行压缩（在PCA的观点下，对行进行压

缩可以理解为，将一些相似的sample合并在一起，或者将一些没有太大价值的sample去掉）怎么办呢？同样我们写出一个通用的行压缩例子：

这样就从一个m行的矩阵压缩到一个r行的矩阵了，对SVD来说也是一样的，我们对SVD分解的式子两边乘以U的转置U'

这样我们就得到了对行进行压缩的式子。可以看出，其实PCA几乎可以说是对SVD的一个包装，如果我们实现了SVD，那也就实现了PCA了，而且更好的地方是，有了SVD，我们就可以得到两个方向的PCA，如果我们对A’A进行特征值的分解，只能得到一个方向的PCA。

四、奇异值与潜在语义索引LSI：

潜在语义索引（Latent Semantic Indexing）与PCA不太一样，至少不是实现了SVD就可以直接用的，不过LSI也是一个严重依赖于SVD的算法，之前吴军老师在矩阵计算与文本处理中的分类问题中谈到：

“三个矩阵有非常清楚的物理含义。第一个矩阵X中的每一行表示意思相关的一类词，其中的每个非零元素表示这类词中每个词的重要性（或者说相关性），数值越大越相关。最后一个矩阵Y中的每一列表示同一主题一类文章，其中每个元素表示这类文章中每篇文章的相关性。中间的矩阵则表示类词和文章雷之间的相关性。因此，我们只要对关联矩阵A进行一次奇异值分解，w 我们就可以同时完成了近义词分类和文章的分类。（同时得到每类文章和每类词的相关性）。”

上面这段话可能不太容易理解，不过这就是LSI的精髓内容，我下面举一个例子来说明一下，下面的例子来自LSA tutorial，具体的网址我将在最后的引用中给出：

这就是一个矩阵，不过不太一样的是，这里的一行表示一个词在哪些title中出现了（一行就是之前说的一维feature），一列表示一个title中有哪些词，（这个矩阵其实是我们之前说的那种一行是一个sample的形式的一种转置，这个会使得我们的左右奇异向量的意义产生变化，但是不会影响我们计算的过程）。比如说T1这个title中就有guide、investing、market、stock四个词，各出现了一次，我们将这个矩阵进行SVD，得到下面的矩阵：

左奇异向量表示词的一些特性，右奇异向量表示文档的一些特性，中间的奇异值矩阵表示左奇异向量的一行与右奇异向量的一列的重要程序，数字越大越重要。

继续看这个矩阵还可以发现一些有意思的东西，首先，左奇异向量的第一列表示每一个词的出现频繁程度，虽然不是线性的，但是可以认为是一个大概的描述，比如 book是0.15对应文档中出现的2次，investing是0.74对应了文档中出现了9次，rich是0.36对应文档中出现了3次；

其次，右奇异向量中一的第一行表示每一篇文档中的出现词的个数的近似，比如说，T6是0.49，出现了5个词，T2是0.22，出现了2个词。

然后我们反过头来看，我们可以将左奇异向量和右奇异向量都取后2维（之前是3维的矩阵），投影到一个平面上，可以得到：

在图上，每一个红色的点，都表示一个词，每一个蓝色的点，都表示一篇文档，这样我们可以对这些词和文档进行聚类，比如说stock 和 market可以放在一类，因为他们老是出现在一起，real和estate可以放在一类，dads，guide 这种词就看起来有点孤立了，我们就不对他们进行合并了。按这样聚类出现的效果，可以提取文档集合中的近义词，这样当用户检索文档的时候，是用语义级别（近义词集合）去检索了，而不是之前的词的级别。这样一减少我们的检索、存储量，因为这样压缩的文档集合和PCA是异曲同工的，二可以提高我们的用户体验，用户输入一个词，我们可以在这个词的近义词的集合中去找，这是传统的索引无法做到的。

特征值分解与奇异值分解

特征值：一矩阵A作用与一向量a，结果只相当与该向量乘以一常数λ。即A*a=λa，则a 为该矩阵A的特征向量，λ为该矩阵A的特征值。奇异值：设A为m*n阶矩阵，A H A的n个特征值的非负平方根叫作A的奇异值。记 (A) 为σ i 上一次写了关于PCA与LDA的文章，PCA的实现一般有两种，一种是用特征值分解去实现的，一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中，往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面，也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法，它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示，这些小矩阵描述的是矩阵的重要的特性。就像是描述一个人一样，给别人描述说这个人长得浓眉大眼，方脸，络腮胡，而且带个黑框的眼镜，这样寥寥的几个特征，就让别人脑海里面就有一个较为清楚的认识，实际上，人脸上的特征是有着无数种的，之所以能这么描述，是因为人天生就有着非常好的抽取重要特征的能力，让机器学会抽取重要的特征，SVD是一个重要的方法。在机器学习领域，有相当多的应用与奇异值都可以扯上关系，比如做feature reduction的PCA，做数据压缩（以图像压缩为代表）的算法，还有做搜索引擎语义层次检索的LSI（Latent Semantic Indexing）另外在这里抱怨一下，之前在百度里面搜索过SVD，出来的结果都是俄罗斯的一种狙击枪（AK47同时代的），是因为穿越火线这个游戏里面有一把狙击枪叫做 SVD，而在Google上面搜索的时候，出来的都是奇异值分解（英文资料为主）。想玩玩战争游戏，玩玩COD不是非常好吗，玩山寨的CS有神马意思啊。国内的网页中的话语权也被这些没有太多营养的帖子所占据。真心希望国内的气氛能够更浓一点，搞游戏的人真正是喜欢制作游戏，搞Data Mining的人是真正喜欢挖数据的，都不是仅仅为了混口饭吃，这样谈超越别人才有意义，中文文章中，能踏踏实实谈谈技术的太少了，改变这个状况，从我自己做起吧。前面说了这么多，本文主要关注奇异值的一些特性，另外还会稍稍提及奇异值的计算，不过本文不准备在如何计算奇异值上展开太多。另外，本文里面有部分不算太深的线性代数的知识，如果完全忘记了线性代数，看本文可能会有些困难。一、奇异值与特征值基础知识：特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系，我在接下来会谈到，特征值分解和奇异值分解的目的都是一样，就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧：

基于奇异值分解的人脸识别

人机交互大作业 ——人脸识别

“人脸识别”系统设计文档人脸识别的意义及应用人脸识别是指对视频或图像中的人脸进行发现，追踪，进而识别出是特定个体的一种生物特征技术，也是生物特征识别中最主要的研究方向之一。人脸识别在日常生活中有着非常广泛的应用市场。下面列举了一些人脸识别的主要应用：1.监控系统监控系统在日常生活中非常常用，是防盗系统的主要组成部分之一。人工智能的监控系统的一大优势就是可以将人类从每天对着监视器的枯燥工作中解脱出来。将监视的工作交给计算机来做，有几个优势。一是可以365天，24小时不间断的工作。二是可以不知疲倦，不会因为时间长而分散注意力。但是人工智能的监控系统仍面临着很多问题，比如漏识别，识别误差等等。2.身份验证身份验证系统可以应用的范围也很广。比如现有的银行存取款系统，当人的银行卡和密码同时丢失时，卡中的钱就可能被转走。但是如果在取款机上安装一个人脸识别系统，在提供银行卡和密码时，同时需要进行面部认证，这样就会大大降低个人财产损失的风险。 3.考勤系统考勤系统通常用在公司里。传统的考勤系统需要给每个员工分配一张考勤卡，每天上下班需要去打卡。这样会给员工带来一定的不便。如果员工忘记带卡，或者卡有损坏，就会耽误打卡。而且专门设立打卡地点，不仅上下班打卡不方便，而且还会出现替打卡的情况。使用人脸识别系统，可以在不被觉察的情况下，自然地实现员工的考勤。减少了很多不必要的麻烦。 4.视频、图像检索随着人们对图像，视频等需求的不断扩展，网络上的图像和视频信息量也在以极快的速度增长。在如此庞大的信息库中快速查找到用户需要的信息成了现在研究的一个重要方向。而现在最主流的方式是在视频和图像上附带描述信息。这种描述信息可以被发布人随意更改，很多时候会对用户产生误导，浪费了时间。而用人脸识别进行图像和视频的检索，在检索某些特定人相关的资源时，会大大提高搜索结果的质量。再配合上描述关键词，能使人更快速寻找到所需信息。人脸识别的优势和困难人脸识别相对于传统的身份验证技术，和现有的虹膜识别，指纹识别等技术有一个显著的优势，就是可以自然地获取识别对象的身份信息，而不需要识别对象刻意的配合。虹膜识别和指纹识别都需要识别对象的配合。在这种情况下，识别对象可以有意识的进行伪装和欺骗。而人脸识别是在人们不经意的时候对人们图像的采集和识别，不会引起识别对象的注意。因此从某种意义上更容易获得真实的信息。虽然人脸识别有着不可比拟的优势，但是在实现方面还有着很大的困难。

基于奇异值分解的图像压缩及实现

基于奇异值分解的图像压缩及实现本文利用奇异值分解方法，来对图片进行压缩，过程中我们利用Matlab 编程来达到这个目的。一：实验方法及原理奇异值：矩阵A 的奇异值定义如下：设n *m r C A ?（r>0），且A A T 的特征值分别为 0n 1r r 21==??=≥≥??≥+λλλλλ （1）则称i i λσ= （i=1，2，…，n ）为A 的奇异值。奇异值分解定理：设Σ=diag(r 21...σσσ，，，)，由式（1）可知，i σ（i=1，2，…，r ）为A 的非零奇异值。U 为m 阶酉矩阵（n 阶复方阵U 的n 个列向量是U 空间的一个标准正交基，则U 是酉矩阵），V 为n 阶酉矩阵，若满足矩阵等式（2）则称式（2）为A 的奇异值分解。若U 写成U =[m 21u ......u u ，，，]的形式，V 写成V=[n 21v ......v v ，，，]的形式，则式（2）可写成如下形式：（3）由于大的奇异值对图像的贡献大，小的奇异值对图像的贡献小，所以可以从r 个奇异值生成矩阵中选取前k 个（k

（4）近似表示图像A。存储图像A需要mn个数值，存储图像k A需（m+n+1）k个数值，若取（5）则可达到压缩图像的目的，比率（6）称为压缩率二：实验过程 1.实验数据来源：本实验所需要的实验原图片是lena.bmp，处理后的图片设置为lena2.bmp。并获取图片的描述矩阵，为512*512阶8位的方阵。设为A，同时也是原始矩阵，本实验主要是对A进行奇异值分解，用一个更小阶的矩阵来描述A，从而达到实验目的。 2.实验过程：提取图像lena.bmp数据，将图片读入Matlab中，存储的是数据矩阵并且设置为512*512的矩阵A，将矩阵A中的数据转换为double型，以适应svd函数的要求，运用函数[U,S,V]=svd(A)进行图像的奇异值分解，分别得到对角奇异值矩阵S为512*1阶，以

奇异值分解的一些特性以及应用小案例

第一部分：预备知识 1.1 矩阵的F-范数与矩阵迹的关系引理：设m n A R ?∈，令()ij m n A a ?=，则2211 ||||||()()m n T T F ij i j A a tr AA tr A A === ==∑∑；其中，()tr ?定义如下：令方阵11 12121 22212r r r r rr m m m m m m M m m m ?? ??? ?=???? ?? ，则11221 ()r rr ii i tr M m m m m ==+++=∑ ，即矩阵M 的迹。注意，()tr ?只能作用于方阵。那么，下面来看下为什么有2211 ||||||()()m n T T F ij i j A a tr AA tr A A === ==∑∑？首先，22 11 ||||||m n F ij i j A a === ∑∑这个等式是矩阵F-范数的定义，即一个矩阵的F-范数等于矩阵中每个元素的平方和。其次，因11121212221 2 ()n n ij m n m m mn a a a a a a A a a a a ???????==?? ???? ，则11 2111222212m m T n n mn a a a a a a A a a a ?? ????=?? ? ? ?? ，易得2211 ()()||||||m n T T ij F i j tr AA tr A A a A ==== =∑∑。（T AA 或T A A 的第r 个对角元素等于第r 行或列元素的平方和，所有对角元素之和就是矩阵每个元素的平方和，即有上式成立。）此过程如图1和图2所示。

雅克比法求矩阵特征值特征向量

C语言课程设计报告课程名称：计算机综合课程设计学院：土木工程学院设计题目：矩阵特征值分解级别： B 学生姓名：学号：同组学生：无学号：无指导教师： 2012年 9 月 5 日 C语言课程设计任务书（以下要求需写入设计报告书）学生选题说明: 以所发课程设计要求为准，请同学们仔细阅读；本任务书提供的设计案例仅供选题参考；也可自选，但难易程度需难度相当；鼓励结合本专业（土木工程、力学）知识进行选题，编制程序解决专业实际问题。

限2人选的题目可由1-2人完成（A级）；限1人选的题目只能由1人单独完成（B级）；设计总体要求: 采用模块化程序设计；鼓励可视化编程；源程序中应有足够的注释；学生可自行增加新功能模块（视情况可另外加分）；必须上机调试通过；注重算法运用，优化存储效率与运算效率；需提交源程序(含有注释)及相关文件(数据或数据库文件)； (cpp文件、txt或dat文件等) 提交设计报告书，具体要求见以下说明。设计报告格式：目录 1．课程设计任务书（功能简介、课程设计要求）； 2．系统设计（包括总体结构、模块、功能等，辅以程序设计组成框图、流程图解释）； 3．模块设计（主要模块功能、源代码、注释（如函数功能、入口及出口参数说明，函数调用关系描述等）； 4．调试及测试：（调试方法，测试结果的分析与讨论，截屏、正确性分析）； 5．设计总结：（编程中遇到的问题及解决方法）； 6．心得体会及致谢；参考文献

1.课程设计任务书功能简介： a）输入一个对称正方矩阵A，从文本文件读入； b）对矩阵A进行特征值分解，将分解结果：即U矩阵、S矩阵输出至文本文件； c）将最小特征值及对应的特征向量输出至文本文件； d）验证其分解结果是否正确。提示：A=USU T,具体算法可参考相关文献。功能说明：矩阵特征值分解被广泛运用于土木工程问题的数值计算中，如可用于计算结构自振频率与自振周期、结构特征屈曲问题等。注：以三阶对称矩阵为例 2.系统设计 3.模块设计 #include #include #include int main() { FILE *fp; int tezheng(double *a,int n,double *s,double *u,double eps,int itmax); //函数调用声明 int i,j,p,itmax=1000; //itmax为最大循环次数 double eps=1e-7,s[3][3],u[3][3]; //eps为元素精度，s为对角矩阵S，u为矩阵U double a[9];//a为待分解矩阵A i=tezheng(a,3,s,u,eps,1000);

基于奇异值分解的MVDR谱估计

现代信号处理学号：小组组长：小组成员及分工：任课教师：教师所在学院：信息工程学院

2015年11月论文题目基于奇异值分解的MVDR方法及其在信号频率估计领域的应用摘要：本文主要是介绍和验证MVDR的算法，此算法应用于信号频率估计的领域中。我们通过使用经典的MVDR算法验证算法的可行性，再通过引用了奇异值分解的思想对MVDR方法进行了改进，在验证这种改进思想的方法可行性时，我们发现基于这种奇异值分解的MVDR方法在信号频率估计上具有提高检测精度的特性，这也说明了这种思想在应用信号频率估计时是可行的。关键词：MVDR算法奇异值分解信号频率估计

论文题目（English） MVDR method based on singular value decomposition and its application in signal frequency estimation Abstract:In this paper, the algorithm of MVDR is introduced, and the algorithm is applied to the field of signal frequency estimation. By using the classical MVDR algorithm to verify the feasibility of the algorithm, and then through the use of the idea of singular value decomposition to improve the MVDR method, in the verification of the feasibility of the method, we found that the MVDR method based on the singular value decomposition has the characteristics of improving the detection accuracy in signal frequency estimation. It also shows that this idea is feasible in the application of signal frequency estimation. Key words: MVDR method Singular value decomposition Signal frequency estimation

主成份(PCA)与奇异值分解(SVD)的通俗解释

主成份(PCA)与奇异值分解(SVD)的通俗解释主成分分析 1.问题描述在许多领域的研究与应用中，往往需要对反映事物的多个变量进行大量的观测，收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息，但也在一定程度上增加了数据采集的工作量，更重要的是在大多数情况下，许多变量之间可能存在相关性，从而增加了问题分析的复杂性，同时对分析带来不便。如果分别对每个指标进行分析，分析往往是孤立的，而不是综合的。盲目减少指标会损失很多信息，容易产生错误的结论。 2.过程主成分分析法是一种数据转换的技术，当我们对一个物体进行衡量时，我们将其特征用向量（a1,a2,a3,...an）进行表示，每一维都有其对应的variance（表示在其均值附近离散的程度）；其所有维的variance之和，我们叫做总的variance；我们对物体进行衡量时，往往其特征值之间是correlated的，比如我们测量飞行员时，有两个指标一个是飞行技术（x1）,另一个是对飞行的喜好程度（x2），这两者之间是有关联的，即correlated的。我们进行PCA（主成分分析时），我们并

没有改变维数，但是我们却做了如下变换，设新的特征为（x1,x2,x3...,xn）; 其中 1)x1的variance占总的variance比重最大； 2)除去x1,x2的variance占剩下的variance比重最大；.... 依次类推；最后，我们转换之后得到的(x1,x2,...xn)之间都是incorrelated，我们做PCA时，仅取（x1，x2,....xk）,来表示我们测量的物体，其中，k要小于n。主成分的贡献率就是某主成分的方差在全部方差中的比值。这个值越大，表明该主成分综合X1，X2，…，XP信息的能力越强。如果前k 个主成分的贡献率达到85%，表明取前k个主成分基本包含了全部测量指标所具有的信息，这样既减少了变量的个数又方便于对实际问题的分析和研究。注意，当（a1,a2,a3,...an）之间都是incorrelated时，我们就没有做PCA的必要了数据点在上图所示的方向上进行投影后，数据仍然有着很大的variance,但在下图所示的方向上，投影后的数据的variance就很小。

矩阵分解及其简单应用

矩阵分解是指将一个矩阵表示为结构简单或具有特殊性质若干矩阵之积或之和，大体分为三角分解、分解、满秩分解和奇异值分解.矩阵地分解是很重要地一部分内容，在线性代数中时常用来解决各种复杂地问题，在各个不同地专业领域也有重要地作用.秩亏网平差是测量数据处理中地一个难点，不仅表现在原理方面，更表现在计算方面，而应用矩阵分解来得到未知数地估计数大大简化了求解过程和难度. 矩阵地三角分解如果方阵可表示为一个下三角矩阵和一个上三角矩阵之积，即，则称可作三角分解.矩阵三角分解是以消去法为根据导出地，因此矩阵可以进行三角分解地条件也与之相同，即矩阵地前个顺序主子式都不为，即.所以在对矩阵进行三角分解地着手地第一步应该是判断是否满足这个前提条件，否则怎么分解都没有意义.矩阵地三角分解不是唯一地，但是在一定地前提下，地分解可以是唯一地，其中是对角矩阵.矩阵还有其他不同地三角分解，比如分解和分解，它们用待定系数法来解求地三角分解，当矩阵阶数较大地时候有其各自地优点，使算法更加简单方便.资料个人收集整理，勿做商业用途矩阵地三角分解可以用来解线性方程组.由于，所以可以变换成，即有如下方程组：资料个人收集整理，勿做商业用途先由依次递推求得,,……，，再由方程依次递推求得，，……，. 资料个人收集整理，勿做商业用途必须指出地是，当可逆矩阵不满足时，应该用置换矩阵左乘以便使地个顺序主子式全不为零，此时有：资料个人收集整理，勿做商业用途这样，应用矩阵地三角分解，线性方程组地解求就可以简单很多了. 矩阵地分解矩阵地分解是指，如果实非奇异矩阵可以表示为，其中为正交矩阵，为实非奇异上三角矩阵.分解地实际算法各种各样，有正交方法、方法和方法，而且各有优点和不足.资料个人收集整理，勿做商业用途．正交方法地分解正交方法解求分解原理很简单，容易理解.步骤主要有：）把写成个列向量（，，……，），并进行正交化得（，，……，）；) 单位化，并令（，，……，），（，，……，），其中；）. 这种方法来进行分解，过程相对较为复杂，尤其是计算量大，尤其是阶数逐渐变大时，就显得更加不方便.资料个人收集整理，勿做商业用途．方法地分解方法求分解是利用旋转初等矩阵，即矩阵()来得到地，()是正交矩阵，并且(()).()地第行第列和第行第列为，第行第列和第行第列分别为和，其他地都为.任何阶实非奇异矩阵可通过左连乘()矩阵（乘积为）化为上三角矩阵，另，就有.该方法最主要地是在把矩阵化为列向量地基础上找出和，然后由此把矩阵地一步步向上三角矩阵靠近.方法相对正交方法明显地原理要复杂得多，但是却计算量小得多，矩阵()固有地性质很特别可以使其在很多方面地应用更加灵活.资料个人收集整理，勿做商业用途．方法地分解方法分解矩阵是利用反射矩阵，即矩阵，其中是单位列向量，是正交矩阵，.可以证明，两个矩阵地乘积就是矩阵，并且任何实非奇异矩阵可通过连乘矩阵（乘积为）化为上三角矩阵，则.这种方法首要地就是寻找合适地单位列向量去构成矩阵，

基于奇异值分解的MVDR谱估计

现代信号处理学号：小组组长：小组成员及分工：任课教师：教师所在学院：信息工程学院2015年11月

论文题目基于奇异值分解的MVDR方法及其在信号频率估计领域的应用摘要：本文主要是介绍和验证MVDR的算法，此算法应用于信号频率估计的领域中。我们通过使用经典的MVDR算法验证算法的可行性，再通过引用了奇异值分解的思想对MVDR方法进行了改进，在验证这种改进思想的方法可行性时，我们发现基于这种奇异值分解的MVDR方法在信号频率估计上具有提高检测精度的特性，这也说明了这种思想在应用信号频率估计时是可行的。关键词：MVDR算法奇异值分解信号频率估计

矩阵运算、分解和特征值

实验报告（五）院（系）课程名称：数学模型日期：年月日班级学号实验室506 专业数学教育姓名计算机号F08 实验名称矩阵运算、分解和特征值成绩评定所用软件 MATLAB 7.0 指导教师实验目的1．矩阵的基本运算。 2．矩阵的LU、QR和Cholesky分解。3．矩阵的特征向量和特征值。实验内容问题1：求线性方程组 1234 124 234 1234 258 369 225 4760 x x x x x x x x x x x x x x +-+= ? ?--= ? ? -+=- ? ?+-+= ? 的解。问题2：（1）求矩阵 123 456 780 A ?? ? = ? ? ?? 的LU分解。（2）求矩阵 123 456 789 101112 A ?? ? ? = ? ? ?? 的QR分解。（3）求5阶pascal矩阵的Cholesky分解。问题3：（1）求矩阵 31 13 A - ?? = ? - ?? 的特征值和特征向量。（2）求矩阵 23 45 84 A ?? ? = ? ? ?? 的奇异值分解。

实验过程问题1：A=[2,1,-5,1;1,-3,0,-6;0,2,-1,2;1,4,-7,6]; >> inv(A) ans = 1.3333 -0.6667 0.3333 -1.0000 -0.0741 0.2593 1.1481 -0.1111 0.3704 -0.2963 0.2593 -0.4444 0.2593 -0.4074 -0.5185 -0.1111 ans=[1.3333,-0.6667,0.3333,-1.0000;-0.0741,0.2593,1.1481,-0.1111;0.3704,-0. 2963,0.2593,-0.4444;0.2593,-0.4074,-0.5185,-0.1111]; >> B=[8;9;-5;0]; >> ans*B ans = 2.9996 -3.9996 -1.0000 1.0003 所以线性方程的解x=[ 2.9996,-3.9996,-1.0000,1.0003] 问题2：1、A=[1,2,3;4,5,6;7,8,0]; >> [L,U]=lu(A) L = 0.1429 1.0000 0 0.5714 0.5000 1.0000 1.0000 0 0 U = 7.0000 8.0000 0 0 0.8571 3.0000 0 0 4.5000 2、A=[1,2,3;4,5,6,;7,8,9;10,11,12]; >> [Q,R]=qr(A) Q = -0.0776 -0.8331 0.5456 -0.0478 -0.3105 -0.4512 -0.6919 0.4704 -0.5433 -0.0694 -0.2531 -0.7975 -0.7762 0.3124 0.3994 0.3748 R = -12.8841 -14.5916 -16.2992 0 -1.0413 -2.0826 0 0 -0.0000 0 0 0

SVD奇异值分解

有关SVD奇异值分解的研究 ZDP 有关SVD奇异值分解，主要看了两个方面的内容：1.关于矩阵的SVD分解。 2.SVD所代表的最小二乘问题。主要是为了用SVD求取最小二乘解。 1. 关于矩阵的SVD分解：相当于主成分分析，找出哪些特征比较重要。奇异值的大小代表了左奇异向量和右奇异向量的重要程度。舍弃一些小奇异值对应的向量相当于消除一些没有太大影响的特征，从而提取出矩阵的主要特征。可以用于压缩从而减少内存的使用，以及滤波去噪。 2．关于最小二乘主要参考了网上的一份资料，SVD（奇异值分解）算法及其评估，在附件中可以找到。这里主要说一下看资料时遇到的问题以及一些注意事项。矩阵的乘法本质上就是进行坐标的变换，由一种坐标系转变为另一种坐标系的过程。由行空间的一组正交基经由A矩阵变换为列空间一组正交基的过程。A?V=U?Σ。A=U?Σ?V T这里U为A的列空间正交基，Σ为奇异值，V为行空间正交基。V中所谓的行空间正交基，是[V1,V2,??,V n]，也是列向量的形式。针对方程组：A?X=b可以理解成X向量经由矩阵A变换成了b向量。同时可以表示成U?Σ?V T?X=b这里要注意是X向量的变换为从右向左的。V T?X为第一次变换，?Σ为第二次变换，?U为第三次变换。从另一个角度看坐标变换的问题，A?V=U?Σ这个式子可以理解为一组正交基经矩阵A变换成了另一组正交基，这里Σ为缩放因子。方程组的解X=V?Σ+?U T?b这里由于矩阵A不一定为方阵，引入广义逆的概念将SVD的应用范围进行了推广。进行SVD的具体数值解法在文章中都有具体的介绍，这里介绍两个比较有意思的公式：A T A=V?ΣTΣ?V T；AA T=U?ΣΣT?U T。其中A T A为对称正定阵，V为A T A的特征向量，U为AA T的特征向量，ΣTΣ=ΣΣT为特征值。 https://www.doczj.com/doc/0c3571278.html,/s/blog_b1b831150101ey41.html

基于奇异值分解的MVDR谱估计

现代佶号处理学号：小组组长：小组成员及分工：任课教师：教师所疫学院：信息工程学院

2015年11月

基于奇畀值分鮮的MVDR方法及其在信号频率估计领城的应用摘要：本丈主要是介绍和验证MVDR的算出，此算岀应用于信号频率估计的领城中。我们通过使用经典的MVDR算去验证算比的可行性，再通过引用了奇异值分解的思想对MVDR方法进行了孜进，准.脸证这种改进思想的方法可行性肘，我们发现基于这种奇异值分鮮的MVDR 方岀在信号频率估计上具有提壽检测赫度的特性，这色说朗了这种思想＞4应用信号频率估计肘是可行的。

论丈题tl (English丿 MVDR method based on singular value decomposition and its application in signal frequency estimation Abstract:In this paper, the algorithm of MVDR is introduced, and the algorithm is applied to the field of signal frequency estimation. By using the classical MVDR algorithm to verify the feasibility of the algorithm, and then through the use of the idea of singular value decomposition to improve the MVDR method, in the verification of the feasibility of the method, we found that the MVDR method based on the singular value decomposition has the characteristics of improving the detection accuracy in signal frequency estimation. It also shows that this idea is feasible in the application of signal frequency estimation. Key words：MVDR method Singular value decomposition Signal frequency estimatio n

基于奇异值分解的图像压缩处理

矩阵奇异值分解在图像压缩中的应用电子科技大学微固学院贾旺旺 [摘要]本文首先介绍了矩阵的奇异值分解(SVD)定理，然后讨论了基于矩阵奇异值分解的图像压缩编码原理，最后文中给出了实例，并用matlab 编程实现了图像的压缩和重构，发现随着图像压缩比的减小，图像传输时间增大，但重构后得到的图像失真度减小了。 [关键词]奇异值分解图像压缩压缩比一.引言随着网络的快速发展，数据量的增长也十分迅速，这使人们必须想办法如何能以最少的存储空间，最大的传输效率来进行数据的存储和传输。如在宇航中，拍摄得到的图像文件一般都比较大且数量也很多，它的存储，传输和处理会受到一定的限制，因此图像压缩就显得格外重要。图像压缩技术就是要减少图像数据中的冗余信息从而以更加高效的格式存储和传输数据。图像压缩的基本方法包括无损压缩的行程长度编码，熵编码法；有损压缩的色度抽样法，变换编码，分形压缩等。近几年，基于矩阵奇异值分解的图像压缩方法也得到了很多学者的关注[1] 。因为图像的像素点具有矩阵的结构，我们可以利用奇异值分解来对任意阶数的矩阵操作。本文就是利用了矩阵的奇异值分解，达到了图像压缩的目的。二. 矩阵奇异值分解原理[2] 引理 1 的非零特征值相同的特征值均为非负实数，则有设H H H H H H n m r AA A A AA A A AA rank A A rank A rank C A ,)3(,)2()()()()1(==∈? ) ()()()(00)(0 0)()1(:1111111A A rank A rank A A rank A rank Ax Ax Ax Ax A x Ax A x X k n Ax A k A A rank H H H H H H H H H =?≤?=?==?=?-=?=维，记为的解空间为设证明0 ),(),(),(),(0)2(≥?===≤?=λααλλααααααλααA A A A A A H H

2019机器学习中的数学 5 强大的矩阵奇异值分解 SVD.doc

机器学习中的数学 5 强大的矩阵奇异值分解SVD 机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用版权声明：本文由LeftNotEasy发布于本文可以被全部的转载或者部分使用，但请注明出处，如果有问题，请联系wheeleast@https://www.doczj.com/doc/0c3571278.html, 前言：上一次写了关于PCA与LDA的文章，PCA的实现一般有两种，一种是用特征值分解去实现的，一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中，往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面，也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法，它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示，这些小矩阵描述的是矩阵的重要的特性。就像是描述一个人一样，给别人描述说这个人长得浓眉大眼，方脸，络腮胡，而且带个黑框的眼镜，这样寥寥的几个特征，就让别人脑海里面就有一个较为清楚的认识，实际上，人脸上的特征是有着无数种的，之所以能这么描述，是因为人天生就有着非常好的抽取重要特征的能力，让机器学会抽取重要的特征，SVD是一个重要的方法。在机器学习领域，有相当多的应用与奇异值都可以扯上关系，比如做feature reduction的PCA，做数据压缩(以图像压缩为代表)的算法，还有做搜索引擎语义层次检索的LSI(Latent Semantic Indexing) 另外在这里抱怨一下，之前在百度里面搜索过SVD，出来的结果都是俄罗斯的一种狙击枪(AK47同时代的)，是因为穿越火线这个游戏里面有一把狙击枪叫做SVD，而在Google上面搜索的时候，出来的都是奇异值分解(英文资料为主)。想玩玩战争游戏，玩玩COD不是非常好吗，玩山寨的CS有神马意思啊。

我所理解的奇异值分解

我所理解的奇异值分解SVD 1、奇异值与奇异值分解定理奇异值定理：设m n A C ?∈，r=rank(A)，则一定存在m 阶酉矩阵U 和n 阶酉矩阵V 和对角矩阵1212(,, ,)(1,2,,)r r i diag i r σσσσσσσ∑=≥≥≥=，且，而，使得H A U V =∑，称为A 的奇异值分解。复数域内的奇异值：设(0)m n H r A C r A A ?∈>，的特征值为1210r r n λλλλλ+≥≥ ≥>=== 则称1,2, ,)i i n σ==为A 的正奇异值；当A 为零矩阵时，它的奇异值都是零。易见，矩阵A 的奇异值的个数等于A 的列数，A 的非零奇异值的个数等于rank(A)。 2、奇异值分解的理解奇异值σ跟特征值类似，在矩阵Σ中也是从大到小排列，而且σ的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前r 大的奇异值来近似描述矩阵。 r r r T r r r T v u v u v u V U V U A σσσ+++=∑=∑= 222111即A 可表示为r 个秩为一的举证的和，这是A 得奇异值分解的紧凑格式。 3、奇异值分解特征奇异值分解的第一个特征是可以降维。A 表示 n 个 m 维向量 ,通过奇异值分解可表示成 m + n 个 r 维向量 ,若A 的秩 r 远远小于 m 和 n ,则通过奇异值分解可以大大降低 A 的维数。可以计算出 ,当 r

奇异值分解及其应用

奇异值分解及其应用 This model paper was revised by the Standardization Office on December 10, 2020

PCA的实现一般有两种，一种是用特征值分解去实现的，一种是用奇异值分解去实现的。特征值和奇异值在大部分人的印象中，往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面，也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法，它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示，这些小矩阵描述的是矩阵的重要的特性。就像是描述一个人一样，给别人描述说这个人长得浓眉大眼，方脸，络腮胡，而且带个黑框的眼镜，这样寥寥的几个特征，就让别人脑海里面就有一个较为清楚的认识，实际上，人脸上的特征是有着无数种的，之所以能这么描述，是因为人天生就有着非常好的抽取重要特征的能力，让机器学会抽取重要的特征，SVD是一个重要的方法。在机器学习领域，有相当多的应用与奇异值都可以扯上关系，比如做feature reduction的PCA，做数据压缩（以图像压缩为代表）的算法，还有做搜索引擎语义层次检索的LSI（Latent Semantic Indexing）奇异值与特征值基础知识特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系，我在接下来会谈到，特征值分解和奇异值分解的目的都是一样，就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧：如果说一个向量v是方阵A的特征向量，将一定可以表示成下面的形式：这时候λ就被称为特征向量v对应的特征值，一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成下面的形式：其中Q是这个矩阵A的特征向量组成的矩阵，Σ是一个对角阵，每一个对角线上的元素就是一个特征值。我这里引用了一些参考文献中的内容来说明一下。首先，要明确的是，一个矩阵其实就是一个线性变换，因为一个矩阵乘以一个向量后得到的向量，其实就相当于将这个向量进行了线性变换。比如说下面的一个矩阵：它其实对应的线性变换是下面的形式：

第八章矩阵的特征值与特征向量的数值解法

第八章矩阵的特征值与特征向量的数值解法某些工程计算涉及到矩阵的特征值与特征向量的求解。如果从原始矩阵出发,先求出特征多项式,再求特征多项式的根，在理论上是无可非议的。但一般不用这种方法，因为了这种算法往往不稳定．常用的方法是迭代法或变换法。本章介绍求解特征值与特征向量的一些方法。 §1 乘幂法乘幂法是通过求矩阵的特征向量来求特征值的一种迭代法,它适用于求矩阵的按模最大的特征值及对应的特征向量。定理８·1 设矩阵Ａn ×n 有n 个线性无关的特征向量X ｉ（ｉ=1,２,…,n)，其对应的特征值λi (ｉ＝1,2，…，n)满足｜λ１|＞|λ2｜≧…≧|λn ｜则对任何ｎ维非零初始向量Z ０，构造Ｚk ＝ AZ k-1 11()lim ()k j k k j Z Z λ→∞ -= (8·1) 其中(Ｚk )ｊ表示向量Z k 的第ｊ个分量。证明 : 只就λｉ是实数的情况证明如下。因为A 有n 个线性无关的特征向量X i ,(i = １,2,…,n)用X ｉ(ｉ = 1,2,…，n)线性表示,即Z 0=α1X 1 + α2Ｘ2 +用A 构造向量序列{Z k }其中 ? 21021010, ,k k k Z AZ Z AZ A Z Z AZ A Z -=====， (8.2）由矩阵特征值定义知ＡＸi =λi X i (i=1,２, …,n),故 ? 0112211122211121k k k k k n n k k k n n n k n k i i i i Z A Z A X A X A X X X X X X ααααλαλαλλλααλ===++ +=+++???? ??=+ ?????? ? ∑ (８.3）同理有 1 1 11 1121k n k i k i i i Z X X λλααλ---=? ? ????=+ ????? ? ? ∑ (8．４) 将(8.３）与(8．4)所得Ｚk 及Z k-１的第j 个分量相除，设α1≠0，并且注意到 |λi |<|λ1|(i=1,２,…，n ）得

奇异值分解

奇异值分解(SVD) --- 几何意义奇异值分解( The singular value decomposition ) 该部分是从几何层面上去理解二维的SVD：对于任意的 2 x 2 矩阵，通过SVD可以将一个相互垂直的网格(orthogonal grid)变换到另外一个相互垂直的网格。我们可以通过向量的方式来描述这个事实: 首先，选择两个相互正交的单位向量v1 和v2, 向量M v1和M v2正交。 u1和u2分别表示M v1和M v2的单位向量， σ1* u1= M v1和σ2* u2= M v2。σ1和σ2分别表示这不同方向向量上的模，也称作为矩阵M的奇异值。

这样我们就有了如下关系式 M v1= σ1u1 M v2= σ2u2 我们现在可以简单描述下经过M线性变换后的向量x 的表达形式。由于向量 v1和v2是正交的单位向量，我们可以得到如下式子： x = (v1x) v1 + (v2x) v2 这就意味着： M x = (v1x) M v1 + (v2x) M v2 M x = (v1x) σ1u1 + (v2x) σ2u2 向量内积可以用向量的转置来表示，如下所示 v x = v T x 最终的式子为 M x = u1σ1v1T x + u2σ2v2T x M = u1σ1v1T + u2σ2v2T 上述的式子经常表示成 M = UΣV T u 矩阵的列向量分别是u1,u2 ，Σ是一个对角矩阵，对角元素分别是对应的σ1和σ2，V 矩阵的列向量分别是v1,v2。上角标T表示矩阵V 的转置。这就表明任意的矩阵M是可以分解成三个矩阵。V 表示了原始域的标准正交基，u 表示经过M 变换后的co-domain的标准正交基，Σ表示了V 中的向量与u 中相对应向量之间的关系。(V describes an orthonormal basis in the domain, and U describes an orthonormal basis in the co-domain, and Σ describes how much the vectors in V are stretched to give the vectors in U.) 如何获得奇异值分解？( How do we find the singular decomposition? ) 事实上我们可以找到任何矩阵的奇异值分解，那么我们是如何做到的呢？假设在原始域中有一个单位圆，如下图所示。经过M 矩阵变换以后在co-domain中单位圆会变成一个椭圆，它的长轴(M v1)和短轴(M v2)分别对应转换后的两个标准正交向量，也是在椭圆范围内最长和最短的两个向量。