当前位置：文档之家› 姿态解算-梯度下降法数据融合部分

姿态解算-梯度下降法数据融合部分

四元数姿态的梯度下降法推导和解读，这些算法都是基于Madgwick的《An efficientorientation filter for inertial and inertial/magneticsensor arrays》这是未发表的详细版，而正式发表则是《Estimation of IMU and MARG orientation usinga gradient descent algorithm》，在IEEE 国际会议的Rehabilitation Robotics上发表的论文。

利用梯度下降法进行姿态融合。

首先需要明确梯度的概念：“标量场中某一点上的梯度指向标量场增长最快的方向，梯度的长度是这个最大的变化率。”很显然，梯度和变化率有关。现在我们引入标量函数f(x)，对标量函数f(x)求导，不难得到f’(x)就是梯度，就是曲线在某一点的斜率。梯度下降法就是我们顺着这个在某一点下降速度最快的反方向一直走，走到一个极值点，这个点就是最优解（稳定解）。

我们求解姿态就是求解的转换矩阵（矩阵元素就是四元数）。这个转换矩阵是有误差的，我们所要做的工作就是采用某种算法，消除误差，最后得到的解就是我们的近似精确解，也就是姿态四元数了。误差的消除是通过误差函数来实现的。定义误差函数ef(x)，那么当ef (x)=0时，求解上述方程得到x的值使系统误差为零。我们在求解高阶方程的时候，一般的方法就是求导，求极值点，根据这些值来判断精确解的个数和位置。但是进行姿态解算时误差函数ef(x)不再是简单的标量函数了，他的自变量x变成了向量[q0 q1 q2 q3]。这也就是说，原先的标量函数ef(q)变成了如今的标量函数ef([q0 q1 q2 q3])，他仍然是标量函数，但是自变量是向量[q0 q1 q2 q3]。

对上述自变量是向量的标量函数，我们要用梯度法求解，就必须求导。标量函数对向量求导很简单，只需要分别对向量中的各个变量求偏导即可：

但是，我们的姿态解算是三维姿态，不是一维姿态，所以，这里的ef(q)并不是一个标量函数，实质上是一个向量函数ef(q)，这个向量函数里面有三个元素，分别对应xyz轴的三个分量，每个分量又由一个四元数向量q构成。那么现在就引入了一个较为复杂的误差函数e f(q)，该误差函数不光自变量是一个向量，并且因变量也是一个向量，这种函数叫做多元向量函数。那么我们现在的问题就转化为求多元向量函数的极值问题。

针对上述极值问题我们采用梯度下降法，梯度下降法为一阶线性收敛。在梯度下降法中，对多元向量函数的求导需要利用雅可比矩阵（Jacobian）。雅可比矩阵就是按照规矩来一个个求导的过程。上述讨论了标量函数对向量的导数的情况，当标量函数变为向量时，只需要继续对每一个向量再求偏导即可。对于上式（假设四元数向量定义为行向量），再对每一个因变量求偏导：

上式就是多元向量函数的导数（也称为雅可比矩阵）。在这里，我定义的是行向量的四元数q和列向量因变量[efx efy efz]’，你同样可以定义列向量四元数q和行向量因变量[efx efy efz]。但是注意在求导的时候，注意一下矩阵的行列对应，记住：行向量不能对行向量求导，列向量不能对列向量求导，只能交错进行，这一点一定要记住！因为后面在用梯度计算姿态的时候为了满足矩阵乘法法则需要转置雅可比矩阵。

由于程序中是利用加速度计对陀螺仪进行校正，因此考虑陀螺仪和加速度计的梯度下降法姿态融合算法。

先给出梯度下降法计算公式：

对于上述公式的理解，就是在处的梯度（导数），前面的负号表示梯度的反方

向，这个方向就是当前最快的下降收敛速度，我们按照这个方向走步长，就从走到了

。在这里，我们取函数的方向，即。根据前述讨论，这里的函数就是误差函数，并且是多元向量函数，自变量是四元数向量，因变量是三维坐标。由于是利用加速度计表征的四元数矩阵误差，所以该多元向量误差函数记作

上述公式的得来就是重力加速度g在地理坐标系中的值通过四元数法旋转到载体坐标系中的值，也就是旋转矩阵的第三列，然后减去当前加速度计测得的值作差，就是通过加速度计表征的旋转矩阵的误差。很显然，这个误差函数就是典型的多元向量函数，当这个函数等于0时，我们就认为得到了旋转矩阵没有误差，也就是姿态四元数是精确的，从而得到了飞行器的精确姿态。

为了求解上述方程，我们对其求导，根据前述阐述，上述函数的导数就是其对应的雅可比矩阵：

注意，上式中的自变量四元数为行向量，因变量三维向量是列向量。进行到这里，还没有应用到梯度下降算法，只是做好了前提准备。为了更好的理解梯度算法的原理，这里从标量函数梯度开始看起。设标量函数f(x)，导数有f’(x)，对于x上的一个增量dx，有dy=f’(x)d x。当dy->0时，我们认为已经到达稳定解，梯度法计算完成。同理，x变为向量四元数，y变为三维向量，那么f’(x)变为雅可比矩阵，有梯度计算公式：

在这里要特别注意公式中的雅可比矩阵转置符号T。前面红色部分说过对于多元向量函数求导涉及到分子和分母的行列向量问题，在这里，为了满足矩阵乘法的要求，如果我们不对雅可比矩阵进行转置，那么等式右边就是(3x4)X(3x1)，显然不满足矩阵乘法要求，所以，在这里对之前求出来的雅可比矩阵转置。得到一个(4x3)X(3x1)=4X1的列向量：

根据梯度下降法的计算公式，假设我们经过梯度下降法计算的目标姿态为，那么有：

上述公式就是根据梯度下降算法求得的一组四元数，对梯度归一化是为了得到梯度的方向，其梯度大小由步长ut决定。这样的一个迭代公式显然属于一阶线性收敛，通过计算机的迭代运算可以从初始时刻的姿态每一步经由梯度的相反方向走到多元向量误差函数的一个局部极值点，这个点就是我们消除了旋转矩阵误差的点，就是我们所要求的姿态四元数。

这里的步长ut和实际物体运动的角速度相关，和采样时间相关，具体关系为：

上述关系可以看出物体运动角速度越快，采样时间越长，那么收敛的步长就必须越长。

利用梯度下降法可以求得一组姿态四元数，这组姿态四元数是基于加速度计表征出来的四元数，由于加速度计的动态性能不佳，所以这种方法在高速运动之下会有较大的延迟。而在惯性导航中，主要的器件是陀螺仪，这个器件是专门处理高速运动下的较为理想器件。

算法的优缺点。

优点：

1、当步长较小时(0.03左右)三个姿态静态值非常稳定，慢速运动下可以达到较高精度的要求；

2、步长较大时，可以快速的跟随高速运动下的姿态变化；

3、巧妙避免了地磁计补偿需要知道当地磁场的角度。

缺点：

1、步长非动态，系统可相应频带有点窄；

2、地磁计在使用之前必须经过较为精准的Hard补偿和Soft补偿。参见《COMPENSATI NG FOR TILT, HARD IRONAND SOFT IRON EFFECTS》，否则这个误差会对Pitch和Roll 产生干扰，导致姿态精度降低。

3、高速运动时，偏航角响应有严重延迟，导致全姿态错误，必须增加步长来解决，但是静态性能就会降低。

VB梯度下降算法

VB梯度下降算法 function grad_ascent(x,y,z,px,py,N,mu,xstart,ystart) xga(1)= xstart; yga(1)= ystart; zga(1)=func(xga(1),yga(1)); for i=1:N gradx = ( func(xga(i)+eps,yga(i))-func(xga(i),yga(i)) )/eps; grady = ( func(xga(i),yga(i)+eps)-func(xga(i),yga(i)) )/eps; xga(i+1) = xga(i) + mu*gradx; yga(i+1) = yga(i) + mu*grady; zga(i+1)=func(xga(i+1),yga(i+1)); end hold off contour(x,y,z,10) hold on quiver(x,y,px,py) hold on plot(xga,yga) S = sprintf('Gradiant Ascent: N = %d, Step Size = %f',N,mu); title(S) xlabel('x axis') ylabel('yaxis') DEMO clear print_flag = 1; width = 1.5; xord = -width:.15:width; yord = -width:.15:width; [x,y] = meshgrid(xord,yord); z = func(x,y); hold off surfl(x,y,z) xlabel('x axis') ylabel('yaxis') if print_flag, print else, input('Coninue?'), end [px,py] = gradient(z,.2,.2); xstart = 0.9*width;

数据融合方法优缺点

数据融合方法随着交通运行状态评价研究的不断发展，对数据的准确性和广泛覆盖性提出了更高的要求，在此基础上，不同的数据融合模型被引进应用于交通领域中来计算不同检测设备检测到的数据。现阶段，比较常用的数据融合方法主要有：表决法、模糊衰退、贝叶斯汇集技术、BP神经网络、卡尔曼滤波法、D．S理论等方法。 1现有方法应用范围结合数据融合层次的划分，对数据融合方法在智能交通领域的应用作以下归纳总结：表数据融合层次及对应的方法 2各种融合方法的优缺点主要指各种融合方法的理论、应用原理等的不同，呈现出不同的特性。从理论成熟度、运算量、通用性和应用难度四个方面进行优缺点的比较分析，具体内容如下： (1)理论成熟度方面：卡尔曼滤波、贝叶斯方法、神经网络和模糊逻辑的理论已经基本趋于成熟；D—S证据推理在合成规则的合理性方

面还存有异议；表决法的理论还处于逐步完善阶段。 (2)运算量方面：运算量较大的有贝叶斯方法、D．S证据推理和神经网络，其中贝叶斯方法会因保证系统的相关性和一致性，在系统增加或删除一个规则时，需要重新计算所有概率，运算量大；D．S证据推理的运算量呈指数增长，神经网络的运算量随着输入维数和隐层神经元个数的增加而增长；运算量适中的有卡尔曼滤波、模糊逻辑和表决法。 (3)通用性方面：在这六种方法中，通用性较差的是表决法，因为表决法为了迁就原来产生的框架，会割舍具体领域的知识，造成其通用性较差；其他五种方法的通用性相对较强。 (4)应用难度方面：应用难度较高的有神经网络、模糊逻辑和表决法，因为它们均是模拟人的思维过程，需要较强的理论基础；D．S证据推理的应用难度适中，因其合成规则的难易而定：卡尔曼滤波和贝叶斯方法应用难度较低。 3 适用的交通管理事件之前数据融合技术在交通领域中的应用多是在例如车辆定位、交通事件识别、交通事件预测等交通事件中，但是几乎没有数据融合技术在交通运行状态评价的应用研究，而本文将数据融合技术应用在交通运行状态评价中，为了寻找到最适用于交通运行状态评价的数据融合技术方法，有必要将之前适用于其它交通管理事件的数据融合技术进行评价比较。表2 各种融合方法适用的交通管理事件的比较

多传感器数据融合算法.

一、背景介绍：多传感器数据融合是一种信号处理、辨识方法，可以与神经网络、小波变换、kalman 滤波技术结合进一步得到研究需要的更纯净的有用信号。多传感器数据融合涉及到多方面的理论和技术，如信号处理、估计理论、不确定性理论、最优化理论、模式识别、神经网络和人工智能等。多传感器数据融合比较确切的定义可概括为：充分利用不同时间与空间的多传感器数据资源，采用计算机技术对按时间序列获得的多传感器观测数据，在一定准则下进行分析、综合、支配和使用，获得对被测对象的一致性解释与描述，进而实现相应的决策和估计，使系统获得比它的各组成部分更充分的信息。多传感器信息融合技术通过对多个传感器获得的信息进行协调、组合、互补来克服单个传感器的不确定和局限性，并提高系统的有效性能，进而得出比单一传感器测量值更为精确的结果。数据融合就是将来自多个传感器或多源的信息在一定准则下加以自动分析、综合以完成所需的决策和估计任务而进行的信息处理过程。当系统中单个传感器不能提供足够的准确度和可靠性时就采用多传感器数据融合。数据融合技术扩展了时空覆盖范围，改善了系统的可靠性，对目标或事件的确认增加了可信度，减少了信息的模糊性，这是任何单个传感器做不到的。实践证明：与单传感器系统相比，运用多传感器数据融合技术在解决探测、跟踪和目标识别等问题方面，能够增强系统生存能力，提高整个系统的可靠性和鲁棒性，增强数据的可信度，并提高精度，扩展整个系统的时间、空间覆盖率，增加系统的实时性和信息利用率等。信号级融合方法最简单、最直观方法是加权平均法，该方法将一组传感器提供的冗余信息进行加权平均，结果作为融合值，该方法是一种直接对数据源进行操作的方法。卡尔曼滤波主要用于融合低层次实时动态多传感器冗余数据。该方法用测量模型的统计特性递推，决定统计意义下的最优融合和数据估计。多传感器数据融合虽然未形成完整的理论体系和有效的融合算法，但在不少应用领域根据各自的具体应用背景，已经提出了许多成熟并且有效的融合方法。多传感器数据融合的常用方法基本上可概括为随机和人工智能两大类，随机类方法有加权平均法、卡尔曼滤波法、多贝叶斯估计法、产生式规则等;而人工智能类则有模糊逻辑理论、神经网络、粗集理论、专家系统等。可以预见，神经网络和人工智能等新概念、新技术在多传感器数据融合中将起到越来越重要的作用。数据融合存在的问题 (1)尚未建立统一的融合理论和有效广义融合模型及算法； (2)对数据融合的具体方法的研究尚处于初步阶段； (3)还没有很好解决融合系统中的容错性或鲁棒性问题； (4)关联的二义性是数据融合中的主要障碍； (5)数据融合系统的设计还存在许多实际问题。二、算法介绍： 2.1多传感器数据自适应加权融合估计算法：设有n 个传感器对某一对象进行测量，如图1 所示，对于不同的传感器都有各自不同的加权因子，我们的思想是在总均方误差最小这一最优条件下，根据各个传感器所得到的测量值以自适应的方式寻找各个传感器所对应的最优加权因子，使融合后的X值达到最优。

梯度下降法求函数极小值

%%%%%%%%%%%%%%% 梯度下降法求函数极小值%%%%%%%%%%%%%%%%%% % 函数：f(x,y)=(x-2)^2+(y-4)^2 % 目的：求极小值和对应的极小值点坐标 % 方法：梯度下降法 % 理论： % 方向导数：偏导数反应的是函数沿坐标轴方向的变化率，但许多物理现象告诉我们，只考虑函数沿坐标轴方向的变化率是不够的，有必要研究函数沿任一指定方向的变化率。 % 函数f(x,y)在点P0(x0,y0)可微分，那么函数在改点沿任一方向l的方向导数存在，其值为： f'x(x0,y0)*cos(α)+f'y(x0,y0)*cos(β)，其中，cos(α)，cos(β)是方向l % 的方向余弦。 % 梯度：是与方向导数有关联的另一个概念，梯度是一个向量，表示为：f'x(x0,y0)*i+f'y(x0,y0)*j。 % 关系： % f'x(x0,y0)*cos(α)+f'y(x0,y0)*cos(β) % =grad f(x0,y0)*el % =|grad f(x0,y0)|*cos(θ)，其中el=（cos(α)，cos(β)）是与方向l同方向的单位向量。 % 变化率：函数沿某个方向的变化率指的是函数值沿这个方向变化的快慢。 % θ=0，el与梯度同向，函数增加最快，函数在这个方向的方向导数达到最大值，这个最大值就是梯度的模；% θ=π，el与梯度反向，函数减少最快，函数在这个方向的方向导数达到最小值； % θ=π/2，el与梯度方向正交，函数变化率为零； %% clear

syms x y b f=2*(x-2)^2+(y-4)^2; %求解函数的极小值点 Grad=[diff(f,x),diff(f,y)]; %求梯度 eps=1e-3; v=[x,y]; v0=[0,0]; Grad0=subs(Grad,v,v0);%求V0的梯度值 M=norm(Grad0);%梯度的模，方向导数 n=0; %% while n<=100 d=-Grad0;%寻优搜索方向 fval=subs(f,v,v0);%函数值 %% %%%%%%%%%%%%%%%%%%%%%%%求出最优步长，然后确定下一刻的坐标点%%%%%%%%%%%%%%%%%%%%%%% %设步长变量为b,将v0=v0+b*d带入函数，求导，令导数等于零，解出最佳步长b1,此为一维寻优。得到下一刻坐标点v0=v0+b1*d ft=subs(f,v,v0+b*d);%将步长变量带入函数 dft=diff(ft);%求导 b1=solve(dft);%得到该方向的最优步长

数据融合各种算法整理汇总

数据融合各种算法及数学知识汇总粗糙集理论理论简介面对日益增长的数据库，人们将如何从这些浩瀚的数据中找出有用的知识？我们如何将所学到的知识去粗取精？什么是对事物的粗线条描述什么是细线条描述？粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想，我们先要了解一下什么叫做知识？假设有8个积木构成了一个集合A，我们记： A={x1,x2,x3,x4,x5,x6,x7,x8}，每个积木块都有颜色属性，按照颜色的不同，我们能够把这堆积木分成R1={红，黄，蓝}三个大类，那么所有红颜色的积木构成集合X1={x1,x2,x6}，黄颜色的积木构成集合X2={x3,x4}，蓝颜色的积木是：X3={x5,x7,x8}。按照颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必然属于且仅属于一个分类），那么我们就说颜色属性就是一种知识。在这个例子中我们不难看到，一种对集合A的划分就对应着关于A中元素的一个知识，假如还有其他的属性，比如还有形状R2={三角,方块,圆形}，大小R3={大,中,小}，这样加上R1属性对A构成的划分分别为： A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}} （颜色分类） A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} （形状分类） A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} （大小分类）上面这些所有的分类合在一起就形成了一个基本的知识库。那么这个基本知识库能表示什么概念呢？除了红的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}这样的概念以外还可以表达例如大的且是三角形的 {x1,x2,x5}∩{x1,x2}={x1,x2}，大三角{x1,x2,x5}∩{x1,x2}={x1,x2}，蓝色的小的圆形({x5,x7,x8}∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7}，蓝色的或者中的积木{x5,x7,x8}∪{x6,x8}={x5,x6,x7,x8}。而类似这样的概念可以通过求交运算得到，比如X1与Y1的交就表示红色的三角。所有的这些能够用交、并表示的概念以及加上上面的三个基本知识(A/R1,A/R2.A/R3)一起就构成了一个知识系统记为R=R1∩R2∩R3，它所决定的所有知识是 A/R={{x1,x2},{x3,x4},{x5},{x6},{x7},{x8}}以及A/R中集合的并。下面考虑近似这个概念。假设给定了一个A上的子集合X={x2,x5,x7}，那么用我们的知识库中的知识应该怎样描述它呢？红色的三角？****的大圆？都不是，无论是单属性知识还是由几个知识进行交、并运算合成的知识，都不能得到这个新的集合X，于是我们只好用我们已有的知识去近似它。也就是在所有的现有知识里面找出跟他最像的两个一个作为下近似，一个作为上近似。于是我们选择了“蓝色的大方块或者蓝色的小圆形”这个概念： {x5,x7}作为X的下近似。选择“三角形或者蓝色的”{x1,x2,x5,x7,x8}作为它的上近似，值得注意的是，下近似集是在那些所有的包含于X的知识库

浅谈梯度下降法

浅谈梯度下降法前些时间接触了机器学习，发现梯度下降法是机器学习里比较基础又比较重要的一个求最小值的算法。梯度下降算法过程如下： 1）随机初始值0a ； 2）迭代k k k k s a a α+=+1，直至收敛。k s 表示在k a 处的负梯度方向，k α表示学习率。在这里，简单谈一下自己对梯度下降法的理解。首先，要明确梯度是一个向量，是一个n 元函数f 关于n 个变量的偏导数，比如三元函数f 的梯度为(f x ,f y ,f z )，二元函数f 的梯度为(f x ,f y ），一元函数f 的梯度为f x 。然后要明白梯度的方向是函数f 增长最快的方向，梯度的反方向是f 降低最快的方向。我们以一元函数为例，介绍一下梯度下降法。设f(x) = (x-1)2+1/2，上图给出了函数f 的图像和初始值x 0，我们希望求得函数f 的最小值，因为沿负梯度方向移动一小步后，f 值降低，故只需x 0沿着负梯度方向移动一小步即可。而f 在点x 0的导数大于0，从而f 在点x 0的梯度方向为正，即梯度方向为f ’(x 0)，

故由梯度下降法可知，下一个迭代值))('(0001x f x x -?+=α，也就是说x 0向左移动一小步到了x 1，同理在x 1点的导数同样大于零，下一次迭代x 1向左移动一小步到达x 2，一直进行下去，只要每次移动的步数不是很大，我们就可以得到收敛1的解x 。上述证实了我们对分析（蓝色倾斜字体）的验证。同样，如果处置选在了最小值的左边，即如图所示：由于f ’(x 0)<0，所以梯度方向为负，负梯度方向为正，故需将x 0沿负梯度方向移动一小步，即向右移动一小步，这样使得f 值更小一些。或用梯度下降法迭代公式))('(1k k k k x f x x -?+=+α，依次我们可以得到如图所示的x 1,x 2,...,x k ,...，直到收敛至最小值。对于二元函数，我们也可以通过实例验证梯度下降法的合理性：

四元数姿态的梯度下降法推导和解读

四元数姿态的梯度下降法推导和解读笔者前面几篇文章讨论的是基于四元数的互补滤波算法，并单独对地磁计融合部分做了详细的讨论和解释。而本文讨论的姿态融合算法叫做梯度下降法，这部分代码可以参见Sebastian O.H. Madgwick在2010年4月发表的一篇论文（An efficient orientation filter for inertial andinertial/magneticsensor arrays），这篇论文利用四元数微分方程求解当前姿态，然后分别利用加速度计和地磁计进行补偿，推导出两种姿态融合算法。两种算法均为梯度下降法，而其中地磁计的处理方式笔者已经在《四元数姿态解算中的地磁计融合解读》一文中详细讨论了，这里笔者将对Madgwick对于加速度计和地磁计的梯度下降法做出详细的解释，期间一定有个人不足的地方，仅供参考，希望和各位网友一起学习！首先来谈谈什么是梯度。维基百科中解释的是“标量场中某一点上的梯度指向标量场增长最快的方向，梯度的长度是这个最大的变化率。”很显然，梯度和变化率有关。现在我们引入标量函数f(x)，对标量函数f(x)求导，不难得到f’(x)就是梯度，就是曲线在某一点的斜率。梯度下降法就是我们顺着这个在某一点下降速度最快的反方向一直走，走到一个极值点，这个点就是最优解（稳定解）。那么这个梯度的概念和我们的姿态解算有什么关系？我在前面的文章中已经说明：我们求解姿态就是求解的转换矩阵（矩阵元素就是四元数）。这个转换矩阵是有误差的，我们所要做的工作就是采用某种算法，消除误差，最后得到的解就是我们的近似精确解，也就是姿态四元数了。消除误差四个字，在实际的实现过程中，是通过误差函数来实现的。定义误差函数ef(x)，那么我们的工作就是令ef(x)=0，求解上述方程得到x的值。我们在求解高阶方程的时候，一般的方法就是求导，求极值点，根据这些值来判断精确值个数和位置。这是我们高中所学习到的知识，在这里是一样的。只不过，这里的误差函数ef(x) 不再是之前讨论的简单的标量函数了，他的自变量x变成了向量[q0 q1 q2 q3]。这也就是说，原先的标量函数ef(q) 变成了如今的标量函数ef([q0 q1 q2 q3]) ，他仍然是标量函数，但是自变量是向量[q0 q1 q2 q3]。对上述自变量是向量的标量函数，我们要用梯度法求解，就必须求导。标量函数对向量求导很简单，只需要分别对向量中的各个变量求偏导即可：但是，我们的姿态解算是三维姿态，不是一维姿态，所以，这里的ef(q)并不是一个标量函数，实质上是一个向量函数ef ( q )，这个向量函数里面有三个元素，分别对应xyz轴的三个分量，每个分量又由一个四元数向量q构成。那么现在就引入了一个较为复杂的误差函数ef ( q )，该误差函数不光自变量是一个向量，并且因变量也是一个向量，这种函数叫做多元向量函数。那么我们现在的问题就转化为求多元向量函数的极值问题。针对上述极值问题，在计算机中，多采用数值解法，如最速下降法、牛顿法、共轭梯度法。我们这里讨论就是第一种算法，又叫做梯度下降法。PS：梯

梯度下降法理论及部分代码实现

梯度下降法梯度下降法是一种最优化算法，常用来优化参数，通常也称为最速下降法。梯度下降法是一般分为如下两步： 1）首先对参数θ赋值，这个值可以是随机的，也可以让θ是一个全零的向量； 2）改变θ的值，使得J(θ)按梯度下降的方向进行减少。以一个线性回归问题为例，应用libsvm 包里的数据heart_scale.mat 数据做测试。假设要学习这么一个函数： +++==22110)()(x x x h x h θθθθ 那么损失函数可以定义成： 2||||2 1)(Y X J -=θθ （1）其中X 看以看成一行一行的样本向量，那么Θ就是一列一列的了。目标很简单，就是求损失J 最小值时候的解Θ：先直接求导，对于求导过程，详解如下：首先定义损失变量： ∑=-=n j i j ij i y X r 1θ 那么损失函数就可以表示成： ∑==m i i r J 1 221 一步一步的求导： ∑=???=??m i j i i j r r J 1)(θθ 再求： ij j i X r =??θ 那么把分步骤合起来就是： ∑∑==-=??m i ij n k i k ik j X y X J 11 )(θθ 令导数为0，求此时的Θ，整理一下，有： ∑∑∑====m i m i j ij n k k ik ij y X X X 111^θ 用矩阵符号将上面的细节运算抽象一下： 0=-=??Y X X X J T T θθ

让导数为0，那么求得的解为： Y X X X T T 1)(-=θ 求解矩阵的逆复杂度有点儿高，可以用梯度下降来求解： ][)()(1111Y X X X J J T i T i i i i --=??-=?-=----θγθθ θγθθγθθ （2）其中γ就是下降的速度，一般是一个小的数值，可以从0.01开始尝试，越大下降越快，收敛越快。迭代终止的条件取： εθθ<--||||1i i 部分代码如下： w_old=zeros(size(X,2),1);%%初始化参数w k=1; while 1 minJ_w(k) = 1/2 * (norm(X*w_old - Y))^2; %%损失函数公式(1) %%norm 默认为L2标准化 w_new = w_old - gamma*(X'*X*w_old - X'*Y);%%梯度下降公式 %%公式（2） if norm(w_new-w_old) < epsilon %%终止条件 W_best = w_new; break ; end w_old = w_new; k=k+1; end 实验结果：

数据融合技术概述

数据融合是WSN中非常重要的一项技术，也是目前的一个研究热点，通过一定算法将采集到的数据进行各种网内处理，去除冗余信息，减少数据传输量，降低能耗，延长网络生命周期。本文以从降低传输数据量和能量方面对数据融合方法进行分类，介绍其研究现状。 1.与路由相结合的数据融合将路由技术和数据融合结合起来，通过在数据转发过程中适当地进行数据融合，减轻网络拥塞，延长网络生存时间[1]。 1.1查询路由中的数据融合定向扩散（directed diffusion）[2]作为查询路由的代表，数据融合主要是在其数据传播阶段进行，采用抑制副本的方法，对转发过的数据进行缓存，若发现重复数据将不予转发，该方法有很好的能源自适应性，但是他只能在他选择的随机路由上进行数据融合，并不是最优方案。 1.2分层路由中的数据融合 Wendi Rabiner Heinzelman 等提出了在无线传感器网络中使用分簇概念,其将网络分为不同层次的LEACH 算法[3] :通过某种方式周期性随机选举簇头,簇头在无线信道中广播信息,其余节点检测信号并选择信号最强的簇头加入,从而形成不同的簇。每个簇头在收到本簇成员后进行数据融合处理，并将结果发送给汇集节点。LEACH算法仅强调数据融合的重要性，但未给出具体的融合方法。TEEN是LEACH 算法的改进[4]，通过缓存机制抑制不需要转发的数据，进一步减少数据融合过程中的数据亮。

1.3链式路由中的数据融合 Lindsey S 等人在L EACH 的基础上,提出了PEGASIS 算法[5]每个节点通过贪婪算法找到与其最近的邻居并连接,从而整个网络形成一个链,同时设定一个距离Sink 最近的节点为链头节点,它与Sink进行一跳通信。数据总是在某个节点与其邻居之间传输,节点通过多跳方式轮流传输数据到Sink 处，位于链头节点和源节点之间的节点进行融合操作，最终链头节点将结果传送给汇聚节点。链式结构使每个节点发送数据距离几乎最短，比LEACH节能，但增大了数据传送的平均延时，和传输失败率。PEDAP (power efficient data gathering and aggregation protocol) [6]协议进一步发展了PEGASIS 协议,其核心思想是把WSN 的所有节点构造成一棵最小汇集树(minimum spanning tree) 。节点不管在每一轮内接收到多少个来自各子节点的数据包,都将压缩融合为单个数据包,再进行转发,以最小化每轮数据传输的总能耗。然而,PEDAP 存在难以及时排除死亡节点(非能量耗尽) 的缺点。 2.基于树的数据融合现有的算法有最短路径树（SPT）、贪婪增量树（GIT）、近源汇集树（CNS）和Steiner树以及他们的改进算法。Zhang [7]提出 DCTC(dynamic convey tree based collaboration) 算法。通过目标附近的节点协同构建动态生成树,协同组节点把测量数据沿确定的生成树向根节点传输,在传输过程中,汇聚节点对其子生成树节点的数据进行数据融合。Luo [8-9]了MFST (minimum fusion steiner t ree)

梯度下降法、牛顿迭代法、共轭梯度法

梯度下降法、牛顿迭代法、共轭梯度法（参见：神经网络->PGM-ANN-2009-C09性能优化）优化的目的是求出目标函数的最大值点或者最小值点，这里讨论的是迭代的方法梯度下降法首先，给定一个初始猜测值，然后按照等式 k k k k ΡαΧ+=X +1 （1）或 k k k k k P =X -X =?X +α)(1 （2）逐步修改猜测。这里向量 k P 代表一个搜索方向，一个大于零的纯量 k α 为学习速度，它确定了学习步长。当用 k k k k ΡαΧ+=X +1 进行最优点迭代时，函数应该在每次迭代时都减小，即 ) ()(1k k F F X

信息融合的分类方法

一、信息融合技术分类：多源信息融合技术分为假设检验型信息融合技术、滤波跟踪型信息融合技术、聚类分析型信息融合技术、模式识别型信息融合技术、人工智能型信息融合技术等。 1、假设检验型信息融合技术假设检验型信息融合技术是以统计假设检验原理为基础，信息融合中心选择某种最优化假设检验判决准则执行多传感器数据假设检验处理，获取综合相关结论。 2、滤波跟踪型信息融合技术滤波跟踪型信息融合技术是将卡尔曼滤波(或其他滤波)航迹相关技术由单一传感器扩展到多个传感器组成的探测网，用联合卡尔曼滤波相关算法执行多传感器滤波跟踪相关处理。 3、聚类分析型信息融合技术聚类分析型信息融合技术是以统计聚类分析或模糊聚类分析原理为基础，在多目标、多传感器大量观测数据样本的情况下，使来自同一目标的数据样本自然聚集、来自不同目标的数据样本自然隔离，从而实现多目标信息融合。 4、模式识别型信息融合技术模式识别型信息融合技术是以统计模式识别或模糊模式识别原理为基础，在通常的单一传感器模式识别准则基础上建立最小风险多目标多传感器模式识别判决准则，通过信息融合处理自然实现目标分类和识别。 5、人工智能信息融合技术人工智能信息融合技术将人工智能技术应用于多传感器信息融合，对于解决信息融合中的不精确、不确定信息有着很大优势，因此成为信息融合的发展方向。智能融合方法可分为：基于专家系统的融合方法；基于神经网络的融合方法；基于生物基础的融合方法；基于模糊逻辑的融合方法等。

二、按融合判决方式分类：多源信息融合的融合判决方式分为硬判决方式和软判决方式。所谓硬判决或软判决指的是数据处理活动中用于信号检测、目标识别的判决方式。每个传感器内部或信息融合中心都既可选用硬判决方式，也可选用软判决方式。 1、硬判决方式硬判决方式设置有确定的预置判决门限。只有当数据样本特征量达到或超过预置门限时，系统才做出判决断言；只有当系统做出了确定的断言时，系统才向更高层次系统传送”确定无疑”的判决结论。这种判决方式以经典的数理逻辑为基础，是确定性的。 2、软判决方式软判决方式不设置确定不变的判决门限。无论系统何时收到观测数据都要执行相应分析，都要做出适当评价，也都向更高层次系统传送评判结论意见及其有关信息，包括评判结果的置信度。这些评判不一定是确定无疑的，但它可以更充分地发挥所有有用信息的效用，使信息融合结论更可靠更合理。三、按信息融合处理层次分类：按信息融合处理层次分类，多源信息融合可分为数据层信息融合、特征层信息融合、决策层信息融合等。 1、数据层信息融合数据层信息融合联合来自每一个传感器的原始数据，其优点是信息丰富，结果精确，但是通讯和运算量大，数据需要预处理，传感器之间往往要求同质或者同等精度。主要的数学方法是：加权平均法、卡尔曼滤波[147,148]、贝叶斯估计、参数估计法等，与信号处理有一定的相似性。 2、特征层信息融合特征层融合联合从观测量中提取的特征向量，既保持足够数量的重要信息，又实现信息压缩，有利于实时性；但是不可避免地会有某些信息损失，精确性有所下降，因而需对传感器预处理提出较严格的要求。主要的数学方法是：分离

梯度下降法求函数极小值

%% %%%%%%%%%%%%%%% 梯度下降法求函数极小值 %%%%%%%%%%%%%%%%%% % 函数：f(x,y)=(x-2)^2+(y-4)^2 % 目的：求极小值和对应的极小值点坐标 % 方法：梯度下降法 % 理论： % 方向导数：偏导数反应的是函数沿坐标轴方向的变化率，但许多物理现象告诉我们，只考虑函数沿坐标轴方向的变化率是不够的，有必要研究函数沿任一指定方向的变化率。 % 函数f(x,y)在点P0(x0,y0)可微分，那么函数在改点沿任一方向l的方向导数存在，其值为：f'x(x0,y0)*cos(α)+f'y(x0,y0)*cos(β)，其中，cos(α)，cos(β)是方向l % 的方向余弦。 % 梯度：是与方向导数有关联的另一个概念，梯度是一个向量，表示为：f'x(x0,y0)*i+f'y(x0,y0)*j。 % 关系： % f'x(x0,y0)*cos(α)+f'y(x0,y0)*cos(β) % =grad f(x0,y0)*el % =|grad f(x0,y0)|*cos(θ)，其中el=（cos(α)，cos(β)）是与方向l同方向的单位向量。 % 变化率：函数沿某个方向的变化率指的是函数值沿这个方向变化的快慢。 % θ=0，el与梯度同向，函数增加最快，函数在这个方向的方向导数达到最大值，这个最大值就是梯度的模； % θ=π，el与梯度反向，函数减少最快，函数在这个方向的方向导数达到最小值； % θ=π/2，el与梯度方向正交，函数变化率为零； %% clear clc syms x y b f=2*(x-2)^2+(y-4)^2; %求解函数的极小值点

利用梯度下降法实现线性回归的算法及matlab实现

利用梯度下降法实现线性回归的算法及matlab实现 1.线性回归算法概述线性回归属于监督学习，因此方法和监督学习应该是一样的，先给定一个训练集，根据这个训练集学习出一个线性函数，然后测试这个函数训练的好不好（即此函数是否足够拟合训练集数据），挑选出最好的函数（cost function最小）即可；注意： (1)因为是线性回归，所以学习到的函数为线性函数，即直线函数； (2)线性回归可分为单变量线性回归和多变量线性回归；对于单变量线性回归而言，只有一个输入变量x； (1).单变量线性回归我们能够给出单变量线性回归的模型：我们常称x为feature，h(x)为hypothesis；上述模型中的θ0和θ1在代码中分别用theta0和theta1表示。从上面“方法”中，我们肯定有一个疑问，怎么样能够看出线性函数拟合的好不好呢？我们需要使用到Cost Function（代价函数），代价函数越小，说明线性回归地越好（和训练集拟合地越好），当然最小就是0，即完全拟合。cost Function的内部构造如下面公式所述：其中：表示向量x中的第i个元素；表示向量y中的第i个元素；表示已知的假设函数； m为训练集的数量； 1

虽然给定一个函数，我们能够根据cost function知道这个函数拟合的好不好，但是毕竟函数有这么多，总不可能一个一个试吧？因此我们引出了梯度下降：能够找出cost function函数的最小值；梯度下降原理：将函数比作一座山，我们站在某个山坡上，往四周看，从哪个方向向下走一小步，能够下降的最快；当然解决问题的方法有很多，梯度下降只是其中一个，还有一种方法叫Normal Equation；方法： (1)先确定向下一步的步伐大小，我们称为Learning rate(alpha)； (2)任意给定一个初始值：(用theta0和theta1表示)； (3)确定一个向下的方向，并向下走预先规定的步伐，并更新； (4)当下降的高度小于某个定义的值，则停止下降；算法：特点： (1)初始点不同，获得的最小值也不同，因此梯度下降求得的只是局部最小值； (2)越接近最小值时，下降速度越慢；梯度下降能够求出一个函数的最小值； 2

数据融合中存在的问题与可解决的思路

数据融合中存在的问题与可解决的思路 3222011041张志成一、数据融合技术概念由来数据融合技术，包括对各种信息源给出的有用信息的采集、传输、综合、过滤、相关及合成，以便辅助人们进行态势/环境判定、规划、探测、验证、诊断。这对战场上及时准确地获取各种有用的信息，对战场情况和威胁及其重要程度进行适时的完整评价，实施战术、战略辅助决策与对作战部队的指挥控制，是极其重要的。数据融合的概念虽始于70年代初期，但真正的技术进步和发展乃是80年代的事，尤其是近几年来引起了世界范围内的普遍关注，美、英、日、德、意等发达国家不但在所部署的一些重大研究项目上取得了突破性进展，而且已陆续开发出一些实用性系统投入实际应用和运行。不少数据融合技术的研究成果和实用系统已在1991年的海湾战争中得到实战验证，取得了理想的效果。随着计算机技术、通信技术的快速发展，且日趋紧密地互相结合，加之军事应用的特殊迫切需求，作为数据处理的新兴技术——数据融合技术，在近10年中得到惊人发展并已进入诸多军事应用领域。二、数据融合存在的问题及研究方向 1.当前数据融合研究存在的问题数据融合是一门新兴的学科，目前尚存在以下的问题：

（1）未形成基本的理论框架和广义融合算法：目前，绝大多数的融合研究皆是针对特定的应用领域的特定问题开展的（混合结构，分布式）。即根据问题的种类，各自建立直观的融合准则，形成“最佳”融合方案，未形成完整的理论框架和融合模型，使得融合系统的设计具有一定的盲目性。（2）关联的二义性：关联的二义性是数据融合的主要障碍，传感器测量的不精确性和干扰等都是引起关联二义性的因素。如何降低关联二义性是数据融合研究以待解决的问题。（3）数据融合方法与融合系统实施存在的问题：目前，大多数数据融合是经一种简单的方法合成信息，并未充分有效地利用多传感器所提供的冗余信息，融合方法研究也还处于初步阶段。而且目前很多研究工作亦是基础研究，仿真性工作。因此，数据融合系统的设计实施还存在许多实际的问题：传感器动态测量误差模型的建立、传感器系统优化、复杂动态环境下系统实时性、大型知识库的建立与管理、与其它领域的很多新技术的“嫁接与融合”，如人工智能技术、计算神经网络计算、遗传算法、进化计算、虚拟现实技术性等。 2.数据融合的研究方向（1）建立数据融合的基础理论，这包括进一步研究融合技术的数学基础，对于同类信息相融合的数值处理：主要研究其各种最优、次优分散式算法；对于不同类型信息相融合的符号处理方法，引进其它领域的一些新技术：如具备学习功能的新型 AI技术、

梯度下降法-Gradient Descent

1. 梯度下降法(Gradient descent) 梯度下降法，通常也叫最速下降法(steepest descent)，基于这样一个事实：如果实值函数 f(x) 在点x 处可微且有定义，那么函数 f(x) 在 x 点沿着负梯度(梯度的反方向)下降最快。假设x 是一个向量，考虑f(x) 的泰勒展开式： )(, )()())(()()()(12是方向向量为步长标量；其中k k k k k k k k k k k k k k k k d d x x x x x f x f x o x x f x f x x f αα=-=???+≈?+??+=?++ 如果想要函数值下降，则要()||()||||||cos (),0k k k k k k f x x f x x f x x ??=????<。如果想要下降的最快，则需要k k x x f ??)(取最小值，即cos (),1k k f x x =-，也就是说，此时x 的变化方向(k x ?的方向)跟梯度)(k x f ?的方向恰好相反。那么步长如何选取呢？的确，很难选择一个合适的固定值，如果较小，会收敛很慢；如果较大，可能有时候会跳过最优点，甚至导致函数值增大；因此，最好选择一个变化的步长，在离最优点较远的时候，步长大一点，离最优点较近的时候，步长小一点。 k α小k α大k α变化的一个不错的选择是||)(||k k x f ?=αα，于是牛顿迭代公式变为：)(1k k k x f x x ?-=+α，此时α是一个固定值，称为学习率，通常取0.1，该方法称为固定学习率的梯度下降法。另外，我们也可以通过一维搜索来确定最优步长。 1.1 梯度下降法的一般步骤： Step1给定初始点0x ,迭代精度0 >ε，k =0. Step3 计算最优步长) (min arg k k k d x f ααα+=；

数据融合算法及其应用

多传感器信号融合及应用结课论文数据融合算法及其应用姓名：李东正学号：112081101175 专业：控制理论与控制工程

数据融合算法及其应用一数据融合的发展及基本概念数据融合一词最早出现在20世纪70年代末期，开始并未受到足够的重视。近几十年随着传感器技术的迅速发展，尤其在军事指挥系统中对提高综合作战能力的迫切要求，使其得到了长足的进步。其早期主要是应用在军事上，而随着工业系统的复杂化和智能化近年来该技术推广到了民用领域，如医疗诊断、空中交通管制、工业自动控制及机械故障诊断等。数据融合是针对一个系统中使用多个传感器这一问题而展开的一种信息处理的新的研究方向，所以数据融合也称为传感器融合。数据融合一直没有一个统一的定义，一般认为:利用计算机技术，对按时间顺序获得的若干传感器的观测信息，在一定的准则下加以自动分析、综合，从而完成所需要的决策和估计任务而进行的信息处理过程称为数据融合。二数据融合的几种方式很多学者从不同角度出发提出了多种数据融合技术方案。可以按不同的方式进行分类:如按技术原理分，可分为假设检验型数据融合、滤波跟踪型数据融合、聚类分析型数据融合、模式识别型数据融合、人工智能型数据融合等;按判决方式分有硬判决型和软判决型数据融合;按传感器的类型分又有同类传感器数据融合和异类传感器数据融合;按对数据的处理方式分，又可分为像素级融合、特征级融合和决策级融合。从方法来分数据融合，有Bayes推理法、表决法、D- S 推理法、神经网络融合法等。下而分别对这几种方法的优缺点进行讨论。 2.1 Bayes推理法多源信息的集成并不仅仅依赖于数学上的分析，因为在实际应用中由于信息不完全会造成系统具有不确定性。至少有两方而的原因会导致信息不完全:一是噪声破坏了信号中原有的部分信息，并且无法在后处理中从噪声中将原始信息提取还原;二是因为即使不考虑噪声的干扰，信息本身也不可能包含监测对象完整、全部的信息，这和传感器的精度等因素有关。因此，一方而无法通过获得完全、精确的信息，进而用纯数学方法分析解决问题;另一方而，信号的后处理无法增加己获取信号的信息含量，所以，需要通过采用归纳推理的方法来解决。从应用

Logistic回归梯度下降法

Logistic回归学习材料广义线性模型（generalizedlinear model）这一家族中的模型形式基本上都差不多，不同的就是因变量不同。 ?如果是连续的，就是多元线性回归； ?如果是二项分布，就是Logistic回归； ?如果是Poisson分布，就是Poisson回归； ?如果是负二项分布，就是负二项回归。 Logistic回归的因变量可以是二分类的，也可以是多分类的，但实际中最常用的就是二分类的Logistic回归。自变量既可以是连续的，也可以是分类的。常规步骤 Regression问题的常规步骤为： 1. 寻找h函数（即hypothesis）； 2. 构造J函数（损失函数）； 3. 使J函数最小并求得回归参数（θ）构造预测函数h Logistic回归实际上是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别），所以利用了Logistic函数（或称为Sigmoid函数），函数形式为：下面左图是一个线性的决策边界，右图是非线性的决策边界。

对于线性边界的情况，边界形式如下（n：特征个数；m：样本数）：构造预测函数为：函数的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：构造损失函数J J函数如下，它是基于最大似然估计推导得到的。下面详细说明推导的过程：（1）式综合起来可以写成：取似然函数为：对数似然函数为：

最大似然估计就是求使取最大值时的θ，将取为下式，即：因为乘了一个负的系数-1/m，所以取最小值时的θ为要求的最佳参数。梯度下降法求的最小值 θ更新过程： θ更新过程可以写成：更新过程向量化（Vectorization）训练数据的矩阵形式如下，x的每一行为一条训练样本，而每一列为不同特征的取值：