当前位置:文档之家› Matlab多元统计分析程序

Matlab多元统计分析程序

Matlab多元统计分析程序
Matlab多元统计分析程序

Matlab多元统计分析程序

1. 主成分分析M程序

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % 主成分分析

%

% 设对变量x1,x2,...,xp进行n次观测,得到n×p数据矩阵x=x(i,j),

% 本程序对初始数据进行主成分分析,要求先请将观测矩阵输入到变

% 量x,再运行本程序。

% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %

% 确定观测矩阵x 的尺寸,以便数据标准化.

%

[n,p]=size(x);

%

% 数据处理方式设置,即是否先将数据标准化.

%

fprintf('\n 1---使用原始数据直接计算距离')

fprintf('\n 2---使用标准化后的数据计算距离')

k=input('请输入你的选择(1~2)');

%

% 数据标准化

%

switch k

case 1

xs=x;

case 2

mx=mean(x);

xs=(x-repmat(mx,n,1))./repmat(stdr,n,1);

end

%

% 主成分分析,返回各主成分pc,所谓的z-得分score,x的协方差

% 矩阵的特征值latent和每个数据点的Hotelling统计量tsquare.

%

[pc score latent tsquare]=princomp(xs)

2. 典型相关分析M程序

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %

% 在运行本程序之前,请先把数据输入/导入到MATLAB 的

% 内存空间,并存放在变量x 中,每行存放一个样本。

% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %

% 确定观测矩阵x 的尺寸

%

[n,h]=size(x);

%

% 输入基本参数

%

p=input('\n第一组变量的个数p = ? ');

fprintf('\n1--使用样本协方差矩阵计算典型相关变量')

fprintf('\n2--使用样本相关矩阵计算典型相关变量')

ctl=input('\n请输入你的选择');

%

% 默认的显著性水平为alpha=0.05,可以改变下面语句中的alpha值。

%

alpha=0.05;

%

% 按要求计算样本协方差矩阵或样本相关矩阵

%

switch ctl

case 1

st=cov(x);

case 2

end

%

% 就两组变量,分别由st确定4个协方差矩阵。

%

s11=st(1:p,1:p);

s22=st((p+1):h,(p+1):h);

s12=st(1:p,(p+1):h);

s21=s12';

%

% 计算矩阵a=inv(s11)*s12*inv(s22)*s21的特征值与特征向量。

% 输出变量w1存放a的特征值,v1存放a的特征向量。

%

a=inv(s11)*s12*inv(s22)*s21;

[v1,w1]=eig(a);

%

% 计算第i对典型相关变量的系数向量l(:,i)和m(:,i),i=1,2,...k.

%

for i=1:p

t1(i,1)=w1(i,i);

end

q=h-p;

[y1 i1]=sort(t1);

k=0;

for i=1:p

if y1(p-i+1)>0

k=k+1;

end

end

for i=1:k

l(:,i)=v1(:,i1(p-i+1))/sqrt(v1(:,i1(p-i+1))'*s11*v1(:,i1(p-i+1)));

m(:,i)=inv(s22)*s21*l(:,i)/sqrt(y1(p-i+1));

end

%

% 计算检验第i对典型相关变量是否显著的卡方统计量Q(1,i),i=1,2,...,k.

% 计算卡方统计量Q(1,i)的自由度Q(2,i),i=1,2,...,k.

% 计算相应的临界值Q(3,i),i=1,2,...,k.

% 当Q(1,i)>Q(3,i)时第i对典型相关变量显著相关,否则其相关性不显著。%

lemuda=ones(1,k);

for j=i:k

lemuda(i)=lemuda(i)*(1-y1(p-j+1));

end

Q(1,i)=-(n-i-0.5*(h+1))*log(lemuda(i));

Q(2,i)=(p-i+1)*(q-i+1);

Q(3,i)=chi2inv(1-alpha,Q(2,i));

Q(4,i)=sqrt(y1(k-i+1));

end

%

% 计算结果屏幕输出

%

fprintf('\n\n\n典型相关分析计算结果:')

for i=1:k

fprintf('\n\n%s\n',['第',int2str(i),' 对典型相关变量的系数向量(按行排列):'])

fprintf('%8.4f',l(:,i)')

fprintf('\n')

fprintf('%8.4f',m(:,i)')

end

fprintf('\n\n各对典型相关变量的显著性检验结果:')

fprintf('\n 显著性水平alpha = %6.3f',alpha)

fprintf('\n\n 序号统计量自由度临界值相关系数显著性')

for i=1:k

sig='不显著';

if Q(1,i)>Q(3,i)

sig='显著';

end

fprintf('\n%5d %8.4f %8.4f %8.4f %8.4f %s',i,Q(1,i),Q(2,i),Q(3,i),Q(4,i),sig) end

%

% 程序结束

%

3. 判别分析M程序

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %两总体(A、B两组)判别分析

%

%要求将第一个总体(A组)的样品放在数据文件DataA.xls中,每行一个样品

% 将第二个总体(B组)的样品放在数据文件DataB.xls中,每行一个样品

% 并将上述3个数据文件放在MA TLAB安装目录的work子目录下%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %

Data_A=xlsread('DataA.xls'); %读入数据

Data_B=xlsread('DataB.xls');

Data_C=xlsread('DataC.xls');

n1=length(Data_A(:,1)); %获得样品数量

n2=length(Data_B(:,1));

k=length(Data_C(:,1));

ma=mean(Data_A); %计算均值向量

mb=mean(Data_B);

sa=cov(Data_A); %计算协方差矩阵

sb=cov(Data_B);

%

%分别计算待判样品到两总体的距离,并作出判别

%

for i=1:k

d1(i)=(Data_C(i,:)-ma)*inv(sa)*(Data_C(i,:)-ma)';

d2(i)=(Data_C(i,:)-mb)*inv(sb)*(Data_C(i,:)-mb)';

if d1(i)

res1(i)='A';

else

res1(i)='B';

end

end

%

%计算误判概率P(2|1)和P(1|2)

%

for i=1:n1

d1(i)=(Data_A(i,:)-ma)*inv(sa)*(Data_A(i,:)-ma)';

d2(i)=(Data_A(i,:)-mb)*inv(sb)*(Data_A(i,:)-mb)';

if d1(i)

res2(i)=0;

else

res2(i)=1;

end

end

p21=sum(res2)/n1;

for i=1:n2

d2(i)=(Data_B(i,:)-mb)*inv(sb)*(Data_B(i,:)-mb)';

if d1(i)

res3(i)=1;

else

res3(i)=0;

end

end

p12=sum(res3)/n2;

%

%输出判别结果和误判概率

%

fprintf('\n两总体(A、B两组)判别分析结果输出:\n\n')

fprintf(' 待判别样品数量:%d\n\n',k)

fprintf(' 判别结果为%s\n\n',res1)

fprintf(' 误判概率P(2|1)= %f\n\n',p21)

fprintf(' 误判概率P(1|2)= %f\n',p12)

4. 聚类分析M程序

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % 按距离大小对样品进行系统聚类分析

% 要求先将观测矩阵输入到变量x,每行一个样品. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %

% 确定观测矩阵x 的尺寸.

%

[n,p]=size(x);

%

% 数据处理方式设置,即是否先将数据标准化.

%

fprintf('\n 1---使用原始数据直接计算距离')

fprintf('\n 2---使用标准化后的数据计算距离')

k=input('请输入你的选择(1~2)');

%

% 数据标准化

%

switch k

case 1

case 2

mx=mean(x);

stdr=std(x);

xs=(x-repmat(mx,n,1))./repmat(stdr,n,1); end

%

% 计算样品间的距离.

%

fprintf('\n 1---使用欧氏距离')

fprintf('\n 2---使用标准欧氏距离(B模距离)') fprintf('\n 3---使用马氏距离(Mahalanobis距离)') fprintf('\n 4---使用绝对值距离')

fprintf('\n 5---使用闵氏距离(Minkowski距离)') k=input('请输入你的选择(1~5)');

switch k

case 1

y=pdist(xs,'Euclid');

case 2

y=pdist(xs,'SEuclid');

case 3

y=pdist(xs,'Mahal');

case 4

y=pdist(xs,'CityBlock');

case 5

k=input('请输入闵氏距离中的参数q: ');

y=pdist(xs,'Minkowski',q);

end

%

% 选择聚类方法,生成聚类树

%

fprintf('\n 1---最短距离法')

fprintf('\n 2---最长距离法')

fprintf('\n 3---平均距离法')

fprintf('\n 4---重心距离法')

fprintf('\n 5---离差平方和方法(Ward方法)')

k=input('请输入你的选择(1~5)');

switch k

case 1

Z = linkage(y,'single');

Z = linkage(y,'complete');

case 3

Z = linkage(y,'average');

case 4

Z = linkage(y,'centroid');

case 5

Z = linkage(y,'ward'); end

%

% 绘制聚类图

%

h=dendrogram(z)

应用多元统计分析课后答案

2.1.试叙述多元联合分布和边际分布之间的关系。 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密 度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度 函数的维数小于p 。 2.2设二维随机向量1 2()X X '服从二元正态分布,写出其联合分布。 解:设1 2()X X '的均值向量为()1 2μμ'=μ,协方差矩阵为21 122212σσσσ?? ? ?? ,则其联合分布密度函数为 1/2 12 2 2112112222122121()exp ()()2f σσσσσσσσ--???????? '=---?? ? ??? ?????? x x μx μ。 2.3已知随机向量12()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断 1X 和2X 是否相互独立。 (1)解:随机变量 1X 和2X 的边缘密度函数、均值和方差; 11212122 2[()()()()2()()] ()()()d x c d c x a b a x c x a x c f x dx b a d c --+-----=--? 1221222222 2()()2[()()2()()]()()()() d d c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----? 121 222202()()2[()2()]()()()() d d c c d c x a x b a t x a t dt b a d c b a d c ------= +----? 221212222 2()()[()2()] 1()()()()d c d c d c x a x b a t x a t b a d c b a d c b a ------=+= ----- 所以 由于1X 服从均匀分布,则均值为2b a +,方差为 ()2 12 b a -。

多元统计分析实例汇总

多元统计分析实例 院系:商学院 学号: 姓名:

多元统计分析实例 本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类.选取了6个指标农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积. 数据如下表: 一.聚类法

设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.

Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 内蒙 5 -+ 吉林 7 -+ 云南 25 -+-+ 江西 14 -+ +-+ 陕西 27 -+-+ | 新疆 31 -+ +-+ 安徽 12 -+-+ | | 广西 20 -+ +-+ +-------+ 辽宁 6 ---+ | | 浙江 11 -+-----+ | 福建 13 -+ | 重庆 22 -+ +---------------------------------+ 贵州 24 -+ | | 山西 4 -+---+ | | 甘肃 28 -+ | | | 北京 1 -+ | | | 青海 29 -+ +---------+ | 天津 2 -+ | | 上海 9 -+ | | 宁夏 30 -+---+ | 西藏 26 -+ | 海南 21 -+ | 河北 3 ---+-----+ | 四川 23 ---+ | | 黑龙江 8 -+-+ +-------------+ | 湖南 18 -+ +---+ | | | 湖北 17 -+-+ +-+ +-------------------------+ 广东 19 -+ | | 江苏 10 -------+ | 山东 15 -----------+-----------+ 河南 16 -----------+

matlab 常用函数汇总

matlab 常用函数汇总 编程2008-07-10 21:45:20 阅读46 评论0 字号:大中小订阅matlab常用函数 图形注释 Title 图形标题 Xlabel X轴标记 Ylabel Y轴标记 Text 文本注释 Gtext 用鼠标放置文本 Grid 网格线 MATLAB编程语言 Function 增加新的函数 Eval 执行由MA TLAB表达式构成的字串 Feval 执行由字串指定的函数 Global 定义全局变量 程序控制流 If 条件执行语句 Else 与if命令配合使用 Elseif 与if命令配合使用 End For,while和if语句的结束 For 重复执行指定次数(循环) While 重复执行不定次数(循环) Break 终止循环的执行 Return 返回引用的函数 Error 显示信息并终止函数的执行 交互输入 Input 提示用户输入 Keyboard 像底稿文件一样使用键盘输入 Menu 产生由用户输入选择的菜单 Pause 等待用户响应 Uimenu 建立用户界面菜单 Uicontrol 建立用户界面控制 一般字符串函数 Strings MATLAB中有关字符串函数的说明 Abs 变字符串为数值 Setstr 变数值为字符串 Isstr 当变量为字符串时其值为真 Blanks 空串 Deblank 删除尾部的空串 Str2mat 从各个字符串中形成文本矩阵 Eval 执行由MA TLAB表达式组成的串 字符串比较 Strcmp , , , 比较字符串 Findstr 在一字符串中查找另一个子串

Upper 变字符串为大写 Lower 变字符串为小写 Isletter 当变量为字母时,其值为真 Isspace 当变量为空白字符时,其值为真 字符串与数值之间变换 Num2str 变数值为字符串 Int2str 变整数为字符串 Str2num 变字符串为数值 Sprintf 变数值为格式控制下的字符串 Sscanf 变字符串为格式控制下的数值 十进制与十六进制数之间变换 Hex2num 变十六进制为IEEE标准下的浮点数Hex2dec 变十六制数为十进制数 Dec2hex 变十进制数为十六进制数 建模 Append 追加系统动态特性 Augstate 变量状态作为输出 Blkbuild 从方框图中构造状态空间系统Cloop 系统的闭环 Connect 方框图建模 Conv 两个多项式的卷积 Destim 从增益矩阵中形成离散状态估计器Dreg 从增益矩阵中形成离散控制器和估计器Drmodel 产生随机离散模型 Estim 从增益矩阵中形成连续状态估计器Feedback 反馈系统连接 Ord2 产生二阶系统的A、B、C、D Pade 时延的Pade近似 Parallel 并行系统连接 Reg 从增益矩阵中形成连续控制器和估计器Rmodel 产生随机连续模型 Series 串行系统连接 Ssdelete 从模型中删除输入、输出或状态ssselect 从大系统中选择子系统 模型变换 C2d 变连续系统为离散系统 C2dm 利用指定方法变连续为离散系统 C2dt 带一延时变连续为离散系统 D2c 变离散为连续系统 D2cm 利用指定方法变离散为连续系统 Poly 变根值表示为多项式表示 Residue 部分分式展开 Ss2tf 变状态空间表示为传递函数表示 Ss2zp 变状态空间表示为零极点表示

matlab与多元统计分析

Matlab 与多元统计分析 胡云峰 安庆师范学院 第三章习题 3.1对某地区的6名2周岁男婴的身高、胸围、上半臂进行测量。得样本数据如表3.1所示。 假设男婴的测量数据X (a )(a=1,…,6)来自正态总体N 3(μ,∑) 的随机样本。根据以往的资料,该地区城市2周岁男婴的这三项的均值向量μ0=(90,58,16)’,试检验该地区农村男婴与城市男婴是否有相同的均值向量。 表3.1 某地区农村2周岁男婴的体格测量数据 1.预备知识 ∑未知时均值向量的检验: H 0:μ=μ0 H 1:μ≠μ0 H 0成立时 122)(0,)(1)(1,) ()'((1)))()'()(,1)(1)1(,) (1)P P X N n S W n n X n S X n X S X T p n n p T F P n p n p μμμμμ---∑--∑??∴----=-----+∴-- 当 2 (,)(1) n p T F p n p p n α-≥--或者22T T α≥拒绝0H 当 2 (,)(1) n p T F p n p p n α-<--或者22T T α<接受0H 这里2 (1) (, )p n T F p n p n p αα-= -- 2.根据预备知识用matlab 实现本例题 算样本协方差和均值 程序x=[78 60.6 16.5;76 58.1 12.5;92 63.2 14.5;81 59.0 14.0;81 60.8 15.5;84 59.5 14.0]; [n,p]=size(x); i=1:1:n; xjunzhi=(1/n)*sum(x(i,:));

多元统计分析方法

多元统计分析方法 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

多元统计分析概述 目录 一、引言 (3) 二、多元统计分析方法的研究对象和主要内容 (3) 1.多元统计分析方法的研究对象 (3) 2.多元统计分析方法的主要内容 (3) 三、各种多元统计分析方法 (3) 1.回归分析 (3) 2.判别分析 (6) 3.聚类分析 (8) 4.主成分分析 (10) 5.因子分析 (10) 6. 对应分析方法 (11) 7. 典型相关分析 (11) 四、多元统计分析方法的一般步骤 (12) 五、多元统计分析方法在各个自然领域中的应用 (12) 六、总结 (13) 参考文献 (14) 谢辞 (15)

一、引言 统计分布是用来刻画随机变量特征及规律的重要手段,是进行统计分布的基础和提高。多元统计分析方法则是建立在多元统计分布基础上的一类处理多元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重要分支。在本文中,我们将对多元统计分析方法做一个大体的描述,并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。 二、多元统计分析方法的研究对象和主要内容 (一)多元统计分析方法的研究对象 由于大量实际问题都涉及到多个变量,这些变量又是随机变量,所以要讨论多个随机变量的统计规律性。多元统计分析就是讨论多个随机变量理论和统计方法的总称。其内容包括一元统计学中某些方法的直接推广,也包括多个随即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。 现实生活中,受多个随机变量共同作用和影响的现象大量存在。统计分析中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。一种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。但是,这样处理忽略了变量之间可能存在的相关性,因此,一般丢失的信息太多,分析的结果不能客观全面的反映整个问题,而且往往也不容易取得好的研究结论。另一种方法是同时对多个随机变量进行研究分析,此即多元统计方法。通过对多个随即便量观测数据的分析,来研究随机变量总的特征、规律以及随机变量之间的相互

统计学--统计学-——典型案例、问题和思想

经济管理类“十二五”规划教材统计学 -基于典型案例、问题和思想 主讲林海明

第一章绪论 【引言】我们从如下9个重要事例,说明统计学有什么用。 事例1:二次世界大战中,最激烈的空战是英国抗击德国的空战,英军为了提高战斗力,急需找到英军战机空战中的危险区域加固钢板,统计学家瓦尔德用统计学

方法找到了危险区域,英军用钢板加固了这些危险区域,使英军取得了空战的胜利。 事例2:上世纪20-30年代,为了找到中国革命的主力军和道路,政治家毛泽东悟出了统计学的频数方法,用此找到了中国革命的主力军是农民,中国革命的道路是农村包围城市。由此不屈不饶的奋斗,由弱变强,建立了独立自主的中华人民共和国,他还发现了“没有调查,就没有发

言权”的科学论断。 事例3:1998年,美国博耶研究型大学本科生教育委员会发表了题为《重建本科生教育:美国研究型大学发展蓝图》的报告,该报告指出:为了培养科学、技术、学术、政治和富于创造性的领袖,研究型大学必须“植根于一种深刻的、永久性的核心:探索、调查和发现”。这说明了统计学中调查的重要性。

事例4:在居民收入贫富差距的测度方面,美国统计学家洛仑兹(1907)、意大利经济学家基尼(1922)找到了统计学的洛仑兹曲线、基尼系数,由此给出了居民收入贫富差距的划分结果,为政府改进居民收入贫富不均的问题提供了政策依据。 事例5:二战后产品质量差的日本,以田口玄一为代表的质量管理学者用统计学方法找到了3σ质量管理原则,用其大幅提

高了企业的产品质量,其产品畅销海内外,日本因此成为当时的第二经济强国。该学科现已发展到了6σ质量管理原则。 事例6:在第二次世界大战的苏联卫国战争中,专家们用英国统计学家费歇尔(1 925)的最大似然法、无偏性,帮助苏军破解了德军坦克产量的军事秘密,由此苏军组织了充足的军事力量并联合盟军,打败了德军的疯狂进攻并占领了柏林。

MATLAB常用指令

MATLAB常用指令 1.常用命令-->管理命令和函数 addpath 添加目录到MATLAB搜索路径 doc 在Web浏览器上现实HTML文档 help 显示Matlab命令和M文件的在线帮助 helpwin helpdesk help lookfor 在基于Matlab搜索路径的所有M文件中搜索关键字partialpath 部分路径名 path 所有关于路径名的处理 pathtool 一个不错的窗口路径处理界面 rmpath 删除搜索路径中指定目录 type 显示指定文件的内容 ver 版本信息 version 版本号 web 打开web页 what 列出当前目录吓所有的M文件Mat文件和Mex文件whatsnew 显示readme文件 which 显示文件位置 (返回) 2.常用命令-->管理变量和工作区(输入输出、内存管理等) clear 从内存中删除 disp 显示文本或数组内容 length 数组长度(最长维数) load 重新载入变量(从磁盘上) mlock 锁定文件,防止文件被错误删除 munlock 解锁文件 openvar 在数组编辑器中打开变量 pack 整理内存空间 save 保存变量到文件8*) size 数组维数 who 列出内存变量 whos 列出内存变量,同时显示变量维数 workspace 显示工作空间窗口 (返回) 3.常用命令-->管理命令控制窗口(command窗口) clc 清空命令窗口 echo 禁止或允许显示执行过程 format 设置输出显示格式 home 光标移动到命令窗口左上角 more 设置命令窗口页输出格式 (返回)

matlab与应用多元统计分析

多元统计分析中的应用研究 , 摘要:许多实际问题往往需要对数据进行统计分析,建立合适的统计模型,过去一般采用SAS 、SPSS软件分析,本文给出 Matlab软件在多元统计分析上的应用, 主要介绍Matlab 在聚类分析、判别分析、主成份分析上的应用,文中均给以实例, 结果令人满意。 关键词:Matlab软件;聚类分析;主成份分析 Research for application of Multivariate Statistical Analysis Abstract:Many practice question sometimes need Statistical Analysis to data.,and establish appropriate Statistical model SAS and SPSS software were commonly used in foretime ,this paper give the application of Matlab software in Multivariate Statistical Analysis,mostly introduce the application of Matlab software in priciple component analysis and cluster analysis and differentiate analysis.The example are given in writing and the result are satisfaction. Key words: Matlab software; cluster analysis; priciple component analysis 0 引言 许多实际问题往往需要对数据进行多元统计分析, 建立合适的模型, 在多元统计分析方面, 常用的软件有SAS 、SPSS 、S-PLUS等。我们在这里给出Matlab在多元统计分析上的应用, 在较早的版本中, 统计功能不那么强大, 而在Matlab6.x版本中, 仅在统计工具中的功能函数就达200多个, 功能已足以赶超任何其他专用的统计软件,在应用上Matlab具有其他软件不可比拟的操作简单,接口方便, 扩充能力强等优势, 再加上Matlab的应用范围广泛, 因此可以预见其在统计应用上越来越占有极其重要的地位,下面用实例给出Matlab 在聚类分析、主成份分析上的应用。 1 聚类分析 聚类分析法是一门多元统计分类法,其目的是把分类对象按一定规则分成若干类,所分成的类是根据数据本身的特征确定的。聚类分析法根据变量(或样品或指标)的属性或特征的相似性,用数学方法把他们逐步地划类,最后得到一个能反映样品之间或指标之间亲疏关系的客观分类系统图,称为谱系聚类图。 聚类分析的步骤有:数据变换,计算n个样品的两两间的距离,先分为一类,在剩下的n-1个样品计算距离,按照不同距离最小的原则,增加分类的个数,减少所需要分类的样品的个数,循环进行下去,直到类的总个数为1时止。根

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

多元统计分析案例分析.docx

精品资料 一、对我国30个省市自治区农村居民生活水平作聚类分析 1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中

2、将数据进行标准化变换:

3、用K-均值聚类法对样本进行分类如下:

分四类的情况下,最终分类结果如下: 第一类:北京、上海、浙江。 第二类:天津、、辽宁、、福建、甘肃、江苏、广东。 第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。 第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。 二、判别分析 针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:

**. 错误分类的案例 从上可知,只有一个地区判别组和原组不同,回代率为96%。 下面对新疆进行判别: 已知判别函数系数和组质心处函数如下: 判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671 Y2=-0.62213 Y3=-0.84188 计算Y值与不同类别均值之间的距离分别为:D1=138.5182756 D2=12.11433124 D3=7.027544292 D4=2.869979346 经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。 三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:

Matlab多元统计分析程序

Matlab多元统计分析程序 1. 主成分分析M程序 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % 主成分分析 % % 设对变量x1,x2,...,xp进行n次观测,得到n×p数据矩阵x=x(i,j), % 本程序对初始数据进行主成分分析,要求先请将观测矩阵输入到变 % 量x,再运行本程序。 % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % 确定观测矩阵x 的尺寸,以便数据标准化. % [n,p]=size(x); % % 数据处理方式设置,即是否先将数据标准化. % fprintf('\n 1---使用原始数据直接计算距离') fprintf('\n 2---使用标准化后的数据计算距离') k=input('请输入你的选择(1~2)'); % % 数据标准化 % switch k case 1 xs=x; case 2 mx=mean(x);

xs=(x-repmat(mx,n,1))./repmat(stdr,n,1); end % % 主成分分析,返回各主成分pc,所谓的z-得分score,x的协方差 % 矩阵的特征值latent和每个数据点的Hotelling统计量tsquare. % [pc score latent tsquare]=princomp(xs) 2. 典型相关分析M程序 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % 在运行本程序之前,请先把数据输入/导入到MATLAB 的 % 内存空间,并存放在变量x 中,每行存放一个样本。 % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % 确定观测矩阵x 的尺寸 % [n,h]=size(x); % % 输入基本参数 % p=input('\n第一组变量的个数p = ? '); fprintf('\n1--使用样本协方差矩阵计算典型相关变量') fprintf('\n2--使用样本相关矩阵计算典型相关变量') ctl=input('\n请输入你的选择'); % % 默认的显著性水平为alpha=0.05,可以改变下面语句中的alpha值。 % alpha=0.05; % % 按要求计算样本协方差矩阵或样本相关矩阵 % switch ctl case 1 st=cov(x); case 2

多元统计分析重点归纳.归纳.docx

多元统计分析重点宿舍版 第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析 多元统计分析方法 选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量 3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型 第二讲:计算均值、协差阵、相关阵;相互独立性 第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤 主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。 主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序 主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP ,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。依次类推,原来有P 个变量,就可以转换出P 个主

Matlab常用函数及指令大全

Matlab常用函数及指令介绍 A a abs 绝对值、模、字符的ASCII 码值 acos 反余弦 acosh 反双曲余弦 acot 反余切 acoth 反双曲余切 acsc 反余割 acsch 反双曲余割 align 启动图形对象几何位置排列工具 all 所有元素非零为真angle 相角 ans 表达式计算结果的缺省变量名 any 所有元素非全零为真area 面域图 argnames 函数M 文件宗量名 asec 反正割 asech 反双曲正割 asin 反正弦 asinh 反双曲正弦assignin 向变量赋值 atan 反正切 atan2 四象限反正切 atanh 反双曲正切 autumn 红黄调秋色图阵axes 创建轴对象的低层指令 axis 控制轴刻度和风格的高层指令 B b bar 二维直方图 bar3 三维直方图 bar3h 三维水平直方图barh 二维水平直方图base2dec X 进制转换为十进制 bin2dec 二进制转换为十进制 blanks 创建空格串bone 蓝色调黑白色图阵 box 框状坐标轴 break while 或for 环中断 指令 brighten 亮度控制 C c capture (3 版以前)捕获 当前图形 cart2pol 直角坐标变为极或 柱坐标 cart2sph 直角坐标变为球 坐标 cat 串接成高维数组 caxis 色标尺刻度 cd 指定当前目录 cdedit 启动用户菜单、控件 回调函数设计工具 cdf2rdf 复数特征值对角阵 转为实数块对角阵 ceil 向正无穷取整 cell 创建元胞数组 cell2struct 元胞数组转换为 构架数组 celldisp 显示元胞数组内容 cellplot 元胞数组内部结构 图示 char 把数值、符号、内联类 转换为字符对象 chi2cdf 分布累计概率函数 chi2inv 分布逆累计概率函 数 chi2pdf 分布概率密度函数 chi2rnd 分布随机数发生器 chol Cholesky 分解 clabel 等位线标识 cla 清除当前轴 class 获知对象类别或创建 对象 clc 清除指令窗 clear 清除内存变量和函数 clf 清除图对象 clock 时钟 colorcube 三浓淡多彩交叉 色图矩阵 colordef 设置色彩缺省值 colormap 色图 colspace 列空间的基 close 关闭指定窗口 colperm 列排序置换向量 comet 彗星状轨迹图 comet3 三维彗星轨迹图 compass 射线图 compose 求复合函数 cond (逆)条件数 condeig 计算特征值、特征 向量同时给出条件数 condest 范–1 条件数估计 conj 复数共轭 contour 等位线 contourf 填色等位线 contour3 三维等位线 contourslice 四维切片等位 线图 conv 多项式乘、卷积 cool 青紫调冷色图 copper 古铜调色图 cos 余弦 cosh 双曲余弦 cot 余切 coth 双曲余切 cplxpair 复数共轭成对排列 csc 余割 csch 双曲余割 cumsum 元素累计和 cumtrapz 累计梯形积分 cylinder 创建圆柱 D d dblquad 二重数值积分 deal 分配宗量 deblank 删去串尾部的空格 符 dec2base 十进制转换为X 进制 dec2bin 十进制转换为二进

多元统计分析

作业一

1.2 分析2016年经济发展情况 排名省gdp 占比累计占比 1 广东79512.05 10.30 10.30 2 江苏76086.2 9.86 20.17 3 山东67008.2 8.68 28.85 4 浙江4648 5 6.02 34.87 5 河南40160.01 5.20 40.08 6 四川32680.5 4.24 44.31 7 湖北32297.9 4.19 48.50 8 河北31827.9 4.12 52.62 9 湖南31244.7 4.05 56.67 10 福建28519.2 3.70 60.37 11 上海27466.2 3.56 63.93 12 北京24899.3 3.23 67.16 13 安徽24117.9 3.13 70.28 14 辽宁22037.88 2.86 73.14 15 陕西19165.39 2.48 75.62 16 内蒙古18632.6 2.41 78.04 17 江西18364.4 2.38 80.42 18 广西18245.07 2.36 82.78 19 天津17885.4 2.32 85.10 20 重庆17558.8 2.28 87.37 21 黑龙江15386.09 1.99 89.37 22 吉林14886.23 1.93 91.30 23 云南14869.95 1.93 93.22 24 山西12928.3 1.68 94.90 25 贵州11734.43 1.52 96.42 26 新疆9550 1.24 97.66 27 甘肃7152.04 0.93 98.59 28 海南4044.51 0.52 99.11 29 宁夏3150.06 0.41 99.52 30 青海2572.49 0.33 99.85 31 西藏1150.07 0.15 100.00 将2016各省的GDP进行排名,可以发现,经济发达的的地区主要集中在东部地区。西部gdp的占比较小。作出2016各省的gdp直方图如下:

MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法

MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法: 1.层次聚类hierarchical clustering 2.k-means聚类 这里用最简单的实例说明以下层次聚类原理和应用发法。 层次聚类是基于距离的聚类方法,MATLAB中通过pdist、linkage、dendrogram、cluster等函数来完成。层次聚类的过程可以分这么几步: (1) 确定对象(实际上就是数据集中的每个数据点)之间的相似性,实际上就是定义一个表征对象之间差异的距离,例如最简单的平面上点的聚类中,最经常使用的就是欧几里得距离。 这在MATLAB中可以通过Y=pdist(X)实现,例如 >> X=randn(6,2) X = -0.4326 1.1892 -1.6656 -0.0376 0.1253 0.3273 0.2877 0.1746 -1.1465 -0.1867 1.1909 0.7258 >> plot(X(:,1),X(:,2),'bo') %给个图,将来对照聚类结果把 >> Y=pdist(X) Y = Columns 1 through 14 1.7394 1.0267 1.2442 1.5501 1.6883 1.8277 1.9648 0.5401 2.9568 0.2228 1.3717 1.1377 1.4790 1.0581 Column 15

2.5092 例子中X数据集可以看作包含6个平面数据点,pdist之后的Y是一个行向量,15个元素分别代表X 的第1点与2-6点、第2点与3-6点,......这样的距离。那么对于M个点的数据集X,pdist之后的Y 将是具有M*(M-1)/2个元素的行向量。Y这样的显示虽然节省了内存空间,但对用户来说不是很易懂,如果需要对这些距离进行特定操作的话,也不太好索引。MATLAB中可以用squareform把Y转换成方阵形式,方阵中位置的数值就是X中第i和第j点之间的距离,显然这个方阵应该是 个对角元素为0的对称阵。 >> squareform(Y) ans = 0 1.7394 1.0267 1.2442 1.5501 1.6883 1.7394 0 1.8277 1.9648 0.5401 2.9568 1.0267 1.8277 0 0.2228 1.3717 1.1377 1.2442 1.9648 0.2228 0 1.4790 1.0581 1.5501 0.5401 1.3717 1.4790 0 2.5092 1.6883 2.9568 1.1377 1.0581 2.5092 0 这里需要注意的是,pdist可以使用多种参数,指定不同的距离算法。help pdist把。 另外,当数据规模很大时,可以想象pdist产生的Y占用内存将是很吓人的,比如X有10k个数据点,那么X占10k*8*2Bytes=160K,这看起来不算啥,但是pdist后的Y会有10k*10k/2*8Bytes=400M 。怕了把,所以,废话说在前面,用MATLAB的层次聚类来处理大规模数据,大概是很不合适的。 (2) 确定好了对象间的差异度(距离)后,就可以用Z=linkage(Y)来产生层次聚类树了。 >> Z=linkage(Y) Z = 3.0000 4.0000 0.2228 2.0000 5.0000 0.5401 1.0000 7.0000 1.0267

应用多元统计分析习题解答_朱建平_第九章

Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……

第九章 典型相关分析 9.1 什么是典型相关分析?简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想: (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: 若设(1) (1)(1) (1)12(,,,)p X X X =X 、(2) (2)(2)(2) 12(,,,)q X X X =X 是两组相互关联的随机变量, 分别在两组变量中选取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 9.2 什么是典型变量?它具有哪些性质? 答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说, ()(1) ()(1)()(1)()(1) 11 22i i i i i P P U a X a X a X ' =+++a X ()(2) ()(2)()(2) ()(2) 11 22i i i i i q q V b X b X b X ' =+++b X 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称 (1)(1)'a X 、(1)(2) 'b X 是(1)X 、(2)X 的第一对典型相关变量。 典型变量性质: 典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. ()1,()1 (1,2,,)k k D U D V k r === (,)0, (,)0 ()i j i j C ov U U C ov V V i j ==≠ 2. 0 (,1,2,,)(,)0()0()i i j i j i r C ov U V i j j r λ≠==?? =≠??>? 9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。 ()(1)()(1)()(1)()(1) 1122i i i i i P P U a X a X a X '=+++a X ()(2)()(2)()(2)()(2) 1122i i i i i q q V b X b X b X '=+++b X (1)(1)(1)(1)1 2 (,,,)p X X X = X 、(2)(2)(2)(2)1 2 (,,,)q X X X = X

(整理)基于SPSS的多元统计分析三种算法的实例研究.

基于SPSS的多元统计分析三种算法的实例研究 摘要 本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。 关键词:多元回归分析,因子分析,判别分析,SPSS

第一章 多元线性回归分析 1.1 研究背景 消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。 1.2 问题提出与描述、数据收集 按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。 1.3 模型建立 1.3.1 理论背景 多元线性回归模型如下: εββββ+++++=p p X X X Y ...... 22110 Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。 对于n 组观测值,其方程组形式为 εβ+=X Y 即

多元统计分析模拟试题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步 判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极 大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 P e= 1?R2 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转化 为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

相关主题
文本预览
相关文档 最新文档