当前位置：文档之家› 生物统计学课后答案

生物统计学课后答案

第一章统计数据的收集与整理1.1 算术平均数是怎样计算的？为什么要计算平均数？

答：算数平均数由下式计算：n y

∑

，含义为将全部观测值相加再被观测值的个数

除，所得之商称为算术平均数。计算算数平均数的目的，是用平均数表示样本数据的集中点，或是说是样本数据的代表。

1.2 既然方差和标准差都是衡量数据变异程度的，有了方差为什么还要计算标准差？

答：标准差的单位与数据的原始单位一致，能更直观地反映数据地离散程度。

1.3 标准差是描述数据变异程度的量，变异系数也是描述数据变异程度的量，两者之间有什么不同？

答：变异系数可以说是用平均数标准化了的标准差。在比较两个平均数不同的样本时所得结果更可靠。

1.4 完整地描述一组数据需要哪几个特征数？

答：平均数、标准差、偏斜度和峭度。

1.5 下表是我国青年男子体重（kg）。由于测量精度的要求，从表面上看像是离散型数据，不要忘记，体重是通过度量得到的，属于连续型数据。根据表中所给出的数据编制频数分布表。

6669646564666865626469616168665766696665 7064586766666766666266666462626564656672 6066656161666762656561646264656265686865 6768626370656465626662636865685767666863 6466686463606469656667676765676766686467 5966656356666363666763706770626472696767 6668646571616361646467697066646564637064 6269706865636566646869656367637065686769 6665676674646965646565686765656667726567 6267716965657562696868656366666562616865 6467666460616867635965606463696271696063 5967616869666469656867646466697368606063 3862676565696567657266676461646663636666 6663656367686662636166616368656669646670 6970636465646767656662616565606365626664答：首先建立一个外部数据文件，名称和路径为：E:\data\exer1-5e.dat。所用的SAS 程序和计算结果如下：

proc format;

value hfmt

56-57='56-57' 58-59='58-59' 60-61='60-61'

62-63='62-63' 64-65='64-65' 66-67='66-67' 68-69='68-69' 70-71='70-71' 72-73='72-73' 74-75='74-75'; run;

data weight;

infile 'E:\data\exer1-5e.dat'; input bw @@; run;

proc freq; table bw;

format bw hfmt.; run;

The SAS System

Cumulative Cumulative

BW Frequency Percent Frequency Percent ----------------------------------------------------- 56-57 3 1.0 3 1.0 58-59 4 1.3 7 2.3 60-61 22 7.3 29 9.7 62-63 46 15.3 75 25.0 64-65 83 27.7 158 52.7 66-67 77 25.7 235 78.3 68-69 45 15.0 280 93.3 70-71 13 4.3 293 97.7 72-73 5 1.7 298 99.3 74-75 2 0.7 300 100.0

1.6 将上述我国男青年体重看作一个有限总体，用随机数字表从该总体中随机抽出含量为10的两个样本，分别计算它们的平均数和标准差并进行比较。它们的平均数相等吗？标准差相等吗？能够解释为什么吗？

答：用means 过程计算，两个样本分别称为1y 和2y ，结果见下表：

The SAS System

Variable N Mean Std Dev ---------------------------------------- Y1 10 64.5000000 3.5039660 Y2 10 63.9000000 3.1780497 ----------------------------------------

随机抽出的两个样本，它们的平均数和标准差都不相等。因为样本平均数和标准差都是统计量，统计量有自己的分布，很难得到平均数和标准差都相等的两个样本。

1.7 从一个有限总体中采用非放回式抽样，所得到的样本是简单的随机样本吗？为什么？本课程要求的样本都是随机样本，应当采用哪种抽样方法，才能获得一随机样本？

答：不是简单的随机样本。从一个有限总体中以非放回式抽样方法抽样，在前后两次抽样之间不是相互独立的，后一次的抽样结果与前一次抽样的结果有关联，因此不是随机样本。应采用随机抽样的方法抽取样本，具体说应当采用放回式抽样。

1.8 证明()()∑∑==±='-='-'n i n

i i i i

C y y y y

y y 1

。

其中若用

C y y i

i =

'或i

i Cy y ='编码时，前式是否仍然相等？

答：（1）令 C y y i i ±='

则 C y y ±=' 平均数特性之③。

()

()()[]()

∑∑∑===-=±-±='-'n

i i n i i n

i i

y y C y C y y y 1

（2）令 C y y i

i =' 则

C y

y =

' 平均数特性之②。

()

112

C y y

C y C y

y y n

i i

i i n

i i

∑∑∑===-=

?? ??-='-'

用第二种编码方式编码结果，两式不再相等。

1.9 有一个样本：n y y y ,,,21 ，设B 为其中任意一个数值。证明只有当y B =时，

()∑=-n

i B y 12

最小。这是平均数的一个重要特性，在后面讲到一元线型回归时还会用到

该特性。

答：令 ()∑-=2B y p ，为求使p 达最小之B ，令()

=?-?∑B B y

则 ()y n y B B y ===-∑∑02 。

1.10 检测菌肥的功效，在施有菌肥的土壤中种植小麦，成苗后测量苗高，共100株，数据如下[1]

：

10.0 9.3 7.2

9.1 8.5 8.0 10.5 10.6 9.6 10.1 7.0 6.7 9.5 7.

8 10.5 7.9 8.1 9.6 7.6 9.4 10.0 7.5 7.2 5.

0 7.3 8.7 7.1 6.1 5.2 6.8 10.0

9.9

7.5 4.

7.6

7.0

9.7

6.2

8.0

6.9

4.97.08.38.47.87.5 8.38.610.0 4.

8.511.09.7 6.610.0 5.0 6.610.0 6.59.

6.58.

7.1

7.87.

11.0

10.57.

8.6

4.6 6.

6.4

编制苗高的频数分布表，绘制频数分布图，并计算出该样本的四个特征数。

答：首先建立一个外部数据文件，名称和路径为：E:\data\exr1-10e.dat。SAS程序及

结果如下：

options nodate;

proc format;

value hfmt

3.5-

4.4='3.5-4.4' 4.5-

5.4='4.5-5.4' 5.5-

6.4='5.5-6.4'

6.5-

7.4='6.5-7.4' 7.5-

8.4='7.5-8.4' 8.5-

9.4='8.5-9.4'

9.5-10.4='9.5-10.4' 10.5-11.4='10.5-11.4';

run;

data wheat;

infile 'E:\data\exr1-10e.dat';

input height @@;

run;

proc freq;

table height;

format height hfmt.;

run;

proc capability graphics noprint;

var height;

histogram/vscale=count;

inset mean var skewness kurtosis;

run;

The SAS System

The FREQ Procedure

Cumulative Cumulative

height Frequency Percent Frequency Percent

-------------------------------------------------------------------

3.5-

4.4 1 1.00 1 1.00

4.5-

5.4 9 9.00 10 10.00

5.5-

6.4 11 11.00 21 21.00

6.5-

7.4 23 23.00 44 44.00

7.5-8.4 24 24.00 68 68.00

8.5-9.4 11 11.00 79 79.00

9.5-10.4 15 15.00 94 94.00

10.5-11.4 6 6.00 100 100.00

1.11 北太平洋宽吻海豚羟丁酸脱氢酶（HDBH）数据的接收范围频数表[2]如下：（略作调整）

HDBH数据的接收范围

频数

/(U·L-1)

<2141

<245.909 13

<277.818 211

<309.727 319

<341.636 426

<373.545 522

<405.454 511

<437.363 613

<469.272 76

<501.181 83

<533.090 92

根据上表中的数据作出直方图。

答：以表中第一列所给出的数值为组界，直方图如下：

1.12 灵长类手掌和脚掌可以握物一侧的皮肤表面都有突起的皮肤纹嵴。纹嵴有许多特征，这些特征在胚胎形成之后是终生不变的。人类手指尖的纹型，大致可以分为弓、箕和斗三种类型。在手指第一节的基部可以找到一个点，从该点纹嵴向三个方向辐射，这个点称为三叉点。弓形纹没有三叉点，箕形纹有一个三叉点，斗形纹有两个三叉点，记录从三叉点到箕或斗中心的纹嵴数目称为纹嵴数（finger ridge count, FRC）。将双手十个指尖的全部箕形纹的纹嵴数和/或斗形纹两个纹嵴数中较大者相加，称为总纹嵴数（total finger ridge count, TFRC）。下表给出了大理白族人群总纹嵴数的频数分布[3]：

TFRC分组中值频数

11~30202

31~50401

51~70608

71~908029

91~11010054

111~13012063

131~15014068

151~17016051

171~19018018

191~2102006

首先判断数据的类型，然后绘出样本频数分布图，计算样本的四个特征数并描述样本分布形态。

答：总纹脊数属计数数据。

计数数据的频数分布图为柱状图，频数分布图如下：

样本特征数（以TFRC的中值计算）SAS程序：

options nodate;

data tfrc;

do i=1 to 10; input y @@;

input n @@;

do j=1 to n;

output;

end;

cards;

20 2

40 1

60 8

80 29

100 54

120 63

140 68

160 51

180 18

200 6

;

run;

proc means mean std skewness kurtosis;

var y;

run;

结果见下表：

The SAS System

Analysis Variable : Y

Mean Std Dev Skewness Kurtosis

------------------------------------------------------

126.5333333 32.8366112 -0.2056527 -0.0325058

------------------------------------------------------从频数分布图可以看出，该分布的众数在第七组，即总纹脊数的中值为140的那一组。分布不对称，平均数略小于众数，有些负偏。偏斜度为-0.2056527，偏斜的程度不是很明显，基本上还可以认为是对称的，峭度几乎为零。

1.13 海南粗榧叶长度的频数分布[4]：

叶长度/mm中值频数

2.0~2.2 2.1390

2.2~2.4 2.3 1 434

2.4~2.6 2.5 2 643

2.6~2.8 2.7 3 546

2.8~

3.0 2.9 5 692

3.0~3.2 3.1 5 187

3.2~3.4 3.3 4 333

3.4~3.6 3.5 2 767

3.6~3.8 3.7 1 677

3.8~

4.0 3.9 1 137

nag

4.0~4.2 4.1667

4.2~4.4 4.3346

4.4~4.6 4.5181

绘出频数分布图，并计算偏斜度和峭度。

答：表中第一列所给出的数值为组限，下图为海南粗榧叶长度的频数分布图。

计算偏斜度和峭度的SAS程序和计算结果如下：

options nodate;

data length;

do i=1 to 13; input y @@;

input n @@;

do j=1 to n;

output;

end;

cards;

2.1 390

2.3 1434

2.5 2643

2.7 3546

2.9 5692

3.1 5187

3.3 4333

3.5 2767

3.7 1677

3.9 1137

4.1 667

4.3 346

4.5 181

;

run;

proc means n skewness kurtosis;

var y;

run;

The SAS System

Analysis Variable : Y

n Skewness Kurtosis

---------------------------------

30000 0.4106458 0.0587006

---------------------------------

样本含量n＝30000，是一个很大的样本，样本的偏斜度和峭度都已经很可靠了。偏斜度为0.41，有一个明显的正偏。

1.14 马边河贝氏高原鳅繁殖群体体重分布如下[5]：

体质量/g中值雌鱼雄鱼

2.00~

3.00 2.5014

3.00~

4.00 3.5067

4.00~

5.00 4.501311

5.00~

6.00 5.503025

6.00~

7.00 6.502525

7.00~8.007.501623

8.00~9.008.502117

9.00~10.009.501816

10.00~11.0010.50124

11.00~12.0011.503

12.00~13.0012.502

首先判断数据的类型，然后分别绘制雌鱼和雄鱼的频数分布图，计算样本平均数、标准差、偏斜度和峭度并比较两者的变异程度。

答：鱼的体重为度量数据，表中第一列所给出的数值为组限。在下面的分布图中雌鱼和雄鱼的分布绘在了同一张图上，以不同的颜色表示。

计算统计量的SAS程序与前面的例题类似，这里不再给出，只给出结果。

雌鱼：

The SAS System

Analysis Variable : Y

N Mean Std Dev Skewness Kurtosis

-----------------------------------------------------------

147 7.2414966 2.1456820 0.2318337 -0.6758677

-----------------------------------------------------------

雄鱼：

The SAS System

Analysis Variable : Y

N Mean Std Dev Skewness Kurtosis

-----------------------------------------------------------

132 6.7803030 1.9233971 -0.1322816 -0.5510332

-----------------------------------------------------------