当前位置:文档之家› 计算机体系结构作业解答

计算机体系结构作业解答

计算机体系结构作业解答
计算机体系结构作业解答

第1章

1—2. 计算机系统的解释执行方式是用低一级机器级的一串指令或语句来解释其高一级机器级的一条指令或语句的功能。已知第1级的一条指令的执行时间是K ns ,第2级的一条指令需要第1级的N 条指令组成的指令序列来解释,那么,第2级的一条指令的执行时间为NK ns 。

同理,可得到第3级和第4级的一条指令的执行时间分别为N 2K ns 和N 3K ns 。

1—8. 提高计算机系统并行性的3种技术途径分别是:时间重叠、资源重复和资源共享。

时间重叠使多个处理过程在时间上相互错开,重叠轮流地使用同一套硬件设备的各个部分,提高硬件利用率,缩短执行时间,例如,指令流水线处理机。

资源重复通过重复设置硬件资源来提高性能,例如,阵列处理机。

资源共享利用软件方法计多个用户共享同一套资源,来提高系统资源利用率和系统性能,例如,多处理机系统、计算机网络和机群系统等。

1—9. (1)在多个部件同时改进的情况下,Amdahl 定律应扩展为:

()()

∑∑+-=

i i i S F F S e e e n /11

已知S e1=30,S e2=20,S e3=10,S n =10,F e1=0.3,F e2=0.3,由

()()

10/20/3.030/3.03.03.011

1033F F +++++-=

可得F 3=0.36,即部件3改进前的执行时间占系统执行时间的比例要达到36%以上,才能使3个部件都改进后的整个系统的加速比达到10以上。

(2)设整个系统改进前的执行时间为T o ,则3个部件改进前的执行时间为 (0.3+0.3+0.2) T o =0.8T o ,那么,其他部件的执行时间为 (1-0.8) T o =0.2T o 。

已知3个部件改进后的加速比分别为S e1=30,S e2=20,S e3=10。因此,3个部件改进后的执行时间

o o

o n 045.010

2.020

3.0303.0T T T T T o =++=

' 其他部件没有改进,执行时间仍为0.2T o ,故而,改进后整个系统的执行时间为:

o o o n 245.02.0045.0T T T T =+=

从而可得出改进后系统的加速比为: 1.4245.0/1/n o n ===T T S 未改进部件的执行时间在改进后的整个系统的执行时间中占的比例为:

()82.02.0245.02.01o

o

3

21

===

---S T

T F F F n n

e e e T T

1—10.

()()87

.1812.240MIPS 12.2200000/20000

82400043600021200001/10

10

10

6

66

=??=

?==?+?+?+?=?=∑CPI f IC

CPI IC CPI i i

1—13.(1)由给出的各类指令的比例和CPI 值,可计算出指令系统的指令平均周期数为:

CPI =0.44×1+0.20×2+0.12×2+0.24×2=1.56

(2)设程序使用原指令系统编程的指令条数为N 。若新增R —M 型算逻指令,则5种类型指令在程序使用新指令系统编程的指令条数如下所示:

R —R 型算逻指令的条数为:N ×0.44×0.75=0.33N R —M 型算逻指令的条数为:N ×0.44×0.25=0.11N Load 指令的条数为:N ×0.20-0.11N =0.09N Store 指令的条数为:N ×0.12=0.12N 转移指令的条数为:N ×0.24=0.24N

需要说明的是,由于新增了R —M 型算逻指令,并在程序中共使用了0.11N 条R —M 型算逻指令,因此,在程序中就可减少0.11N 条Load 指令为原算逻指令到存储器中取操作数。

程序使用新指令系统编程的指令条数为

0.33N +0.11N +0.09N +0.12N +0.24N =0.89N

重新计算5类指令所占指令总数N 的比例如表所示。

指令比例及指令的平均周期数

指令类型 比例

CPI R —R 型算逻指令 0.33N /0.89 N =0.370 1 R —M 型算逻指令 0.11N /0.89 N =0.124 2 Load 指令 0.09 N /0.89 N =0.101 2 Store 指令 0.12 N /0.89 N =0.135 2 转移指令

0.24 N /0.89 N =0.270

2

由得出的各类指令的比例和给出的CPI 值,可计算新指令系统的指令平均周期为:

CPI =0.370×1+0.124×2+0.101×2+0.135×2+0.270×2=1.63

第2章

2—4. ROM 下溢处理表16个单元的地址码0000~1111,它与其内容(即下溢处理后的3位结果值)的对照关系如表所示。

2—10. (1)由给出的使用频度p 1~p 10,可计算出I 1~I 10的操作码编码的最短平均码长为:

(()

位96.2)02.0log 02.003.0log 03.004.0log 04.005.0log 05.008.0log 08.008.0log 08.010.0log 10.015.0log 15.020.0log 20.025.0log 25.0log 22222222222=+++++++++-=-=∑i

i p p H

(2)n =10的等长操作码表示的码长l =??410log 2=(位),等长编码如表2.2中第3列所示。等长编码的信息冗余量为: R =(l -H /l )×100%=(l -2.96/4)×100%=26.0%

(3)根据给出的使用频度,在应用哈夫曼算法构造哈夫曼树的过程中,选择2个频度最小的结点合并时,有2个以上的结点可供合并,因此,可生成结构不同的哈夫曼树。为加深领会哈夫曼树生成过程,我们给出2棵哈夫曼树,分别如下图所示。

10987

哈夫曼树(a)

109

哈夫曼树(b)

两种哈夫曼编码如下表中所示,可见,哈夫曼编码不是唯一的。计算两种哈夫曼编码的平均码长分别为:

()位99

.2

5

02

.0

5

03

.0

5

04

.0

5 05

.0

4

08

.0

4

08

.0

3

10

.0

3

15

.0

2

20

.0

2 25

.0

=

?

+

?

+

?

+

?

+

?

+

?

+

?

+

?

+

?

+

?

==∑i a i

a l p

l

()位99

.2

6

02

.0

6

03

.0

5

04

.0

4 05

.0

4

08

.0

4

08

.0

3

10

.0

3

15

.0

2

20

.0

2 25

.0

=

?

+

?

+

?

+

?

+

?

+

?

+

?

+

?

+

?

+

?

==∑bi i

b l p

l

可知,尽管哈夫曼编码不是唯一的,但平均码长却是唯一的。

两种哈夫曼编码的信息冗余量分别为:

R a=(l-H/l a)×100%=(l-2.96/2.99)×100%=1.0%

R b=(l—H/l b)×100%=(1-2.96/2.99)×100%=1.0%显然,应有R a=R b。

(4)操作码的3/7扩展编码和2/8扩展编码如下表中所示,计算两种扩展编码的平均码长分别为:

()()()

位+2.3502.003.004.005.008.008.010.0215.020.025.07

/3=?++++++?++==∑l p l i

i

()()()

位+1.3402.003.004.005.008.008.0210.015.020.025.08

/2=?+++++?+++==∑l p l

i

i

可见,2/8扩展编码优于3/7扩展编码。

两种扩展编码的信息冗余量分别为:

R 3/7=(l -H /l 3/7)×100%=(l -2.96/3.2)×100%=7.5% R 2/8=(l -H /l 2/8)×100%=(l -2.96/3.1)×100%=4.5%

操作码的各种编码

I i P i 等长编码 l i 哈夫曼编码(a) l a 哈夫曼编码(b) l b 3/7扩展编码 l i 2/8扩展编码 l i I 1 0.25 0000 4 00 2 10 2 00 2 00 2 I 2 0.20 0001 4 10 2 00 2 01 2 01 2 I 3 0.15 0010 4 010 3 110 3 10 2 1000 4 I 4 0.10 0011 4 110 3 010 3 11000 5 1001 4 I 5 0.08 0100 4 0110 4 1110 4 11001 5 1010 4 I 6 0.08 0101 4 1110 4 0110 4 11010 5 1011 4 I 7 0.05 0110 4 01110 5 0111 4 11011 5 1100 4 I 8 0.04 0111 4 01111 5 11110 5 11100 5 1101 4 I 9 0.03 1000 4 11110 5 111110 6 11101 5 1110 4 I 10

0.02

1001

4

11111

5

111111

6

11110

5

1111

4

2—12. 由给出的9条指令的使用频度和哈夫曼算法生成的结构不同的两种哈夫曼树如下图所示。

由哈夫曼树分别得出9条指令操作码的两种哈夫曼编码如下表所示。3/3/3扩展编码和2/7扩展编码也在表中给出。由表可知,两种扩展编码都有冗余码点。3种编码的平均码长分别为:

哈夫曼编码的平均码长为 l 1=2.42(位) 3/3/3扩展编码的平均码长为 l 2=2.52(位) 2/7扩展编码的平均码长为 l

=2.70(位)

9

8

哈夫曼树(a )

98

哈夫曼树(b)

哈夫曼编码(a)哈夫曼编码(b)3/3/3扩展编码2/7扩展编码指令P

i

ADD 0.43 0 0 0 0 0 0

CLA 0.22 1 0 1 0 0 0 1 0 1

SUB 0.13 1 1 0 1 0 1 1 0 1 0 0 0

JMP 0.07 1 1 1 0 0 1 1 0 0 1 1 0 0 1 0 0 1

JOM 0.06 1 1 1 0 1 1 1 0 1 1 1 0 1 1 0 1 0

STO 0.05 1 1 1 1 0 1 1 1 0 1 1 1 0 1 0 1 1

CIL 0.02 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 0 1 1 0 0

SHR 0.01 1 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 1 0 1 1 1 0 1

STP 0.01 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 2—13. 由哈夫曼算法生成的哈夫曼树如图所示。

98

由表中的哈夫曼编码计算操作码平均码长为:

()位24.29

1

1==∑=i i i l p l

由表中的2—4—6扩展编码计算操作码平均码长为:

()位52.29

1

2==∑=i i i l p l

2—15. 根据题意,三地址指令的格式为

操作码占了3位,用来表示4条三地址指令需用掉8个不同码中的4个码,余下有4个码可用做扩展成长操作码的扩展标志。

单地址指令的格式为

零地址指令的格式为

如果不考虑零地址指令,短操作码中4个扩展标志各自均能扩展出6位的操作码,共可扩展表示出4×26=256条单地址指令。但是,现在还要表示16条零地址指令。如果单地址指令为255条,则零地址指令操作码的高9位只有一个码可作为扩展标志,因而只能扩展出3位,表示23=8条零地址指令,不能满足题目所要求的16条零地址指令。

如果单地址指令只用了254条,则指令高9位就可以有2个扩展标志码,每个扩展标志码都扩展出3位码,就可以表示出2×23=16条零地址指令。所以,问题的关键是短操作码不能是长操作码的首部,即不能是长操作码的前缀,否则会使指令操作码译码时,无法做到唯一译码和立即解码。

2—17. (1)根据频度分布,画出哈夫曼树,如图所示。

9

8

计算哈夫曼编码的平均码长为: l =2.92

()∑==位61.2i i l p l

(2)根据题目求,指令有2种字长,主存宽度为16位,按字节编址,采用按整数边界存储,任何指令都在1个主存周期中取得的条件,则短指令字长只能是8位,长指令字长只能是16位。

指令都是二地址指令,短指令为寄存器—寄存器型,据此可得出指令格式为:

长指令为寄存器—主存型,且主存地址应能变址寻址,可得出长指令格式为:

在一般的计算机中,变址寄存器就是某一个通用寄存器,所以,变址寄存器号字段的位数与寄存器号字段的位数相同。

根据题目要求,指令操作码可采用扩展编码,并只能有2种码长。从指令使用频度来看,ADD 、SUB 和MOV 的使用频度较高,其余6条指令的使用频度都低得多,因此,短操作码码长宜取2位长,可有22=4个码点,用3个码点表示这3条指令,尚余下1个码点作为扩展标志。用1个扩展标志再扩展表示出6个操作码,还需要3位,因此,长操作码码长为5位。由此,得出9条指令的2-5扩展操作码如表中第5列所示。

计算2-5扩展编码的平均码长为:

()∑==位78.2i i l p l

(3)由上述分析,可得出短指令格式中各字段的位数为:

长指令格式中各字段的位数为

由于寄存器号字段长度为3位,因此,该机允许最多可使用的可编址通用寄存器的个数为23=8个。

由于相对位移字段长度为5位,因此,访存地址寻址的最大相对位移量为25=32B。

2—19. (l)二地址指令格式如下:

4位长操作码字段可以表示24=16个码点,其中15个码点用以表示15条二地址指令操作码,即0000~1110,余下一个码点1111作为扩展标志。

要求一地址指令和零地址指令的条数基本相等,那么,使用地址码1字段的6位扩展,可表示26=64个码点,其中63个用以表示63 条一地址指令操作码,即1111000000~1111111110,余下一个码点1111111111作为扩展标志。使用地址码2字段的6位扩展,可表示26=64个码点,用于表示64条零地址指令操作码。

3类指令操作码的分配如下:

0 0 0 0

…15条二地址指令操作码

1 1 1 0

1 1 1 1 0 0 0 0 0 0

…63条一地址指令操作码

1 1 1 1 1 1 1 1 1 0

1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0

…64条零地址指令操作码

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

(2)为使3类指令的条数的比例大约是1:9:9,3类指令操作码可作如下分配:

0 0 0 0

…14条二地址指令操作码

1 1 0 1

1 1 1 0 0 0 0 0 0 0

…64条一地址指令操作码

1 1 1 0 1 1 1 1 1 1

1 1 1 1 0 0 0 0 0 0

…62条一地址指令操作码

1 1 1 1 1 1 1 1 0 1

1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0

…64条零地址指令操作码

1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0

…64条零地址指令操作码

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

第3章

3—3. (1)计算执行完100条指令所需要的时间

(i)顺序方式工作的时间关系如图所示。

t

顺序方式工作时执行100条指令所需要的时间为:

100×(t取指+t分析+t执行)

(ii)仅“执行

”与“取指

”重叠方式工作的时间关系如图所示。

t

仅“执行K”与“取指K+1”重叠方式工作时执行100条指令所需要的时间为:

t取指+100t分析+99×max{t取指,t执行}+t执行

(iii)仅“执行K”、“分析

”、

“取指”重叠方式工作的时间关系如图

(题3—3解).3所示。t

仅“执行K”、“分析K+1”、“取指K+2”重叠方式工作时执行100条指令所需要的时间为:t取指+max{t分析,t取指}+98×max{t取指,t分析,t执行}+max{t分析,t执行}+t执行(2)当t取指=t分析=2、t执行=1时,代入上面的各式,可求得100条指令执行所需要的时间是:顺序方式工作时为500;

仅“执行K”与“取指K+1”重叠方式工作时为401;

仅“执行K”、“分析K+1”、“取指K+2”重叠方式工作时为203。

当t取指=t执行=5、t分析=2时,代入上面的各式.可求得100条指令执行所需要的时间是:

顺序方式工作时为1200;

仅“执行K”与“取指K+1”重叠方式工作时为705;

仅“执行K”、“分析K+1”、“取指K+2”重叠方式工作时为510。

3—4. 本题流水线的处理数据是非连续流入的,因此,不能使用连续流水的公式直接计算,可通过时空图来计算。时空图如图所示。

流水线以15Δt 为一个重复周期。因此,可按15Δt 来计算流水线的实际吞吐率、加速比和效率分别为:

67

.015410467.215410/67.01510

0=????=

=???==?=?=

t

t

t

t T T S t t

TP k p η

3—5. (1)用公式计算,已知流水线段数k =4,连续流入指令条数n =4,各段执行时间不等,且瓶颈段执行时间Δt j =200ns 。

()()()()()()()()[]

5

.0200141002001002004100

20010020041300

1

200141002001002004111

11

1=?-++++?+++?=??

?????-+??=

=

?-++++=

?-+?=

∑∑∑===j k i i k

i i

k

i j

i

t n t k t n t

n t n

TP η

流水线处理4条指令的时空图如图所示。

改造前的时空图

由时空图可得:

5

.01244848300

1

10012412422=???+?+?+?==?=?=

t t t t t t TP η

(2)对瓶颈段改造后,段S 1分为两个子段S 11和S 12,且子段执行时间均为100ns ,段S 3用功能相同的两个段S 31与S 32的并联来代替,S 31和S 32的执行时间均为200ns 。但并联部件的等效执行时间缩短为100ns ,从而使流水线各段执行时间相等,完全消除了瓶颈。

首先使用公式计算,改造后的流水线段数k =6,连续流入指令条数n =4,各段执行时间相等,且都为Δt =l00ns 。

()()44

.01464

1225

1

1001464133≈-+=-+==?-+=?-+=

n k n t n k n

TP η 流水线处理4条指令的时空图如图所示。

由时空图同样可得:

44

.09646225

1100949444≈????==?=?=

t t t TP η

3—7. (1)流水线的结构如图所示,任务被流水处理时在S 3循环一次。

流水线的结构

显然,每个任务在段S 3的执行时间是2Δt ,其他各段的执行时间是Δt ,为了不发生流水线阻塞,任务流入的时间间隔应是瓶颈段S 3的执行时间2Δt ,所以,若任务间隔Δt 流入将发生流水线阻塞。

(2)流水线的最大吞吐率为: ()t t t TP j ?=?=?=/5.02/1/1max 若连续流入10个任务,则流水线的实际吞吐率和效率分别为:

()()()t t t t t t t

n t n

TP j

k

i i

?≈??-+?+?+?+?=

?-+?=

∑=/435.02110210

11

1

()()()()[]544

.0211024210111

1≈??-+?+?+?+??+?+?+??=

??

?????-+??=

∑∑==t t t t t t t t t t n t k t

n j k i i k

i η

(3)为提高吞吐率,需要增设一个段S 3与原来的段S 3串联,用以承担对任务循环一次的处理,从而消除瓶颈。改造后的流水线的段数k =5,且各段执行时间相等,均为Δt 。实际吞吐率和效率分别为:

()()t t

t n k n TP ?≈?-+=?-+=

/714.0110510

12

714.01

10510

12

≈-+=-+=

n k n η

改造后的流水线是改造前的流水线的实际吞吐率的TP 2/ TP 1=1.64,提高了64%。 3—9. 计算f 需要先做4次加法,再做3次乘法。为便于流水计算,计算f 表达式可写为:

f =[(a 1+b 1)×(a 2+b 2)]×[(a 3+b 3)×(a 4+b 5)]

按表达式中表示的计算优先次序,先做的4次加法表示为1~4,后做的3次乘法表示为5~7。其中,2个方括号内的2次乘法分别表示为5和6,方括号外的最后一次乘法表示为7。

(1) 动态流水线计算f 的时空图如图(题3—9解)所示。

(2) 流水线的实际吞吐率和效率分别为:

()t TP ?=15/7

31.090

28

156324272==????+??+??=

t t t t η

3—11. (1)若3条指令顺序流动,则指令k 与指令k +1对寄存器R1发生操作数的“先写后读”相关。若3条指令可异步流动,则指令k +1与指令k 对寄存器R0发生“先读后写”相关,指令k +2与指令k +1对寄存器R0发生“写—写”相关。

(2)若3条指令顺序流动,则流水线时空图如图所示。(设执行各功能段不独立)

图有错

由图可见,当流水线采用顺序启动方式时,指令k 与指令k + 1间有“先写后读”的数据相关,指令k +1延时1个时钟周期取指;指令k +1与指令k +2之间没有数据相关,但有执行段冲突,故指令k +2推迟进入流水线。3条指令顺序流动,共需11个时钟周期。

3—12. (1)由预约表得出禁止表 F ={1,3,4,8} 由禁止表得出初始冲突向量: C =(10001101)

(2)根据初始冲突向量可画出状态转移图如图所示。

(3)由状态转移图,从初始状态开始沿箭头走向,构成从调度意义上间隔拍数成周期性重复出现的拍数循环。

由表可知最佳调度方案为(2,5)周期性地调度。最小的平均延迟为3.5拍,此时流水线的最大吞吐率为

5

.31

max =

TP (任务/拍) 尽管按(5,2)调度平均延迟也为3.5拍,但实际流入偶数个任务时的实际吞吐率不如(2,5)方案的小。 (4)按(2,5)调度方案实际输入6个任务的时空图如图(题3—12解).2所示。

S S S S S

根据6个任务全部完成所需的时间为25拍,可求得此时流水的实际吞吐率为

25

6

=

TP (任务/拍) 3—13. 由预约表得禁止表 F ={2,4,6} 初始冲突向量 C =(101010) (考虑间隔7拍送一个任务)

状态转移图如图所示。

各种调度方案及其相应的平均延迟如表所示。(不全)

由表可知,最小的平均延迟为4拍。此时流水线的最大吞吐率

4

1

max =

p T (任务/拍) 最佳调度方案宜选其中按(1,7)周期性地调度的方案。

按(1,7)调度方案输入6个任务,全部完成的时间为 1+7+1+7+1+7=24(拍) 实际吞吐率

24

6

=

p T (任务/拍) 若按(3,5)调度方案输入6个任务,全部完成的时间为 3+5+3+5+3+7=26(拍) 实际吞吐率

26

6

=

p T (任务/拍) 若按(5,3)调度方案输入6个任务,全部完成的时间为 5+3+5+3+5+7=28(拍) 实际吞吐率

28

6

=

p T (任务/拍) 可见最佳方案应为(1,7)调度方案,输入6个任务的实际吞吐率较之其他方案的要更高些。 3—14. 标量流水处理机的度m =1,连续执行12条指令的流水时空关系如图所示。

连续执行完12

条指令所用时间为14Δt 。

超标量处理机的度m =4,连续执行12条指令的流水时空关系见图所示。

连续执行完12条指令所用时间为5Δt 。超标量处理机相对于标量流水处理机的加速比为

8.2514=??=

t

t

S p 超长指令字处理机的度m =4,连续执行12条指令时的时空关系如图所示。

连续执行完12条指令所用时间为5Δt 。超长指令字处理机相对于标量流水处理机的加速比为

8.2514=??=

t

t

S p 超流水线处理机的度m =4,连续执行12条指令时的时空关系如图所示。

连续执行完12条指令所用时间为5.75Δt 。超流水线处理机相对于标量流水处理机的加速度比

43.275.514≈??=t

t S p

3—15. VLIW 流水线每拍启动一条长指令,执行4个操作,相当于4条指令,并行度m =4。12个任务可构成3条长指令,所需要的处理时间为 T =5Δt +(3-1)Δt =7Δt

同理,14和16个任务均可构成4条长指令,所需要的处理时间为

T =5Δt +(4-1)Δt =8Δt

3—16. 超标量超流水流水线有五个功能段,流水线的级数为k =5;超流水线处理的时钟频率为主机时钟频率的 n =2倍,超标量处理的发射度为m =4。

任务数N =12时的执行时间为: ()t t

t T

?=????????-+?=62

441252,4 N =14时的执行时间为: ()t t t T ?=????????-+?=5.62

441452,4 N =16时的执行时间为:

()t t

t T ?=????????-+?=5.62

441652,4 3—17. 超流水线处理的时钟频率为主机时钟频率的n =4倍。

任务数N =12的执行时间为: ()()t t

t

T

?=??

-+?=75.74

11254,1 N =14时的执行时间为: (

)

()t t

t T ?=??

-+?=25.84

11454,1 N =16时的执行时间为:

()()t t

t T ?=??

-+?=75.84

11654,1

第四章

4—4. (1)方式1(高位交叉)的存储器的地址格式为

方式2(低位交叉)的存储器的地址格式为

(2)比较优缺点

(3)若不考虑访问冲突,两种方式的存储器的频带宽度均为64字节/存储周期。

(4)两种存储器的逻辑结构如图所示。4MB/模块=1M字/模块

w

数据总线

图(题4—4解).1 高位交叉的四体交叉存储器结构示意图

数据总线

图(题4—4解).2 低位交叉的四体交叉存储器结构示意图

4—5. m 个分体低位交叉编址存储器的最大频宽为:

μs 2B

4?

=?

=?m m 存取周期存储字长单体频宽分体数 实际频宽为: μs

2B

46.06.0?

?=?m 最大频宽 现在要求实际频宽大于或等于4MB /s ,即近似为4B /μs ,故有: μs /B 4μs

2B

46.0≥??m 可得m ≥3.667,因此,主存分体数应取为4。 4—6. 由二级存储系统的访问效率

1

22111/)1(1

)1(A A A A A A A T T H H T H HT T T T e -+=

-+==

可得 ????

?

-?

??? ?

?-=1212

11A A A A T T T T e H

已知e =0.8,T A1=10-5

s ,T A2=10-2

s ,将其代入上式,可得命中率H =0.9997。

4—7. 每个存储周期能访问到的平均字数为 ()

λ

λm

B --=

11

将λ=25%,m =32代入上式,可求得 425

.075.0132

≈-=

B 每个存储周期平均能访问到4个字。 若将λ=25%,m =16代入上式,可求得 96.325

.075.0116

≈-=

B 每个存储周期平均能访问到3.96个字。 可以看出,当转移概率λ为25%,比较大时,采用模32与模16的每个存储周期能访问到的平均字数非常相近。此时提高模数m 对提高主存实际频宽已不显著了。

4—8. (1)会发生页面失效的全部虚页是页表中所有装入位为“0”的行所对应的虚页号的集合,为1、2、5、6。

(2)由虚地址计算主存实地址的情况见表。

4—9.(1)分别用FIFO 、LRU 和OPT 替换算法对主存3个实页位置的使用过程如图所示,其中,用“*”标记的虚页是由替换算法确定的被替换页。

虚页地址流

FIFO

LRU

OPT

命中命中命中命中命中(2)主存命中率分别为:H FIFO=0.20 H LRU=0.40 H OPT=0.50

4—10. 用堆栈对页地址流处理一次的过程如图所示,其中H表示命中。

模拟结果表明,对该程序至少应分配4个实页。如果只分配3个实页,其页命中率只有2/12;而分配实页数多于4页后,其页命中率不会再有提高。分配给该程序4个实页即可,最高命中率为H=7/12。

4—14.(1)采用组相联映像时,主存地址格式和Cache地址格式为:

主存地址

1位

Cache地址

块内地址W和w的长度由块的大小确定,由本题给出的条件不能确定W和w的位数,但总有W=w。

(2)组相联映像规定:组之间是直接映像,对应组的块之间是全相联映像。主存块与Cache块之间的映像关系如图所示。

主存

Cache

图(题4—14解).1 组相联映像

可得出主存存0~7与Cache块0~3之间的映像关系是:主存块0、1、4、5只能装入Cache 0、1的任何块位置上;主存块2、3、6、7只能装入Cache块2、3的任何块位置上。

(3)采用LRU替换算法时,Cache的块0~3被该程序使用的过程如图所示。

访存时间

Cache块0

Cache块1

Cache块2

Cache块3

命中命中命中

发生块失效且块争用时需要进行替换,时刻有:t6,t7,t9,t10,t11,t12,t14,t15。

Cache命中率为H=3/15=0.20

4—16.(1)组相联映像的主存地址和Cache地址的格式如下:

主存容量为1M字,主存地址长度为20位。Cache容量为32K字,Cache地址长度为15位,区号E的长度为20-15=5位。

Cache分为8组,组号G和g的长度为3位。块的大小为64字,块内地址W和w的长度为6位。块号B和b 的长度为15-3-6=6位。

(2)已知Cache的主存周期T c=20ns,命中率H=0.95,设主存的存取周期T m,有:

10

05

.0

20

95

.0

)

1(

m

m

m

c

m

a

m=

+

?

=

-

+

=

=

T

T

T

H

HT

T

T

T

ρ

得出要求的主存存取周期为:T m=380ns

4—17. 不设置Cache时,包括访存时间在内的指令执行的平均时钟周期数为:

CPI m=50×1.33+2=66.5+2=68.5时钟周期

增设Cache后,平均每条指令一次访存所需时间为:

T a=HT c+(1-H)T m=0.98×2+(1-0.98)×50=2.96时钟周期

包括访存时间在内的指令执行的平均时钟周期数为:

CPI a=2.96×1.33+2=5.94时钟周期增设Cache相对于不设置Cache的加速比为:

ρ=CPI m/CPI a=68.5/5.94=11.53

计算机体系结构试题库—简答题

计算机体系结构试题库 简答题(100题) 1.简述CISC结构计算机的缺点。 答: ●在CISC结构的指令系统中,各种指令的使用频率相差悬殊。据统计,有20%的指 令使用频率最大,占运行时间的80%。也就是说,有80%的指令在20%的运行时 间内才会用到。 ●CISC结构指令系统的复杂性带来了计算机体系结构的复杂性,这不仅增加了研制 时间和成本,而且还容易造成设计错误。 ●CISC结构指令系统的复杂性给VLSI设计增加了很大负担,不利于单片集成。 ●CISC结构的指令系统中,许多复杂指令需要很复杂的操作,因而运行速度慢。 ●在CISC结构的指令系统中,由于各条指令的功能不均衡性,不利于采用先进的计 算机体系结构技术(如流水技术)来提高系统的性能。 2.RISC结构计算机的设计原则。 答: A.选取使用频率最高的指令,并补充一些最有用的指令; B.每条指令的功能应尽可能简单,并在一个机器周期内完成; C.所有指令长度均相同; D.只有load和store操作指令才访问存储器,其它指令操作均在寄存器之间进行; E.以简单有效的方式支持高级语言。 3.影响现代微处理器主频提升的主要原因由哪些? 答:线延迟、功耗。 4.指令集格式设计时,有哪三种设计方法? 答:固定长度编码、可变长编和混合编码)三种设计方法。

5.简述存储程序计算机(冯·诺依曼结构)的特点。 答: (1)机器以运算器为中心。 (2)采用存储程序原理。 (3)存储器是按地址访问的、线性编址的空间。 (4)控制流由指令流产生。 (5)指令由操作码和地址码组成。 (6)数据以二进制编码表示,采用二进制运算。 6.在进行计算机系统设计时,一个设计者应该考虑哪些因素对设计的影响? 答: 在进行计算机系统设计时,设计者应该考虑到如下三个方面因素的影响: ●技术的发展趋势; ●计算机使用的发展趋势; ●计算机价格的发展趋势。 7.简述程序翻译技术的特点。 答: 翻译技术是先把N+1级程序全部变换成N级程序后,再去执行新产生的N级程序,在执行过程中N+1级程序不再被访问。 8.简述程序解释技术的特点。 答: 解释技术是每当一条N+1级指令被译码后,就直接去执行一串等效的N级指令,然后再去取下一条N+1级的指令,依此重复进行。 9.经典体系结构的定义是什么? 计算机体系结构是机器级程序员所看到的计算机的属性,即概念性结构与功能特性。10.“线延迟墙”指的是什么?

计算机系统结构三四章作业及答案

3.1 简述流水线技术的特点。(1) 流水线把一个处理过程分解为若干个子过程,每个子过程由一个专门的功能部件来实现。因此,流水线实际上是把一个大的处理功能部件分解为多个独立的功能部件,并依靠它们的并行工作来提高吞吐率。(2) 流水线中各段的时间应尽可能相等,否则将引起流水线堵塞和断流。(3) 流水线每一个功能部件的前面都要有一个缓冲寄存器,称为流水寄存器。(4) 流水技术适合于大量重复的时序过程,只有在输入端不断地提供任务,才能充分发挥流水线的效率。(5) 流水线需要有通过时间和排空时间。在这两个时间段中,流水线都不是满负荷工作。 3.2 解决流水线瓶颈问题有哪两种常用方法?答:细分瓶颈段与重复设置瓶颈段 3.3 有一条指令流水线如下所示: (1 用两给出条指 (1) (24? 变八级流水线(细分) ? 重复设置部件 )(ns 85 1 T n TP 1pipeline -== 3.4 有一个流水线由4段组成,其中每当流过第三段时,总要在该段循环一次,然后才能流到第4段。如果每段经过一次所需的时间都是△t ,问: (1)当在流水线的输入端连续地每△t 时间输入一个任务时,该流水线会发生什么情况? (2)此流水线的最大吞吐率为多少?如果每2△t 输入一个任务,连续处理10个任务时,其实际吞吐率和效率是多少? (3)当每段时间不变时,如何提高流水线的吞吐率?人连续处理10个任务时,其吞吐率提高多少? 解:(1)会发生流水线阻塞情况。

(2) (3)重复设置部件 吞吐率提高倍数= t t ??2310 75 =1.64 3.5 有一条动态多功能流水线由5段组成,加法用1、3、4、5段,乘法用1、2、5段,第2段的时间为2△t ,其余各段的时间均为△t ,而且流水线的输出可以直接返回输入端或暂存于相应的流水线寄存器中。现在该流水线上计算 ∏=+4 1 )(i i i B A ,画出时空图,并计算其吞吐率、加速比和效率。 +B 4;再计算由图可见,它在18个△t 时间中,给出了7个结果。所以吞吐率为: 如果不用流水线,由于一次求积需3△t ,一次求和需5△t ,则产生上述7个结果共需(4×5+3×3)△t =29△t 。所以加速比为: 该流水线的效率可由阴影区的面积和5个段总时空区的面积的比值求得: 3.6 在一个5段流水线处理机上,各段执行时间均为△t,需经9△t 才能完成一个任务,其预约表如下所示。 段23 时间 入 A 1 B 1 A 2 B 2 A 3 B 3 A 4 B 4 A B C D A × B C ×D

计算机体系结构期末复习

计算机体系结构期末复习资料 1.并行性:是指在同一时刻或者是同一时间间隔内完成两种或两种以上性质相同或不同的工作。 2.CPI:每条指令执行时所花费的平均时钟周期。 3.体系结构:即计算机的属性,即概念性结构与功能特性。 4.Amdahl定理:加快某部件执行速度所获得的系统性能加速比,受限于该部件在系统中所占的重要性。 5.信息存储的整数边界:信息在主存中存放的起始地址必须是该信息(字节数)的整数倍。 6.指令系统的正交性:指在指令中各个不同含义的字段,在编码时应互不相关,相互独立。 7.流水线技术:是指将一个重复的时序过程,分解成为若干子过程,而每个过程都可有效在其专用功能段上与其他子过程同时执行。 8.定向技术:在某条指令产生一个结果之前,其他指令并不直接需要该计算结果,如果能将该计算结果从其他产生的地方直接送到其他指令需要它的地方,那么就可以避免暂停的技术就叫定向技术。 9.相关:衡量两个随机变量之间相关程度的指标。 10.向量流水处理机:是指处理机具有向量数据表示并通过向量指令对向量的各元素进行处理。、

11.定向:将计算结果从其产生的地方直接送到其他指令需要它的地方,或所有需要它的功能单元,避免暂停。 12.指令集的并行:当指令之间不存在相关时,它们在流水线中是可以重叠起来并行执行。 13.记分牌技术:流出和读操作数。在没有结构冲突时,尽可能早地执行没有数据冲突的指令,实现每个时钟周期执行一条指令。如果某条指令被暂停,而后面的指令与流水线中正在执行或被暂停的指令都不相关,是这些指令可以跨越它,继续流出和执行下去。 14.Tomasulo算法:寄存器换名是通过保留站和流出逻辑来共同完成,当指令流出时,如果其操作数还没有计算出来,则该指令中相应的寄存器换名将产生这个操作数的保留站的标识。因此,指令流出到保留站后,其操作数寄存器或者换成了数据本身,或换成了保留站的标识,和寄存器无关。后面指令对该寄存器的写入操作就不会产生WAR冲突。 15.替换算法:由于主存中的块比Cache中的块多,所以当要从主存中调一个块到Cache中时,会出现该块所映象到的一组(或一个)Cache块已全部被占用的情况。这时,需要被迫腾出其中的某一块,以接纳新调入的块。

计算机体系结构期末考试试题及答案

填空题 1.从2002年以来,计算机性能的年增长率下降到了约30%。其主要原因是:①大功耗问题; ②可以进一步有效地开发的指令级并行性已经很少;③存储器访问速度的提高缓慢。 2. 可移植性是指一个软件可以不经修改或者只需少量修改就可以由一台计算机移植到另一台计算机上运行。实现可移植性的常用方法有3种:系列机,模拟和仿真,统一高级语言。 2.通用寄存器型指令集结构计算机在灵活性和提高性能方面有明显的优势。主要体现在①寄存器的访问 速度比存储器快;②对编译器而言,能更加容易有效地分配和使用寄存器;③寄存器可以用来存放变量。 3.MIPS的数据寻址方式只有立即数寻址和偏移量寻址。 4.向量处理机的结构由所采用的向量处理方式决定。有两种典型的结构;存储器-存储器型结构和寄存器-寄存器型结构。 5.Cache-主存层次的工作由硬件实现,对系统程序员是透明的。 6.降低Cache不命中率最直接的方法是增加Cache的容量。不过,这种方法不但会增加成本,而且还可能增加命中时间,这种方法在片外Cache中用得比较多。 7.大多数磁盘阵列的组成可以由以下两个特征来区分:数据交叉存放的粒度、冗余数据的计算方法以及在磁盘阵列中的存放方式。 8.时延和带宽是用来评估互连网络性能的两个基本指标。时延包括通信时延和网络时延。 9.计算机系统可分为SISD、SIMD、MISD和MIMD四类,许多早期并行处理机是SIMD计算机,近年来,MIMD已经成为通用多处理机系统结构的选择。这是因为MIMD具有灵活性,并且MIMD 能充分利用现有微处理器的性价比优势。 判断题 1.从计算机语言的角度,系统结构把计算机系统按功能划分成多级层次结构,其中,第2级是操作系统虚拟机,第3级是汇编语言虚拟机。(错) 2.计算机系统中提高并行性的3种途径中,资源重复是在并行性概念中引入时间因素,加快硬件周转而赢得时间。(错) 3.指令集结构中采用多种寻址方式可能会增加实现的复杂度和使用这些寻址方式的指令的CPI。(对) 4.指令条数多,通常超过200条,是设计RISC的原则之一。(错) 5.根据流水线中各功能段之间是否有反馈回路,可把流水线分为线性流水线和非线性流水线。(对) 6.在多级存储体系中,“主存一辅存”层次的存储管理实现主要由软件实现。(对) 7.失效率和平均访存时间都可评价存储系统的性能,它们都和机器的硬件速度有关。(错) 8.RAID的特点有容量大,速度快、可靠性高,同时保存数据无冗余信息。(对) 9.在多处理机的互连网络中,交叉开关网络属于动态互连网络。(对) 10.机群是一种价格低廉、易于构建、可扩缩性极强的并行计算机系统。(对) 名词解释 1.RISC 精简指令集计算机是一种执行较少类型计算机指令的微处理器 2.请求字优先 调块时,首先向存储器请求CPU所要的请求字。请求字一旦到达,就立即送往CPU,让CPU继续执行,同时从存储器调入该块的其余部分。 3.单一系统映像

计算机系统结构网上作业

计算机系统结构作业参考答案 一、 1、试述现代计算机系统的多级层次结构。 计算机系统具有层次性,它由多级层次结构组成。从功能上计算机系统可分为五个层次级别:第一级是设计级。这是一个硬件级,它由机器硬件直接执行。 第二级是一般机器级,也称为机器语言级。它由微程序解释系统.这一级是硬件级。 第三级是操作系统级,它由操作系统程序实现。这些操作系统由机器指令和广义指令组成,这些广义指令是操作系统定义和解释的软件指令。这一级也称混合级。 第四级是汇编语言级。它给程序人员提供一种符号形式的语言,以减少程序编写的复杂性。这一级由汇编程序支持执行。 第五级是高级语言级。这是面向用户为编写应用程序而设置的。这一级由各种高级语言支持。 2、试述RISC设计的基本原则和采用的技术。 答:一般原则: (1)确定指令系统时,只选择使用频度很高的指令及少量有效支持操作系统,高级语言及其它功能 的指令,大大减少指令条数,一般使之不超过100条; (2)减少寻址方式种类,一般不超过两种; (3)让所有指令在一个机器周期内完成; (4)扩大通用寄存器个数,一般不少于32个,尽量减少访存次数; (5)大多数指令用硬联实现,少数用微程序实现; (6)优化编译程序,简单有效地支持高级语言实现。

基本技术: (1)按RISC一般原则设计,即确定指令系统时,选最常用基本指令,附以少数对操作系统等支持最有用的指令,使指令精简。编码规整,寻址方式种类减少到1、2种。 (2)逻辑实现用硬联和微程序相结合。即大多数简单指令用硬联方式实现,功能复杂的指令用微程序实现。 (3)用重叠寄存器窗口。即:为了减少访存,减化寻址方式和指令格式,简有效地支持高级语言中的过程调用,在RISC机器中设有大量寄存嚣,井让各过程的寄存器窗口部分重叠。 (4)用流水和延迟转移实现指令,即可让本条指令执行与下条指令预取在时间上重叠。另外,将转移指令与其前面的一条指令对换位置,让成功转移总是在紧跟的指令执行之后发生,使预取指令不作废,节省一个机器周期。 (5)优化设计编译系统。即尽力优化寄存器分配,减少访存次数。不仅要利用常规手段优化编译,还可调整指令执行顺序,以尽量减少机器周期等。 3、试述全相联映像与直接映像的含义及区别 (1)全相连映像 主存中任何一个块均可以映像装入到Cache中的任何一个块的位置上。主存地址分为块号和块内地址两部分,Cache地址也分为块号和块内地址。Cache的块内地址部分直接取自主存地址的块内地址段。主存块号和Cache块号不相同,Cache块号根据主存块号从块表中查找。Cache保存的各数据块互不相关,Cache必须对每个块和块自身的地址加以存储。当请求数据时,Cache控制器要把请求地址同所有的地址加以比较,进行确认。 (2)直接映像 把主存分成若干区,每区与Cache大小相同。区内分块,主存每个区中块的大小和Cache 中块的大小相等,主存中每个区包含的块的个数与Cache中块的个数相等。任意一个主存块只能映像到Cache中唯一指定的块中,即相同块号的位置。主存地址分为三部分:区号、块号和块内地址,Cache地址分为:块号和块内地址。直接映像方式下,数据块只能映像到Cache中唯一指定的位置,故不存在替换算法的问题。它不同于全相连Cache,地址仅需比较一次。 (3)区别: 全相连映像比较灵活,块冲突率低,只有在Cache中的块全部装满后才会出现冲突,Cache 利用率高。但地址变换机构复杂,地址变换速度慢,成本高。 直接映像的地址变换简单、速度快,可直接由主存地址提取出Cache地址。但不灵活,块冲突率较高,Cache空间得不到充分利用。 4. 画出冯?诺依曼机的结构组成?

系统结构期末考试试题及答案

得分 评分人 填空题: (20分,每题2 分) 单选题:(10分,每题1分) A.任何虚页都可装入主存中任何实页的位置 B. 一个虚页只装进固定的主存实页位置 《计算机系统结构》期末考试试卷(A ) 得分 注:1、共100分,考试时间120分钟。 2、此试卷适用于计算机科学与技术本科专业。 1、."启动I/O"指令是主要的输入输出指令,是属于( A. 目态指令 B.管态指令 C.目态、管态都能用的指令 D.编译程序只能用的指令 2、 输入输出系统硬件的功能对 (B )是透明的 A.操作系统程序员 B.应用程序员 C.系统结构设计人员 D.机器语言程序设计员 3、 全相联地址映象是指(A ) C. 组之间固定,组内任何虚页可装入任何实页位置 D.组间可任意装入,组内是固定装入 4、( C ) 属于MIMD 系统结构 A.各处理单元同时受一个控制单元的管理 B.各处理单元同时受同个控制单元送来的指令 C.松耦合多处理机和多计算机系统 D. 阵列处理机 5、多处理机上两个程序段之间若有先写后读的数据相关,则( B ) A.可以并行执行 B.不可能并行 C.任何情况均可交换串行 D.必须并行执行 6、 计算机使用的语言是(B ) A.专属软件范畴,与计算机体系结构无关 B.分属于计算机系统各个层次 C.属于用以建立一个用户的应用环境 D. 属于符号化的机器指令 7、 指令执行结果出现异常引起的中断是( C ) A.输入/输出中断 B.机器校验中断 C.程序性中断 D.外部中断 &块冲突概率最高的 Cache 地址映象方式是(A ) A.直接 B .组相联 C .段相联 D .全相联 9、 组相联映象、LRU 替换的Cache 存储器,不影响 Cache 命中率的是(B ) A.增大块的大小 B .增大主存容量 C .增大组的大小 D .增加Cache 中的块数 10、 流水处理机对全局性相关的处理不 包括(C ) A.猜测法 B.提前形成条件码 C.加快短循环程序的执行 D.设置相关专用通路

计算机体系结构试题汇总

计算机系统结构 姓名:学号: 一、简答题(每小题10分,共20分) 1.简述使用物理地址进行DMA存在的问题,及其解决办法。 2.从目的、技术途径、组成、分工方式、工作方式等5个方面对同构型多处理机和异构型多处理机做一比较(列表)。 二、(60分)现有如下表达式: Y=a ×X 其中:X和Y是两个有64个元素的32位的整数的向量,a为32位的整数。假设在存储器中,X和Y的起始地址分别为1000和5000,a的起始地址为6000。 1.请写出实现该表达式的MIPS代码。 2.假设指令的平均执行时钟周期数为5,计算机的主频为500 MHz,请计算上述MIPS 代码(非流水化实现)的执行时间。 3.将上述MIPS代码在MIPS流水线上(有正常的定向路径、分支指令在译码段被解析出来)执行,请以最快执行方式调度该MIPS指令序列。注意:可以改变操作数,但不能改变操作码和指令条数。画出调度前和调度后的MIPS代码序列执行的流水线时空图,计算调度前和调度后的MIPS代码序列执行所需的时钟周期数,以及调度前后的MIPS流水线执行的加速比。 4.根据3的结果说明流水线相关对CPU性能的影响。 三、(20分)请分析I/O对于性能的影响有多大?假设: 1.I/O操作按照页面方式进行,每页大小为16 KB,Cache块大小为64 B;且对应新页的地址不在Cache中;而CPU不访问新调入页面中的任何数据。 2.Cache中95%被替换的块将再次被读取,并引起一次失效;Cache使用写回方法,平均50%的块被修改过;I/O系统缓冲能够存储一个完整的Cache块。 3.访问或失效在所有Cache块中均匀分布;在CPU和I/O之间,没有其他访问Cache 的干扰;无I/O时,每1百万个时钟周期中,有15,000次失效;失效开销是30个时钟周期。如果替换块被修改过,则再加上30个周期用于写回主存。计算机平均每1百万个周期处理一页。

高级计算机体系结构作业汇总(非标准答案)

1.Explain the Concepts Computer Architecture 系统结构 由程序设计者所看到的一个计算机系统的属性。即计算机系统的软硬件界面。 Advanced CA 高级系统结构 新型计算机系统结构。基于串行计算机结构,研究多指令多数据计算机系统,具有并发、可扩展和可编程性。为非冯式系统结构。 Amdahl law Amdahl定律 系统中某部件由于采用某种方式时系统性能改进后,整个系统性能的提高与该方式的使用频率或占的执行时间的比例有关。 SCALAR PROCESSING 标量处理机 在同一时间内只处理一条数据。 LOOK-AHEAD 先行技术 通过缓冲技术和预处理技术,解决存储器冲突,使运算器能够专心与数据的运算,从而大幅提高程序的执行速度。 PVP 向量型并行计算处理机 以流水线结构为主的并行处理器。 SMP 对称多处理机系统 任意处理器可直接访问任意内存地址,使用共享存储器,访问延迟、带宽、机率都是等价的。MPP 大规模并行计算机系统 物理和逻辑上均是分布内存,能扩展至成百上千处理器,采用专门设计和定制的高通信带宽和低延迟的互联网络。 DSM 分布式共享存储系统 内存模块物理上局部于各个处理器内部,但逻辑上是共享存储的。 COW 机群系统 每个节点都是一个完整的计算机,各个节点通过高性能网络相互连接,网络接口和I/O总线松耦合连接,每个节点有完整的操作系统。 GCE 网格计算环境 利用互联网上的计算机的处理器闲置处理能力来解决大型计算问题的一种科学计算。 CISC 复杂指令集计算机

通过设置一些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。 RISC 精简指令集计算机 尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍内执行完的指令,而把复杂指令用段子程序来实现。 VMM 虚拟机监视器 作为软硬件的中间层,在应用和操作系统所见的执行环境之间。 SUPERCOMPUTER 超级计算机 数百数千甚至更多的处理器组成的能计算普通计算机不能完成的大型复杂问题的计算机。SVM 共享虚拟存储器 存储器虚拟化为一个共享的存储器,并提供单一的地址空间。 MAINFRAME 大型计算机 作为大型商业服务器,一般用于大型事务处理系统,特别是过去完成的且不值得重新编写的数据库应用系统方面。 COMPUTER SYSTEM ON CHIP 片上计算机系统 在单个芯片上集成的一个完整系统。 PARALLEL ARCHITECTURE INTO SINGLE CHIP 单片并行结构 在单个芯片上采用的并行体系结构 MOORE law Moore定律 当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。 UMA 一致存储访问 采用集中式存储的模式,提供均匀的存储访问。 NUMA 非一致存储访问 内存模块局部在各个结点内部,所有局部内存模块构成并行机的全局内存模块。 COMA 全高速缓存存储访问 采用分布式存储模式,通过高速缓存提供快速存储访问。 CC-NUMA 全高速缓存非一致性均匀访问 存在专用硬件设备保证在任意时刻,各结点Cache中数据与全局内存数据的一致性。NORMA 非远程存储访问

计算机系统结构期末考试题目

第一章: 1.计算机系统结构的定义 答:由程序设计者看到的一个计算机系统的属性,即概念性结构和功能特性。 2.透明性概念 答:在计算机技术中,一种本来是存在的事物或属性,但从某种角度看似乎不存在,称为透明性现象。 3.兼容性向后兼容 兼容性:同一个软件可以不加修改地运行于系统结构相同的各档机器,可获得相同的结果,差别只在于不同的运行时间。 向后兼容:按某个时期投入市场的某种型号机器编制的程序,不加修改就能运行于在它之后投入市场的机器。 4.Amdahl定律 答:系统中某一部件由于采用某种更快的执行方式后整个系统性能的提高与这种执行方式的使用频率或占总执行时间的比例有关。 5.CPI 答:每条指令的平均时钟周期数。 6.MIPS 答:每秒百万条指令数!MIPS=时钟频率/(CPI*10^6) 7.MFLOPS 答:每秒百万次浮点操作次数。MFLOPS=程序中的浮点操作次数/(执行时间*10^6) 8.命中率的概念 答: 9.Flynn分类法是按指令流和数据流的多倍性特征进行计算机系统结构的划分 答:①单指令流单数据流SISD ②单指令流多数据流SIMD ③多指令流单数据流MISD(实际不存在)④多指令流多数据流MIMD 10.计算机系统设计的定量原理(四个) 答:①加快经常性事件的速度②Amdahl定律③CPU性能公式④访问的局部性原理11.CPI和加速比的计算 答:CPI=CPU时钟周期数/IC CPU时间=CPU时钟周期数/频率 CPU时间=CPU时钟周期*时钟周期长 加速比=(采用改进措施后的性能)/(没有采用改进措施前的性能) =(没有采用改进措施前执行某任务的时间)/(采用改进措施后执行某任务的时间) 12.软硬件实现的特点 硬件实现:速度快、成本高;灵活性差、占用内存少 软件实现:速度低、复制费用低;灵活性好、占用内存多 13.系统评价的标准 ①运算速度②存储器系统③其他性能④成本标准

计算机系统结构期末考试试题及其答案

计算机系统结构期末考试试题及其答案

《计算机系统结构》期末考试试卷A 卷第 2 页 共 24 页 计算机科学系《计算机系统结构》期末考试试卷(A 卷) 2、此试卷适用于计算机科学与技术本科专业。 一 单选题:(10分,每题1分) 1、 ."启动I/O"指令是主要的输入输出指 令,是属于( B ) A.目态指令 B.管态指令 C.目态、管态都能用的指令 D.编译程序只能用的指令 2、 输入输出系统硬件的功能对(B )是透 明的 A.操作系统程序员 B.应用程序员 C.系统结构设计人员 D.机器语言程序设计员 3、 全相联地址映象是指(A ) A.任何虚页都可装入主存中任何实页的位置 B.一个虚页只装进固定的主存实页位置 C.组之间固定,组内任何虚页可装入任何实页位

置 D.组间可任意装入,组内是固定装入 4、( C ) 属于MIMD系统结构 A.各处理单元同时受一个控制单元的管理 B.各处理单元同时受同个控制单元送来的指令 C.松耦合多处理机和多计算机系统 D.阵列处理机 5、多处理机上两个程序段之间若有先写 后读的数据相关,则(B ) A.可以并行执行 B.不可能并行 C.任何情况均可交换串行 D.必须并行执行 6、计算机使用的语言是(B) A.专属软件范畴,与计算机体系结构无关 B.分属于计算机系统各个层次 C.属于用以建立一个用户的应用环境 D.属于符号化的机器指令 7、指令执行结果出现异常引起的中断是 (C ) A.输入/输出中断 B.机器校验中断 C.程序性中断 D.外部中断 《计算机系统结构》期末考试试卷A卷第 3 页共 24 页

计算机体系结构_第一次作业

计算机体系结构 第一章 1.11 Availability is the most important consideration for designing servers, followed closely by scalability and throughput. a. We have a single processor with a failures in time(FIT) of 100. What is the mean time to failure (MTTF) for this system? b. If it takes 1 day to get the system running again, what is the availability of the system? c. Imagine that the government, to cut costs, is going to build a supercomputer out of inexpensive computers rather than expensive, reliable computers. What is the MTTF for a system with 1000 processors? Assume that if one fails, they all fail. 答: a. 平均故障时间(MTTF)是一个可靠性度量方法,MTTF的倒数是故 障率,一般以每10亿小时运行中的故障时间计算(FIT)。因此由该定义可知1/MTTF=FIT/10^9,所以MTTF=10^9/100=10^7。b. 系统可用性=MTTF/(MTTF+MTTR),其中MTTR为平均修复时间, 在该题目中表示为系统重启时间。计算10^7/(10^7+24)约等于1. c. 由于一个处理器发生故障,其他处理器也不能使用,所以故障率 为原来的1000倍,所以MTTF值为单个处理器MTTF的1/1000即10^7/1000=10^4。 1.14 In this exercise, assume that we are considering enhancing

计算机体系结构习题答案解析

第1章计算机系统结构的基本概念 1.1 解释下列术语 层次机构:按照计算机语言从低级到高级的次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同的语言为特征。这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。 虚拟机:用软件实现的机器。 翻译:先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序,然后再在这低一级机器上运行,实现程序的功能。 解释:对于高一级机器上的程序中的每一条语句或指令,都是转去执行低一级机器上的一段等效程序。执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。 计算机系统结构:传统机器程序员所看到的计算机属性,即概念性结构与功能特性。 透明性:在计算机技术中,把这种本来存在的事物或属性,但从某种角度看又好像不存在的概念称为透明性。 计算机组成:计算机系统结构的逻辑实现,包含物理机器级中的数据流和控制流的组成以及逻辑设计等。 计算机实现:计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。 系统加速比:对系统中某部分进行改进时,改进后系统性能提高的倍数。 Amdahl定律:当对一个系统中的某个部件进行改进后,所能获得的整个系统性能的提高,受限于该部件的执行时间占总执行时间的百分比。 程序的局部性原理:程序执行时所访问的存储器地址不是随机分布的,而是相对地簇聚。包括时间局部性和空间局部性。 CPI:每条指令执行的平均时钟周期数。 测试程序套件:由各种不同的真实应用程序构成的一组测试程序,用来测试计算机在各个方面的处理性能。 存储程序计算机:冯·诺依曼结构计算机。其基本点是指令驱动。程序预先存放在计算机存储器中,机器一旦启动,就能按照程序指定的逻辑顺序执行这些程序,自动完成由程序所描述的处理工作。 系列机:由同一厂家生产的具有相同系统结构、但具有不同组成和实现的一系列不同型号的计算机。 软件兼容:一个软件可以不经修改或者只需少量修改就可以由一台计算机移植到另一台计算机上运行。差别只是执行时间的不同。 向上(下)兼容:按某档计算机编制的程序,不加修改就能运行于比它高(低)档的计算机。 向后(前)兼容:按某个时期投入市场的某种型号计算机编制的程序,不加修改地就能

2020.4《计算机体系结构》期末试卷A含答案

《计算机体系结构》期末考试A卷 (总分:100分,时间:100分钟) 姓名:周元华 专业:计算机科学与技术 学号: 18260070164016 学习中心:上海弘成 一、填空题(每空1分,共14分) 1.高速缓冲存储器的地址映象方式有三种,它们分别是:全向量方式,直接相联方式,组相连方式。 2.虚拟存储器的三种管理方式是段式管理,页式管理和 段页式管理。 3.从主存的角度来看,“Cache—主存”层次的目的是为了提高速度,而“主存—辅存”层次的目的是为了扩大容量 4.根据指令间的对同一寄存器读和写操作的先后次序关系,数据相关冲突可分为读与写(RAM)、写与读(WAR)和写与写(WAW)三种类型。 5.当代计算机体系结构的概念包括指令集结构、计算机组成和计算机实现三个方面的内容 二、名词解释(每题2分,共16分) 计算机体系结构: 计算机体系结构是指根据属性和功能不同而划分的计算机理论组成部分及计算机基本工作原理、理论的总称。其中计算机理论组成部分并不单与某一个实际硬件相挂钩,如存储部分就包括寄存器、内存、硬盘等。 兼容机: 兼容机,就是由不同公司厂家生产的具有相同系统结构的计算机。简单点说,就是非厂家原装,而改由个体装配而成的机器,其中的元件可以是同一厂家出品,但更多的是整合各家之长的 计算机。 写直达法: 写直达法一般指全写法。全写法(write-through):又称写直达法、写穿法,透写法,Cache使 用方式之一。 高速缓冲存储器: 高速缓冲存储器(Cache)其原始意义是指存取速度比一般随机存取记忆体(RAM)来得快 的一种RAM,一般而言它不像系统主记忆体那样使用DRAM技术,而使用昂贵但较快速的SRAM 技术,也有快取记忆体的名称。 高速缓冲存储器是存在于主存与CPU之间的一级存储器,由静态存储芯片(SRAM)组成, 容量比较小但速度比主存高得多,接近于CPU的速度。在计算机存储系统的层次结构中,是介 于中央处理器和主存储器之间的高速小容量存储器。它和主存储器一起构成一级的存储器。高速 缓冲存储器和主存储器之间信息的调度和传送是由硬件自动进行的。 高速缓冲存储器最重要的技术指标是它的命中率。 延迟转移技术: 在转移指令之后插入一条或几条有效的指令。当程序执行时,要等这些插入的指令执行完成 之后,才执行转移指令,因此,转移指令好像被延迟执行了,这种技术称为延迟转移技术。 线性流水线: 线性流水线就是由一整套工艺串联而成的生产线。 流水线又称为装配线,一种工业上的生产方式,指每一个生产单位只专注处理某一个片段的工 作,以提高工作效率及产量;按照流水线的输送方式大体可以分为:皮带流水装配线、板链线、 倍速链、插件线、网带线、悬挂线及滚筒流水线这七类流水线。 输送线的传输方式有同步传输的/(强制式),也可以是非同步传输/(柔性式),根据配置的 选择,可以实现装配和输送的要求。输送线在企业的批量生产中不可或缺。 流水线的吞吐率: 流水线的吞吐率是单位时间内流水线处理的任务数。 并行性: 并行性是指计算机系统具有可以同时进行运算或操作的特性,在同一时间完成两种或两种以 上工作。它包括同时性与并发性两种含义。同时性指两个或两个以上事件在同一时刻发生。并发 性指两个或两个以上事件在同一时间间隔发生。 三、简答题(每题5分,共30分) 1.如有一个经解释实现的计算机,可以按功能划分成4级。每一 级为了执行一条指令需要下一级的N条指令解释。若执行第一 级的一条指令需K(ns)时间,那么执行第2、3、4级的一条指 令各需要用多少时间(ns)? 答:第1级:1条1级指令 K ns 第2级:1条2级指令N条1级指令 1*N*K ns = NK ns 第3级:1条3级指令N条2级指令 1*N*NK ns =N2K ns 第4级:1条4级指令N条3级指令 1*N*NNK ns =N3K ns 2.根据Amdahl定律,系统加速比由哪两个因素决定? 答:系统加速比依赖于两个因素: (1)可改进比例:可改进部分在原系统计算时间中所占的比例 (2)部件加速比:可改进部分改进以后的性能提高 3.简述组相联映象规则。 答:(1)主存与缓存分成相同大小的数据块。(2)主存和Cache 按同样大小划分成组。(3)主存容量 是缓存容量的整数倍,将主存空间按缓冲区的大小分成区,主存中每一区的组数与缓存的组数相同 4.引起Cache与主存内容不一致的原因是什么?为了保持Cache 的一致性,在单计算机系统中一般采取哪些措施? 答:不一致的原因:(1)由于CPU写Cache,没有立即写主存 (2)由于I/O处理机或I/O设备写主存 采取措施: (1)全写法,亦称写直达法(WT法-Write through) 方法:在对Cache进行写操作的同时,也对主存该内容进行写入 (2)写回法(WB法-Write back) 方法:在CPU执行写操作时,只写入Cache,不写入主存。 5.按照同一时间内各段之间的连接方式来分,流水线可分为哪两 类? 答:(1)静态流水线:在同一时间内,流水线的各段只能按同一种功能的连接方式工作。 (2)动态流水线:在同一时间内,当某些段正在实现某种运算时,另一些段却在实现另一种运算。 6.Flynn分类法是根据什么对计算机进行分类的?将计算机分 成哪几类? 答:Flynn分类法,根据计算机中指令和数据的并行状况把计算机分成: (1)单指令流单数据流(SISD.; (2)单指令流多数据流(SIMD.; (3)多指令流单数据流(MISD.; (4)多指令流多数据流(MIMD.。 四、问答与计算题(第1题10分,第2、3题每题15分共40分) 1.一个有快表和慢表的页式虚拟存储器,最多有64个用户,每 个用户最多要用1024个页面,每页4K字节,主存容量8M字节。 (1)写出多用户虚地址的格式,并标出各字段的长度。 (2)写出主存地址的格式,并标出各字段的长度。

计算机体系结构模拟试题二汇总

模拟试题二 课程名称计算机系统结构适用班级: 考试时间120分钟班级学 号姓名 一、单项选择题(本大题共10小题,每小题2分,共20分。在每小题的四个备选答案中选出一个符合题意的,并将其前面的序号填在题后的括号内。) 1.输入输出系统硬件的功能对()是透明的。 ①操作系统程序员②应用程序员③系统结构设计人员④机器语言程序设计员 2."启动I/O"指令是主要的输入输出指令,是属于() ①目态指令②管态指令③目态、管态都能用的指令④编译程序只能用的指令 3.全相联地址映象是指() ①任何虚页都可装入主存中任何实页的位置 ②一个虚页只装进固定的主存实页位置 ③组之间是固定的,而组内任何虚页可以装入任何实页位置 ④组间可任意装入,组内是固定装入 4.()属于MIMD系统结构。 ①各处理单元同时受同一个控制单元的管理 ②各处理单元同时接受同一个控制单元送来的指令 ③多处理机和多计算机系统 ④阵列处理机 5.在下列方法中,指令并行度不能大于1的是()。 ①超级流水②超标量③超长指令字④标量流水线 6.设16个处理器编号分别为0,1,2,…,15用Cube3互联函数时,第10号处理机与第( )

号处理机相连. ①11 ②8 ③l4 ④2 7.若输入流水线的指令既无局部性相关,也不存在全局性相关,则() ①可获得高的吞吐率和效率②流水线的效率和吞吐率恶化 ③出现瓶颈④可靠性提高 8.对于共享主存的多处理机系统,在各个CPU都带有自己的Cache的情况下,为保证处理机所带Cache的一致性,可采用的方法有() ①写直达法②写回法③播写法④堆栈法 9.下面哪种相关不是流水线顺序流动方式所具有的() ①数据相关②指令相关③先读后写④先写后读 10.下面关于Omega网络和多级立方体网络的说法错误的是() ①Omega网络采用四功能单元 ②Omega网络和多级立方体网络的控制方式是不一样的 ③Omega网络可以实现一个处理单元与多个处理单元的同时连接 ④Omega网络和多级立方体网络的级编号顺序正好相反。 二、填空题(本大题共10小题,每小题1分,共10分。把答案填在题中横线上。) 1.为提高计算机系统的并行性,可通过的技术途径有__________、资源重复和资源共享。 2.按弗林(Michael J.Flynn)的观点,计算机系统可分为SISD、、MISD 和MIMD四大类。 3.为提高访Cache的命中率,Cache的预取算法可以有恒预取法和___________预取法。 4.衡量主存性能的指标是访问时间、存储周期和__________。 5.要实现两条指令在时间上重叠解释,首先是以增加硬件为代价的,其次,还要处理好指令之间可能存在的。 6.互连网络的交换方法主要有线路交换、包交换、线路/包交换,SIMD互连网络多采用交换,多处理机常采用包交换。 7.为同时解释相邻两条或多条指令,常用的控制方式是重叠和____________。 8.数组多路通道与设备之间的数据传送的基本单位是_____。 9.多级互连网络的交换开关控制方式主要有三种,分别是______、单元控制和部分级控制。 10.多处理机系统按照连接的紧密程度主要分两大类,分别是___________和松散耦合多处理

计算机系统结构第1-8章部分作业答案复习课程

计算机系统结构第1-8章部分作业答案

第一章 1.6 某台主频为400MHz 的计算机执行标准测试程序,程序中指令类型、执行数量和平均时钟周期数如下: 求该计算机的有效CPI 、MIPS 和程序执行时间。 解:(1)CPI =(45000×1+75000×2+8000×4+1500×2) / 129500=1.776 (或 259 460 ) (2)MIPS 速率=f/ CPI =400/1.776 =225.225MIPS (或 259 5180 MIPS) (3)程序执行时间= (45000×1+75000×2+8000×4+1500×2)/ 400=575μs 1.9 假设某应用程序中有4类操作,通过改进,各操作获得不同的性能提高。具体数据如下表所示: (1)改进后,各类操作的加速比分别是多少? (2)各类操作单独改进后,程序获得的加速比分别是多少? (3)4类操作均改进后,整个程序的加速比是多少? 解:根据Amdahl 定律Se Fe Fe S n + -= )1(1可得

4类操作均改进后,整个程序的加速比: 2.16)1(1 ≈+-=∑∑i i i n S F F S 1.10 第二章 变长编码,哈夫曼编码 第三章 3.12 有一条指令流水线如下所示: (1)求连续输入10条指令的情况下,该流水线的实际吞吐率和效率。 (2)该流水线的瓶颈在哪一段?请采用两种不同的措施消除此瓶颈。对于你所给出的两种新的流水线,连续输入10条指令时,其实际吞吐率和效率各是多少? 解: (1)本题主要考察对各功能段用时不等的线性流水线的性能计算公式的掌握情况。 2200(ns) 2009200)10050(50t n t T max k i i =?++++=?-+?=∑=)1(1 流水 )(ns 220 1 T n TP 1-==流水

计算机体系结构期末试卷及答案

课程测试试题( A 卷) ----------------------以下为教师填写-------------------- I、命题院(部):信息科学与工程学院 II、课程名称:计算机体系结构 III、测试学期:2014-2015学年度第2学期 IV、测试对象:信息学院计算机、网络专业 2012 级班 V、问卷页数(A4): 3 页 VI、答卷页数(A4): 4 页 VII、考试方式:闭卷(开卷、闭卷或课程小论文,请填写清楚) VIII、问卷内容: 一、填空题(共30分,20空,每空分) 1、现代计算机系统是由()和()组成的十分复杂的系统。 2、计算机系统应能支持软件可移植,实现可移植性的常用方法有3种,即(),(), 统一高级语言。 3、可以将当前大多数通用寄存器型指令集结构进一步细分为3种类型,即()、() 和存储器-存储器型指令集结构。 4、MIPS指令DADDIU R14,R5,#6属于()类型的指令格式;MIPS指令 SD R4,300(R5)属于()类型的指令格式。 5、描述流水线的工作,常采用时空图的方法。在时空图中,横坐标表示(),纵坐 标代表()。 6、在MIPS指令实现的简单数据通路中,在WB周期中,有两大类指令执行操作:() 和()指令。 7、存储器的层次结构中,“Cache-主存”层次是为了弥补主存()的不足,“主 存-辅存”层次是为了弥补主存()的不足。 8、Cache实现的映像规则有全相联映像、()和()三种。 9、反映存储外设可靠性能的参数有可靠性、()和()。 10、根据系统中处理器个数的多少,可把现有的MIMD计算机分为两类,每一类代表 了一种存储器的结构和互连策略。第一类机器称为()结构,第二类机器具有()。 二、判断题(每小题1分,共10分) 1、从计算机语言的角度,系统结构把计算机系统按功能划分成多级层次结构,其中, 第2级是操作系统虚拟机,第3级是汇编语言虚拟机。() 2、计算机系统中提高并行性的3种途径中,资源重复是在并行性概念中引入时间因 素,加快硬件周转而赢得时间。() 3、指令集结构中采用多种寻址方式可能会增加实现的复杂度和使用这些寻址方式的 指令的CPI。() 4、指令条数多,通常超过200条,是设计RISC的原则之一。() 5、根据流水线中各功能段之间是否有反馈回路,可把流水线分为线性流水线和非线 性流水线。() 6、在多级存储体系中,“cache——主存”层次的存储管理实现主要由软件件实现。

相关主题
文本预览
相关文档 最新文档