当前位置:文档之家› 计算机系统结构第二章

计算机系统结构第二章

计算机系统结构第二章
计算机系统结构第二章

第二章

计算机性能和成本

2.1 引言

设计一个计算机系统,除了要搞清楚软硬件界面外,还

要从设计角度按所希望达到的最佳性能与价格比,最合理

地实现硬件功能。

但什么是计算机系统的性能与价格,它们如何衡量,有

哪些方法?

计算机系统设计分:

?追求高性能指标的设计

?追求低成本的设计

?介于上述两者之间的设计

下面讨论主要针对第三种设计方式。

2.2 计算机性能

2.2.1 衡量计算机性能的主要标准

计算机系统性能最可靠的衡量尺度是时间,如:

?响应时间

指用户向计算机系统送入一个任务后,到获得所

需要的结果,所等待的时间。

?CPU 时间

分系统CPU 时间,用户CPU 时间。

衡量CPU 性能,采用用户CPU 时间是比较合适

的方法。

此外,用主频衡量CPU 的速度也是通常采用的方法。

一般主频越高,CPU 速度也越高。如IV P 主频现在已达到

几个GHZ 。

2.2.2 CPU 性能

这里采用用户CPU 时间来衡量CPU 性能。一个程序

在CPU 上运行所需时间可表示为:

C N C P U T C P I I T ??=

N I 程序指令总数,这主要取决于机器指令系统和

编译技术。

CPI 指令执行平均时钟周期,这与计算机组成和指令

系统有关。

C T 时钟周期时间长度,这主要由硬件工艺和计算机

组成决定。 其中CPI 计算如下: 执行整个程序所需CPU 时钟周期数

CPI=

程序中指令数

N n

i i i I I CPI

∑=?=1)(∑=?=n

i N i i I I CPI 1)(

其中,

i I 表示第i 类指令在程序中执行的次数,

i CPI 表示执行一条第i 类指令所需的平均时钟周期数,

n 为程序中所有的指令种类数,

N i I I / 表示第i 种指令在程序中所占的比例。

下面是两个上述概念和公式应用的例子。

例1假定在设计机器的指令系统时,对条件转移指令的

设计有以下两种不同的选择:

A C P U 采用一条比较指令来设置相应的条件码,由紧

跟其后的转移指令对此条件码进行测试,以确定是否进行

转移。显然实现一次条件转移必须使用比较和测试两条指

令。

B C P U 采用具有比较和判别是否转移功能的指令,实

现一次条件转移只需要一条指令就可完成。

假定在两个机器的指令系统中,执行条件转移指令需

2个时钟周期,而其他指令只需一个周期。又假定CPUA

上执行的指令中,20%是条件转移指令。CPUB 的时钟周

期比CPUA 的时钟周期慢25%。问采用两种转移指令方案

哪一种速度会更快?

解:

由假设,

2.118.022.0=?+?=A C P I

CA NA CA A NA CPUA T I T CPI I T ??=??=2.1

CPUB 转移指令占的百分比为:

20% ÷ 80% = 25%

25.1175.0225.0=?+?=B CBI

NA NB I I ?=8.0

CA CB T T ?=25.1

CB B NB CPUB T CPI I T ??=CA NA T I 25.125.18.0??=

CA NA T I ?=25.1

比较两者,CPUA 所需时间较少,CPUA 比CPUB 运行快。 例2 上例中,若CPUB 时钟周期只比CPUA 的慢10%,哪

一个会更快些?

解:

CA NA CPUA T I T ?=2.1

CA CB T T ?=10.1

CA NA CA NA CPUB T I T I T ?=??=10.110.125.18.0

此时CPUB 所需时间较少,CPUB 比CPUA 运行更快些。

2.2.3 MIPS 和MFLOPS

这是以单位时间内机器执行的指令数作为性能的评估

标准。

1. MIPS(Million instraction per second)

MIPS 指每秒百万次指令,对给定的一个程序,MIPS

可计算如下:

666101010?=???=?=CPI R T CPI I I T I MIPS C C N N E N

其中,E T 程序执行的时间,

C R C T 1= 时钟频率。

有时也用相对f

MIPS Re 标准,这是事先选定一个计算 机作参照机,然后评估机与其比较,计算如下:

REF V f f MIPS T T MIPS ?=Re Re

其中,f T Re 为程序在参照机上执行的时间,

V T 相同程序在评估机上执行的时间,

一个REF MIPS 是约定参照机的MIPS 值。

MIPS 常用于标量机的评估,标量机指执行一条指令获得一 个运算结果的计算机。

2. MFLOPS(Million floating point per second)

MFLOPS 指每秒钟百万次浮点运算,可表示为如下的

计算式子:

610?=E FN

T I MFLOPS

其中,FN I 为程序中浮点运算的次数,在计算FN I 时服务

性指令不计在内。

MFLOPS 值会随整数、浮点数混合比例不同和浮点快

速与慢速操作混合比例的不同而变化,为此,在MFLOPS 求值中,对程序中的每一种操作要加权。

标量机执行一次浮点操作需2~5条指令,平均为3条

指令,由此一般 1 MFLOPS = 3 MIPS 。

MFLOPS 主要用于向量机的性能评估。

2.2.4 评估性能的基准测试程序

对计算机系统性能的评价,与机器的结构、功能特性、

输入以及系统的工作负荷等有密切关系。为了对计算机系

统性能进行客观的评价,通常采用不同层次的基准测试程

序(Benchmark) 来评价系统性能。

(1) 采用实际应用程序。

(2) 采用核心程序

从实际程序中抽取少量关键循环程序段,并以此来评

估性能。如典型的有:

Livermore 24 Loops(2 4个循环段)

Linpark(解线性方程组)

(3) 采用合成测试程序

这是人工编制的程序,较流行的合成测试程序有:

Whetstone 有关整、浮点运算的合成混合,

Dhrystone 主要是有关整数计算。

(4) 采用综合测试程序

这是由1988年成立的SPEC 组识(系统性能评价合作

团体) 推出的测试程序。SPEC 第一版(1989) 典型测试程 由10个程序组成,其中4个用C 语言编写,余下6个用 FORTRAN 语言编写。

测试结果主要有3个值:

mark SPEC

(综合测试) int SPEC

(整数运算测试) fp

SPEC (浮点运算测试) SPEC 由HP 、DEC 、MIPS 、SUN 公司等发起成立,

前后陆续发布了1989、1992、1995、1998等版本的测试 程序。

2.2.5性能评价结果的统计和比较

关于计算机性能的评价,通常用两个指标:

峰值性能(Peak performance) 是理想情况下计算机系

统可获得的最高理论性能值。不能反映系统的实际性能。

持续性能 实际性能,一般只有 5% ~ 35%的理论性能。

持续性能用三种平均值表示,计算如下:

(1) 算术性能平均值m A

2

11111(1111T T n T n R n A n i i n i I m +===∑∑==)1n T +???+ 其中i R 表示执行第i 个程序的速率,i i T R 1=

若以执行时间表示性能,则有∑==n i i

m T n A 1

1。 (2) 几何性能平均值m G

n n

i i n n i I m T R G ∏∏

====111

(3) 调和性能平均值m H

n n i i n

i i m T T T n T n R n H +???++===∑∑

==211

11 以上三个公式中,若考虑程序不会以相等比例出现,计算 时就需要对程序执行速率或执行时间加上相应的权值。

以上三种平均值方法,m H 值衡量计算机性能较为精确,

但m G 表示法有一个很好的特性:)()()(i i i m i m Y X G Y G X G =

即几何平均比与比的几何平均是相等的。

由此,在对各种机器进行性能比较时,无论以哪台机

器作参考机进行性能规格化(以参考机性能为参考标准,其 他机器性能除以参考标准所得到的比值),m G 均能保持比

较结果的一致性,而m A 和m B 则没有这样的特性。

下面例子是用两个基准测试程序对三台机器X 、Y 和

Z 进行测试获得运行的时间,然后分别以X 机和Y 机作参

考机进行规格化并求其m G 值,两者是一致的。

以X 机为标准规格化测试值和m G 值

以Y 机为标准规格化测试值和m G 值

2.2.6加速比性能指标和性能可伸缩性指标

上面对计算机性能的衡量,是针对单机系统的。对多 处理机系统,考虑的是采用多机处理比单机处理可获取多 大的性能加速比。

多机对单机的性能加 速比表示为:

),(),()

1,(),(n p h n p T p T n p S +=

其中,p 为求解问题的大小,n 为处理机数,

T(p,1) 表示采用最优串行算法,在单机上运行的时间,

T(p,n) 表示采用n 个处理机处理所需时间,

H(p,n) 表示n 个处理机间的通信和I/O 开销。

在多处理机系统,衡量性能的另一个指标是系统性能

的可伸缩性。这是指对给定的应用问题,计算机系统性能 随着系统处理机数目的增加而线性地增长。

2.3计算机成本和价格

计算机系统设计的目标是高的性能价格比,即单位性

能的增长(通常是1MIPS 或1MFLOPS) 所需花费的代价为 最小。因此必须分析设计中的成本与价格的关系。

下面以1990年的工作站为例,来观察成本对设计的影响。由元器件成本到价目单定价的演变过程可用下图表示:

100 71~ 25~

8044%

元器件成本:最基本成本,

直接成本:劳动力、采购器件、器件报费、保修等,

平均销售价:在上两个成本上加间接成本,如研制开发

费、销售费、制造设备维护费、厂房租金、

财务费、付税前利润及税务费、等,

价目单定价:在平均销售价上加批发零售差价。

从上面看出成本与价格之间相差很大,一般成本仅占价格的

3

1

~

6

1

, 成本经过几重变化, 最后变为价格。成本增加1000元,价格就上升3000 ~4000元。研究开发费占收入为了8% ~ 15%,这一比例基本不变。

计算机体系结构第五章练习题参考解答

第 五 章 5.34 在一个采用组相联映象方式的Cache 存储系统中,主存由B 0~B 7共8块组成,Cache 有2组,每组2块,每块大小为16B 。在一个程序执行过程中,访存的主存块地址流为:B 6,B 2,B 4,B 1,B 4,B 6,B 3,B 0,B 4,B 5,B 7,B 3。 (1)写出主存地址的格式,并标出各字段的长度。 (2)写出Cache 地址的格式,并标出各字段的长度。 (3)指出主存与Cache 之间各个块的映象关系。 (4)若Cache 的4个块号为C 0、C 1、C 2和C 3,列出程序执行过程中的Cache 块地址流。 (5)若采用FIFO 替换算法,计算Cache 的块命中率。 (6)若采用LRU 替换算法,计算Cache 的块命中率。 (7)若改为全相联映象方式,再做(5)和(6)。 (8)若在程序执行过程中,每从主存装入一块到Cache ,平均要对这个块访问16次,计算在这种情况下的Cache 命中率。 解:(1)(2)采用组相联映象时,主存和Cache 地址的格式分别为: 主存按Cache 的大小分区,现主存有8个块,Cache 有2×2=4个块,则主存分为8/4=2 个区,区号E 的长度为1位。又每区有2个组,则组号G 、g 的长度都为1位。而每组有2个块,则块号B 、b 的长度又都为1位。每块大小为16个存储字,故块内地址W 、w 的长度都为4位。 (3)根据组相联映象的规则,主存块0~7与Cache 块0~3之间的映象关系为:主存块0、1、4、5与Cache 块0、1之间全相联,主存块2、3、6、7与Cache 块2、3之间全相联。 (4)根据组相联映象的规则,该主存块地址流相应的一种Cache 块地址流如下表所示(组内替换算法为FIFO )。 时间: 1 2 3 4 5 6 7 8 9 10 11 12 主存块地址流: B 6 B 2 B 4 B 1 B 4 B 6 B 3 B 0 B 4 B 5 B 7 B 3 Cache 块地址流: C 2 C 3 C 0 C 1 C 0 C 2 C 2 C 0 C 0 C 0 C 3 C 2 (5)组内替换算法采用FIFO 时,Cache 块0~3的使用过程如下表所示。 时间: 1 2 3 4 5 6 7 8 9 10 11 12 主存块地址流: B 6 B 2 B 4 B 1 B 4 B 6 B 3 B 0 B 4 B 5 B 7 B 3 Cache 块0 Cache 块1 Cache 块2 Cache 块3 命中 命中 命中 可见命中三次,Cache 块命中率为H i = 3/12 = 0.25。 (6)组内替换算法采用LRU 时,Cache 块0~3的使用过程如下表所示。

计算机系统结构_第五章练习 答案

第五章练习 1、描述计算机系统流水线的性能指标有哪些?其定义和定量表达式是什么? 指标主要有吞吐率、加速比、效率。 (1)吞吐率:在单位时间内流水线所完成的任务数量或输出的结果数量。 基本公式:TP=n/Tk,其中,n是任务数,Tk是处理完成n个任务所用的时间。 各个功能段执行时间均相等,输入连续n个任务的一条k段线性流水线的实际吞吐率为:TP=n/[(k+n-1) ?t] (2)加速比:完成一批任务,不使用流水线所用的时间与使用流水线所用的时间之比。 基本公式:S=T0/Tk,其中,T0为不使用流水线所用的时间,Tk为使用流水 线的执行时间。 各个功能段执行时间均相等的一条K段流水线完成n个连续任务时的实际加速比为:s=k*n*?t/[(k+n-1) ?t]=k*n/( k+n-1). (3)效率:指流水线的设备利用率。 在时空图上,流水线的效率定义为n个任务占用的时空区与k个功能段总的时空区之比。即:E=T0/(k*Tk) 各个功能段执行时间均相等,输入连续n个任务的一条k段线性流水线的效率为:E=n/(k+n-1) 2、假设某个流水线由4个功能部件组成,每个功能部件的执行时间都为?t。当 连续输入10个数据后,停顿5?t,又连续输入10个数据,如此重复。 画出时空图,计算流水线的实际吞吐率,加速比和效率。 总时间:Tk=[(4+10-1)+2] *?t*n =15n*?t 实际吞吐率:TP=N/Tk=10n/(15n*?t)=2/(3?t) 不使用流水线所用的时间为T0=4*N*?t =40n*?t 加速比:S=T0/Tk=2.67 效率:E=T0/(k*Tk)=0.67

计算机组成与设计第五版答案

计算机组成与设计(2010年机械工业出版社出版的图书): 《计算机组成与设计》是2010年机械工业出版社出版的图书,作者是帕特森(DavidA.Patterson)。该书讲述的是采用了一个MIPS 处理器来展示计算机硬件技术、流水线、存储器的层次结构以及I/O 等基本功能。此外,该书还包括一些关于x86架构的介绍。 内容简介: 这本最畅销的计算机组成书籍经过全面更新,关注现今发生在计算机体系结构领域的革命性变革:从单处理器发展到多核微处理器。此外,出版这本书的ARM版是为了强调嵌入式系统对于全亚洲计算行业的重要性,并采用ARM处理器来讨论实际计算机的指令集和算术运算。因为ARM是用于嵌入式设备的最流行的指令集架构,而全世界每年约销售40亿个嵌入式设备。 采用ARMv6(ARM 11系列)为主要架构来展示指令系统和计算机算术运算的基本功能。 覆盖从串行计算到并行计算的革命性变革,新增了关于并行化的一章,并且每章中还有一些强调并行硬件和软件主题的小节。 新增一个由NVIDIA的首席科学家和架构主管撰写的附录,介绍了现代GPU的出现和重要性,首次详细描述了这个针对可视计算进行了优化的高度并行化、多线程、多核的处理器。 描述一种度量多核性能的独特方法——“Roofline model”,自带benchmark测试和分析AMD Opteron X4、Intel Xeo 5000、Sun Ultra SPARC T2和IBM Cell的性能。

涵盖了一些关于闪存和虚拟机的新内容。提供了大量富有启发性的练习题,内容达200多页。 将AMD Opteron X4和Intel Nehalem作为贯穿《计算机组成与设计:硬件/软件接口(英文版·第4版·ARM版)》的实例。 用SPEC CPU2006组件更新了所有处理器性能实例。 作者简介: David A.Patterson,加州大学伯克利分校计算机科学系教授。美国国家工程研究院院士。IEEE和ACM会士。曾因成功的启发式教育方法被IEEE授予James H.Mulligan,Jr教育奖章。他因为对RISC 技术的贡献而荣获1 995年IEEE技术成就奖,而在RAID技术方面的成就为他赢得了1999年IEEE Reynold Johnson信息存储奖。2000年他~13John L.Hennessy分享了John von Neumann奖。 John L.Hennessy,斯坦福大学校长,IEEE和ACM会士。美国国家工程研究院院士及美国科学艺术研究院院士。Hennessy教授因为在RISC技术方面做出了突出贡献而荣获2001年的Eckert-Mauchly奖章.他也是2001年Seymour Cray计算机工程奖得主。并且和David A.Patterson分享了2000年John von Neumann奖。

计算机系统结构 第一章自考练习题答案教学内容

第一章计算机系统结构的基本概念 历年真题精选 1. 下列对系统程序员不透明的是()。 A. 乘法器 B. 先行进位链 C. 指令缓冲器 D. 条件码寄存器2.“从中间开始”设计的“中间”目前多数是在( D )。 A. 微程序机器级与汇编语言机器级之间 B. 操作系统机器级与汇编语言机器级之间 C. 传统机器语言机器级与微程序机器级之间 D. 传统机器语言机器级与操作系统机器级之间 3. 开发计算机系统结构并行性的主要技术途径有时间重叠、(资源重复)和(资源 共享)。 4. 计算机系统弗林分类法,把计算机系统分成单指令流单数据流(SISD)、单指令流多数 据流(SIMD)、(多指令流单数据流(MISD))和(多指令流多数据流(MIMD))四大类。 5. 设计指令系统时,以乘法运算为例,简述系统结构设计、计算机组成设计、计算机实现 各应考虑的问题。(P4) 6. 实现软件移植的途径有哪些?各受什么限制?(P14) 同步强化练习 一.单项选择题。 1. 实现汇编语言源程序变换成机器语言目标程序是由( C )。 A. 编译程序翻译 B. 编译程序解释 C. 汇编程序翻译 D. 汇编程序解释

2. 系列机软件应做到( B ) A. 向前兼容,并向下兼容 B. 向后兼容,力争向上兼容 C. 向前兼容,并向上兼容 D. 向后兼容,力争向下兼容 3. 在计算机系统多级层次结构中,机器级由低到高,相对顺序正确的应当是( B )。 A. 传统机器语言、汇编语言、操作系统 B. 微程序、传统机器语言、高级语言 C. 高级语言、汇编语言、传统机器语言 D. 传统机器语言、应用语言、高级语言 4. 可以直接执行微指令的是( C )。 A. 编译程序 B. 微程序 C. 硬件 D. 汇编程序 5. 计算机系统结构不包括( A )。 A. 主存速度 B. 数据表示 C. 机器工作状态 D. 信息保护 6. 对计算机系统结构透明的是()。 A. 是否使用通道型I/0处理机 B. 虚拟存储器 C. 字符行运算指令 D. VLSI技术 7. 在主存设计上,属计算机系统结构考虑的应是( C )。 A. 频宽的确定 B. 多体交叉还是单体 C. 容量和编址单位 D. 用MOS还是TTL 8. 计算机组成设计不考虑( B )。 A. 缓冲技术 B. 功能部件的集成度 C. 专用部件设置 D. 控制机构的组成 9. 下列说法中不正确的是( D ) A. 硬件的生产费用比软件的生产费用高 B.软件设计费用比软件重复生产费用高 C. 硬件功能只需实现一次而软件功能可能要多次重复实现 D. 硬件实际费用比软件设计费用低

计算机系统结构李学干版习题答案

第一章 1- 1如有一个经解释实现的计算机,可以按功能划分成4级。每一级为了执行一条指令需要下一级的N条指令解释。若执行第1级的一条指令需K ns时间,那么执行第2、3、4级的一条指令各需要多少时间? 答:执行第2、3、4级的一条指令各需KN ns、(N*N)*K ns、(N*N*N)*K ns 的时间。 1- 2操作系统机器级的某些指令就用传统机器级的指令,这些指令可以用微程序直接解释实现,而不必有操作系统自己来实现。更具你对1-1题的回答,你认为这样做有哪些好处? 答:这样做,可以加快操作系统中操作命令解释的速度,同时也节省了存放解释操作命令这部分解释程序所占的存储空间,简化了操作系统机器级的设计,也有利于减少传统机器级的指令条数。 1- 3有一个计算机系统可按功能分成4级,每级的指令互不相同,每一级的指令都比其下一级的指令在效能上强M倍,即第i级的一条指令能完成第i-1级的M条指令的计算量。 现若需第i级的N条指令解释第i+1级的一条指令,而有一段第1级的程序需要运行Ks,问在第2、3和4级上一段等效程序各需要运行多长时间? 答:第2级上等效程序需运行:(N/M)*Ks。第3级上等效程序需运行:(N/M)*(N/M)*Ks。 第4级上等效程序需运行:(N/M)*(N/M)*(N/M)*Ks。 1- 4硬件和软件在什么意义上是等效的?在什么意义上又是不等效的?试举例说明。 答:软件和硬件在逻辑功能上是等效的,原理上,软件的功能可用硬件或固件完成,硬件的功能也可用软件模拟完成。但是实现的性能价格比,实现的难易程序不同。

例如,编译程序、操作系统等许多用机器语言软件子程序实现的功能完全可以用组合电路硬件或微程序固件来解释实现。它们的差别只是软件实现的速度慢,软件的编制复杂,编程工作量大,程序所占的存储空间量较多,这些都是不利的;但是,这样所用硬件少,硬件实现上也就因此而简单容易,硬件的成本低,解题的灵活性和适应性较好,这些都是有利的。 又如,乘除法运算可以经机器专门设计的乘法指令用硬件电路或乘除部件来实现。向量、数组运算在向量处理机中是直接使用向量、数组类指令和流水或陈列等向量运算部件的硬件方式来实现的,但在标量处理机上也可以通过执行用标量指令组成的循环程序的软件方式来完成。 浮点数运算可以直接通过设置浮点运算指令用硬件来实现,也可以用两个定点数分别表示浮点数的阶码和尾数,通过程序方法把浮点数阶码和尾数的运算映像变换成两个定点数的运算,用子程序软件的方式实现。十进制数的运算可以通过专门设置十进制数运算类指令和专门的十进制运算部件硬的方式来完成,或者通过设置BCD数的表示和若干BCD数运算的校正指令来软硬结合地实现,也可以先经十转二的数制转换子程序将十进制数转成二进制数,再用二进制运算类指令运算,所得结果又调用二转十的数制转换子程序转换成十进制数结果,用全软件的方式实现。 1- 5试以实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系与影响。 答:计算机系统结构、计算机组成、计算机实现互不相同,但又相互影响。 (1)计算机的系统结构相同,但可采用不同的组成。如IBM370系列有115、125、135、158、168等由低档到高档的多种型号机器。从汇编语言、机器语言程序设计者看到的概念性结构相同,均是由中央处理机/主存,通道、设备控制器,外设4级构成。其中,中央处理机都有相同的机器指令和汇编指令系统,只是指令的分析、执行在低档机上采用顺序进行,在高档机上采用重叠、流水或其它并行处理方式。

吉林大学计算机系统结构题目整合第五章

第五章存储层次 知识点汇总 存储器层次结构、存储层次性能参数(平均每位价格、命中率、平均访存时间)、存储层次4个问题、CPU 访存地址分割、全相联映像、直接映像、组相联映像、查找方法、替换算法(随机、先进先出、最近最少使用法)、写直达法、写回法、按写分配、不按写分配、Cache性能分析、3C失效(强制失效、容量失效、冲突失效)、Victim Cache、伪相联映像Cache、硬件预取、编译器优化(数组合并、内外循环交换、循环融合、分块)、写缓冲合并、单字宽存储器、多字宽存储器、多体交叉存储器、存储体、虚拟存储器(页式、段式)、快表(TLB) 简答题 1.单级存储器的主要矛盾是什么?通常采取什么方法来解决?(知识点:多级存储器) 答:主要矛盾: (1) 速度越快,每位价格就越高。 (2) 容量越大,每位价格就越低。 (3) 容量越大,速度越慢。 采取多级存储层次方法来解决。 2.“Cache-主存”和“主存-辅存”层次的主要区别是什么?(知识点:存储层次)

3.在存储层次中应解决哪四个问题?(知识点:存储层次的四个问题) 答:(1)映像规则:当把一个块调入高一层存储器时,可以放到哪些位置上。 (2)查找算法:当所要访问的块在高一层存储器中时,如何找到该块。 (3)替换算法:当发生失效时,应替换哪一块。 (4)写策略:当进行写访问时,应进行哪些操作。 4.地址映像方法有哪几种?它们各有什么优缺点?(知识点:地址映像) (1)全相联映像。实现查找的机制复杂,代价高,速度慢。Cache空间的利用率较高,块冲突概率较低,因而Cache的失效率也低。 (2)直接映像。实现查找的机制简单,速度快。Cache空间的利用率较低,块冲突概率较高,因而Cache 的失效率也高。 (3)组相联映像。组相联是直接映像和全相联的一种折中。 5.Cache的3C失效是哪三种失效?针对每种失效给出一种降低失效率的方法。(知识点:3C失效) 答:强制性失效、容量失效、冲突失效。 6.简述Cache的两种写策略(知识点:写直达、写回) 写直达法:执行“写”操作时,不仅写入Cache,而且也写入存储器

计算机系统结构 第五章(习题)

1. 向量流水机的工作方式可分为哪两大类?它们的主要特点是什么? 2. 向量的加工方法有哪几种?各有什么特点?试从加工速度、需用中间变量 等方面加以比较。 3. 在CRAY1机上,V为向量寄存器,设向量长度均为32,s为标量寄存器, 所用浮点功能执行部件的执行时间分别为:加法需6拍,相乘需7拍,从存储器读数需6拍,求倒数近似值需14拍,打入寄存器及启动功能部件(包括寄存器)各需1拍。问下列各指令组中的哪些指令可以链接?哪些指令可以并行执行?试说明其原因并分别计算出各指令组全部完成所需的拍数。 (1)V0←存储器 V1←V2+V3 V4←V5*V6 (2)V2←V0*V1 V3←存储器 V4←V2+V3 (3)V0←存储器 V3←V1+V2 V4←V0*V3 V6←V4+V5 (4)V0←存储器 V1←1/V0 V3←V1+V2 V5←V3*V4 (5)V0←存储器 V1←V2+V3 V4←V5*V6 s0←s1+s2 (6)V3←存储器 V2←V0+V1 s0←s2+s3 V3←V1*V4 (7)V3←存储器 V2←V0+V1 V4←V2*V3 存储器←V4 (8)V0←存储器 V2←V0+V1 V3←V2*V1 V5←V3*V4 4. 在CRAYl机上,按链接方式执行下述4条向量指令(括号中给出相应功能 部件时间),如果向量寄存器和功能部件之间的数据传送需1拍,试求此链

接流水线的流过时间为多少拍?如果向量长度为64,则需多少拍能得到全部结果? V0←存储器(存储器取数:7拍) V2←V0+Vl (向量加:3拍) V3←V2<A3 (按(A3)左移:4拍) V5←V3∧V4 (向量逻辑乘:2拍) 5. 若某个向量机其向量方式的执行速率Rv=10MFLOPS,标量方式的执行速 率Rs=1MFLOPS,设α是程序中可向量化的百分比。要求: ⑴推导该向量机的平均执行速率Ra的公式。 ⑵画出在(0,1)范围内,Ra与α的关系图。 ⑶为使平均执行速率Ra=7.5MFlOPS,则α应取何值? ⑷假定Rs=1MFLOPS,α=0.7,则为使Ra=2MFLOPS,Rv应取何值?

计算机系统结构第五章

第五章 标量流水技术 计算机处理器的主要功能是控制指令的解释执行,为了能引入并行处理,目前普遍使用一种经济有效的方法,即流水控制方式。 本章讨论的是有关流水控制的概念、原理、涉及的问题与解决的办法,以及流水控制技术的应用和进一步的发展。 5.1控制流及其改变 按算法要求控制指令序列的先后顺序执行称控制流,通常指令的执行顺序是相继的,但控制流经常会发生间断,破坏顺序性,主要有以下几种情况: 1.转移指令 不转移:PC = K0 + K1T 转移:控制流发生间断,以目标地址为起始点, 再顺序流动。 K (a)(b) 2.过程调用和返回 可嵌套和递归,返回时从原来断点继续执行。 3.协同程序 与调用不同,被调用过程不总是从头开始,如下 图。 协同程序A协同程序B 4.中断和自陷 为使流水控制方式能高效地解释指令,程序执行的控 制流必须是连续的,因此对控制流的改变要采取有效的措施,以保证流水控制的实现。 5.2标量流水工作原理 5.2.1重叠操作方式和先行控制 指令的解释执行有以下几种工作方式: 1. 顺序方式 这种方式指令串行执行,设一条指令的解释分为:取

指、分析、执行三个阶段,指令解释执行如下图所示: 设各阶段执行时间为t ,解释n 条指令的时间是: t n T ??=3 若各阶段执行时间不同,分别为t 取、t 分、t 执,则解释 n 条指令时间为: ∑==n i T 1(t 取i +t 分i +t 执i ) 顺序方式控制简单,但指令串行解释速度慢,设备利用率 低。 2. 重叠方式 这是使相邻指令的解释在一些阶段上的操作在时间上 重叠执行,如: 或 T = ( 2n + 1) t 重叠方式需增设指令缓冲寄存器,在执行k 条指令时存放 k+1条指令。同时还要解决取操作数与取指令都要访问存 储器的冲突。 解决冲突的方法: ? 使用分开的指令存储器和数据存储器,称为哈佛结构, 如Pentium 处理器设置有指令Cache 和数据Cache 。 ? 采用多体交叉存储器 ? 设置指令缓冲寄存器组 这可预取指令,取指阶段时间短,可以合并到分析阶 段,一条指令解释是分析和执行两个阶段。重叠方式如下: 这称为一次重叠。

《大学计算机基础》第五版_第1-4章课后习题答案

1.简述计算机系统的组成。 由硬件系统和软件系统组成 2.计算机硬件包括那几个部分?分别说明各部分的作用。 a)主机和外设 b)主机包括中央处理器和内存作用分别是指挥计算机的各部件按照指令的功能要求协调工作和存放预执行的程序和数据。外设包括输入输出设备和外存,作用是接受用户输入的原始数据和程序并将它们转化为计算机可以识别的形式存放在内存中,将存放在内存中由计算机处理的结果转变为人们所能接受的形式。 3.指令和程序有什么区别?试述计算机执行指令的过程。 a)指令是能被计算机识别并执行的二进制代码,程序是计算机指令的有序集合。 b)取指令,分析指令,执行指令。 4.指令的串行执行和并行执行有什么区别? 串行执行即在任何时刻只能执行一条指令,并行执行可以执行多条指令。 5.什么是流水线技术? 在程序执行时多条指令重叠进行操作的一种准并行处理技术。 6.简述系统软件和应用软件的区别。 系统软件是指控制计算机的运行、管理计算机的各种资源、并为应用软件提供支持和服务。应用软件是利用计算机的软、硬件资源为某一专门目的而开发的软件。 7.简述机器语言、汇编语言、高级语言各自的特点。 机器语言编程工作量大、难学难记难修改;汇编语言编程质量高,站存储空间少、执行速度快;高级语言接近自然语言和数学公式。 8.简述解释和编译的区别。 解释的翻译工作可立即执行,而编译的翻译工作不可立即装入机器执行。 9.简述将资源程序编译成可执行程序的过程。 首先产生一个与资源程序等价的目标程序,然后连接程序将目标程序和有关的程序库组合成一个完整的可执行程序。 10.简述常用各种高级语言的特点。 FORTRAN:用于科学计算。COBOL:面向商业的通用语言。C/C++:功能丰富,灵活,简洁明了。BASIC:非结构化,功能少,速度慢。JAVA:严谨可靠易懂。 11.什么是主板?它主要有哪些部件?各部件是如何连接的? a)主板(母版)是微型计算机中最大的一块集成电路板,也是其他部件和各种外部设备的连接载体。 b)芯片、插槽和接口。 c)通过接口连接。 12.简述主板构架的作用,并列举常见的主板构架。 作用:对主板的尺寸大小,形状,各元器件的布局、排列方式和所有的电源风格等制定出的通用标准。如ATX,Micro ATX,BTX等。 13.CPU有哪些性能指标? 主频、外频和前段总线频率字长和位数高速缓冲存储器容量核心数量制造工艺 14简述ROM和RAM的作用和区别。 ROM可读不可写、断电后数据不会丢失;RAM可读可写、断电后数据丢失。 15.简述内存和外存的特点。 内存:容量小,CPU可直接访问。外存:容量大,CPU不能直接访问。 16.什么是SATA硬盘?它有什么优点? 使用SATA接口的存储设备。结构简单,可靠性高,数据传输率高,支持热插拔。 17.简述Cacha的作用及其原理。 提高计算机性能;在CPU和内存之间放置Cacha,CPU访问它的速度比访问内存的速度快得多。 18什么是总线?列举总线类型。 总线是各部件、设备之间传送数据的公用通道。 类型:ISA,PCI,AGP. 19.简述并行总线和串行总线的优缺点。 并:适用于短距离低总线频率的传输;串:低速数据传输和高速数据传输都适用。

计算机系统结构第五章课后习题答案——武汉大学出版社

计算机系统结构第5章作业解答 第2题 解: (1)顺序执行需要的时间如下: (2)取指令和执行重叠,即一次重叠执行方式,我们假设第n+1条指令的取指令和第n 条指令的执行同时结束,那么所需要的时间为: (3)取指令、分析和执行重叠 (4)先行控制方式 第4题 解: (1) K 与K+1之间存在寄存器R1先写后读相关(RAW ); K+1与K+2之间存在寄存器R0写与写相关(W AW ); K 与K+1之间存在寄存器R0先读后写相关(WAR )。 (2) 前二种相关会引起流水线的停顿。 (3) 流水线完成这三条指令的时空图如下。共用了9个时钟周期。 t 6n n t)3t 2t (?=??+?+?=T t t n n t t t T ?+?=??+?+?=5)32(t t n t n t t t T ?+?=?-+?+?+?=53)1(3)32(t n t t T ?+?=+=∑=33t n 1 i i 1执行分析

第6题 [分析]为了减少运算过程中的操作数相关,A*B*C*D 应改为采用((A*B)*(C*D)) 的算法步骤进行运算。 [解答]按图(A)组织,实现A*B*C*D 的时空关系如下图(A)所示。 图 (A) 吞吐率TP=3/(13⊿t) 效率E =(3×5⊿t)/(3×13⊿t)=5/13 图(B ) (A)

流水线按图(B)组织时,实现A*B*C*D 的时空关系如图(B) 吞吐率TP=3/(11⊿t) 效率E =(3×5⊿t)/(5×11⊿t)=3/11 第8题 解:(1)流水线时空图如下: % 8.21266)8263(265≈??+?== τ ττE TP 31.126)8263(≈?+?= τ τ p S 第11题 解:禁止表F={1,3,4,8};原始冲突向量C=(10001101);状态转移图如下:

计算机系统结构第1-8章部分作业答案

第一章 某台主频为400MHz 的计算机执行标准测试程序,程序中指令类型、执行数量和平均时钟周期数如下: 指令类型 指令执行数量 平均时钟周期数 整数 45000 1 数据传送 75000 2 浮点 8000 4 分支 1500 2 求该计算机的有效CPI 、MIPS 和程序执行时间。 解:(1)CPI =(45000×1+75000×2+8000×4+1500×2) / 129500= (或 259 460 ) (2)MIPS 速率=f/ CPI =400/ = (或 259 5180 MIPS) (3)程序执行时间= (45000×1+75000×2+8000×4+1500×2)/400=575s 假设某应用程序中有4类操作,通过改进,各操作获得不同的性能提高。具体数据如操作类型 程序中的数量 (百万条指令) 改进前的执行时间 (周期) 改进后的执行时间 (周期) 操作1 10 2 1 操作2 30 20 15 操作3 35 10 3 操作4 15 4 1 (1)改进后,各类操作的加速比分别是多少 (2)各类操作单独改进后,程序获得的加速比分别是多少 (3)4类操作均改进后,整个程序的加速比是多少 解:根据Amdahl 定律Se Fe Fe S n + -=)1(1可得 操作类型 各类操作的指令条数在程序中所占的比例F i 各类操作的加速比S i 各类操作单独改进后,程序获得的加速比 操作1 % 2 操作2 % 操作3 % 操作4 % 4 4类操作均改进后,整个程序的加速比: 2.16)1(1 ≈+-=∑∑i i i n S F F S 第二章 变长编码,哈夫曼编码

计算机系统结构试题

第一章: 1.试述Flynn 分类的4 种计算机系统结构有何特点。 2.假设高速缓存Cache 工作速度为主存的5 倍,且Cache 被访问命中的概率为90%, 则采用Cache 后,能使整个存储系统获得多高的加速比? 3.某工作站采用时钟频率为15 MHz、处理速率为10 MIPS 的处理机来执行一个已知混合程序。假定每次存储器存取为1 周期延迟,试问: (1)此计算机的有效CPI 是多少? (2)假定将处理机的时钟提高到30 MHz,但存储器子系统速率不变。这样,每次存储器存取需要两个时钟周期。如果30%指令每条只需要一次存储存取,而另外5%每条需要两次存储存取,并假定已知混合程序的指令数不变,并与原工作站兼容,试求改进后的处理机性能。 4.处理机的时钟30 MHz (1)计算在单处理机上用上述跟踪数据运行程序的平均CPI。 (2)根据(1)所得CPI,计算相应的MIPS 速率。 1、解释图中各控制信号的作用。 2、各流水级存放控制信号的流水线寄存器有何异同? 3、设流水线模型机采用load前推和数据前推,按时钟周期画出以下指令序列的时序图,标示出前推示意。 load r2, 12(r3) addi r4, r2, 10

and r1, r2, r4 store r1, 10(r5) 4、给出A.3节PPT中图1.39的BDEPEN控制信号的真值表。 半期: 1、试分析采用哪种设计方案实现求浮点数除法FPMUL对系统性能提高更大。假定FPMUL 操作占整个测试程序执行时间的15%。 一种设计方案是增加专门的FPMUL硬件,可以将FPMUL操作的速度加快到10倍; 另一种设计方案是提高所有FP运算指令的执行速度,使得FP指令的执行速度加快为原来的1.4倍,设FP运算指令在总执行时间中占40%。(3分) 解:对这两种设计方案的加速比分别进行计算。 增加专门FPDIV硬件方案:F e = 15% = 0.15,S e = 10 S FPDIV = 1/((1-0.15)+0.15/10)=1/0.865 = 1.156 提高所有FP运算指令速度方案:F e = 40% = 0.4 ,S e = 1.6 S FP = 1/((1-0.4)+0.4/1.4) = 1/0.886 = 1.13 增加专门FPDIV硬件方案的加速比更高,对系统性能提高更大。 2.设流水线模型机结构如下图所示,采用load前推和数据前推(包括store指令)。假设模型机使用subicc指令,它将根据减法结果设置标志寄存器Z的内容为0或为1;其它的ALU 计算指令不影响Z。指令bne的控制相关处理采用插入nop指令的策略。(7分)

计算机组成原理第五版课后答案

计算机组成原理第五版课后答案 1.比较数字计算机和模拟计算机的特点。 答:(1)模拟计算机的特点:数值由连续量来表示,运算过程也是连续的。同时用电压表示数据,采用电压组合和测量值的方式来进行计算,以及盘上连线的控制方式。 数字计算机的主要特点:按位运算,并且不连续地跳动计算。用数字 0 和 1 表示数据,采用数字计数的计算方式,程序控制的控制方式。 数字计算机与模拟计算机相比,精度高,数据存储量大,逻辑判断能力强。 2.数字计算机如何分类?分类的依据是什么? 答:数字计算机可分为专用计算机和通用计算机,是根据计算机的效率、速度、价格、运行的经济性和适应性来划分的。 3.数字计算机有哪些主要应用? 答:数字计算机的主要应用有:科学计算、自动控制、测量和测试、信息处理、教育和卫生、家用电器、人工智能。 4.冯·诺依曼型计算机的主要设计思想是什么?它包括哪些主要组成部分? 答:冯·诺依曼型计算机的主要设计思想是:采用存储程序的方式,编制好的程序和数据存放在同一存储器中,计算机可以在无人干预的情况下自动完成逐条取出指令和执行指令的任务;在机器内部,

指令和数据均以二进制码表示,指令在存储器中按执行顺序存放。主要组成部分有:运算器、逻辑器、存储器、输入设备和输出设备。 5.什么是存储容量?什么是单元地址?什么是数据字?什么是指令字? 答:(1)存储器所有存储单元的总数称为存储器的存储容量。 (2)每个存储单元都有编号,称为单元地址。 (3)如果某字代表要处理的数据,称为数据字。 (4)如果某字为一条指令,称为指令字。 6.什么是指令?什么是程序? 答:计算机硬件可直接执行的每一个基本的算术运算或逻辑运算操作称为一条指令,而解算某一问题的一串指令序列,称为程序。 7.指令和数据均存放在内存中,计算机如何区分它们是指令还是数据? 答:取指周期中从内存读出的信息流是指令流,它流向控制器;而在执行器周期中从内存读出的信息流是数据流,它流向运算器。 8.什么是内存?什么是外存?什么是CPU?什么是适配器?简述其功能。 答:(1)半导体存储器称为内存; (2)存储容量更大的磁盘存储器和光盘存储器称为外存,内存和外存共同用来保存二进制数据。 (3)运算器和控制器合在一起称为中央处理器,简称 CPU,它用来控制计算机及进行算术逻辑运算。

计算机系统结构-第五章自考练习题答案

计算机系统结构-第五章自考练习题答案

第五章重叠、流水和向量处理机 历年真题精选 1. “一次重叠”中消除“指令相关”最好的方法是( A )。 A. 不准修改指令 B. 设相关专用通路 C. 推后分析下条指令 D. 推后执行下条指令 2.流水处理机对全局性相关的处理不包括( D )。 A. 猜测法 B. 提前形成条件码 C. 加快短循环程序的执行 D. 设置相关专用道路 3. 推后“分析1 k”和设置“(相关专用通 道)”是解决重叠方式相关处理的两种基本方法。前者是以(降低速度)为

代价,使设备基本上不增加。 4. 流水线消除速度瓶颈的方法有瓶颈子过程 (再细分)和瓶颈子过程(多套并联)两种。 5. 简述在流水机器中全局性相关的概念及处 理全局性相关的方法。(P144-146) 6. 求向量D=A*(B+C),各向量元素个数均为6,参照CRAY-1方式分解为3条向量指令: ①V3←存储器{访存取A送入V3寄存 器组} ②V2←V0+V1 {B+C→K} ③V4←V2*V3 {K*A→D} 当采用下列2种方式工作时各需多少拍才能得到全部结果?

(1)①和②并行执行完后,再执行③; (27拍) (2)采用链接技术。 (22拍) (注:CRAY-1方式启动访存1拍,访存6拍,打入寄存器组1拍,加法6拍,乘7拍) 7.有一个3段的单功能非线性流水线,预约表如下表所示。 (1)写出冲突向量,画冲突向量状态转移图并确定最佳调度方案。 (c=(101) ,最佳策略是每隔2△t 流入一个任务) (2)按最佳调度方案输入5个任务,画出流水的时空图,求出此时的吞吐率和效率。

计算机系统结构(课后习题答案)

第一章计算机系统结构的基本概念 1.有一个计算机系统可按功能分成4级,每级的指令互不相同,每一级的指令都比其下一级的指令在效能上强M倍,即第i级的一条指令能完成第i-1级的M条指令的计算量。现若需第i级的N 条指令解释第i+1级的一条指令,而有一段第1级的程序需要运行Ks,问在第2、3和4级上一段等效程序各需要运行多长时间? 答:第2级上等效程序需运行:(N/M)*Ks。第3级上等效程序需运行:(N/M)*(N/M)*Ks。第4级上等效程序需运行:(N/M)*(N/M)*(N/M)*Ks。 note: 由题意可知:第i级的一条指令能完成第i-1级的M条指令的计算量。而现在第i 级有N条指令解释第i+1级的一条指令,那么,我们就可以用N/M来表示N/M 表示第i+1级需(N/M)条指令来完成第i级的计算量。所以,当有一段第1级的程序需要运行Ks时,在第2级就需要(N/M)Ks,以此类推 2.硬件和软件在什么意义上是等效的?在什么意义上又是不等效的?试举例说明。 答:软件和硬件在逻辑功能上是等效的,原理上,软件的功能可用硬件或固件完成,硬件的功能也可用软件模拟完成。但是实现的性能价格比,实现的难易程序不同。 在DOS操作系统时代,汉字系统是一个重要问题,早期的汉字系统的字库和处理程序都固化在汉卡(硬件)上,而随着CPU、硬盘、内存技术的不断发展,UCDOS把汉字系统的所有组成部份做成一个软件。 3.试以实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系与影响。 答:计算机系统结构、计算机组成、计算机实现互不相同,但又相互影响。 (1)计算机的系统结构相同,但可采用不同的组成。如IBM370系列有115、125、135、158、168等由低档到高档的多种型号机器。从汇编语言、机器语言程序设计者看到的概念性结构相同,均是由中央处理机/主存,通道、设备控制器,外设4级构成。其中,中央处理机都有相同的机器指令和汇编指令系统,只是指令的分析、执行在低档机上采用顺序进行,在高档机上采用重叠、流水或其它并行处理方式。 (2)相同的组成可有多种不同的实现。如主存器件可用双极型的,也可用MOS型的;可用VLSI单片,也可用多片小规模集成电路组搭。 (3)计算机的系统结构不同,会使采用的组成技术不同,反之组成也会影响结构。如为实现A:=B+CD:=E*F,可采用面向寄存器的系统结构,也可采用面向主存的三地址寻址方式的系统结构。要提高运行速度,可让相加与相乘并行,为此这两种结构在组成上都要求设置独立的加法器和乘法器。但对面向寄存器的系统结构还要求寄存器能同时被访问,而对面向主存的三地址寻址方式的系统结构并无此要求,倒是要求能同时形成多个访存操作数地址和能同时访存。又如微程序控制是组

计算机系统结构第五版习题答案

1.层次结构 现代通用的计算机系统是由紧密相关的硬件和软件组成的。从使用语言的角度,可以将系统看成是按功能划分的多层机器级组成的层次结构,由高到低分别为应用语言机器级、高级语言机器级、汇编语言机器级、操作系统机器级、传统机器语言机器级和微程序机器级。 2.计算机系统结构 也称计算机体系结构,它只是系统结构中的一部分,指的是层次结构中的传统机器级的系统结构。其界面之上包括操作系统级、汇编语言级、高级语言级和应用语言级中所有软件的功能,该界面之下包括所有硬件和固件的功能。 3.计算机实现 指的是计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,器件、模块、插件、底板的划分与连接,专用器件的设计,微组装技术,信号传输,电源、冷却及整机装配技术等。它着眼于器件技术和微组装技术,其中,器件技术在实现技术中起着主导作用。 4.数据表示 指的是能由机器硬件直接识别和引用的数据类型。 5.霍夫曼压缩概念 霍夫曼压缩概念的基本思想时,当各种事件发生的概率不均等时,采用优化技术,对发生概率最高的事件用最短的位数来表示,而对出现概率较低的事件允许用较长的位数来表示,就会使表示的平均位数缩短。 6.RISC 精简指令系统(RISC),不是简单地把指令系统进行简化,而是通过简化指令的途径使计算机的结构更加简单合理,以减少指令的执行周期数,从而提高运算速度。 7.CISC 复杂指令系统(CISC),设计风格力图缩小机器语言与高级语言的语义差距,使源程序长度尽可能的短,以及尽可能少的访问存储器和执行尽可能少的指令,以求获得高性能。 8.非专用总线 可以被多种功能或多个部件所分时共享,同一时间只有一对部件可使用总线进行通信。 9.数据宽度 I/O设备取得I/O总线后所传送数据的总量. 10.中断响应次序

第五章 存储层次

第5章存储层次 5.1解释下列术语 多级存储层次:采用不同的技术实现的存储器,处在离CPU不同距离的层次上,各存储器之间一般满足包容关系,即任何一层存储器中的内容都是其下一层(离CPU更远的一层)存储器中内容的子集。目标是达到离CPU最近的存储器的速度,最远的存储器的容量。 全相联映象:主存中的任一块可以被放置到Cache中任意一个地方。 直接映象:主存中的每一块只能被放置到Cache中唯一的一个地方。 组相联映象:主存中的每一块可以放置到Cache中唯一的一组中任何一个地方(Cache分成若干组,每组由若干块构成)。 替换算法:由于主存中的块比Cache中的块多,所以当要从主存中调一个块到Cache中时,会出现该块所映象到的一组(或一个)Cache块已全部被占用的情况。这时,需要被迫腾出其中的某一块,以接纳新调入的块。 LRU:选择最近最少被访问的块作为被替换的块。实际实现都是选择最久没有被访问的块作为被替换的块。 写直达法:在执行写操作时,不仅把信息写入Cache中相应的块,而且也写入下一级存储器中相应的块。 写回法:只把信息写入Cache中相应块,该块只有被替换时,才被写回主存。 按写分配法:写失效时,先把所写单元所在的块调入Cache,然后再进行写入。 不按写分配法:写失效时,直接写入下一级存储器中,而不把相应的块调入Cache。 命中时间:访问Cache命中时所用的时间。 失效率:CPU访存时,在一级存储器中找不到所需信息的概率。 失效开销:CPU向二级存储器发出访问请求到把这个数据调入一级存储器所需的时间。 强制性失效:当第一次访问一个块时,该块不在Cache中,需要从下一级存储器中调入Cache,这就是强制性失效。 容量失效:如果程序在执行时,所需要的块不能全部调入Cache中,则当某些块被替换后又重新被访问,就会产生失效,这种失效就称作容量失效。 冲突失效:在组相联或直接映象Cache中,若太多的块映象到同一组(块)中,则会出现该组中某个块被别的块替换(即使别的组或块有空闲位置),然后又被重新访问的情况。

高级计算机体系结构

高级计算机体系结构 Advanced Computer Architecture 教学大纲 课程编码:M733001 课程学分:32学时,2学分 适用学科/专业:计算机科学与技术、计算机技术 开课学院:计算机学院 一、课程性质 本课程的授课对象为计算机科学与技术、计算机技术的硕士研究生,旨在从提高计算机系统性能的角度分析并行计算机的系统结构,并讨论系统评价的原理及其可扩展性。 二、课程教学目的 通过本课程的学习,希望学生能够从提高计算机系统性能的角度,掌握指令级并行与处理器级并行技术,理解计算机底层设计时所采用的并行思想、影响指令/程序并行执行的关键因素及其处理方式,为并行算法研究和并行程序设计打下坚实的基础。 三、教学基本内容及基本要求 第1章概述 (一)教学基本内容 1.1 计算机体系结构概念

1.2 计算机体系结构的设计技术 1.3 计算机系统性能评价 1.4 计算机体系结构的发展趋势 (二)教学基本要求 掌握:体系结构的定义、层次结构图、计算机系统的定量分析法、CPU性能公式 理解:计算机系统的性能评价/比较标准 了解:体系结构的发展趋势 第2章流水线技术 (一)教学基本内容 2.1 流水线的基本原理 2.2 流水线的性能分析 2.3 非线性流水线的调度 2.4 流水线中的相关 2.5 流水线的实现 (二)教学基本要求 掌握:流水线的时空图与性能分析、非线性流水线调度 理解:流水线的基本思想与分类,流水线中的结构相关、数据相关、控制相关及其基本解决办法 了解:流水线的实现技术 第3章指令级并行 (一)教学基本内容

3.1 指令级并行的概念 3.2 循环展开技术 3.3 动态调度技术 3.4 分支预测技术 3.5 多指令流出技术 (二)教学基本要求 掌握:指令级并行原理 理解:循环展开调度技术、指令的动态调度技术,转移预测缓冲器、相关转移预测器、自适应预测器 了解:超标量处理机、超长指令字处理机的基本原理 第4章分布式存储技术 (一)教学基本内容 4.1 存储系统原理 4.2 Cache一致性协议 4.3 共享存储器一致性 4.4 分布式文件系统原理 (二)教学基本要求 掌握:存储系统的基本原理与性能分析 理解:Cache的逻辑实现、一致性协议、替换算法 了解:分布式存储原理、共享存储器的一致性 第5章并行计算平台 (一)教学基本内容

清华第2版《计算机系统结构》习题解答

清华第2版《计算机系统结构》习题解答 目录 第一章(P33) 1.7-1.9(透明性概念),1.12-1.18(Amdahl定律),1.19、1.21、1.24(CPI/MIPS) 第二章(P124) 2.3、2.5、2.6(浮点数性能),2.13、2.15(指令编码) 第三章(P202) 3.3(存储层次性能),3.5(并行主存系统),3.15-3.15加1题(堆栈模拟),3.19中(3)(4)(6)(8)问(地址映象/替换算法--实存状况图) 第四章(P250) 4.5(中断屏蔽字表/中断过程示意图),4.8(通道流量计算/通道时间图) 第五章(P343) 5.9(流水线性能/时空图),5.15(2种调度算法) 第六章(P391) 6.6(向量流水时间计算),6.10(Amdahl定律/MFLOPS) 第七章(P446) 7.3、7.29(互连函数计算),7.6-7.14(互连网性质),7.4、7.5、7.26(多级网寻径算法),7.27(寻径/选播算法) 第八章(P498) 8.12(SISD/SIMD算法) 第九章(P562) 9.18(SISD/多功能部件/SIMD/MIMD算法) (注:每章可选1-2个主要知识点,每个知识点可只选1题。有下划线者为推荐的主要知识点。)

第一章(P33) 1.7 (1)从指定角度来看,不必要了解的知识称为透明性概念。 1.8见下表,“√”为透明性概念,“P ”表示相关课文页数。 1.12 已知Se=20 , 求作Fe-Sn 关系曲线。 将Se 代入Amdahl 定律得 e n F S 20 19 11 -= 1.13 上式中令Sn=2,解出Fe=10/19≈0.526 1.14 上式中令Sn=10,解出Fe=18/19≈0.947 1.15 已知两种方法可使性能得到相同的提高,问哪一种方法更好。 (1)用硬件组方法,已知Se=40,Fe=0.7,解出Sn=40/12.7≈3.1496(两种方法得到的相同性能) (2)用软件组方法,已知Se=20,Sn=40/12.7,解出Fe=27.3/38≈0.7184(第二种方法的百分比) (3)结论:软件组方法更好。因为硬件组需要将Se 再提高100%(20→40),而软件组只需将Fe 再提高1.84%(0.7→0.7184)。 Sn 20 1 0 1 Fe

相关主题
文本预览
相关文档 最新文档