当前位置:文档之家› X型DSP低功耗SRAM的设计与实现

X型DSP低功耗SRAM的设计与实现

国防科学技术大学 硕士学位论文 X 型DSP 低功耗SRAM 的设计与实现 姓名:张长明 申请学位级别:硕士 专业:软件工程 指导教师:孙永节 2011-03

国防科学技术大学研究生院工程硕士学位论文
摘 要
随着集成电路的密度和工作频率按照摩尔定律所描述的那样持续增长,高性 能和低功耗设计成为芯片设计的主流。在数字信号处理芯片中,存储器占据了大 部分的芯片面积,而且还有持续增加的趋势。这使得存储器中字线和位线的长度 也不断增加,增加了延时和功耗。因此对存储器速度和功耗的设计成为 DSP 设计 优化的重点。 在深入研究存储器低功耗技术的基础上,分别在系统级和电路级对 X 型 DSP 的 SRAM 进行低功耗设计和优化。运用了传统的存储体分块、字线分割技术以减 少负载电容,降低功耗。研究了一种改进的字线脉冲技术,将片内时钟分段,这 样可以减少灵敏放大器的工作时间来降低功耗。 译码器采用三级静态 CMOS 译码, 设计了一种位线摆幅可调的存储器读写控制电路,取得了很好的功耗优化效果。 本文在 0.25μm CMOS 工艺下, 采用全定制的设计方法设计了一款高性能低功 耗的 SRAM,完成了逻辑设计、版图设计、内建自测试设计以及最终投片验证的 完整设计流程。设计和优化了存储电路、译码电路、敏感放大电路。模拟结果表 明,本文所设计的全定制 SRAM 的读写性能和功耗参数有明显改善。在典型情况 下对版图进行模拟,数据读取时间为 2.49ns,数据写入时间为 1.40ns,最大读写功 耗约为 96.32mw。相对于用编译器产生的 SRAM,访问延迟降低了 26%以上,平 均功耗降低了 30%以上。经投片测试,采用该 SRAM 的 DSP 芯片工作稳定,性能 和功耗达到设计要求。
主题词:SRAM;低功耗技术;全定制设计;灵敏放大器;位线摆幅;内建自 测试
第i页

国防科学技术大学研究生院工程硕士学位论文
ABSTRACT
Accompanied with the lasting increasing of the IC’s intensity and operating frequency as the Moor’s law, high performance and low power designs become the mainstream of chips.The memories have taken an absolutely large part of area on DSP, and the tendency is still going on.The consequence is the increase of length of wordlines and bitlines in memories, and delay and power. How to optimize the performance and reduce the power of the memory is the key of the DSP. Based on the study of low-power design technology,this paper designs and optimizes the SRAM of X-DSP in low power, respectively at system level and circuit level. The memory is partitioned into several banks and the word lines are divided to reduce the load capacitance and then reduce theirs power. Research a improved word line pulse technology, the clock signal is divided into multiple segments to decrease the amplificatory time of the sense amplifier and then to reduce its power.The decoder uses three-level static coding,design a storage circuit which consisted by the read and write control circuit whose bit-line swing can adjust and basic memory cell. As a result, the power is greatly optimized. We design a SRAM under the process of 0.25μm CMOS with full custom. The full flow includes logic design, layout design, BIST design and verification after sign off. The memory, decoder and sense amplifier circuit are designed and optimized. Simulation results indicate that read/write performance and power consumption of the SRAM designed in this paper have improved greatly.The Starsim simulation in typical case, the data reading time is 2.49ns, the data writing time is 1.40ns, and the maximum power is 96.32mw. Compared to the SRAM which is generated by the memory compiler,the designed SRAM’s access time reduces by more than 26% and the average power consumption readuces by more than 30%. The system using our SRAM works well, meanwhile the performance and the power meet the design requirements.
Key Words:SRAM, low-power design technology, full-custom design, sense amplifier, bit-line swing, BIST
第 ii 页

国防科学技术大学研究生院工程硕士学位论文
表 目 录
表 2.1 表 3.2 表 3.3 表 3.4 表 3.5 表 4.1 表 4.2 表 4.3 表 5.1 表 5.2 表 5.3 表 5.4 三种常用灵敏放大器结构优缺点比较 .......................................................... 11 位线摆幅的变化时间表 .................................................................................. 30 位线摆幅与平均功耗之间的变化关系表 ...................................................... 31 变化时间表 1 ................................................................................................... 32 变化时间表 2 ................................................................................................... 33 全定制设计工具 .............................................................................................. 37 和编译器进行对比(典型情况下) .............................................................. 46 和编译器进行对比(最坏情况下) .............................................................. 46 数据背景 .......................................................................................................... 52 功能测试码及正确结果 .................................................................................. 56 行地址建立时间测试码及正确结果 .............................................................. 57 列地址建立时间测试码及正确结果 .............................................................. 57
表 3.1 SRAM 的端口信息.......................................................................................... 15
第 IV 页

国防科学技术大学研究生院工程硕士学位论文
图 目 录
图 2.1 图 2.2 图 2.3 图 2.4 图 2.5 图 2.6 图 2.7 图 2.8 图 2.9 图 2.11 图 3.1 图 3.2 图 3.3 图 3.4 图 3.5 图 3.6 图 3.7 图 3.8 图 3.9 图 3.10 图 3.11 图 3.12 图 3.13 图 3.14 图 3.15 图 3.16 图 3.17 图 3.18 图 3.19 图 3.20 图 3.21 N 个字存储器总体结构 .................................................................................. 4 阵列结构的存储器 .......................................................................................... 5 SRAM 存储位元.............................................................................................. 6 存储阵列结构 .................................................................................................. 7 6 输入译码器的预译码结构 ........................................................................... 8 动态译码器结构 .............................................................................................. 9 运放型灵敏放大器 ........................................................................................ 10 交叉耦合灵敏放大器 .................................................................................... 10 锁存器型灵敏放大器 .................................................................................... 11 为减少功耗和延迟采用的划分字线策略 .................................................... 13 SRAM 外部接口图........................................................................................ 15 SRAM 结构图................................................................................................ 16 SRAM 整体布局结构图................................................................................ 16 SRAM 整体布局结构图................................................................................ 17 SRAM 读操作时序图.................................................................................... 17 SRAM 写操作时序图.................................................................................... 18 分区预充电路示意图 .................................................................................... 18 灵敏放大器端预充电及隔离电路 ................................................................ 19 灵敏放大器电路 ............................................................................................ 20 整体控制电路 ................................................................................................ 21 数据写入控制电路 ........................................................................................ 21 数据读出控制电路 ........................................................................................ 22 读写控制电路时序图 .................................................................................... 22 译码器结构图 ................................................................................................ 24 最终译码电路及冗余字线图 ........................................................................ 25 三八译码器电路图 ........................................................................................ 25 译码电路需要的脉冲电路 ............................................................................ 26 自定时及复制电路总体结构图 .................................................................... 26 自复位基本结构 ............................................................................................ 27 反馈控制电路 ................................................................................................ 27 灵敏放大器的使能复制电路 ........................................................................ 28
第 V 页
图 2.10 SRAM 的功耗来源........................................................................................ 12

国防科学技术大学研究生院工程硕士学位论文
图 3.22 图 3.23 图 3.24 图 3.25 图 3.26 图 4.1 图 4.2 图 4.3 图 4.4 图 4.5 图 4.6 图 4.7 图 4.8 图 4.9 图 4.10
适合用 HSPICE 模拟的存储阵列平台图 .................................................... 29 位线摆幅随时间变化的关系曲线图 ............................................................ 30 位线摆幅与平均功耗之间的关系曲线图 .................................................... 31 灵敏放大器工作时间与功耗之间的关系曲线图 ........................................ 32 灵敏放大器工作时间与电路总平均功耗之间的关系曲线图 .................... 33 全定制设计流程 ............................................................................................ 35 单存储块布局 ................................................................................................ 39 左右存储块布局 ............................................................................................ 39 SRAM 整体版图............................................................................................ 40 单个 SRAM 阵列布局................................................................................... 40 SRAM 单元对版图布局................................................................................ 41 存储体单元版图 ............................................................................................ 42 字线最终译码单元对版图 ............................................................................ 42 位线译码单元对版图 .................................................................................... 43 灵敏放大器单元版图 .................................................................................... 43
图 4.11 TT 工艺下模拟输出波形 .............................................................................. 45 图 4.12 FF 工艺下的关键波形图............................................................................... 45 图 4.13 SS 工艺下的关键波形图............................................................................... 46 图 5.1 图 5.2 图 5.3 图 5.4 图 5.5 图 5.6 图 5.7 图 5.8 内建自测试结构 ............................................................................................ 48 内建自测试算法流程图 ................................................................................ 51 内建自测试电路 ............................................................................................ 52 16 位线性反馈移位寄存器 ........................................................................... 53 扫描电路整体结构 ........................................................................................ 54 输入扫描链 .................................................................................................... 55 输出扫描链 .................................................................................................... 55 时钟转换电路 ................................................................................................ 56
第 VI 页


国防科学技术大学研究生院工程硕士学位论文
第一章 绪论
1.1 数字信号处理器概述
数字信号处理器(Digital Signal Processor),简称 DSP,是一种专门用于数字信号处 理的运算处理器。 数字信号处理技术的出现加快了社会信息化的进程, 随着 3G 乃至 4G 时 代的到来, 大量实时数字信号处理要求对 DSP 技术有更大的挑战。 DSP 与一般微处理器的 不同在于其具有更快的运算速度和更少的指令执行周期,以数字形式对信号进行采集、变 换、滤波、估值、增强、压缩、识别等处理。在信息系统、信号与信息处理、自动控制、 雷达、军事、通信、家用电器等需要高度智能化的应用领域得到了广泛的应用。 近年来 DSP 芯片得到飞速的发展,几大著名的 DSP 生产厂家,包括 TI 公司,AD 公 司,都相继推出了一系列的高性能产品。TI 公司发布了新一代 DSP 芯片 TMS320C6000, 包括定点系列和浮点系列。其中定点系列是 TMS320C62xx,浮点系列是 TMS320C67xx, 二者相互兼容。C6000 系列 DSPs 将数字信号处理器的处理能力提高到了一个新的境界。 它的高速处理能力以及其出色的对外接口能力,使得它在雷达声纳、医用仪器和图像处理 等领域具有非常大的应用潜力,因此在军事通信、电子对抗、雷达系统利制导武器等需要 高度智能化的应用领域,这种芯片的高速处理能力具有不可替代的优势。 为了追求更高的性能,除了通过提高时钟频率外,设计者还对 DSP 芯片的体系结构进 行各种探索,希望在一个时钟周期内能够完成更多的操作。 1) 是在传统 DSP 芯片的基础上,增加并行的执行部件,通过把多个操作在一条指令 中编码,使得在一拍内可以完成更多的操作。 2) 采用多发射的体系结构,主要是超标量和超长指令字结构[1],通过在一拍内发射多 条指令来提高 DSP 芯片的性能。多发射处理器的一条指令只完成一种操作,简化了译码和 执行的操作,因此,多发射的 DSP 芯片可以具有很高的时钟频率。 3) 增加 SIMD(single-instruction, multiple-data)指令,即在一条指令中包含 多个数据。在某些应用领域中,如声音、图像处理中,8 位或 16 位的字长即可以满足应用 需要。一条 32 位操作数的指令可以同时执行 4 个 8 位数的运算,这大大增加了并行度。 4) 增大片内存储也是 DSP 发展的重要方向。因为随着 DSP 处理能力不断扩大,应用 程序变得越来越大,几乎无法全部放到片内,影响了工作效率。从最早的没有片内存储器 逐渐发展到现在几十 KB 到几百 KB 甚至上兆 B 容量。 5) 信息化的提高,DSP 在便携设备的大量应用要求具有低功耗,虽然传统 DSP 和通 用微处理器相比功耗已经很小,基本不到 1W。但是低功耗永远是重要的研究方向,比如 可以采用门控时钟或者降低芯片电压来达到较低的功耗水平。 6) 随着应用的需求,单个 DSP 处理不了太多的数据任务,发展多核技术已经成为研 究热点,例如集成多个 DSP 核以及协处理器的 SOC 设计等[2]。
第1页

国防科学技术大学研究生院工程硕士学位论文
1.2
课题研究背景及意义
信息、物质和能源是现代社会赖以生存的三大要素,信息产业成为上世纪末以来发展 最快的产业。目前信息电子产品己经成为现代信息社会文明和进步的标志,而集成电路对 信息产业起着支撑的作用[3]。自从上世纪 90 年代以来,集成电路的设计开发呈现两个明显 的特点:一是设计的复杂度越来越高,目前的趋势是片上系统(System on Chip or Chip in System); 另一方面是 VLSI 集成电路的功耗呈逐年上升的势头, 尤其是在 CPU 和微处理器 中来自于集成度和工作频率的大幅度提高而引起的功耗增加,已经成为设计者所必须面对 的挑战[4]。 在传统设计中,由于器件集成度相对较低,所以功耗问题没那么突出。随着集成电路 技术的发展,单片机上已经能集成更多更快的管子,从而导致了功耗的逐渐上升。集成电 路技术的发展对功耗设计提出了更高的要求,尤其是有些应用对功耗的增加特别敏感,如 高性能计算机系统、便携式电子产品、移动通讯产品等。功耗对于电池的寿命、设计复杂 度、封装和散热的费用以及可靠性的影响己经使得所有的 IC 设计者都要认真面对功耗问 题[5]。 我国的 DSP 产业起步较晚,在九十年代中期才展开通用 DSP 研制开发工作,华晶中 央研究所与复旦等国内大学合作,在“八五”期间研制出与 TMS320C25 兼容的 16 位定点 DSP;“九五”期间国防科大计算机学院与华晶中央研究所共同设计了与 TMS320C30 兼 容 DSP,积累了丰富的设计经验。X 型 DSP 芯片的研制项目正是在这样的背景下产生的, 来源于某型谱项目“16 位定点低功耗数字信号处理器(DSP)芯片研制”。本论文课题是该 研制项目的一部分,任务是 X 型 DSP 中 SRAM 的设计与实现。
1.3
本文主要工作
本文深入研究了静态存储器 SRAM 中功耗产生的原因, 通过分析这些原因介绍几种降 低功耗的方法。针对课题中的这款低功耗 SRAM,在系统级和电路级对其进行了低功耗设 计优化。运用了传统的存储体分块、字线分割技术以减少负载电容,降低功耗。研究了一 种位线逻辑摆幅可调的存储器读写控制电路和基本存储单元电路结构,以及由这两个基本 电路组成的存储电路,这样可以减少灵敏放大器的工作时间来降低功耗。译码器采用了三 级静态 CMOS 的译码设计。使 SRAM 的最大功耗比编译器生成的 SRAM 降低 30%以上, 取得了很好的功耗优化效果。 本文采用全定制的设计方法,在 0.25um CMOS 工艺下设计了一款 56K 字的 SRAM, 工作频率为 100MHz, 完成了从电路设计、版图设计到模拟测试的完整流程。并且为达到 系统设计的低功耗要求,对 SRAM 进行了功耗分析与低功耗优化设计。在典型情况下对版 图进行模拟,数据读取时间为 2.49ns,数据写入时间为 1.40ns,最大读写功耗约为 96.32m w。经投片测试,采用该 SRAM 的 DSP 芯片工作稳定,性能和功耗达到设计要求。
第2页

国防科学技术大学研究生院工程硕士学位论文
1.4
论文的组织结构
本文主要论述低功耗单端口 SRAM 的全定制设计和实现,论文共分六章,各章组织如 下: 第一章简要介绍了高性能低功耗 SRAM 在本课题的研究意义并介绍了论文的主要研 究内容。 第二章主要阐述了 SRAM 总体结构、多种存储单元电路、译码电路、灵敏放大器电路 技术。对存储电路产生的功耗进行了分析并在此基础上介绍了一些降低电路功耗的常用方 法。 第三章详细介绍了本课题研究的一种改进的低功耗 SRAM 设计结构。 具体优化了外围 电路,地址译码电路以及读写电路设计。采用 HSPICE 模拟搭载的存储阵列平台,分析了 位线摆幅和灵敏放大器与功耗之间的关系。 第四章研究了 SRAM 版图设计技术及布局布线理论,基于存储单元的版图设计策略, 结合层次化设计方法设计了版图,最后给出了在寄生参数提取后的模拟结果。 第五章设计了 SRAM 的内建自测试电路和芯片测试方案, 并给出加入测试电路后的功 能验证和模拟。 第六章给出了论文工作总结和工作展望。
第3页

国防科学技术大学研究生院工程硕士学位论文
第二章 SRAM 概述
本章旨在对 SRAM 进行一个总体上的概述,将从 SRAM 总体结构的组织, SRAM 单 元的工作原理,以及 SRAM 高速、低功耗相关理论三个方面进行介绍。
2.1
SRAM 总体结构
相对于动态随机访问存储器 DRAM 是以电容中电荷的有无来区分 “1” “0” SRAM 和 , 采用一种双稳态电路来存储数据[6],这种结构上的差别使其具有掉电丢失数据、集成度不 够高的缺点,但具有速度快、不需要刷新以及外围电路设计简单等优点。同时,使用多个 晶体管存储一位数据“1”和“0”的方式,使得 SRAM 成为 DSP 片上最“昂贵”的器件。 要实现 N 个字、每字为 M 位的存储器,最直接的方法是沿纵向把连续的存储字堆叠 起来,再通过一个译码器将 K 位地址(A0 至 AK-1,N=2K)译码得到一个字线信号 Si,从 而实现对一个存储字的访问。如图 2.1 所示。这种实现结构在很小容量的存储器中能够工 作得很好,但是对于稍大容量的存储器这种结构会使得存储器的宽长比变得不可接受。假 设实现一个 1M 字、每字 8 位的存储器,由于每个存储单元的形状是近似于方形,因此采 用这种结构实现的存储器高度约比它的宽度大 128000 倍(220/23)。这样的设计显然是无 法实现的,而且由于垂直方向的位线过长也会使得存储器访问太慢。
图 2.1
N 个字存储器总体结构
为了解决这个问题,一般情况下存储阵列都被组织成垂直尺寸和水平尺寸处在同一数 量级上,即宽长比接近于 1。如图 2.1 所示。在这种情况下,存放在同一行的多个字被同 时选择。为了把所需要的字送到输入/输出端口,就需要再加上一个称为列译码器的额外电 路。这时,地址码被分成列地址(A0 至 AK-1)和行地址(AK 至 AL-1)。行地址可以选中 一行的所有存储单元,而列地址则从所选出的行中找出一个所需要的字。通常,我们将行 译码器的输入,即水平方向上的选择线称为字线,而将把一列单元连至输入/输出电路的导 线称为位线。
第4页

国防科学技术大学研究生院工程硕士学位论文
由图 2.2 所示的结构可以看出,存储器的总体结构可以分成存储单元阵列、行译码器、 列译码器和敏感放大器及驱动等几个单元模块。其中存储单元阵列是存储器结构的核心, 而其他单元模块可称为译码器和外围电路。对于大容量的存储器,存储单元阵列的规模决 定了存储器的尺寸和功耗等方面的性能,因此,存储单元尺寸应尽可能地小。这就使得存 储单元不得不牺牲数字电路所希望的某些特性,如噪声容限、逻辑摆幅、扇出或速度等。 在存储单元阵列中,这些特性在一定范围内的降低是可以接受的,但是,当与外界接口时 就必须依靠外围电路来恢复所希望的数字信号特性。这就需要对敏感放大器及输入输出电 路进行仔细设计,而译码器的设计也是减少存储器访问延迟的关键。
图 2.1
阵列结构的存储器
对于更大容量的存储器,由于字线和位线的长度、电容和电阻变得过大而开始出现严 重的速度下降问题。解决这一问题的办法是进行存储器分体,将存储器划分成若干小块, 每个存储器块通过块地址选通。采用分体技术的存储器一方面可以使各存储块的字线和位 线的长度保持在一定的界限内,从而保持较快的存取速度。另一方面,在工作时未被寻址 的存储块可以置于省电模式从而节省功耗。
2.2
SRAM 存储单元
SRAM 单元采用触发器形式,因为触发器具有两种不同的稳定状态,用它所处的不同 的稳定状态来代表一位二进制信息。当没有外界信号作用时,触发器可以长久保持其所处 的某种稳定状态,所以也就称之为静态存储器。下面将以本文所采用的 CMOS 存储位单 元结构对 SRAM 工作原理进行研究,如图 2.3 所示。
第5页

国防科学技术大学研究生院工程硕士学位论文
图 2.3
SRAM 存储位元
SRAM 的工作状态包括写入、读出和数据保持三种。写入状态是指将数据线上的数据 写入到存储位单元的存储节点中;读出状态是指将存储在存储位单元内部存储节点上的数 据读出到数据输出口;数据保持状态是指在读写状态都不执行时,存储在存储节点上的数 值保持原来状态。 1) 数据写入 如图 2.3 所示,假定位线 B 端为“1”时,对存储单元写“1”。当写入数据为“1” 时,位线 B 和 B 分别加上高电平和低电平,字线 WL 加上高电平,门管 M3、M4 导通, 这时无论存储节点上位线上 a 和 b 原来处于什么电平, 位线将强制对 a 点电容充电, b 对 点电容放电,此时 M2 和 M5 导通而 M1 和 M6 截止,单元中存储数据“1”。写“0” 时刚好相反,在位线 B 和 B 上分别加低电平和高电平,门管打开,写入数据“0”。通常 SRAM 存储单元都排成阵列结构,多个存储单元共用一根字线,在连续进行写入操作时, 如果时序上配合不当,就有可能将前次位线上的数据对同一根字线上的其他单元中的数据 改写,进行高速存储器设计尤其要注意这一点。另外,SRAM 存储单元中 MOS 管合适的 宽长比值是保证存储单元能够高速地写入数据操作的关键。 2)数据读出 SRAM 在进行读操作时,首先要保证两条位线 B 和 B 都预充到相等的高电平,然后 使得字线 WL 为高电平,两个门管 M3 和 M4 都导通,此时,相当于把单元的存储节点 a 和 b 连接到位线 B 和 B 上,如果单元存“1”,即 M2 和 M5 导通而 M1 和 M6 截止,位 线 B 通过导通的 M2 和门管 M4 放电,而位线 B 保持高电平,从而位线 B 和 B 得到正向 的电压差,即:
ΔV = VB ? VB > 0
(2.1)
相反,如果单元存“0”,则位线通过单元中导通的 M1 和 M3 放电,而位线 B 保持 预充的高电平。这样在两根位线上得到一个反向的电压差。
第6页

国防科学技术大学研究生院工程硕士学位论文
ΔV = VB ? VB < 0
(2.2)
由于单元管的尺寸很小,而位线通过单元管放电的速度很慢,为了提高读出速度,只 要在位线上建立起一定的压差就可以了,而不必等到一边位线下降到低电平。通过列译码 器控制的列开关,把选中的单元位线读出的微小信号差 ΔV 送到公共数据线,再通过公共 数据线送到读出敏感放大器,把微小的信号差放大为合格的高低电平,最后通过缓冲器转 换成单端信号输出。
3) 数据保持
在写入或者读出操作后,字线 WL 降为低电平,门管 M3 和 M4 截止,将上述稳态 触发器和位线隔断,这样位线上电平变化不再影响触发器的状态。存储高电平的节点电容 会有电荷泄漏, 可通过 PMOS 负载单元进行补充, 因而, SRAM 单元能够长久的保持数据, 而不需要如同 DRAM 那样的刷新。但有两种情况需要注意: 停止供电或者电源电压降低到一定程度后,存储单元中的数据就会丢失,在重新供电 后,需要重新写入数据。 由于存储单元都是以阵列形式排列的,必须防止前次读写操作在位线电容上残留的高 低电平影响处于同一位线的单元中的数据。如图 2.4 所示单元阵列结构:
图 2.4
存储阵列结构
假设单元 a21 中存储数据“0”,上次操作为处于同一位线 B1 上的单元 a11 写入或 读出数据“1”后,再关断 B1 上的列开关。由于位线上存在寄生电容,位线 B1 处于高电 平。现在对处于同一字线 W2 上的单元 a22 操作,字线 W2 加上高电平,这条线上的所 有单元门管都打开,位线 B1 上的高电平就有可能改写单元 a21 中的数据“0”。解决这个 问题有三种途径:
1)恰当设计单元的尺寸,提高单元噪声容限,在保证写入的条件下,使位线寄生电
容上残留的有限电荷无法改写单元中的数据;
第7页

国防科学技术大学研究生院工程硕士学位论文
2)在每次读写之前都对位线进行预充电,这样两条位线 B 和 B 上都是高电平,保证
不会改写单元中的数据,但是这样会增加 SRAM 的动态功耗;
3)读数据时用隔离管把存储单元和位线隔开,使位线上的电平变化不会影响单元中
存储的数据。这种方法保证数据安全,但同时也增加了芯片面积。
2.3
SRAM 外围电路
SRAM 的速度和功耗,一个主要影响的因素在于外围电路。以读出过程为例,从给出
地址到数据输出所需要的时间大部分消耗在地址译码和敏感放大器上,而由于字线选通, 位线上的变化时间只占总时间很少一部分。其他如列预充电路、读写控制电路对于正确的 读写都是必不可少。 2.3.1 译码器结构
按照译码器所适用的电路类型分类,译码器可分为静态译码器和动态译码器。 静态译码器:静态译码器主要有两种形式的译码器与(AND)译码器和或非(NOR)译 码器,使用取所有可能输入组合的与门和或非门可以实现译码器。一个 n 位的译码器需要
2 n 个逻辑门,每一个是有 n 个输入的逻辑门。当 n=6 时,需要 64 个 6 输入与非门驱动 64
个反相器来实现译码器。对于与非门来说,输入超过 3 个或 4 个门会产生较大的串联电阻 和较大的延迟,所以,对于多位译码器,应该使用两级电路:一个预译码级和一个最终译 码级。预译码级产生被最终译码级的多个门使用的中间信号。图 2.5 显示了一个 6 输入译 码器的预译码结构。
图 2.5
6 输入译码器的预译码结构 第8页

国防科学技术大学研究生院工程硕士学位论文
6 位地址采用 3 组 2-4 译码器译码生成 12 个中间信号 A0—A11。对于一组 2-4 译码 器,两个输入 addr0、addr1,采用四种不同组合输入,每种组合仅能使一个与非门导通, 即四个输出只有一个为 1,其余的全为 0。因此,图 2.5 所示的预译码电路,无论哪种组 合仅能使 3 个与非门导通,即 12 个输出只有 3 个为 1,其余的全为 0。从 3 组信号任意选 取一个,进行 3 输入与操作,得到最终的译码结果,因为每组有 4 种取法,所以 4x4x4=64, 总共可以得到 64 个译码结果。 动态译码器:可以使用多米诺逻辑实现“与门”和“或门,图 2.6 为动态与门和或门 的电路结构图
图 2.6
动态译码器结构
图 2.6(a)是动态 4 输入与门。这一电路工作可以分为两个主要阶段:预充电和求值。 预充电:脉冲 clk 为低电平时,P1 导通,N1 关闭,结点 A 被预充电至高电压并保持;脉 冲 clk 从变成高电平时,P1 关闭,N1 导通,此时如果 a、b、c 和 d 均为高,那么结点 A 被放电至低电压,从而输出 OUT 为高电压;否则,结点维持在高电压,从而输出 OUT 维持 低电压。相对于静态 4 输入与非门,对于 a 输入来说,少接入了一个 PMOS 管,所以其逻 辑强度要小于静态 4 输入与非门,因此在整体驱动能力和输入电容负载方面会更好,在译 码速度上要优于静态电路。N 输入动态多米诺与门层叠 N 管的数目为 N+1。在不改变 N 管 尺寸的情况下,增加层叠 N 管的数目,必然导致结点 A 下拉的速度变慢,进而影响译码速 度。所以,我们引入了图 2.6(b)所示的动态 4 输入或门,图中 N 管都处于并联关系,所以 并不会影响放电速度。相对于静态电路,动态电路因为周期性地预充电和放电操作,功耗 较大。而相对于动态与门译码器来说,动态或结构的译码器速度更快,功耗更低。 综上所述,动态门具有高速度的特点,但是相对来说功耗较大,动态电路还有其他问 题,如电荷泄漏、电荷共享、时钟馈通、静态漏流等[7]。在设计 SRAM 时需要综合考虑。 2.3.2 敏感放大器结构
1) 运算放大器型灵敏放大器 图 2.7 中给出了一个典型的运放型灵敏放大器的结构示意图,晶体管 M1、M2、P1、
第9页

国防科学技术大学研究生院工程硕士学位论文
P2 和 Iss 所组成的是典型的运放结构,Ml、M2 为差分输入管,P1、P2 构成的电流镜为有
源负载, 为电流源, Iss 为放大支路提供稳定的工作电流, 在放大电路的前一级是偏置电路, 为整个电路提供稳定偏置电压,从而建立起稳定的稳态工作点,因为此种结构属于模拟电 路的范围,所以建立稳定的静态工作点是保证整个电路正常工作的必要前提。在放大电路 的后一级应是驱动电路,用来增强电路的带负载能力。
图 2.7
运放型灵敏放大器
外部输入的信号通过 P1、P2 镜像到 M2 处,并与 M2 的电流进行比较得到输出。运 放型灵敏放大器能够很好的放大差模信号,抑制共模信号同时也能提供很大的放大倍数。 但是它占用比较大的面积,而且它的速度比较慢。 2) 交叉耦合型灵敏放大器 图 2.8 中给出了交叉耦合型灵敏放大器的结构示意图,此种结构速度较快的原因就是 存在一个由 P1﹑P2 所构成的正反馈,而正反馈又有利于提高速度。假设 DATA 点电位上 升,则 P1 管的 VGS 减小,从而使其电阻变大,VDS1 增大,NDATA 点电位下降,反馈再使
P2 管电阻变小,VDS2 减小,DATA 点电位进一步上升,于是形成正反馈,直至稳定。SE
信号用来控制开关管 M3 的导通,从而控制整个灵敏放大器在适当的时候才打开,这样就 可有效地减小功耗。而且,此种结构本身就是双端输入、双端输出,所以占用面积较少。 但同时由于其中的正反馈结构的影响,使得它容易由于器件尺寸的不匹配而被锁存在一个 错误的状态,不能正常工作,所以器件尺寸不易设计。
图 2.8
交叉耦合灵敏放大器 第 10 页

国防科学技术大学研究生院工程硕士学位论文
3) 锁存器型灵敏放大器 锁存器型的结构非常简单(如图 2.9),其主体部分就是两个 CMOS 反相器对,分别 由晶体管 M1﹑P1 和 M2、P2 组成,这两个反相器对接成锁存器的形式,包括一个正反馈, 有利于加快速度。BIT 和 NBIT 既是输入端,又是输出端,这样的话,就会在 BIT 和 NBIT 上出现很大的电平转换,导致功耗的增加,但 SE 和 NSE 为一对相反的控制信号,分别控 制晶体管 M3 和 M4 的导通,进而控制整个电路的状态。
图 2.9
锁存器型灵敏放大器
4) 三种灵敏放大器的比较 三种常用灵敏放大器结构优缺点比较如表 2.1 所示。运放型结构的最大特点是增益高 即灵敏度高,但由于其是双端输入、单端输出的结构,而 SRAM 中的灵敏放大器一般为双 端输入、双端输出,所以当将其应用为 SRAM 中的灵敏放大器时,就需采用两个完全相同 的结构来得到双端输出,这样就大大增加了面积,同时其速度很慢。由于 SRAM 中的灵敏 放大器对增益的要求不高,一般为 10 倍左右就可以了,因为与存储单元相连的两条位线 上的信号的电压的绝对值都很高,只是其间的差值较小,需要由灵敏放大器进行放大,所 以不需太大的放大倍数, 但对速度的要求很高, 因此现已很少采用运放型灵敏放大器结构。 交叉耦合型结构由于正反馈的存在而使得其速度较快,结构较简单,但正反馈同时又会造 成不良的后果,即假如器件尺寸设计的不匹配,就会使整个结构锁存在错误的状态而无法 得到正确的输出结果。所以交叉耦合型结构比较适合于作为 SRAM 中的灵敏放大器,但器 件尺寸不易设计。锁存器型结构的放大倍数虽不大,但已能满足要求,且其速度最快,它 的主体部分就是一个由两个反相器对所组成的锁存器,所以器件尺寸容易设计而且结构简 单,得到广泛的应用。
表 2.1 类型 运放型 交叉耦合型 锁存器型 三种常用灵敏放大器结构优缺点比较 优点 高增益、灵敏度高 速度快、结构简单 速度最快、结构简单 第 11 页 缺点 占用面积大、速度慢 器件尺寸不易设计 功耗大

国防科学技术大学研究生院工程硕士学位论文
2.4
2.4.1
SRAM 高速低功耗设计相关理论与技术
低功耗 SRAM 设计
与数字设计的大多数领域一样,降低存储器的功耗正变得至关重要。便携式应用正在 不断降低存储器所允许消耗的功耗,与此同时,工艺尺寸的缩小及伴随而来的电源电压和 阈值电压的降低以及晶体管静态电流的恶化造成存储器静态功耗增高。所以引入新的技术 来解决日益严重的功耗问题很有必要。 存储器芯片中的功耗有三个主要来源:存储单元阵列、译码器(行、列和块)以及外 围电路。一个 m 列 n 行的现代 CMOS 存储器结构如图 2.10 所示[8],对于一个正常的读周 期,功耗统一公式如下:
P = VDD I DD I DD = I array + I decode + I periphery = (miact + m(n ? 1)ihld ) + ((n + m)C DEVint f ) + (C PT Vint f )
该公式用到以下设计参数:
iact 是被选中单元的等价有效电流 ihld 是不工作单元数据维持电流 CDE 是每个译码器的等价输出负载 Vint 是内部电源电压 CPT 是 CMOS 逻辑电路和外围电路的总负载 Idcp 是外围电路的静态电流。主要来源是灵敏放大器和列电路 f 是工作频率
图 2.10 SRAM 的功耗来源
正如预期那样,功耗与存储器容量(n,m)成正比。把存储器分成几个子阵列并使 n 和 m
第 12 页

国防科学技术大学研究生院工程硕士学位论文
较小对保持功率在规定范围内非常重要,将存储器适当地分割几个子模块有助于把存储器 的工作功耗限制在整个存储和阵列的有限区域。 存储器的分割是通过减少 m(一条字线的上 单元的数目)n(一条位线上的单元的数目)来实现的。通过把字线分割成几个字线,它们 只在被寻址时才启动,从而降低了每一存取过程中总的切换电容,如图 2.11 所示策略。
图 2.11
为减少功耗和延迟采用的划分字线策略
在未划分字线时,全局字线要驱动 128 个单元,在采取字线分割后,地址中的一部分 要产生全局字线,这些线不驱动存储器单元(也就是每个单元内的两个存取管),因此比 正常的字线电容要小得多,剩余的两个地址线用于产生实际驱动单元存取管的局部字线, 也称为块选择线。在这个例子中,划分了四个块,字线电容减少的最大因子是 4,因此功 耗将大大减少,此外字线上的延迟也会减少。目前,减少存储器功耗的主要技术还有:
1) 采用新的脉冲发生电路减小字线[9]、周围电路和敏感放大器的直流电流。 2) 采用多级静态 CMOS 译码技术减小交流电流[10]。 3) 减小工作电压。 4) 对于 SRAM 在工作和非工作状态,采用多阈值电压技术 MT-CMOS[11][12]或可
变阈值电压技术 VT-CMOS 减小漏电流。
5) 采用电荷复用的译码器结构可以减少存储器的译码器功耗。
本文在电路级层次上提出了一种位线摆幅可调的存储器读写控制电路来降低总功耗, 设计了自定时电路和灵敏放大器的使能复制电路来优化信号控制,并通过实验数据证明了 本设计中 SRAM 的读写性能及功耗参数明显优于常规设计。 2.4.2 高速 SRAM 设计
SRAM 的速度是由数据读取时间来衡量的, 它是指从地址输入到数据读出的延迟时间,
它的大小由从地址输入到数据输出的关键路径上的延迟决定,包括地址输入缓冲、地址译 码、字线选通、单元取数延迟、位线延迟、敏感放大器延迟以及数据输出缓冲的延迟。
第 13 页

相关主题
文本预览
相关文档 最新文档