Variability-Aware Sensor Design in the Nanoscale CMOS Era

Aparicio Cerqueira, Hernán (2021). Variability-Aware Sensor Design in the Nanoscale CMOS Era. Thesis (Doctoral), E.T.S.I. Telecomunicación (UPM). https://doi.org/10.20868/UPM.thesis.67649.

Description

Title: Variability-Aware Sensor Design in the Nanoscale CMOS Era
Author/s:
  • Aparicio Cerqueira, Hernán
Contributor/s:
  • Ituero Herrero, Pablo
Item Type: Thesis (Doctoral)
Date: 2021
Subjects:
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Ingeniería Electrónica
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only until 7 January 2022 - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (29MB)

Abstract

CMOS technology continues to shrink, providing benefits like higher transistor densities, lower dynamic power consumption or improved operating frequencies. However, these benefits are accompanied by undesirable side effects that make the electronic systems design process more complex. Process variations, timing uncertainties, temperature variation, power supply fluctuations, and aging are examples of the difficulties that integrated circuit designers face to develop the future CPUs and GPUs. Nowadays, technology nodes below 10 nm have become the industry standard for high-end integrated circuits, making the design incredibly challenging due to the extreme variability environment. The industry's main concerns about these variations are related to the loss of performance, reliability, and the cost of low fabrication yield. The complexity associated with each new CMOS technology node is due to the exacerbated lithographic variations that pose a significant technical challenge to process engineers. The ability to control the process directly impacts the fabrication yield of the integrated circuit. Thermal variations, caused by exceptionally high dense chips along with very localized fast-changing workloads, and extended temperature ranges for novel applications have, as well, pushed the limits of the technology. For instance, the workload current can raise from a couple of milliamps to a couple of amps in a few seconds, prone to creating stressful on-chip temperature gradients both in time and space. Power supply variations have turned into a first-level design restriction. Interconnection resistances have increased as the wires get smaller rising the IR drop in the power supply network. The transistors high-density also affects power supply as the clock frequency, or power gating create large current swings and make the supply voltage fluctuations go beyond safe operating margins. Aging variations, related to the degradation of the integrated circuits with normal use, have also gained importance with the scaling down of the technology. In this scenario of extreme variability, one of the most common solutions to improve the reliability of any chip is the idea of self-awareness, i.e., to precisely understand what is happening with the process, power supply, temperature, and aging (PVTA) variations inside the ICs. And this can be achieved through the allocation of on-chip monitoring infrastructures that are becoming more and more crucial. PVTA monitors have become fundamental for current and future designs that aim at exploiting all the technological possibilities. This thesis presents four novel sensors that address some of the acutest problems associated with PVTA variability. The first contribution approaches power supply noise in current nanometer technologies, which represents a growing risk, mainly because of the uncertainties it produces in the critical paths delays, resulting in erroneous computations. These noticeably short variations can also affect the functionality of analog circuits like a comparator or an analog digital converter (ADC). To tackle these issues and to have better power management, on-line power supply monitors have become one standard solution. Traditional approaches use an external reference and are sensitive to temperature and process variations or present high latency. The first proposed sensor is based on a novel detector circuitry that employs a feedback loop that works without an external reference and is hardened against temperature and process variations to deal with the power supply noises. The sensor was designed in the 40 nm CMOS technology node, running at 1.1 V and has been validated for a temperature range from 0 °C to 85 °C covering all process corners. Also, considering the 3<r confidence, the sensor can detect over/undershoots voltage fluctuations up to 2 GHz in the range of -70 mV to +90 mV from the nominal voltage with a maximum latency of 1.1 ns and an energy consumption per measurement of 0.8 pj. For some electronic circuits, not only it is required to be aware of high-frequency power supply fluctuation, but also, they need a precise measure of lower-frequency power supply variations. This is the target of the second contribution of the thesis, a new voltage sensor designed to provide a high-accuracy quantized output corresponding to a digitization of the power supply voltage. The sensor's front-end relies on the well-known bandgap core circuit not used to obtain a reference voltage, as it usually is, but rather to sense the fluctuations in the power supply voltage. The readout circuitry is formed by a fully differential amplifier and two identical voltage-controlled ring oscillators providing a differential frequency output for the monitor. The monitor has been designed with a 40nm commercial technology and is characterized by a 4200 ¡im2 area and 600 pj of energy consumption per measurement. It can sense a power supply range from 1 V to 1.3 V with a small error of ± 10 mV over 3a. This new architecture was thought to measure on-chip power supply variations that take more than 500 ns to settle. The sensor can be placed in distinct locations across the chip in order to provide the performance degradation of the power grid caused by current surges or crosstalk. The proposed monitor supplies an excellent trade-off between accuracy, area and power consumption compared to previous works. Moving on to the temperature variations, the extreme miniaturization of electronic technologies has turned varying and unpredictable temperatures into a first-class concern for high-performance processors which mitigate the problem by employing dynamic thermal management control systems. In order to monitor the thermal profile of the chip, these systems require a collection of on-chip temperature sensors with strict demands in terms of area and power overhead. The third contribution introduces a sensor topology specially tailored for these requirements. Also targeting the 40 nm CMOS technology node, the proposed sensor uses both bipolar and CMOS transistors, benefiting from the stable thermal characteristics of the former and the compactness and speed of the latter. The temperature sensor architecture is composed of a temperature-sensitive ring oscillator and a frequency-to-digital converter. The ring oscillator is formed by three BiCMOS inverters and has an oscillation frequency dependent on the temperature. A counter converts the oscillator frequency into a digital output. A new BiCMOS inverter was developed to have an output delay dependent on the temperature making this architecture to be based both on BJTs and CMOS. The sensor has been fully characterized through extensive postlayout simulations for a temperature range of 0 °C to 100 °C, achieving a maximum error of ±0.9 °C/ considering 3<r yield and a resolution of 0.5 °C. The area —900 ¡im2—, energy per conversion —1.06 nj—, and sampling period —2 ¡is— are very competitive compared to previous works in the literature. Finally, the fourth contribution focuses on the timing uncertainties due to the process, voltage, temperature, and dynamic frequency variations. Timing uncertainties are one of the most dangerous of these variations because they jeopardize the performance of the entire system. In the current context of strict low-power requirements, complex dynamic frequency, and voltage scale systems try to continually push the operating conditions of electronic chips to the lower bound that fulfills the performance requirements. Also, at test time of a synchronous electronic system, any occurrence of timing violations, especially hold time violations, must be identified, located and corrected. Critical path monitors serve these two purposes; they measure the delays where transients are produced in relation to the clock signal for the critical paths of the system. Traditional approaches employ synthesized replicas of the critical path to perform the measurement which increases area. The fourth sensor of this thesis introduces a critical path monitor architecture that yields two configurable digital outputs: one for setup time violations, and another for hold time violations. The monitor directly senses the critical path, without the need to introduce synthesized replicas. The architecture has been validated in a 40nm commercial technology, it takes an area of 4028 /mi2, and it is very robust against process, voltage and temperature variations. ----------RESUMEN---------- La tecnología CMOS continúa reduciéndose, proporcionando beneficios como mayores densidades de transistores, menor consumo de energía dinámica o mejores frecuencias de trabajo. Sin embargo, estos beneficios van acompañados de efectos secundarios indeseables que hacen que el proceso de diseño de los sistemas electrónicos sea cada vez más complejo. Las variaciones de los procesos, las incertidumbres de tiempo, la variación de la temperatura y las fluctuaciones de la tensión de alimentación son ejemplos de las dificultades a las que se enfrentan los diseñadores de circuitos integrados para desarrollar las futuras CPU y GPU. Hoy en día, los nodos tecnológicos por debajo de 10 nm se han convertido en la tecnología estándar de la industria para diseñar los sistemas en un chip, lo que hace que el diseño sea increíblemente difícil debido al entorno de extrema variabilidad. Las principales preocupaciones de la industria sobre estas variaciones están relacionadas con la pérdida de rendimiento, fiabilidad y el coste del bajo rendimiento de fabricación. La complejidad asociada a cada nuevo nodo tecnológico de la CMOS se debe a las exacerbadas variaciones litográficas que plantean un importante desafío técnico a los ingenieros de procesos. La capacidad de controlar el proceso afecta directamente al rendimiento de fabricación del circuito integrado. Las variaciones térmicas, causadas por los chips de densidad excepcionalmente alta junto con las cargas de trabajo de cambio rápido muy localizadas, y los amplios rangos de temperatura para las nuevas aplicaciones también han empujado los límites de la tecnología. Por ejemplo, la corriente de la carga de trabajo puede aumentar de un par de miliamperios a un par de amperios en unos pocos segundos, lo que es propenso a crear estresantes gradientes de temperatura en el chip tanto en el tiempo como en el espacio. Las variaciones en la tensión de alimentación se han convertido en una restricción de diseño de primer nivel. Las resistencias de interconexión se han incrementado a medida que los cables se hacen más pequeños aumentando la caída de IR en la red de suministro de energía. La alta densidad de transistores también afecta a la tensión de alimentación, en concreto estrategias como el clock-gating o el power-gating crean grandes oscilaciones de corriente y hacen que las fluctuaciones de la tensión de alimentación vayan más allá de los márgenes operativos seguros. Todas estas variaciones son el objeto de estudio de la tesis. En particular, este documento se centra en el desarrollo de nuevas arquitecturas de sensores capaces de medir las variaciones del voltaje de alimentación, las variaciones de temperatura y las incertidumbres de tiempo en los caminos críticos. En este escenario de extrema variabilidad, una de las soluciones más comunes para mejorar la confiabilidad de cualquier chip es la idea de autoconciencia, es decir, comprender con precisión lo que está sucediendo con las variaciones del proceso, suministro de energía, temperatura y envejecimiento (PVTA) dentro de los circuitos integrados. Y esto se puede lograr mediante la asignación de infraestructuras de monitoreo en chip que son cada vez más cruciales. Los monitores PVTA se han convertido en fundamentales para los diseños actuales y futuros que tienen como objetivo explotar todas las posibilidades tecnológicas. Esta tesis presenta cuatro sensores novedosos que abordan algunos de los problemas más graves asociados con la variabilidad de PVTA. La primera contribución aborda el ruido de la fuente de alimentación en las tecnologías nanométricas actuales, lo que representa un riesgo creciente, principalmente por las incertidumbres que produce en los retrasos de las rutas críticas, lo que genera cálculos erróneos. Estas variaciones notablemente breves también pueden afectar la funcionalidad de circuitos analógicos como un comparador o un convertidor digital analógico (ADC). Para abordar estos problemas y tener una mejor administración de energía, los monitores de suministro de energía en línea se han convertido en una solución estándar. Los enfoques tradicionales utilizan una referencia externa y son sensibles a las variaciones de temperatura y proceso o presentan una latencia alta. El primer sensor propuesto se basa en un circuito detector novedoso que emplea un circuito de retroalimentación que funciona sin una referencia externa y está reforzado contra las variaciones de temperatura y proceso para hacer frente a los ruidos de la fuente de alimentación. El sensor fue diseñado en el nodo de tecnología CMOS de 40 nm, funcionando a 1.1 V y ha sido validado para un rango de temperatura de 0 °C a 85 °C que cubre todos los rincones del proceso. Además, teniendo en cuenta la confianza de 3a, el sensor puede detectar fluctuaciones de voltaje de hasta 2 GHz en el rango de -70 mV a +90 mV del voltaje nominal con una latencia máxima de 1.1 ns y un consumo de energía por medición de 0.8 pj. En el caso de algunos circuitos electrónicos, no solo es necesario conocer las fluctuaciones de la fuente de alimentación de alta frecuencia, sino que también necesitan una medida precisa de las variaciones de la fuente de alimentación de baja frecuencia. Este es el objetivo de la segunda contribución de la tesis, un nuevo sensor de voltaje diseñado para proporcionar una salida cuantificada de alta precisión correspondiente a una digitalización de la tensión de alimentación. El extremo frontal del sensor se basa en el conocido circuito de núcleo de banda prohibida que no se utiliza para obtener un voltaje de referencia, como suele ser, sino para detectar las fluctuaciones en el voltaje de la fuente de alimentación. El circuito de lectura está formado por un amplificador diferencial y dos osciladores de anillo controlados por voltaje idénticos que proporcionan una salida de frecuencia diferencial para el monitor. El monitor ha sido diseñado con una tecnología comercial de 40nm y se caracteriza por un área de 4200 ¡im2 y 600 pj de consumo de energía por medida. Puede detectar un rango de tensión de 1 V a 1.3 V con un pequeño error de ±10 mV sobre 3a. Esta nueva arquitectura se pensó para medir las variaciones de la fuente de alimentación en el chip que tardan más de 500 ns en asentarse. El sensor se puede colocar en distintas ubicaciones a lo largo del chip para proporcionar la degradación del rendimiento de la red de alimentación causada por sobretensiones o diafonía. El monitor propuesto ofrece una excelente compensación entre precisión, área y consumo de energía en comparación con trabajos anteriores. Pasando a las variaciones de temperatura, la miniaturización extrema de las tecnologías electrónicas ha convertido las temperaturas variables e impredecibles en una preocupación de primera clase para los procesadores de alto rendimiento que mitigan el problema mediante el empleo de sistemas de control de gestión térmica dinámica. Para monitorear el perfil térmico del chip, estos sistemas requieren una colección de sensores de temperatura en el chip con demandas estrictas en términos de área y sobrecarga de energía. La tercera contribución presenta una topología de sensor especialmente diseñada para estos requisitos. También apuntando al nodo de tecnología CMOS de 40 nm, el sensor propuesto utiliza transistores bipolares y CMOS, beneficiándose de las características térmicas estables del primero y de la compacidad y velocidad del segundo. La arquitectura del sensor de temperatura está compuesta por un oscilador de anillo sensible a la temperatura y un convertidor de frecuencia a digital. El oscilador de anillo está formado por tres inversores BiCMOS y tiene una frecuencia de oscilación dependiente de la temperatura. Un contador convierte la frecuencia del oscilador en una salida digital. Se desarrolló un nuevo inversor BiCMOS para tener un retardo de salida dependiente de la temperatura, lo que hace que esta arquitectura se base tanto en BJT como en CMOS. El sensor se ha caracterizado por completo mediante extensas simulaciones para un rango de temperatura de 0 °C a 100 °C, logrando un error máximo de ±0.9 °C considerando un rendimiento de 3a y una resolución de 0.5 °C. El área —900 ¡im2—, la energía por conversión —1.06 nj— y el período de muestreo —2 ¡is— son muy competitivos en comparación con trabajos previos en la literatura. Finalmente, la cuarta contribución se centra en las incertidumbres de tiempo debidas al proceso, voltaje, temperatura y variaciones de frecuencia dinámica. Las incertidumbres de tiempo son una de las más peligrosas de estas variaciones porque ponen en peligro el rendimiento de todo el sistema. En el contexto actual de estrictos requisitos de baja potencia, los complejos sistemas dinámicos de frecuencia y de voltaje intentan impulsar continuamente las condiciones de funcionamiento de los chips electrónicos al límite inferior que cumple con los requisitos de rendimiento. Además, en el momento de la prueba de un sistema electrónico síncrono, se debe identificar, localizar y corregir cualquier ocurrencia de violaciones de tiempo, especialmente violaciones de tiempo de espera. Los monitores de ruta crítica sirven para estos dos propósitos; miden los retardos donde se producen los transitorios en relación con la señal de reloj para las rutas críticas del sistema. Los enfoques tradicionales emplean réplicas sintetizadas de la ruta crítica para realizar la medición que aumenta el área. El cuarto sensor de esta tesis presenta una arquitectura de monitor de ruta crítica que produce dos salidas digitales configurables: una para violaciones del tiempo de configuración y otra para las violaciones del tiempo de espera. El monitor monitora directamente la ruta crítica, sin necesidad de introducir réplicas sintetizadas. La arquitectura ha sido validada en una tecnología comercial de 40 nm, ocupa un área de 4028 /mi2 y es muy robusta frente a variaciones de proceso, voltaje y temperatura.

Funding Projects

TypeCodeAcronymLeaderTitle
Government of SpainTEC2015-65902TOLERA2UnspecifiedVariability in Nanometric technologies: Tolerance, Reliability and Benefits
Government of SpainPGC2018-097339NEUROWAREUnspecifiedEfficient and Robust Hardware for Brain-Inspired Computing

More information

Item ID: 67649
DC Identifier: https://oa.upm.es/67649/
OAI Identifier: oai:oa.upm.es:67649
DOI: 10.20868/UPM.thesis.67649
Deposited by: Archivo Digital UPM 2
Deposited on: 08 Jul 2021 05:43
Last Modified: 08 Jul 2021 05:43
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM