автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.15, диссертация на тему:Исследование и оптимизация схемотехники систем синхронизации цифровых устройств с предельной производительностью

кандидата технических наук
Бутузов, Александр Валерьевич
город
Москва
год
2006
специальность ВАК РФ
05.13.15
Диссертация по информатике, вычислительной технике и управлению на тему «Исследование и оптимизация схемотехники систем синхронизации цифровых устройств с предельной производительностью»

Автореферат диссертации по теме "Исследование и оптимизация схемотехники систем синхронизации цифровых устройств с предельной производительностью"

На правах р.- кот

Бутузов Александр Валерьевич

ИССЛЕДОВАНИЕ И ОПТИМИЗАЦИЯ СХЕМОТЕХНИКИ СИСТЕМ СИНХРОНИЗАЦИИ ЦИФРОВЫХ УСТРОЙСТВ С ПРЕДЕЛЬНОЙ ПРОИЗВОДИТЕЛЬНОСТЬЮ

Специальность 05.13.15 - Вычислительные машины и системы

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва - 2006

Работа выполнена в ЗЛО «МЦСТ».

Научный руководитель к.т.н. Кристовский Г.В.

Официальные оппоненты д.т.н.. проф. Яицков Л.С.,

кл.н. Лозовой В.В.

Ведущая организация: Институт точной механики и вычислительной техники

Защита состоится «¿jb> Hüfifj'?_ 2006г. в А часов па заседании

диссертационного совета К409.009.01 при Институте электронных управляющих машин по адресу 119334, г. Москва, ул. Вавилова, д. 24, ИНЭУМ.

С диссертацией можно ознакомиться в библиотеке института. Автореферат разослан «_t2_» 2006 г.

У

Ученый секретарь /1 /|/ Красовский В.В.

диссертацио! к.т.н., проф.

диссертационного совета / 7)} \

роя 6 Л

// 05щая характеристика работы

Актуальность работы

Возможность достижения высоких частот работы современных микропроцессоров напрямую зависит от характеристик системы синхронизации. Однако, ее проектирование усложняется целым рядом факторов, отражающих современные тенденции в полупроводниковой индустрии:

- Сокращение числа логических уровней в ступени конвейера. При этом вклад триггеров и разбросов фронтов синхросигналов в производительность и энергопотребление системы становится все более существенным.

- Переход к новым технологиям. Уменьшение технологических размеров приводит к росту неточности контроля за размерами структур на кристалле в процессе изготовления, что вызывает увеличение разбросов фронтов синхросигнала, негативно влияющих на производительность. Увеличение степени интеграции приводит к росту флуктуаций напряжения питания и наводок, увеличению нагрузки на систему синхронизации и удлинению пути распространения синхросигнала, что в свою очередь вызывает увеличение разбросов фронтов синхросигнала.

— Увеличение сложности современных микропроцессорных систем, обуславливающее повышение нагрузки на систему синхронизации и усложнение тестового оборудования.

— Жесткие требования на рассеиваемую мощность.

В конечном итоге эти факторы приводят к снижению производительности микропроцессора и к увеличению накладных расходов на организацию синхронизации. Поэтому актуальной становится задача поиска новых подходов к проектированию высокоэффективных систем синхронизации. Требуется более сложная методология разработки, которая позволяет оптимизировать системы синхронизации одновременно по двум параметрам - мощности и быстродействию. Так, для статической КМОП схемотехники, которой присуща малая потребляемая мощность, актуальным становится нахождение быстродействующих схемотехнических решений. Для динамической КМОП схемотехники, наоборот, необходимо искать пути Сокращения МОЩНОСТИ. Кроме ТОГО, динурпничяпид системы ггинямичегких

РОС. НАЦИОНАЛЬНАЯ БИБЛИОТЕКА С.-Петербург ОЭ 200Ьлкт^Ь^

вентилей усложняется за счет необходимости обеспечивать корректные режимы функционирования каждого вентиля. Для сокращения потребляемой мощности и потерь производительности, обусловленных синхронизацией, требуется поиск нестандартных решений. Большая сложность разработки систем синхронизации для устройств, построенных с применением динамической логики, приводит к необходимости проведения исследований и разработки методов в области автоматизации проектирования.

Цель исследования

Целью диссертационной работы являлось нахождение эффективных логических и схемотехнических решений для проектирования энергосберегающих систем синхронизации конвейерных устройств как на статической, так и на динамической КМОП логике.

В соответствии с целью диссертационной работы были определены следующие задачи:

1. Исследование существующих подходов к проектированию систем синхронизации в современных высокопроизводительных микропроцессорах. Классификация и сравнительный анализ основных решений в поле быстродействие-энергопотребление.

2. Исследование и разработка схемотехники высокопроизводительных энергосберегающих статических триггеров.

3. Разработка методики выбора оптимальных по энергосбережению схемотехнических параметров триггеров при заданной спецификации на быстродействие и энергопотребление.

4. Разработка системы синхронизации без временных потерь для устройств, построенных на динамической логике, и методологии расчета временных соотношений в этой системе.

5. Разработка программного средства для облегчения инженерных расчетов и конструирования систем синхронизации без временных потерь для устройств на динамической логике.

6. Апробация методологии проектирования системы синхронизации без временных потерь на тестовых устройствах.

Научная новизна работы

Решение поставленных в диссертационной работе задач определяет научную новизну исследования, которую, прежде всего, составляют:

1. Разработанная схемотехника энергосберегающих статических триггеров с высоким быстродействием.

2. Методология сравнения схемотехники триггеров в широком поле спецификаций на быстродействие и энергопотребление и способ расчетов оптимальных схемотехнических параметров для заданной спецификации.

3. Методология проектирования и логическая структура системы синхронизации без временных потерь для конвейерных устройств, построенных с применением динамических вентилей.

4. Методология разработки и логическая структура системы синхронизации с шириной рабочего импульса, пропорциональной периоду тактовой частоты, характеризующейся низкими потерями производительности на организацию синхронизации.

5. Схемотехника сумматора, выполненная на динамической логике с использованием высокоэффективной системы синхронизации и малосигнальных цепей переноса.

6. Схемотехника умножителя, основанная на использовании парафазной DCVS-логики (differential cascode voltage switch) и системы синхронизации без временных потерь.

Результаты, выносимые на защиту

В процессе проведения исследований автором получены следующие результаты:

1. Методология проектирования высокоэффективной энергосберегающей системы синхронизации для устройств на статической схемотехнике.

2. Инженерный способ получения характеристик триггеров для практического выбора оптимальной конфигурации и соответствующего ей набора параметров, удовлетворяющих заданным требованиям на мощность и быстродействие.

3. Модификация электрической схемы триггера на базе дифференциального усилителя, которая характеризуется минимальным энергопотреблением при

заданной производительности по сравнению с другими типами триггерных схем.

4. Анализ широкого спектра современных решений по организации синхронизации устройств, построенных с применением динамических вентилей. Выделены способы, отличающиеся наибольшим быстродействием и наименьшей мощностью потребления.

5. Логическая и схемотехническая структуры системы синхронизации без временных потерь, при применении которой для функциональных устройств может быть достигнут минимальный период 6 Р04, где Р04 - общеизвестная метрика задержки КМОП схем, равная задержке инвертора, нагруженного на 4 себе подобных.

6. Методология расчетов и конструирования системы синхронизации с предельным быстродействием для функциональных устройств на динамической логике.

7. Программное средство для автоматического расчета параметров цепи распространения импульсов восстановления в функциональных устройствах на динамической логике, а также для верификации временных соотношений в их окончательных электрических схемах.

8. Эффективность предложенных систем синхронизации подтверждена экспериментально путем моделирования электрических систем типовых арифметических устройств: сумматора и умножителя.

Практическая ценность

Усовершенствованная схема триггера на дифференциальном усилителе

была использована в расширении библиотеки стандартных ячеек при

разработке БРАИС-совместимого микропроцессора в ЗАО «МЦСТ».

Методология выбора оптимальных схемотехнических параметров была

применена для выбора номенклатуры стандартных ячеек в той же библиотеке.

Методология сравнения характеристик мощности и быстродействия

статических триггеров была применена в НИР «Поисковые исследования путей

создания сверхбольших интегральных схем с пониженным напряжением

питания и малой потребляемой мощностью на основе двухзатворных

нанотранзисторов» на этапе «Разработка теоретических основ построения

низковольтных БИС на основе нанотранзисторов», проведенном в ИМВС РАН.

4

Схема сумматора была использована в ходе выполнения ОКР «Многопроцессорный вычислительный комплекс «Эльбрус-ЗМ(11)» в ЗАО "МЦСТ».

Схема умножителя была применена в НИР «Поисковые исследования в обеспечении создания низковольтной и радиационностойкой КМОП схемотехники для носимой радиоэлектронной аппаратуры военного назначения» на этапах "Исследование и выбор технологии и схемотехники для низковольтных КМОП схем" и "Разработка моделей функциональных устройств. Исследование короткоканальных эффектов. Обзор радиационной стойкости МОП транзисторов", проведенном в ИМВС РАН.

Личный вклад автора

Методология сравнения разных схемотехник триггеров в поле быстродействие-энергопотребление и методика совместной оптимизации этих характеристик разработаны лично автором. Усовершенствование схемы триггера на дифференциальном усилителе предложено лично автором. Исследование, методика расчетов и конструирования систем синхронизации, а также программное средство для облегчения разработки устройств, построенных с применением динамических вентилей, разработаны лично автором.

Схемотехника и топология сумматора разрабатывалась в ЗАО «МЦСТ» коллективом разработчиков при личном участии автора. Схемотехника умножителя разработана лично автором.

Апробация

Результаты диссертационной работы докладывались на всероссийских и вузовских научных конференциях:

1. 44-ая научно-техническая конференция МФТИ, Москва, 2001

2. 46-ая научно-техническая конференция МФТИ, Москва, 2003

3. Открытый конкурс на лучшую работу студентов по естественным, техническим и гуманитарным наукам в вузах Российской Федерации, Москва, 2002. Работа-победитель.

4. XX Научно-техническая конференция в/ч 03425, Москва, 2002

Публикации

По теме диссертации опубликовано 6 работ. Структура и объем работы

Диссертация состоит из введения, пяти глав и заключения. Диссертация содержит 181 страницу текста, 88 иллюстраций, 12 таблиц и приложение на 10 страницах. Список литературы и ссылок на ресурсы Internet насчитывает 101 наименование.

Содержание работы

Во введении формулируются цель исследования, актуальность работы, её практическая ценность.

В первой главе определены основные понятия, необходимые для изложения результатов диссертационной работы. Проведен обзор схемотехники триггеров для традиционных систем синхронизации, исиользуемых в устройствах на статической КМОП логике. Сформулированы основные положения методологии разработки высокоэффективных элементов синхронизации с учетом оптимизации двух параметров - быстродействия и энергопотребления.

Цель методологии - определить оптимальную электрическую схему триггера с соответствующим ей набором параметров для заданной спецификации на мощность и/или быстродействие, учитывая существующий компромисс между этими характеристиками. Исходным этапом методологии является определение аргументов и функций в поле оптимизации. Аргументами выбраны: конфигурация триггера (его схемотехническая структура), схемотехнические размеры конфигурации и напряжение питания. Отметим, что это самое общее поле аргументов из представленных в литературе. Кроме этого при выборе конфигурации триггера учитывалась возможность заведения в электрическую схему тестирующей логики. В качестве функций выбраны характеристики быстродействия и мощности. Показано, что корректной характеристикой быстродействия является точка минимума зависимости

задержки вход-выход от времени предустановки. Корректной характеристикой энергопотребления является взвешенная сумма энергий переключения триггера при различных последовательностях входных векторов. Конечным этапом методологии является определение критерия оптимизации при имеющемся компромиссе быстродействия и энергопотребления.

В зависимости от начальных спецификаций, как правило, определяемых целевым применением схемы, критерии оптимизации могут различаться. Поэтому в работе рассмотрено семейство критериев, и в качестве основополагающей характеристики для каждой конфигурации триггера выбрана кривая в координатах энергопотребление-быстродействие, задаваемая следующим условием: каждая точка кривой - точка максимально возможного быстродействия данной конфигурации при заданном энергопотреблении. В работе показано, что эта же кривая может быть задана эквивалентным условием - множество точек с минимально возможным энергопотреблением при заданном быстродействии. Характеристические кривые позволяют сравнивать различные конфигурации триггеров в широком диапазоне целевых энергопотребления или быстродействия. Однако, на практике получить характеристическую кривую в соответствии с заданными определениями сложно, так как требуется подбор параметров для фиксированного значения энергопотребления или быстродействия, в то время как при изменении параметров меняются обе функции. В работе предложен инженерный способ быстрого и эффективного получения характеристической кривой для практического выбора оптимальной конфигурации и соответствующего ей набора схемотехнических параметров на основе эквивалентного определения этой кривой. Показано, что характеристическая кривая может быть построена на основе семейства обобщенных критериев - минимизации произведений ЕЕТ для нескольких п. Здесь Е - характеристика энергопотребления, -О -характеристика быстродействия, а п- параметр из множества неотрицательных чисел, однозначно соответствующий определенной точке характеристической кривой. Отметим, что частные критерии оптимизации, такие как минимизация Ей (фактически ЕВ1), минимизация ЕО2 достаточно часто используются на практике, и чем выше показатель степени Д тем выше приоритет быстродействия перед энергопотреблением в задаче совместной оптимизации.

Для любой точки характеристической кривой существует п, при котором ЕЕ!'

7

минимально. Таким образом, чтобы определить вид характеристической кривой, следует задаться несколькими значениями п (в работе показано, что достаточно 3-4 значений) и найти точки, в которых соответствующие произведения ED" минимальны. Остальные точки характеристической кривой могут быть получены интерполированием найденных.

По разработанной методике были исследованы следующие конфигурации D-триггера: общеизвестный триггер на двух защелках (MS-триггер), триггер с встроенным генератором узкого синхроимпульса (УИ), триггер на основе дифференциального усилителя (ДУ). При этом каждая из конфигураций была модифицирована для возможности подключения цепи сканирования, а две последних конфигурации и для возможности интеграции дополнительной логической функции. В две последние конфигурации были введены схемотехнические усовершенствования, позволившие улучшить и скоростные, и энергосберегающие характеристики исходных конфигураций. Полученные характеристические кривые для каждой конфигурации представлены на рис. 1. Они соответствуют стандартному значению активности на входах, равному 0.5. Данный график позволяет сделать несколько важных выводов:

1. Конфигурация на основе дифференциального усилителя оказывается энергетически предпочтительней стандартной MS-структуры в широком диапазоне спецификаций на быстродействие, что опровергает общепринятое мнение лишь о высоких скоростных характеристиках ДУ-структуры (для коэффициентов активности > 0.5).

2. Если имеется точная спецификация на быстродействие или мощность, на основе графика можно выбрать наиболее предпочтительную конфигурацию с оптимальным набором схемотехнических параметров.

3. Если стоит задача оптимизации по критерию ED" для заданного и (например для п-2 - ED2), на основе графика можно выбрать наиболее эффективную структуру. Так, на рис. 1 отмечены значения п в соответствующих точках.

4. По крутизне графика можно судить об эффективности перехода к более агрессивной спецификации - например о «цене» повышения требования к быстродействию.

5. Для каждой конфигурации просматриваются асимптотические значения быстродействия и энергопотребления (соответствующие и=0, л=оо), что также является полезной характеристикой конфигурации.

100 200 300

400 500 600 ЗАДЕРЖКА

700

Рис. 1. Характеристические кривые для различных конфигураций триггеров: МБ -триггер на двух защелках, УИ -триггер со встроенным генератором узкого синхроимпульса, ДУ - триггер на основе дифференциального усилителя.

В работе представлены характеристические кривые для меньшего набора параметров (например, при фиксированном напряжении питания) и для различных активностей переключений, которые могут быть использованы для соответствующих оптимизаций.

Вторая глава посвящена исследованию систем синхронизации для устройств, построенных с применением динамической логики. Отличительной особенностью таких систем является необходимость синхронизации не только триггерных элементов, но и каждого вентиля в цепи, так как динамические вентили функционируют в попеременно включающихся режимах вычисления и восстановления. Номинально это приводит к увеличению накладных расходов на организацию синхронизации как по быстродействию, так и по мощности.

Классическое решение по организации синхронизации устройств на динамической схемотехнике было применено в микропроцессоре «Альфа» фирмы DEC. В соответствии с режимами функционирования вентили разбиваются на полутактовые ступени с триггерными станциями на их границах. Это позволяет скрыть время предзаряда вентилей за временем вычисления соседней полутактовой ступени.

Основными факторами, ограничивающими быстродействие классической схемы являются:

- Триггерные ступени в каждом полутакте.

- Разброс фронтов синхросигнала (для каждого полутакта) и разброс скважности.

- Увеличение задержки каждого логического вентиля из-за наличия дополнительного синхротранзистора, позволяющего вести одновременный сброс всей ступени. Результаты моделирования показывают, что в среднем при использовании 2-ух, 3-ех, 4-ех-входовых схем из-за наличия синхротранзистора задержка вырастает на 20%.

Дополнительный накладной расход может внести «неидеальное» разбиение системы на полутактовые ступени - тогда максимальная частота будет определяться самой длинной из полутактовых ступеней из-за невозможности заема времени («жесткие» границы полутактовых ступеней).

Заведение синхросигнала на все вентили схемы приводит к высокой мощности усилителей синхросигнала, которая может доходить до 40% всей мощности микропроцессора. Одновременность переключения большого количества вентилей при смене фаз приводит к большим пиковым токам по шинам земли/питания.

Частичное устранение указанных недостатков достигается в решении

фирмы IBM, которая предложила организовать синхронизацию по методике

задержанного сброса (delayed-reset), когда импульс сброса, задерживаемый

цепочкой инверторов, проходит последовательно по всем ступеням логики

аналогично цепи вычислений. Тогда необходимость в дополнительном

хранении информации и промежуточной защелке в середине тактовой ступени

отпадает, так как время прихода импульса сброса выровнено в соответствии с

задержкой вычисления последующего вентиля. Несмотря на снижение

накладных расходов по сравнению с классической схемой, в такой системе

10

остаются потери, связанные с разбросами фронтов синхросигналов и наличием входных триггеров. Недостатками также являются отсутствие возможности заема времени для соседних ступеней конвейера и ограничение на минимальную частоту.

Дополнительные решения по оптимизации быстродействия были применены в микропроцессорах фирмы Интел и прототипе заказного варианта микропроцессора Эльбрус. Последовательный сброс вентилей организован внутри полутактовых ступеней. Каждая полутактовая ступень предваряется вентилем с синхротранзистором, выполняющим функцию, аналогичную защелке в устройствах на статической логике. Это с одной стороны обеспечивает корректное продвижение данных по конвейеру, с другой стороны дает возможность «прозрачного» прохождения логического сигнала через границы полутактовых ступеней. Также использована методика автоматического восстановления исходного состояния (self-reset), когда импульс сброса генерируется автоматически логической схемой по окончанию вычисления. К недостаткам этих схем следует отнести:

- необходимость разводки по кристаллу двух фаз глобального синхросигнала;

- дополнительную нагрузку, которую схемы сброса представляют для полезных сигналов.

В работе рассмотрено усовершенствование данной схемы, где внутри полутактовой ступени восстановление происходит по методике задержанного сброса. Это повышает быстродействие, а также экономит мощность за счет устранения дополнительной нагрузки на вспомогательные схемы генерации импульсов восстановления. Структура такой системы синхронизации представлена на рис. 2.

Во второй главе рассмотрены также другие варианты реализации систем синхронизации, недостатки которых сводятся к недостаткам приведенных основных систем. Все рассмотренные решения классифицированы по методу организации функции хранения информации и методу организации восстановления. Помимо быстродействия для каждой системы синхронизации проанализированы дополнительные аспекты, такие как:

-ограничения по минимальной задержке;

-возможность заема времени;

-ограничение на минимальную частоту; -мощность.

В таблице 1 приведено минимально достижимое значение такта, а также оценочное значение относительной мощности для основных систем синхронизации на примере конвейерной системы с 10-ю уровнями логики внутри конвейерной ступени. (10 Р04, где Р04 - задержка инвертора, нагруженного на 4 себе подобных). Можно отметить, что среди стандартных систем синхронизации и по быстродействию, и по мощности предпочтительна усовершенствованная система синхронизации с разбиением на полутактовые

^skew

CLK Jx" NCLK~H -

21

skew.

tlogicl

t|og|c2

вычисление восстановление

Рис. 2, Усовершенствованная система синхронизации с разбиением на полутактовые ступени без триггеров.

Таблица 1. Сравнительные характеристики быстродействия и энергопотребления систем синхронизации для устройств, построенных на динамической схемотехнике.

Tmin, F04 Е, отн. ед.

Стандартная домино-логика 20 1

Метод задержанного сброса 13.4 0.72

Метод полутактовых ступеней (по методике прототипа микропроцессора «Эльбрус») 11.4 0.64

Метод полутактовых ступеней (по методике микропроцессора «Intel») 11.8 0.68

Усовершенствованный метод полутактовых ступеней 10.4 0.61

Метод домино, допускающий фазовые разбросы 12 0.75

Система с предельными характеристиками производительности 6-10 0.57

ступени (рис. 2).

В третьей главе диссертации изложены результаты исследования систем синхронизации с предельными характеристиками быстродействия.

Основными ограничивающими факторами по достижению предельного быстродействия являются:

- наличие триггеров;

- использование синхротранзисторов в логических вентилях;

- наличие цепей генерации импульсов автоматического восстановления.

Триггеры из схемы можно исключить, если функцию хранения

«переложить» с триггеров на динамические узлы самих вентилей. Однако, триггеры (и вентили с дополнительными синхротранзисторами) обеспечивают вторую функцию - функцию выравнивания задержек «быстрых» и «медленных» сигналов для корректного продвижения информации по конвейеру. Таким образом, в предельном случае, когда в конвейерной системе

все вентили только логические, а триггеры и синхротранзисторы не используются, требуются дополнительные меры для исключения гонок. Они рассмотрены в 3-ей главе диссертации. Для уменьшения нагрузки на цепи формирования импульсов восстановления, в системе с предельным быстродействием предлагается применить методику задержанного сброса.

Структура многотактной динамической системы с предельным быстродействием представлена на рис. 3. Вычисления инициируются по

д Д д Д

и с и С и С и С

н т н т н т н т

1 2 2 2

ИМПУЛЬСНЫМ ГЕНЕРАТОР.

ак

-

т

ИА

С1-К

---•£>■{> |----

т 1 т

Т

-ОИ>|

интерфейс ный

триггер конвейера

I ЕМ

СЦК

Рис. 3. Схема волнового конвейера с предельным быстродействием.

приходу положительного уровня синхросигнала на первый синхронный вентиль (сигнал СЬК). Волна вычислений далее распространяется по логической цепочке вниз (узлы А, В,.. Ы), при этом в общем случае логическая цепь многотактная. Дополнительные транзисторы синхронизации и триггеры не используются. Это возможно, если задержка волны вычисления (узлы ЯА,

ИВ,.., 1Ш) рассчитана по максимальной задержке соответствующего вентиля цепи с учетом времени прихода входных сигналов, так что каждый вентиль надежно переключается до сброса его входов. Например, сигнал А сбрасывается сигналом ЯА только после переключения вентиля 2. Таким образом, функцию хранения обеспечивает сам динамический вентиль, и достигается минимально возможная задержка вычислений, ограниченная лишь временем срабатывания цепочки логических вентилей без дополнительных синхротранзисторов и триггеров.

Ширина импульса сброса выбирается минимально необходимой для восстановления самого «медленного» вентиля в цепи. При этом в критической цепи вычислений сразу по окончании фазы восстановления данного вентиля, на его вход подаются следующие входные сигналы (например, задний фронт сигнала В на рис. 3 совпадает с передним фронтом сигнала А). Таким образом обеспечивается максимальная частота работы системы и достигается предельная пропускная способность конвейера.

В применении к примеру конвейерной системы с 10-ю уровнями логики внутри ступени, организация синхронизации таким образом не приводит к временным накладным расходам на синхронизацию:

Т=10 Р04

Так как глобальных синхросигналов внутри схемы не используется, мощность с учетом мощности драйверов синхросигнала для такой системы минимальная из систем, применяемых в современных микропроцессорах и рассмотренных в работе (см. таб. 1).

В работе показано, что максимальная частота такой системы может быть дополнительно повышена в соответствии с разницей задержек по максимальной и минимальной цепям, и мииимальный период понижен до значения 6Р04 в предположениях, использованных при построении таблицы 1. Действительно, для корректного функционирования системы динамических вентилей требуется выполнить следующие условия:

- Требование на достаточную ширину импульса рабочего сигнала (для переключения последующего вентиля), которое в свою очередь требует

выполнения соотношения по самому раннему приходу импульса восстановления.

- Требование на достаточную ширину импульса восстановления (для переключения данного вентиля в исходное состояние).

- Требования по отсутствию пересечений волны вычислений и волны восстановления, являющиеся обобщающими аналогами на время удержания для схем на статической логике.

В работе показано, что при выполнении перечисленных требований минимально достижимый период синхросигнала для системы с предельным быстродействием пропорционален разности суммарной максимальной и минимальной задержек вычисления:

грт'.ъ /^тах ^т'т ч

1 ~ \С!08/С

при условии превышения задержек вычисления над задержками восстановления, а в обратном случае разности суммарной максимальной задержки восстановления и минимальной задержки вычисления:

у|тп /.шах _,И1!П ч

"Ста Мо е1с)

На рис. 4 изображен график областей функционирования системы па динамической схемотехнике в координатах {суммарная задержка восстановления, период синхросигнала} при двух значениях суммарной задержки вычисления. Как видно, максимальная частота работы достигается в области малых задержек восстановления. При их увеличении, начиная с определенного значения (равного суммарной задержке вычисления), происходит пропорциональный рост минимального периода синхросигнала. Поэтому оптимальной областью функционирования является область левее точки равенства задержек по цепи восстановления и вычисления. Если учесть, что задержки вычисления и восстановления как правило не независимы, и большие задержки восстановления соответствуют меньшим задержкам вычисления, получим, что фактически точкой предельного быстродействия является точка равенства задержек вычисления и восстановления. В ней

то

Рис. 4. Временные области функционирования динамической конвейерной системы.

задержки восстановления имеют максимально допустимую величину при сохранении предельной производительности.

На диаграмме рис. 4 отмечена еще одна точка, в которой минимальный период равен максимальной задержке по цепи вычисления. Это соотношение характерно для классического случая, когда максимальная частота работы ограничена максимальной задержкой по критическому пути (например, система с разбиением на полутактовые ступени). Отметим, что в общем случае, суммарная задержка по цепи вычисления занимает несколько тактов. Однако, вид графика рис. 4 при этом не меняется, так как все величины (То, Т,е!1е1) соответственно масштабируются.

Необходимо отметить, что классическая система имеет такие преимущества, как высокую надежность и контролепригодность за счет пропорциональности ширины рабочего импульса периоду тактовой частоты и

большее количество триггеров, обуславливающее увеличение числа потенциальных «наблюдаемых» точек в скан-цепочках.

В работе представлена методика расчетов и конструирования систем синхронизации для реальных устройств на динамической логике как при применении системы без временных потерь, так и при использовании усовершенствованной системы с разбиением на полутактовые ступени.

В заключении третьей главы проведен анализ влияния разбросов технологических параметров на быстродействие систем синхронизации без временных потерь и показано, что их вклад в ограничение производительности значительно меньше вклада разбросов синхросигналов, характерных для классических систем. Причиной этого является то обстоятельство, что разбросы по цепям вычисления-восстановления можно рассматривать как вариации параметров в двух локальных цепях, тогда как разброс фронтов синхросигнала характеризует глобальный разброс фронтов синхросигнала по кристаллу.

Четвертая и пятая главы посвящены практической реализации предложенных систем синхронизации для устройств, построенных с применением динамических вентилей. Процесс проектирования устройств, особенно характеризующихся нерегулярной структурой межразрядных связей, достаточно сложен, так как отсутствие триггеров и последовательность восстановления требуют выполнения ряда упомянутых выше временных соотношений для каждого вентиля схемы. Для облегчения процесса разработки высокоэффективных систем синхронизации с последовательным сбросом и избежания ошибок в электрических схемах было разработано программное средство, представленное в четвертой главе.

- Первая часть программного средства предназначена для автоматического расчета временных параметров системы синхронизации: расчета предельно достижимой максимальной частоты, задержек в цепи синхросигнала, ширин синхроимпульсов и сигналов сброса.

- Вторая часть программного средства является верификатором и служит для проверки правильности временных соотношений в готовой системе с «реальными» значениями задержек по цепям восстановления и сброса, которые могут быть получены с помощью моделирования электрической схемы. В качестве графического интерфейса предусмотрена возможность использования программы Мос1еЫт.

Пятая глава освещает апробацию разработанных систем синхронизации на тестовых устройствах. Система с разбиением на полутактовые ступени и минимальными потерями быстродействия была применена при разработке 32-разрядного целочисленного сумматора. Схемотехника основных блоков подробно представлена в работе. Отличительной особенностью сумматора является использование дифференциальных схем с малым перепадом для дополнительного повышения быстродействия и снижения мощности.

Для синхронизации сумматора применяется методика разбиения на полутактовые ступени. Критическая цепь логических блоков с указанием задержек и устройства синхронизации представлены на рис. 5. Каждый из двух усилителей синхросигнала обслуживает устройства соответствующей полутактовой ступени. В схеме сумматора используются широкие импульсы вычисления и сброса, что дает возможность за счет снижения частоты и соответствующего уширения импульсов реализовать режим отладки. Однако, задержка появления сигнала на выходе сумматора зависит от частоты работы системы, так как вторая полутактовая ступень запускается от положительного фронта отрицательной фазы синхросигнала. Это затрудняет использование сумматора как макроячейки в полузаказных разработках, так как требует специального формата характеризации, не поддерживаемого современными САПР. Для устранения этого недостатка применена специальная схема синхроусилителя, стоящего на входе второй полутактовой ступени (рис. 5). Задача синхроусилителя при включении соответствующего режима формировать задержанный на полпериода максимальной частоты прямой синхросигнал (DELAYED LCLK), который затем подается на схемы второй полутактовой ступени вместо инверсного синхросигнала. В результате в таком режиме задержка сумматора не зависит от частоты работы. При этом величина логического перепада на малосигнальных схемах оказывается фиксированной и не меняется со снижением частоты.

На технологии 0.13 мкм TSMC LV (Vdd=1.0V) была достигнута предельная частота работы 1.5 ГГц. Мощность на этой частоте составила 7 мВт. Занимаемая площадь 6000 мкм2. По быстродействию сумматор на 30%

19

превосходит аналог, разработанный на традиционной динамической схемотехнике (примененный в микропроцессоре «Альфа»). Дополнительный выигрыш по энергопотреблению получен за счет применения схем с малым логическим перепадом. Сравнительные характеристики сумматоров представлены в таб. 2.

135

ВХОДНОЙ РЕГИСТР

GCLK ALU_EN

J

33

MUXV

слож

ЕНИЯ I

вычи

ТАНИ

ix;

84

ADDER.EN_

-i=CH

PGK-ГЕНЕРАТ OP

1"1 ПОЛУТАКТОВЫЙ УСИЛИТЕЛЬ СИ

-М-о

43

«УНК

ции

ОБХОДИ

ых

ЦЕПЕЙ

23

94

16-БИТ ЦЕПЬ ПЕРЕНОСА

=d-

4>-t>-t>

DELAYED t-CLK

LCLK I

ДУ СУММ

2ой ПОЛУТАКТОВЫЙ УСИЛИТЕЛЬ СИ

Ж

дРаивер'а

6YPAS6I —И— МУЛЬТИПЛЕКСОРЫ

Рис. 5. Схема синхронизации сумматора.

Далее в пятой главе рассмотрена реализация умножителя, как типового многотактного устройства, для апробации методики синхронизации с предельными характеристиками быстродействия.

Схемотехника умножителя разработана на дифференциальной динамической логике (DCVS) и подробно рассмотрена в работе. Классическая методика синхронизации позволяет получить для схемы умножителя предельную частоту 1.15 ГГц для двухтактной длительности операции. При этом максимальная задержка по критическому пути составляет 1.3 не (Т=85С, процесс ТТ, Vdd-5%). Применение системы синхронизации с разбиением на полутактовые ступени позволяет повысить частоту до 1.5 ГТц за счет устранения накладных расходов на триггеры и разброс фронтов синхросигнала. Использование «предельной» системы синхронизации позволяет поднять частоту умножителя еще на треть (до 1.95 ГГц), которая определяется разницей задержек по максимальным и минимальным путям и учитывает

дополнительный «запас» по разбегу цепей вычисления и восстановления. При этой частоте латентность умножителя равна трем тактам. В таблице 3 приведены сравнительные характеристики умножителя с прототипом, построенным на классической «домино» логике. Помимо выигрыша в быстродействии, отметим снижение энергопотребления (мощности на единицу частоты) за счет сокращения нагрузки на синхросигнал и исключения триггеров.

Таблица 2. Сравнительные характеристики сумматора.

Сумматор, рассмотренный в работе Сумматор на стандартной «Домино» логике (аналог примененного в микропроцессоре «Альфа»)

Технология 0.13 ixTSMCLV 1.0V 81т 0.13 i^TSMC LV 1.0V8 lm

Задержка, не (Т=85С, процесс ТТ У<М-5°/о) 0.5 0.8

Максимальная частота, ГГц (типовые условия функционирования) 1.5 1.15

Площадь, мм^ 0.006 -

Количество транзисторов 5000 4500

Мощность на максим, частоте, Вт 0.007 0.006

В заключении главы приведены результаты апробации программного средства для проектирования и верификации высокопроизводительных систем синхронизации на примере полной электрической схемы умножителя 8x8.

Таблица 3. Сравнительные характеристики умножителей.

Разработанный умножитель Умножитель на стандартной «домино»-логике

Технология 0.13 HTSMCLVI.OV 81m 0.13 HTSMCLVI.OV 8 lm

Латентность 3 такта 2 такта

Максимальная частота, ГГц (типовые условия функционирования) 1.95 1.15

Площадь, мм2 0.036 0.02

Количество транзисторов 38000 34000

Мощность на максим, частоте, Вт 0.03 0.025

Выводы по результатам диссертации

Основной результат диссертационной работы заключается в разработке методологии проектирования высокоэффективных систем синхронизации для устройств, построенных как на статической, так и на динамической КМОП схемотехнике.

В процессе исследования автором были получены следующие результаты:

1. Разработана методология построения высокоэффективной системы синхронизации для устройств на статической схемотехнике.

2. Предложен инженерный способ быстрого и эффективного получения характеристик схемотехники триггера для практического выбора оптимальной конфигурации и набора параметров, удовлетворяющих заданным требованиям по мощности и быстродействию.

3. Предложено схемотехническое решение энергосберегающего триггера. Достигнуто 30% увеличение быстродействия при равных энергиях переключения по сравнению со стандартной схемой МБ-триггера.

4. Проанализирован широкий спектр современных решений по организации синхронизации устройств, построенных с применением динамических вентилей. Выделены способы, отличающиеся оптимальным быстродействием и мощностью потребления.

5. Предложена логическая и схемотехническая структура системы синхронизации без временных потерь. Показано, что при выполнении ряда временных соотношений, при применении данной системы синхронизации может быть достигнут минимальный период 6 Р04 при стандартной длине современных конвейеров ЮР04, где И04 - общеизвестная метрика задержки КМОП схем, равная задержке инвертора, нагруженного на 4 себе подобных.

6. Разработана методология расчетов и конструирования системы синхронизации с предельным быстродействием для функциональных устройств на динамической логике.

7. Разработано программное средство для облегчения инженерной работы по проектированию высокопроизводительных систем синхронизации и верификации временных соотношений в окончательной электрической схеме.

8. Разработаны тестовые устройства на динамической логике с применением предложенных систем синхронизации. Для целочисленного сумматора 32 получен 30% прирост быстродействия по сравнению с прототипом, построенным на стандартной домино-логике. Дополнительно выигрыш в мощности составил 20% за счет применения малосигнальных схем в цепях переноса. Для умножителя достигнуто 60% повышение частоты при увеличении мощности на 10% по сравнению с прототипом, построенным на стандартной домино-логике.

Публикации по теме диссертации

1. А. Бутузов «Быстродействующий целочисленный умножитель для современных микропроцессоров,» Сборник научных трудов ИМВС РАН, вып.2, 1999, стр. 82-92.

2. А. Бутузов, А. Подлесный, "Быстродействующий 64-разрядный сумматор для микропроцессора "Е2К", Информационные технологии и вычислительные системы, N1,2001, стр. 34-42.

3. А. Бутузов, "Эффективная методология разработки синхроэлементов для энергосберегающих систем," Сборник тезисов 4б-ой научной конференции МФТИ, 2003, стр. 47.

4. А. Бутузов "Исследование возможностей применения системы самосинхронизации для достижения предельного быстродействия умножителя", Сборник тезисов 44-ой научной конференция МФТИ, 2001, стр. 49.

5. А. Бутузов "Методология разработки высокопроизводительных энергосберегающих систем", Тезисы докладов XXI Научно-технической конференции в/ч 03425, Москва, 2002, стр. 51-52.

6. А. Бутузов, Г. Кристовский "Инженерный метод оптимизации цифровых КМОП схем, учитывающий внутренние емкости логических элементов и связи между ними", Микроэлектроника, N5, 2005, стр. 389-400.

Принято к исполнению 20/10/2UU6 Исполнено 23/10/2006

Заказ № 781 Тираж: ЮОэкз.

Типография «11-й ФОРМАТ» ИНН 7726330900 Москва, Варшавское ш., 36 (495) 975-78-56 www autorcfcrat га

//ffV

HS 2 1 6 9 4

Оглавление автор диссертации — кандидата технических наук Бутузов, Александр Валерьевич

Введение.

1. Традиционные системы синхронизации.

1.1. Основные понятия и определения.

1.2. Предыдущие исследования и постановка задачи.

1.3. Методология разработки быстродействующих энергосберегающих элементов синхронизации.

1.4. Критерий сравнения различных реализаций триггеров.

1.5. Основные конфигурации триггеров и их оптимизация.

1.6. Применение методологии разработки высокопроизводительных и энергосберегающих триггеров.

2. Синхронизация устройств, построенных с использованием динамических элементов. .45 2.1. Предыдущие исследования и постановка задачи.

2.2. Классификация способов синхронизации устройств, построенных с использованием динамических элементов.

2.2.1. Стандартная система синхронизации «домино».

2.2.2. Система синхронизации, организованная по методике задержанного сброса.

2.2.3. Системы синхронизации, организованные по методике самовосстановления.

2.2.4. Система синхронизации «домино», допускающая фазовые разбросы.

2.3. Сравнительный анализ систем синхронизации.

2.3.1. Стандартная система синхронизации «домино».

2.3.2. Метод задержанного сброса.

2.3.3. Метод самовосстановления.

2.3.4. Синхронизация по методу «домино», допускающему фазовые разбросы.

2.3.5. Сравнение методов синхронизации.

3. Системы синхронизации с предельным быстродействием.

3.1. Общая структура конвейерной системы с предельным быстродействием.

3.2. Временные соотношения для синхронизации устройств, построенных на динамических вентилях.

3.3. Методика построения высокоэффективных систем синхронизации.

3.3.1. Методика организации синхронизации динамической системы с предельными характеристиками быстродействия.

3.3.2. Исследование оптимальной производительности для системы с предельными характеристиками быстродействия.

3.3.3. Методика организация синхронизации динамической системы с высоким быстродействием и длинными рабочими импульсами.

3.4. Дополнительные аспекты проектирования.

3.4.1. Надежность и контролепригодность системы синхронизации.

3.4.2. Методология расчетов разбросов задержек по цепи вычисления и восстановления.

3.4.3. Оценка разбросов задержек по цепи вычисления и восстановления.

3.4.4. Мощность динамических систем.

4. Программные средства оптимизации динамической системы синхронизации.

4,1. Программное средство для автоматизации проектирования системы синхронизации с предельными характеристиками быстродействия.

4.1.1. Модели используемых вентилей.

4.1.2. Принцип работы программы автоматической настройки системы синхронизации.

4.2. Программное средство для верификации временных соотношений в динамической системе синхронизации.

4.3. Практическое применение программного средства.

5. Примеры использования динамических систем синхронизации.

5.1. Целочисленный 32-разрядный сумматор.

5.1.1. Общая структура сумматора.

5.1.2. Логическая организация сумматора.

5.1.3. Основные схемотехнические решения.

5.1.3.1. Входные регистры.

5.1.3.2. Схемы PGK генераторов и функций обходных цепей.

5.1.3.3. Схемы переноса.

5.1.3.4. Дифференциальные усилители.

5.1.4. Синхронизация сумматора.

5.2. Умножитель 32x32.

5.2.1. Логическая структура умножителя.

5.2.2. Схемотехника умножителя и основные характеристики.

5.3. Умножитель 8x8.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Бутузов, Александр Валерьевич

Проектирование системы синхронизации является одним из ключевых этапов разработки цифровых устройств, поскольку она обеспечивает управление потоками данных для корректного выполнения логических операций. Фактически, для современных микропроцессоров система синхронизации обеспечивает согласованную работу миллионов логических элементов. Система синхронизации используется и для реализации функции конвейеризации, позволяющей эффективно переиспользовать аппаратуру для параллельных вычислений. Для микропроцессоров система синхронизации также является связующим звеном между двумя уровнями - архитектурным, где существенную роль играет организация конвейера, и схемотехническим, где характеристики синхросистемы определяют производительность разрабатываемых устройств. Отметим важную роль, которую система синхронизации играет при диагностике и отладке микропроцессоров.

Актуальность работы. Схемотехническая реализация системы синхронизации связана с рядом накладных расходов, определяемых технологическими разбросами, изменением условий функционирования отдельных частей системы, неравномерностью нагрузок. В конечном итоге эти факторы приводят к снижению производительности микропроцессора. Часть накладных расходов обусловлена свойствами элементов хранения, используемых в системах синхронизации. Система синхронизации вносит существенный вклад в общую мощность потребления, так как синхросигнал характеризуется максимальной активностью переключений (рис.1). Поэтому как для достижения высокой производительности, так и для целей энергосбережения, оптимизация системы синхронизации является весьма актуальной задачей.

Современные тенденции ставят дополнительный вызов для разработки системы синхронизации. К ним следует отнести:

- Усовершенствование архитектуры микропроцессоров. Для увеличения производительности организация конвейера делается все более и более агрессивно -увеличивается глубина конвейера, а число логических уровней внутри конвейерной ступени снижается. В результате увеличивается как относительное число триггеров, так и их вклад в общую производительность системы.

- Развитие КМОП-технологии, определяющее рост частоты микропроцессоров при переходе к более совершенным технологическим процессам (рис. 2).

- Увеличение степени интеграции, приводящее к росту флуктуаций напряжения питания и наводок, что в свою очередь ведет к увеличению вклада разбросов фронтов синхросигналов в ограничение минимального периода тактовой частоты. С увеличением степени интеграции длина пути распространения синхросигнала и нагрузка на синхросигнал растут, что увеличивает разбросы фронтов.

- Уменьшение технологических размеров, приводящее к росту неточности контроля за размерами структур на кристалле в процессе изготовления, что вызывает увеличение разбросов фронтов синхросигнала.

- Увеличение сложности новых разработок (см. рис. 3), требующее соответствующего усложнения механизмов отладки. Одно из распространенных решений - включение в элементы синхронизации дополнительной функциональности для диагностики, что усложняет нахождение оптимальных схемотехнических решений.

- Ограничение ресурса теплоотводящих систем и рост рынка мобильных устройств, предъявляющие повышенные требования к величине рассеиваемой мощности современных микропроцессоров. Это усложняет задачу разработки высокоэффективных систем синхронизации, поскольку зачастую решения для снижения мощности приводят и к уменьшению производительности. Технологическая тенденция по увеличению концентрации тепловыделения на кристалле (см. рис. 4) подчеркивает актуальность задачи снижения мощности. й Кэш Система СИ

Исполнит. Устр-ва S Управление

Драйверы ввода/вывода

3000

2500

2000

1500

2 1000

500

Pentium 4 •

Pentium 4 •

Aihlonl 900 »

Athlorf

Ath!on2100

1 Itanium

PowerPC о

• IBM-G4 Pill

Cray-1 S ■

Athlon - Itanium

Alpha 21264 PIN Xeon * * Alpha 21164 Exponential*

Alpha 21164 .lBMS/390 Alpha 21064 * UltraSparc II

СГаУСОсГсуЬег|ВМ 3090

CDCCyba Jv/1|psx

1975

1980

1985

1990

1995

2000

2005 Год

Рис.2. Характеристики быстродействия ведущих микропроцессоров [2].

Высокие требования как к производительности, так и к мощности современных цифровых устройств, в совокупности с дополнительными сложностями, вызванными упомянутыми выше тенденциями, требуют новых подходов к разработке высокоэффективных систем синхронизации. Необходима более сложная методология разработки системы синхронизации с учетом оптимизации не по единственному параметру, а как минимум по двум - мощности и быстродействию. Так, для статической схемотехники, характеризуемой конструктивно малой потребляемой мощностью, актуальным становится нахождение быстродействующих схемотехнических решений. Для динамической схемотехники, наоборот, - быстродействие является конструктивным параметром, здесь требуются решения для сокращения мощности и накладных расходов на синхронизацию и предзаряд вентилей, что в конечном итоге позволяет дополнительно повысить производительность. а а а. о ь 5 п X СО а. IX А ч я 3 о с с

EV4 EV5 EV6 EV7 EVS

Рис.3. Увеличение сложности современных микропроцессорных систем на примере нескольких поколений микропроцессоров фирмы DEC/Compaq

3].

70 GO GO 40 30

1----1---г i L i i 4--—i— i i +—i— i i Т"Г~ j

J-Hoi flols

4 i

-i i

T"~"l f"

1 L J i i i -4-—i----i—

•t-j----! i i

-r^r r

H------h

-f—T'~

4-.U. / ----

X \ -f—f— i i

T~T" i i 4—j

1.0 0.4 0.6 0.Й 0.2$ «д14 0.13 0.10 0.07 Frocks 'iricrcosi

Рис. 4. Эволюция концентрации мощности на кристалле [4].

Цель исследования. Целью диссертационной работы являлось нахождение эффективных логических и схемотехнических решений для проектирования высокопроизводительных энергосберегающих систем синхронизации конвейерных устройств как на статической, так и на динамической КМОП логике.

В соответствии с целью исследования в работе предложены и исследованы схемотехнические методы разработки систем синхронизации, позволяющие эффективно решать обозначенные проблемы. Рассмотрен весь спектр цифровых устройств, начиная от нацеленных на применения, требующие энергосбережения, и заканчивая предназначенными для высокопроизводительных вычислений. В главе 1 представлена обобщенная методология проектирования триггеров для статических устройств в широком диапазоне требований как на тактовую частоту, так и на мощность потребления.

В главе 2 исследованы основные подходы, используемые в современных высокопроизводительных микропроцессорах для синхронизации устройств на динамической схемотехнике, и проведен сравнительный анализ основных параметров. В главе 3 рассмотрена методология построения системы синхронизации без временных потерь для устройств, построенных с использованием динамической логики. В главе 4 представлено программное средство для автоматизации проектирования системы синхронизации без временных потерь и ее временной верификации. В главе 5 представлены практические результаты применения методологии. В заключении приведены основные результаты, полученные в работе.

Заключение диссертация на тему "Исследование и оптимизация схемотехники систем синхронизации цифровых устройств с предельной производительностью"

Заключение.

Параметры системы синхронизации оказывают решающее влияние на характеристики всего цифрового устройства: разброс и крутизна фронтов синхросигнала ограничивают производительность, энергия драйверов синхросигнала вносит значительный вклад в мощность системы. В работе рассмотрены эффективные способы построения систем синхронизации для высокопроизводительных энергосберегающих устройств.

Разработана методология проектирования статических хранящих элементов, позволяющая получать схемы, оптимизированные как по быстродействию, так и по энергопотреблению. В теоретическую основу легла теория дифференциального исчисления для функций многих переменных. Предложен инженерный способ быстрого и эффективного применения методологии на практике, используя возможности современных САПР. Методология апробирована на практике с помощью программы моделирования.

Исследована структура и схемотехника элементов хранения с учетом современных требований по обеспечению возможностей диагностики и стремления сократить накладные расходы на синхронизацию. Предложено схемотехническое усовершенствование схемы на дифференциальном усилителе, позволившее достигнуть 30% увеличение быстродействия при равных энергиях переключения по сравнению со стандартной схемой MS-триггера.

Для поиска оптимальных решений в области динамической схемотехники создана классификация типов конструктивных решений, применяемых в современных высокопроизводительных микропроцессорах. Выделены способы, отличающиеся оптимальным быстродействием и мощностью потребления. Разработана методология расчетов и конструирования системы синхронизации с предельным быстродействием для функциональных устройств на динамической логике.

Так как минимизация накладных расходов по быстродействию в динамической системе требует значительных инженерных усилий, разработано вспомогательное программное средство для облегчения проектирования высокопроизводительных систем синхронизации и верификации временных соотношений в окончательной электрической схеме.

Для апробации методологии проектирования высокопроизводительных систем синхронизации разработаны тестовые устройства на динамической логике с применением предложенных систем синхронизации. В качестве тестовых схем рассмотрены типовые устройства обработки данных в современных микропроцессорах - сумматор и умножитель.

Методология проектирования и схемотехника статических хранящих элементов были использованы в расширении библиотеки стандартных ячеек при разработке SPARC-совместимого микропроцессора в ЗАО «МЦСТ», а также в НИР по низковольтной схемотехнике в ИМВС РАН.

Методология проектирования динамических систем синхронизации и схемотехника тестовых устройств была применеа в ОКР «Многопроцессорный вычислительный комплекс «Эльбрус-ЗМ(П)» в ЗАО "МЦСТ», а также ряде НИР по низковольтной схемотехнике в ИМВС РАН.

Базовые соотношения, лежащие в основе разработанной методологии проектирования высокопроизводительных систем синхронизации, получены в метриках, независимых от параметров технологических процесса. Это дает основание для вывода о том, что результаты работы сохраняются и для устройств, разработанных на новых поколениях технологических процессов, основные параметры которых получаются линейным масштабированием предыдущего поколения. Вместе с тем, эффекты немасштабируемости таких параметров как питающее и пороговое напряжения подчеркивают актуальность предложенных в работе решений для энергосбережения и для будущих поколений технологических процессов.

Библиография Бутузов, Александр Валерьевич, диссертация по теме Вычислительные машины и системы

1. P. Gronowski et al. "High-performance microprocessor design", 1.EE Journal SSC, vol.33, no.5, May 1998, P.676-688

2. V. Oklobdzija, J. Sparso "Future Directions in clocking Multi-GHz systems", ISLPED 2002 tutorial

3. J. Rabaey, "Ultra Deep Submicron Design Challenges", Advanced 1С Design, 2001

4. S. Borkar, "Design challenges of technology scaling", IEEE Micro, vol.19, no.4,1999, P. 2329

5. D. Messerchmitt "Synchronization in digital system design", IEEE J. of Selected Areas in Communications, vol. 8, no.8, Oct 1990, P. 1404-1419

6. S. Unger, C.-J. Tan, "Clocking Schemes for High-Speed Digital Systems", IEEE Trans. Computers, No. 10, Oct. 1986, P. 880 895.

7. A. Champernowne et al "Latch-to-latch timing rules", IEEE Trans. On Computers, vol. 39, no. 6, June 1990, P.798-808

8. S.-Z. E. Lin et al., "Optimal Time Borrowing Analysis and Timing Budgeting Optimization for Latch-Based Designs", ACM Transactions on Design Automation of Electronic Systems, vol. 7, no. 1, January 2002, P. 217-230

9. V. Oklobdzija, "Multi-GHz systems clocking", 5th International Conference on ASIC, vol. 2, Oct. 2003, P. 701 -706

10. H.Patrovi et al., "Flow-through latch and edge-triggered flip-flop hybrid elements", ISSCC Dig. Tech. Papers, Feb.1996, P.138-139

11. D. Draper et al., "Circuit techniques in a 266-MHz MMX-Enabled Processor", IEEE Journal SSC, vol.32, no.ll, Nov. 1997, P. 1650-1664

12. F. Klass, "Semi-dynamic and dynamic flip-flops with embedded logic", Symp. on VLSI Circuits, June 1998, P. 108-109

13. M. Matsui et al., "A 200-MHz 13 mm2 2-D DCT macrocell using sense-amplifier pipeline clocking scheme", IEEE Journal SSC, vol. 29, Dec.1994. P. 1482-1491

14. J. Montanaro et al. "A 160-MHz, 32-b, 0.5-W CMOS RISC Microprocessor", IEEE Journal SSC, vol. 31, Nov. 1996, P.1703-1714

15. B. Nikolic et al.,"Sense-amplifier based flip-flop", IEEE International SSC Conference, Feb. 1999, P.282-283

16. J. Yuan and C. Svensson, "New single-clock CMOS latches and flipflops with improved speed and power savings", IEEE Journal SSC, vol. 32, Jan. 1997, P. 62-69

17. G. Blair, "Comments on new single-clock CMOS latches and flipflops with improved speed and power savings", IEEE Journal SSC, vol. 32, Oct. 1997, P. 1610-1611

18. U.Ko et al., "Design techniques for high-performance energy-efficient control logic," ISLPED, Aug. 1996, P.97-100

19. S. Hesley et al., "A 7th-generation X86 Microprocessor", IEEE International SSC Conference, 1999, P.92-93

20. B. Nikolic et al., "Improved sense amplifier-based flipflop: design and measurements", IEEE J. Solid-State Circuits, vol.35, June 2000, P.876-884.

21. L.E. Sutherland, R. F. Sproull. "Designing for Speed on the Back of the Envelope," Proceedings of the 13th Conference on Advanced Research in VLSI. 1991, P. 1-16

22. А. Бутузов, Г. Кристовский "Инженерный метод оптимизации цифровых КМОП схем, учитывающий внутренние емкости логических элементов и связи между ними", Зарубежная радиоэлетроника, Микроэлектроника, N5, 2005, стр. 389-400

23. N.Nedovic et al., "A clock skew absorbing flip-flop," IEEE International SSC Conference, 2003, P.94-95

24. B.Benschneider et al., "A 300-MHz 64-b Quad-Issue CMOS RISC Microprocessor," IEEE J. Solid-State Circuits, Nov. 1995, vol.30, P.1203-1214

25. M.Nogawa et al., "A data-transition look-ahead DFF circuit for statistical reduction in power consumption", IEEE J. Solid-State Circuits, vol.33, no. 5, May 1998, P. 702-706

26. H. Kawaguchi and T. Sakurai, "A reduced clock-swing flip-flop (RCSFF) for 63% power reduction," IEEE J. Solid-State Circuits, vol.33, no. 5, May 1998, P. 807-811

27. C. Kim and S. Kang "A low-swing clock double-edge triggered flip-flop," IEEE J. Solid-State Circuits, vol.37, no.5, May 2002, P. 648-652

28. V. Stoyanovic et al., "Comparative Analysis of Latches and Flip-flops for High-Performance and Low-Power Systems," IEEE J. Solid-State Circuits, vol. 34, no.4, Apr. 1999, P. 536-548.

29. V. Stoyanovic et al. "A unified approach in the analysis of latches and flip-flops for low-power systems," ISLPED, Aug. 1998. P. 227-232

30. B. Kong et al. "Conditional-capture flip-flop for statistical power reduction," IEEE J. Solid-State Circuits, vol. 36, no.8, Aug. 2001, P. 1263-1271

31. D. Markovic, B. Nikolic, R. Brodersen, "Analysis and design of Low-energy flip-flops", International Symposium on Low-Power Electronics Design, 2001, P. 52-55

32. V. Zyuban, D.Meltzer "Clocking Strategies and Scannable Latches for Low Power Applications", International Symposium on Low-Power Electronics and Design, 2001, P. 346 -351.

33. А. Бутузов, "Эффективная методология разработки синхроэлементов для энергосберегающих систем," Сборник тезисов 46-ой научно-технической конференции МФТИ, 2003, стр. 47

34. М. Olivieri, "Theoretical system-level model for power-performance trade-off in VLSI microprocessor design", Workshop on Complexity Effective Design, in conjunction with the IEEE International Symposium on Computer Architecture, June 2001

35. А. Бутузов "Методология разработки высокопроизводительных энергосберегающих систем", Тезисы докладов XXI Научно-технической конференции в/ч 03425, Москва, 2002,стр.51-52.

36. V.Zyuban, P.Strenski, "Unified Methodology for Resolving Power-Performance Tradeoffs at the Microarchitectural and Circuit Levels", International Symposium on Low-Power Electronics and Design, 2002 P.166-171

37. P. Penzes, A. Martin, "Energy-Delay Efficiency of VLSI Computations", Great Lake Symposium on VLSI, 200238. http://www.synopsys.com/products/mixedsignal/hspice/hspice.html

38. G.Gerosa et al., "A 2.2W 80 MHZ superscalar RISC microprocessor", JSSC, vol.29, Dec. 1994, P.1440-1452

39. D.Dobberpuhl Et AL, "200-MHz 64-b Dual-Issue CMOS Microprocessor", IEEE J. Solid-State Circuits, vol. 27, no. 11, Nov. 1992, P. 1555-1564

40. M. Gowan, L. Brio, and D. Jackson, "Power Considerations in the Design of the Alpha 21264", Design Automation Conference, June 1998, P. 726-731

41. А. Бутузов "Исследование возможностей применения системы самосинхронизации для достижения предельного быстродействия умножителя", XLIV научная конференция МФТИ, 2001, стр. 49

42. М. Horowitz "Skew-tolerant domino circuits", Journal SSC, vol. 32, no. 11, Nov. 1997, P. 1702-1711

43. G. Yee, C, Sechen "Clock-delayed domino for dynamic circuit design," IEEE transactions on VLSI systems, Aug. 2000, P.425-430

44. K. Nowka, T.Galambos, "Circuit Design Techniques for a Gigahertz Integer Microprocessor," Proceedings of the IEEE International Conference on Computer Design, Oct. 1998, P.1117

45. D. Allen et al. "Custom circuit design as a driver of microprocessor performance", IBM J. Res. Dev., vol. 44, no. 6, Nov. 2000, P. 799-822

46. C. Heikes, "A 4.5 mm2 multiplier array for a 2OOMFLOP pipelined coprocessor, " in ISSCC Dig. Tech. Papers, Feb. 1994, P.290-291

47. Rajivan, "Wave propagation logic," US Patent N 5532625

48. J. Silberman et al., "A 1.0-GHz Single-Issue 64-Bit PowerPC Integer Processor", IEEE J. SSC, vol. 33, no. 11, Nov. 1998, P. 1600-1608

49. S. Naffziger, "The Implementation of the Itanium 2 Microprocessor," Journal SSC, vol. 37, No 11, Nov. 2002, P. 1448-1460

50. K. Dessendorff, "The Russians Are Coming," Microprocessor report, 1999

51. D.Harris et al, "Opportunistic time-borrowing domino logic," US Patent N 5517136

52. M.Sprague, "Pulsed reset single phase domino logic", US Patent N 5828234

53. A. Rogers et al., "Non-blocking delayed clocking system for domino logic", US Patent N 6018254

54. P. Glaskowsky, "Intrinsity's Dynamic Designs," Microprocessor report, Aug. 2001

55. T. Williams "Zero overhead self-timed iterative logic", US Patent N 5121003

56. D. Harris "Self-timed domino circuit", US Patent N 6239622

57. T. Williams, M. Horowitz, "A zero-overhead Self-timed 160ns 54b CMOS Divider," IEEE Journal SSC, vol. 26, no. 11, Nov. 1991, P. 1651-1661

58. J. Yang et al, "A Self-Timed Divider Using a New Fast and Robust Pipeline Scheme," IEEE Journal SSC, vol. 36, no. 6, June 2001, P. 917-923

59. T.I. Chappell, R.A. Haring, Т.К. Jaber, E. Seewann, M.P. Beakes, B.A. Chappell, В. M. Fleischer, "High Performance Self Resetting Circuits with Enhanced Testability," IBM Research Report RC20321, Jan. 1996.

60. Vinod Narayanan, Barbara A. Chappell, Bruce M. Fleischer, "Static Timing Analysis for Self Resetting Circuits," ICCAD, Nov. 1996, P. 119-126

61. B. Nguyen et al., "Pipelined clock distribution for self resetting CMOS circuits," US Patent N 5764083

62. A.Podlesny et al., "Efficient half-cycle clocking scheme for self-reset circuit", US Patent N 6323688

63. W. Hwang et al, "Implementation of a Self-Resetting CMOS 64-Bit Parallel Adder with Enhanced Testability," IEEE Journal of Solid-State Circuits, vol. 34, no. 8, Aug. 1999, P. 11081117

64. R. Hitchcock, G. Smith, D. Cheng, "Timing analysis of computer hardware," IBM J. Res. Dev., Jan. 1982, P. 100-105

65. T. Williams, "Latency and Throughput Tradeoffs in Self-Timed Speed-Independent Pipelines and Rings," Stanford University Technical Report CSL-TR-90-431, 1990

66. D. Harris "Skew Tolerant Circuit Design", Morgan Kaufinann, 2001

67. A. Chandrakasan, W. Bowhill,. F.Fox, "Design of High-Performance Microprocessor Circuits", IEEE Press, 2001

68. K.Nowka, "High-performance CMOS System Design Using Wave Pipelining", Technical report, Stanford University, 1995

69. W. Lam, "Valid Clock Frequencies and Their Computation in Wavepipelined Circuits," ICCAD, Jul. 1996, P. 791-807

70. T. Williams, "SPARC64: A 64-b 64-Active-Instruction Out-of-Order Execution MCM Processor", Journal SSC, vol. 30, no 11, P. 1215-1226, Nov. 199576. "WI Low-power microprocessor", MCST report, 2003

71. M. Abramovici, M. Breuer, and A. Friedman, "Digital Systems Testing and Testable Design". Computer Science Press, 1990.

72. M. Roncken, "Defect-Oriented Testability for Asynchronous ICs", Proceedings of the IEEE, vol.87, no.2, Feb. 1999, P. 363-375

73. J. Rabaey, A. Chandrakasan and B. Nikolic, "Digital Integrated Circuits," Prentice-Hall, 2003

74. C. McDonald, R. Bryant, "Symbolic Functional and Timing Verification of Transistor-Level Circuits", ICCAD, Nov. 1999, P. 726-730

75. A. Khoche E. Brunvand, "A Partial Scan Methodology for Testing Self-Timed Circuits", 13lh VLI Test Symposium, May 1995, P. 283-289

76. S. Pagey, A. Khoche and E. Brunvand, "DFT for Fast Testing of Self-timed Control Circuits", the 4th Asian test symposium, Nov. 1995, P. 382-386

77. X. H. Jiang and S. Horiguchi, "Optimization of wafer scale H-tree clockdistribution network based on a new statistical skew model", IEEE Int. Symp. Defect and Fault Tolerant in VLSI Systems (DFT'2000), 2000, P. 96-104

78. J.Qian, S.Pullela, L.Pillage, "Modeling the effective capacitance for the RC interconnect of CMOS gates", IEEE Trans. On Comuputer-Aided Design of Integrated Circuits and Systems, vol.13, no. 12, Dec. 1994, P. 1526-1534

79. M. Eisele, et al "The Impact of Intra-Die Device ParameterVariations on Path Delays and on the Designfor Yield of Low Voltage Digital Circuits,, IEEE Trans. On VLSI Systems "., vol. 5, no. 4, Dec. 1997, P.360-368

80. Managerial statistics, lectures, 2003

81. X. Jiang and S. Horiguchi,Statistical Skew Modeling for General Clock Distribution Networks in Presence of Process Variations, IEEE Trans. On VLSI Systems, vol. 9, no. 5, 0ct.2001, P. 704-712

82. T. Sakurai, "Closed form expressions for Interconnection Delay, Coupling, and Crosstalk in VLSI's", IEEE Trans. On Electron Devices, vol. 40, no. 1, Jan. 1993, P.118-124

83. M. Afghahi and C. Svensson, "Performance of synchronous and asynchronous schemes for VLSI systems," IEEE Trans. Comput., vol. 41, July 1992, P. 858-872

84. K. R. Lakshmi Kumar, "Characterization and modeling of mismatch in MOS devices and application to precision analog design," Ph.D. dissertation, Carlton Univ., Ottawa, ON, Canada, 1985

85. J. Bastos, M. Steyaert, A. Pergoot, and W. Sansen, "Mismatch characterization of submicron MOS transistors," Analog Integrated Circuits Signal Processing, vol. 12, 1997, P. 95106

86. K. R. Lakshmikumar, A. Hadaway, and M. A. Copeland, "Characterizationand modeling of mismatch in MOS transistors for precision analog design", IEEE J. Solid-State Circuits, vol. SC-21, Dec. 1986, P. 1057-106693. www.mosis.com

87. C.M. Lee, E.W. Szeto,., "Zipper CMOS", IEEE Circuits and Devices, vol. 2, no. 3, May 1986, P. 10-17

88. А. Бутузов, А. Подлесный, "Быстродействующий 64-разрядный сумматор для микропроцессора "Е2К", Информационные технологии и вычислительные системы, N1, 2001, стр. 34-42

89. В. Parhami, "Computer arithmetic, algorithms and hardware designs," Oxford University Press, 2000

90. J. Uyemura, "CMOS Logic Circuit Design," Kluwer academic publishers, 1999

91. C. Wallace, "A Suggestion for a Fast Multiplier," IEEE Transaction on Electronic Computers, Vol. 13, Feb. 1964, P. 14-17

92. A.D. Booth, "A Signed Binary Multiplication Technique," Quarterly J. Mechanical and Applied Math., vol. 4, part 2, 1951.

93. R. Jessany et al. "Comparison of single- and dual-pass multiply-add fused floating point units," IEEE Trans. Comput., vol. 47, no. 9, Sep. 1998, P.927-937

94. K. Chu, D. Pulfrey, "A comparison of CMOS circuit techniques: differential cascode voltage switch logic versus conventional logic", IEEE J. Solid-State Circuits, vol. 22, no. 4, 1987, P. 528-532