автореферат диссертации по электронике, 05.27.01, диссертация на тему:Исследование и разработка методов повышения производительности интегральных схем реконфигурируемых вычислительных систем

кандидата технических наук
Артамонов, Дмитрий Сергеевич
город
Москва
год
2010
специальность ВАК РФ
05.27.01
цена
450 рублей
Диссертация по электронике на тему «Исследование и разработка методов повышения производительности интегральных схем реконфигурируемых вычислительных систем»

Автореферат диссертации по теме "Исследование и разработка методов повышения производительности интегральных схем реконфигурируемых вычислительных систем"

АРТАМОНОВ ДМИТРИЙ СЕРГЕЕВИЧ

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ ПОВЫШЕНИЯ ПРОИЗВОДИТЕЛЬНОСТИ ИНТЕГРАЛЬНЫХ СХЕМ РЕКОНФИГУРИРУЕМЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ

Специальность 05.27.01 -твердотельная электроника, радиоэлектронные компоненты, микро- и наноэлектроника, приборы на квантовых эффектах

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва-2010

1 0 033 2011

4854008

Работа выполнена на кафедре Интегральной электроники и микросистем Московского государственного института электронной техники (Технического университета).

Научный руководитель: доктор технических наук, профессор

Путря Михаил Георгиевич

Официальные оппоненты: доктор технических наук, профессор.

Беневоленский Сергей Борисович

кандидат технических наук Бычков Игнат Николаевич

Ведущая организация: ГУП НПЦ "ЭЛВИС"

Защита диссертации состоится "_Ц. 2011 г., в часов на

заседании диссертационного совета Д212.134.01 при Московском государственном институте электронной техники по адресу: 124498, Москва, Зеленоград, проезд 4806, д.5

С диссертацией можно ознакомиться в библиотеке МИЭТ

Автореферат разослан "_"_2010 года

Ученый секретарь диссертационного совета:

доктор технических наук, профессор Т. Ю.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность работы

Тенденции развития технологий производства микросхем с одной стороны, и тенденции развития электроники и вычислительной техники - с другой, предопределили появление сложных устройств типа «система-на-кристалле» (СнК), объединяющих на одной интегральной схеме различные функциональные устройства - микропроцессор, специализированные IP-блоки, аналоговые и радиочастотные модули, модули памяти, периферийные устройства и т.д. Дальнейший прогресс развития технологии производства интегральных схем, степень интеграции которых может достигать сотен миллионов вентилей на кристалле, а минимальные топологические размеры - 45-32 нм, и, в перспективе, 22 нм, потенциально обеспечивает возможность создания СнК новых поколений, обладающих значительно лучшими технико-эксплуатационными характеристиками.

Использование в ядре СнК реконфигурируемых вычислительных систем (РВС), т.е. систем, компоненты которых могут реконфигурироваться, менять свои функции, в зависимости от решаемых вычислительной системой задач, позволяет эффективно адаптировать архитектуру интегральных схем реконфигурируемых вычислительных систем (ИС РВС) под структуру решаемой задачи и тем самым обеспечить максимальный уровень производительности СнК.

Однако существуют факторы, сдерживающие развитие этого перспективного направления. Существующие интегральные схемы (ИС) РВС на фоне гибкости и технологичности архитектуры не обеспечивают требуемых уровней производительности. Наличие данной проблемы является следствием недостаточного количества проведенных исследований в области оптимизации ИС РВС. В свою очередь, широко применяемая методика анализа ИС на основе моделирования предварительно разрабатываемого RTL-описания является трудоемким и долговременным процессом, что определяет низкую эффективность данной методики и, как следствие, недостаточное количество проведенных исследований в области построения эффективных ИС РВС.

Таким образом, актуальной является задача выявления причин, ограничивающих производительность ИС РВС, построения моделей, обеспечивающих быстрый и достоверный системный и функциональный анализ ИС РВС, разработки методики оценки

эффективности ИС РВС на основе разрабатываемых моделей, и разработки методов повышения их производительности с использованием предложенной методики.

Цель работы

Цель работы заключается в разработке и схемотехнической реализации методов увеличения производительности ИС РВС.

Для достижения цели работы было необходимо решить следующие задачи:

1. Провести анализ факторов, ограничивающих вычислительную мощность ИС РВС и исследование существующих подходов и решений в области повышения производительности ИС вычислительных систем данного класса.

2. Разработать модель ИС РВС и комплексную методику анализа на системном, функциональном и схемотехническом уровнях.

3. Определить и сформулировать требования к процессорному элементу (ПЭ) ИС РВС, выполнение которых обеспечит наилучший показатель производительности ИС вычислительных систем данного класса.

4. Оптимизировать операционные блоки ПЭ в соответствии с разработанными требованиями и разработать структурную схему ПЭ на основе данных блоков.

5. Разработать и реализовать метод схемотехнической оптимизации вычислений на ИС РВС, основанный на введении поддержки альтернативных вычислений в ПЭ ИС РВС.

6. Исследовать зависимость времени простоя ИС РВС от количества активных задач и алгоритма их размещения на аппаратуре ИС РВС для различных типов топологии межпроцессорных связей и разработать аппаратные средства обмена данными между процессорными элементами ИС РВС, обеспечивающие снижение времени простоя ИС РВС, связанного с транзитом данных через ПЭ.

7. Разработать эффективные средства обеспечения динамической частичной реконфигурируемости ИС РВС.

8. Разработать прототип ИС РВС на основе предлагаемых методов повышения производительности и провести экспериментальную апробация результатов исследований.

Научная новизна работы.

1. Установлены основные причины, ограничивающие производительность ИС РВС: ограниченная функциональность процессорных элементов (ПЭ), не позволяющая покрыть широкий спектр типовых алгоритмов высокопараллельной потоковой обработки данных, низкая эффективность использования аппаратных ресурсов ИС РВС в случае реализации на ней вычислительных алгоритмов с ветвлениями, простой ИС РВС, обусловленный транзитом данных через неактивные ПЭ к активному ПЭ, длительное время переконфигурирования ИС РВС, невозможность динамической реконфигурации части матрицы процессорных элементов ИС РВС, совмещенной с вычислениями.

2. Предложена методика комплексной оценки эффективности схемотехнической реализации функциональных элементов ИС РВС, основанная на сравнительном анализе показателя удельной производительности (производительности на единицу площади) ИС РВС, построенных на базе данных элементов.

3. Проведен анализ зависимости эффективности ИС РВС от параметрических характеристик ПЭ, определены и сформулированы требования к ПЭ ИС РВС, выполнение которых обеспечивает максимальную производительность ИС РВС относительно обработки заданного диапазона прикладных задач потоковой обработки данных.

4. Выявлены механизмы влияния типов функциональных

операторов и вычислительных структур прикладных задач, выполняемых на ПЭ, на производительность ИС РВС, и предложен способ ее повышения, основанный на обеспечении аппаратной поддержки альтернативных вычислений в процессорном элементе системы.

5. Предложен способ обеспечения динамической коммутации ПЭ ИС РВС на уровне глобального коммутационного ресурса, основанный на интеграции в коммутационную систему глобальных вертикальных и горизонтальных шин и системы реконфигурируемых повторителей, и обоснование возможности его практической реализации.

Практическая значимость работы.

1. Разработанный комплекс схемотехнических решений, позволяющих увеличить производительность ИС РВС, применен в системе на кристалле «РРХ4096», разработанной в ООО ИДМ, что в совокупности обеспечило увеличение производительности реконфигурируемого ядра, входящего в состав СнК «РРХ4096», более чем в 4 раза для прикладных задач цифровой обработки сигналов.

2. Разработанная библиотека конфигурационных настроек ПЭ ИС РВС для наборов прикладных задач, обеспечивающая повторное использование программно-аппаратных блоков интеллектуальной собственности, внедрена в ООО ИДМ, что позволило оптимизировать используемую на предприятии методологию совместного проектирования и верифицирования СБИС класса "система-на-кристалле" на базе реконфигурируемых вычислительных систем и программных средств для реализации прикладных алгоритмов на основе данных систем.

3. Разработанная методика комплексной оценки эффективности функциональных блоков ИС РВС использована при разработке и модернизации лекционных курсов и лабораторных практикумов, входящих в учебные планы ФЭКТ МИЭТ.

На защиту выносятся положения.

1. Структурно-функциональная модель ИС РВС, обеспечивающая возможность комплексного анализа ИС РВС, и, построенная на базе данной модели, методика оценки эффективности функциональных элементов ИС РВС.

2. Структурная схема ПЭ с расширенным функциональным спектром, обеспечивающая одновременную обработку как простых арифметических и логических, так и комплексных мультипликативных функциональных операторов.

3. Схемотехническая реализация альтернативных вычислений на ПЭ ИС РВС, представляющая обеспечение возможности условного выбора того или иного функционального оператора на ПЭ ИС РВС, и определяющая повышение её удельной производительности.

4. Оптимизированная топология межсоединений ПЭ ИС РВС, основанная на интеграции в двумерную решетку

взаимосвязанных иерархических двумерных тор-соединений, обеспечивающих гибкость коммутационной системы на уровне регулярных ближних взаимосвязей ПЭ, а также глобальных горизонтальных и вертикальных шин, обеспечивающих эффективность обмена данными между ПЭ на глобальном уровне, и определяющая снижение времени простоя, обусловленного транзитом данных в активные ПЭ ИС РВС.

5. Принцип организации процесса загрузки конфигурационных данных, основанный на обеспечении индивидуального доступа к конфигурационному регистру ПЭ ИС РВС в режиме вычислений, обеспечивающий динамическую частичную реконфигурируемость ИС РВС.

Апробация работы.

Основные результаты работы были представлены на следующих научно-технических конференциях:

Всероссийский молодежный научно-инновационный конкурс-конференция «Электроника - 2006», МГЙЭТ 2006; Всероссийский молодежный научно-инновационный конкурс-конференция «Электроника - 2007», МГИЭТ 2007; 52-ая научная конференция «Современные проблемы фундаментальных и прикладных наук» МФТИ 2009; Всероссийская молодежная выставка-конкурс прикладных исследований, изобретений и инноваций, Саратов 2009; Всероссийская межвузовская научно-техническая конференция «Микроэлектроника и Информатика 2009», МГИЭТ 2009; Всероссийская межвузовская научно-техническая конференция «Микроэлектроника и Информатика 2010», МГИЭТ 2010; Международная научно-техническая конференция с элементами научной школы для молодежи «Проектирование систем на кристалле: тенденции развития и проблемы», МГИЭТ 2010.

Публикации

По материалам диссертации опубликовано 10 работ, включая 3 статьи в изданиях, входящих в перечень ВАК, 7 - в специализированном сборнике научных трудов, в материалах, сборниках научных трудов и тезисах докладов научно-технических конференций, 1 научно-технический отчет по НИР, 1 научно-технический отчет по НИОКР.

Структура и объем работы

Диссертация состоит из введения, шести глав и заключения. Объем работы составляет 207 страниц, работа содержит 76 рисунков, 7 таблиц, список цитируемых источников из 88 наименований.

СОДЕРЖАНИЕРАБОТЫ

Во введении обосновывается актуальность темы диссертации, формируется цель и задачи работы, научная новизна, практическая значимость полученных результатов, а также положения, выносимые на защиту. Излагается краткое содержание работы.

В первой главе работы рассмотрены основные свойства и характеристики ИС РВС.

Представлены результаты проведенного анализа существующих ИС РВС, а также ряда исследовательских проектов.

Выявлены основные факторы, ограничивающие производительность ИС РВС, среди которых наиболее важными являются: ограниченная функциональность процессорных элементов (ПЭ), не позволяющая обеспечить эффективную поддержку широкого диапазона типовых алгоритмов высокопараллельной потоковой обработки данных, низкая эффективность использования аппаратных ресурсов ИС РВС в случае реализации на ней вычислительных алгоритмов, включающих ветвления, простой ИС РВС, обусловленный транзитом данных по ближним межпроцессорным связям к активному ПЭ, длительное время переконфигурирования массива ПЭ ИС РВС, отсутствие эффективных средств динамической реконфигурации части матрицы ПЭ, совмещенной с вычислениями.

Сформулированы основные направления исследований.

Показано, что функциональность и физические размеры отдельного ПЭ ИС РВС являются взаимозависимыми величинами и в общем случае необходимо решение задачи построения оптимизированной структурной схемы ПЭ, с одной стороны обеспечивающей эффективную поддержку требуемого функционального спектра и обработку вычислительных структур различных типов, а с другой - обеспечивающей максимальные возможности по распараллеливанию прикладных задач.

Показано, что существующие подходы к построению коммутационной системы ИС РВС недостаточно эффективны и не обеспечивают требуемых уровней производительности, что приводит к

вынужденным простоям ИС РВС, связанным с задержкой доставки данных к активному ПЭ, и, соответственно, снижению их производительности, и обуславливает необходимость оптимизации топологии межпроцессорных соединений ИС РВС.

Показано, что процесс статической загрузки конфигурационных настроек является узким местом, ограничивающим производительность ИС РВС в процессе динамического переключения между задачами в режиме реального времени. Время простоя, связанное с циклами переконфщурирования всего массива ПЭ ИС РВС, определяет снижение производительности ИС вычислительных систем данного класса.

Во второй главе представлена многоуровневая модель ИС РВС, включающая операционные блоки, элементы памяти ПЭ, систему коммутации ПЭ ИС РВС. Данная модель позволяет анализировать производительность ИС РВС в процессе реализации прикладных задач в зависимости от выбранной функциональности и взаимосвязи внутренних операционных блоков и способов реализации коммутационной системы межпроцессорных связей. Вводится понятие схемы-макроса - подмножества определенным образом сконфигурированных процессорных элементов ИС РВС, в совокупности реализующих конкретный прикладной алгоритм.

Предложена комплексная методика оценки эффективности функциональных элементов ИС РВС. Оценка эффективности той или иной схемотехнической реализации функциональных элементов (ФЭ -операционные блоки, блоки памяти, элементы коммутации и т.д.) ИС РВС базируется на сравнительном анализе производительности ИС РВС, построенной на базе данных элементов. Адекватная оценка производительности ИС РВС учитывает такие параметры, как частота работы системы, общее количество ПЭ системы, а также количество ПЭ, требуемых для реализации и коммутации прикладных задач.

Проведено моделирование типового набора прикладных задач для различных вариантов аппаратной реализации операционного блока ПЭ ИС РВС - на базе арифметико-логического устройства (АЛУ), на базе АЛУ и многофункционального устройства (МФУ), на базе АЛУ и МФУ с ускоренным переносом на базе АЛУ и конвейерного МФУ, на базе АЛУ и конвейерного МФУ с ускоренным переносом. В процессе моделирования фиксировался показатель количества тактов, требуемых для выполнения того или иного алгоритма.

Проведена сравнительная оценка показателей производительности массива ПЭ на базе из каждой из предложенных моделей:

Р = п ■ Т = п ■ —

где п - число тактов, требуемое на выполнение той или иной задачи, Т- период, Г - частота.

На рисунке 1 представлены результаты сравнения значений производительности ИС РВС для различных моделей операционного блока, нормированных к производительности ИС РВС (количество тактов/частота) на основе ПЭ с базовой аппаратной реализацией операционного блока - на основе АЛУ.

180,00%

Рисунок 1 Сравнение Производительности системы на базе различных моделей аппаратной реализации ПЭ

Как можно видеть из рисунка, за счет более высокой частоты модификация ПЭ на основе арифметико-логического устройства (АЛУ) обеспечивает наибольшую производительность, за исключением алгоритмов, интенсивно использующих обработку мультипликативных функциональных операторов. Однако подобная оценка производительности в полной мере не отражает вычислительные возможности ИС РВС, поскольку она не учитывает такой параметр как

удельная производительность - производительность на единицу площади.

По этой причине, с учетом выше сказанного, относительная оценка производительности р ИС РВС, на основе ПЭ той или иной аппаратной реализации, будет определяться соотношением:

Р1 ■' Р2 •'

щА21

^ п(А I

где - частота работы систем на базе ¡'-ой модели ПЭ, -коэффициент среднего времени простоя аппаратуры ПЭ г'-ой модели, и,- количество ПЭ ¿-ой модели, требуемых для реализации типового набора прикладных задач, Аг площадь ПЭ 1-ой модели.

В соответствии с предложенной методикой выбрана оптимальная модель операционного блока ПЭ, которой соответствует наибольший показатель удельной производительности ИС РВС. Модель представляет собой конвейерное многофункциональное устройство (МФУ), использующее принципы последовательно-параллельной обработки данных. Разработана структурная схема ПЭ ИС РВС на базе данной модели, обеспечивающая параллельную одновременную обработку двух операций на ПЭ ИС РВС - как простых арифметико-логических операторов, так и мультипликативных (рисунок 2), что определяет повышение удельной производительности вычислительной системы в 4 раза.

Рисунок 2 Структурная схема ПЭ ИС РВС 11

В третьей главе работы приведены результаты исследования функциональных возможностей ПЭ ИС РВС относительно реализации прикладных задач различных вычислительных структур.

Показано, что существующие СнК, построенные с использованием РВС, обладают существенным недостатком в случае реализации на них прикладных алгоритмов, в которых широко используется вычислительная структура с ветвлением по условию, а именно - высокими аппаратными затратами.

На рисунке 3(a) приведена обобщенная структурная схема исходного ПЭ ИС РВС, содержащая, в том числе, входной коммутатор, блок обработки данных, выходной коммутатор и регистр кода настройки.

При реализации на ИС РВС на основе рассмотренного ПЭ вычислительной структуры типа «выбор» - IF С THEN SI ELSE S2, где С - однобитовая булева переменная условия ветвления, S1 и S2 -альтернативные функциональные операторы, должно быть использовано как минимум 4 ПЭ в соответствии с рисунком 3(6) (на рисунке показаны только используемые межпроцессорные связи).

II"

Л11

•ходим*

- \ /

\/ У

141 БОД К2

Л Л

/ \ / \

АВ

lift 111...

N

► Я2

кн КН 1 КН !

К1 БОД | К2 ;

Выходи*« линии»

Регистр кода М»СТ{ММ**И

«

яз

jTe^jjj^wJJf

........

ттг

si

ТУТ, ..

W

Mil

IT

. .1я5fc

Li-----1 „...

т! ;

а) б)

Рисунок 3 Структурная схема базового ПЭ (а) и конфигурация ИС РВС на основе базового ПЭ для реализации вычислительной структуры типа выбор (б)

Для выполнения указанной вычислительной структуры ПЭ Я2 (ячейка 2) должен быть настроен для обработки потоков данных А и В с использованием функционального оператора Б1, а ПЭ ЯЗ должен быть настроен для выполнения обработки потоков данных Е и £) с

использованием функционального оператора S2. ПЭ Я1, исходя из определяемого в вычислительном алгоритме условия, формирует сигнал булевой переменной условия С, который определяет выдачу окончательного результата на выходе ПЭ Я4 из двух входных результатов S1(A,B) и S2(E,D). В ПЭ Я5 используется только канал транзита для передачи результата S2(E,D) на вход ПЭ Я4.

Для повышения эффективности вычислений на ЙС РВС предлагается, в отличие от рассмотренной выше базовой структурной схемы ПЭ И С РВС, обеспечивающего обработку потоков входных операндов в соответствии с единственным настроенным функциональным оператором, реализовывать в каждом ПЭ ИС РВС альтернативные функциональные операторы. Это позволит уменьшить количество ПЭ, используемых для реализации вычислительных структур типа «выбор», поскольку в зависимости от состояния булевой переменной возможно выполнение вычисления либо одного, либо другого функционального оператора в одном ПЭ, а не в двух.

Для реализации данного метода повышения производительности ИС РВС расширяется регистр кода настройки ПЭ для загрузки и хранения на время выполнения конкретного прикладного вычислительного алгоритма, вводятся коммутаторы альтернативных кодов настройки для управления соответствующими аппаратными ресурсами ПЭ, управляемые сигналом булевой переменной условия, вводится коммутатор выбора сигнала булевой переменной условия из множества возможных, включая сигналы, поступающие на все внешние входы ПЭ и возможные внутренние сигналы ПЭ, для управления коммутатором выбора сигнала булевой переменной условия в код настройки ПЭ вводится еще одно дополнительное поле.

Обобщенная структурная схема модифицированного ПЭ приведена на рисунке 4(a).

При использовании модифицированного ПЭ, вычислительная структура типа «выбор» может быть реализована на ИС РВС согласно рисунку 4(6) (на рисунке 4(6) изображены только используемые межпроцессорные связи).

Полученные в результате проведенного анализа оценочные характеристики, показали, что значение площади модифицированного ПЭ превосходит на 10% значение площади базового ПЭ.

Проведено моделирование ИС РВС на базе модифицированного ПЭ относительно обработки типового набора алгоритмов в режиме

многозадачности. В процессе моделирования фиксировался показатель количества ПЭ, требуемых для реализации набора прикладных задач.

\ / \ / ■--- \ /

«1 БОД Л / \

/\ — -

• мд сигм ала I м условия

4

' мх

¿ген

4 Г

I I

,.Ш1, ы. тт I;. АШ... _Л Ьг^ Ь

3=3 Е=3 й::

1Ш, ..«.[], .к11.„

-и-

Г*Г*СТ9 КОМ

яасгроЙмм

3

а)

'¡¡1 тИ

б)

£2:

ш

Рисунок 4 Структурная схема модифицированного ПЭ (а) и конфигурация ИС РВС на основе модифицированного ПЭ для реализации вычислительной структуры типа выбор (б)

Результаты моделирования позволили установить, что показатель удельной производительности ИС РВС на базе модифицированного ПЭ на 30% выше данного показателя для ИС РВС на основе базовых ПЭ.

Таким образом, ПЭ матрицы может выполнять прямую или альтернативную функцию из существующего набора функций, в зависимости от сигнала условия. Введение поддержки альтернативных вычислений позволяет снизить аппаратные издержки относительно обрабатываемых алгоритмов, включающих ветвления и повысить показатель удельной производительности ИС РВС на 30%

Четвертая глава работы посвящена исследованию зависимости времени простоя ИС РВС от количества активных задач, способа их размещения на аппаратуре ИС РВС и от типа топологии межсоединений ПЭ ИС РВС.

Топология сети межпроцессорных связей рассматриваемых ИС РВС представляет собой двумерную решетку. Одним из недостатков подобной организации коммуникаций между ПЭ является вынужденное время простоя ПЭ, рассматриваемых в качестве ступеней мультиконвейера ИС РВС.

Проведено моделирование типового набора алгоритмов для различных вариантов размещения активных задач на аппаратуре ИС РВС.

Для ситуации с худшим размещением активных задач (максимальный путь между обменивающимися ПЭ) на аппаратуре ИС РВС суммарное время простоя достигает значения 82% всего времени обработки набора прикладных задач. Т.е. относительно функционирования системы с оптимальным размещением активных задач (обмен данными между ПЭ за такт) на ИС РВС, значение времени обработки прикладных задач для ситуации наихудшего размещения практически вдвое больше.

Для системы с произвольным размещением суммарное время простоя достигает значения 52% от времени обработки типового набора алгоритмов при оптимальном размещении.

Проведен сравнительный анализ существующих типов топологии межпроцессорных связей применительно к структуре ИС РВС, выбрана наиболее эффективная и адаптируемая под тип вычислительной структуры ИС РВС модель топологии коммутационной системы - двумерный тор.

Показано, что оптимизация коммутационной системы ИС РВС возможна как на уровне ближнего взаимодействия ПЭ в рамках схемы-макроса, так и на уровне длинных связей в рамках взаимодействия схем-макросов.

Разработана и оптимизирована топология системы межсоединений ПЭ ИС РВС на уровне регулярных ближних соединений. В двумерную решетку интегрируются связанные двумерные тор-соединения размерностью 8*8. Данное решение позволяет минимизировать время простоя системы, связанное с пересылкой данных между активными ПЭ в рамках статической конфигурации схемы-макроса (рисунок 5).

Решение проблемы доступа к удаленным ПЭ вычислительной системы возможно за счет интеграции в коммутационную систему ИС РВС глобальных горизонтальных и вертикальных шин. Однако подобное решение имеет существенный недостаток - возрастающая с увеличением длины линии связи задержка распространения сигнала, приводящая к снижению рабочей частоты (падению быстродействия ИС РВС).

Чтобы минимизировать величину задержки, длинные линии разбиваются на сегменты с помощью специального оборудования -

буферов или повторителей. Рассматривается КС-модель сегмента шины длиной I.

Ч>1500

I %

§1000

4.13.4 .....

-1...................—.....;.....:.....I..... -1................!~И~Н.....¡1 ..............;....:..........

44— !; мМ И ■ | ш

/

1 : ' И 1 ! \ М ' 1

тор 4

оптимальное

Число активных задач

Рисунок 5 Зависимость суммарного времени обработки данных от количества активных задач для моделей ИС РВС на базе топологии двумерный тор различных уровней иерархии для ситуации оптимального размещения задач

Если шина длиной I разбивается на п сегментов длиной 1=1Уп, то общая задержка в такой системе может быть оценена по формуле:

I 5

где Кк и С„ сопротивление и емкость единицы длины проводника соответственно, г0, Со, ср - сопротивление, входная и выходная емкости инвертора с минимальными размерами соответственно, в - множитель, определяющий размер инвертора в единицах минимального инвертора.

Процесс сегментации глобальной линии связи рассматривается применительно к матрице ПЭ ИС РВС. Для простоты рассматривается одна строка/один столбец матрицы ПЭ (рисунок 6).

В соответствии с предложенной схемой реализации сегментируемых глобальных шин к каждой из них подключено N процессорных элементов. Количество ПЭ для одного сегмента глобальной шины длиной / определяется выражением N * 1/Ь. При этом

в каждом сегменте глобальной шины длиной / не может быть более одного инициирующего пересылку ПЭ.

[Р5

г-РЕ

динамическая конфигурация

Гпобальнаи

Л л

из (

V

[Рб

1

Рисунок 6 Организация глобального коммутационного ресурса в ИС

РВС

Разработана методика оценки необходимого для обеспечения поддержки заданной рабочей частоты количества повторителей в глобальной шине для матрицы заданного размера под заданный уровень технологии.

Для расчета оптимальной длины сегмента и числа повторителей в ИС РВС относительно рабочей частоты, определяемой частотой функционирования ПЭ, в ЛС-модели линии сегмента необходимо учитывать также распределенную паразитную емкость выходных буферов и затворов транзисторов входных вентилей ПЭ в сегменте. Таким образом, в каждом сегменте к емкости линии сегмента С„*1 добавляется емкость подключенных к линии неактивных ПЭ: С„ = ЩVI) *(с0 + з*Ср)

где Ш(Ш) - число ПЭ в сегменте, с0 - емкость затворов транзисторов входных вентилей ПЭ в сегменте, определяемая емкостью затвора транзистора минимального инвертора, ^ *ср - паразитная емкость транзисторов драйверов шин, выраженная в единицах размеров минимального инвертора.

Рабочая частота ИС РВС определяется задержкой То на критическом пути обработки данных процессорного элемента.

После ряда математических преобразований имеем следующее квадратное уравнение:

(0.4• АЧ2 -с0 + 0.1-с0)-£2 + + (1.4• с0 • г0 +0.4-ЛуСж • Ь ■ 1 + 0Л ■ N■ 1 ■ с0 ■ г0 -Т0)3 + + 0.7-1-С]Г -г0 =0

Решая уравнение данное уравнение для разных значений количества сегментов п=(Ь/1) можно определить количество необходимых повторителей и их параметры.

На основе предложенной методики проведены оценочные расчеты возможности реализации глобальных шин в ИС РВС, функционирующей на частоте 300 МГц, для технологий 130 нм, 90 нм и 65 нм., для кристалла площадью 400 мм2. Результаты оценки приведены в Таблице I.

Таблица 1. Оценка характеристик длинных линий для различных уровней технологии __

Технология, нм Число ПЭ Число ПЭ в строке/ столбце Минимальное число повторителей Минимальный коэффициент Б

130 4096 64 16 26.5

90 9216 96 24 27.8

65 16384 128 32 36.5

Проведенный количественный анализ показывает возможность реализации глобальных шин с сегментацией по 4 ПЭ для обеспечения функционирования на частоте 300 МГц матриц ПЭ различных размеров, реализуемых на различных технологиях.

Данное решение позволяет минимизировать время простоя ИС РВС, возникающее в процессе обмена данными между активными ПЭ разных схем-макросов в рамках динамической конфигурации (в рамках взаимодействия произвольно размещаемых на аппаратуре ИС РВС прикладных задач) в среднем на 10% (рисунок 7).

Таким образом, оптимизированная коммутационная система ИС РВС обеспечивает пониженное значение времени простоя ИС РВС, возникающее, с одной стороны, в процессе пересылки данных между активными ПЭ в рамках статической конфигурации одной схемы-макроса, а с другой, - в процессе пересылки данных между активными ПЭ разных схем-макросов в рамках динамической конфигурации произвольно размещаемых на аппаратуре ИС РВС прикладных задач.

О 10 20 30 40 SO 60

Число активных задач

Рисунок 7 Зависимость суммарного времени обработки данных от количества активных задач для топологии ИС РВС двумерный тор 8*8 и интегрированной системы глобальных шин для ситуации произвольного размещения задач

В пятой главе представлены результаты анализа процесса загрузки конфигурационных настроек в ПЭ ИС РВС.

Показано, что существующие подходы и решения в области организации процесса загрузки конфигурационных данных в аппаратуру ИС РВС не эффективны и ограничивают их производительность.

Представлена модель, описывающая основные принципы процесса конфигурации исследуемых ИС РВС (рисунок 8) - процесс загрузки конфигурационных настроек осуществляется для всего массива ПЭ одновременно, выделяется в отдельный режим, прерывающий режим вычислений. Загрузка конфигурации осуществляется последовательно от элемента к элементу по ближним однобитовым каналам связи. В процессе последовательного переключения между задачами время загрузки будет увеличиваться прямо пропорционально числу размещаемых задач.

Таким образом, в режиме динамического переключения между задачами (в режиме непрерывного поступления новых задач из внешней среды (память/внешние источники)) подобный метод организации процесса загрузки конфигурационных настроек будет существенно тормозить процесс вычислений ИС РВС за счет прерываний, связанных с циклами переконфигурирования вычислительного массива ПЭ. Решение данной проблемы заключается в обеспечении возможности реконфигурации целевых ПЭ в предельном темпе, без прерывания вычислений ИС РВС.

Рисунок 8 Статическая организация процесса загрузки конфигурационных настроек ПЭ матрицы ИС РВС

Для того чтобы обеспечить динамическую частичную реконфигурируемость ИС РВС, необходимо определить возможность доступа управляющего устройства (конфигуратора) к любому индивидуальному ПЭ. Для этого в схему ИС РВС вводится система адресации, индивидуальный сигнал режима функционирования ПЭ и глобальная конфигурационная шина (рисунок 9).

В случае, когда активны и сигнал режима работы, и сигнал режима загрузки, а также совпадают координаты ПЭ для пар адресных

регистров конфигурации ПЭ и функционирования ПЭ, приоритетом обладает режим загрузки конфигурационных данных.

Фактически, режимом загрузки и режимом функционирования вычислительных алгоритмов (запущенных приложений) отдельных ПЭ матрицы можно динамически управлять, изменяя значения соответствующих адресных регистров.

Таким образом, будет обеспечена возможность изменения конфигурации отдельных ПЭ без прерывания вычислений.

п

Рисунок 9 Динамическая организация процесса загрузки конфигурационных настроек ПЭ матрицы ИС РВС

Использование длинных связей в системе коммутации ИС РВС, рассмотренных в предыдущей главе, связано с одной проблемой. С использованием глобального коммутационного ресурса процесс передачи данных может быть значительно ускорен за счет прямой коммутации ПЭ разных схем-макросов. Однако встает вопрос о передачи данных с одной глобальной линии на другую. Решение данной задачи становится возможным с использованием средств динамической коммутации и транзитных каналов связи в каждом ПЭ.

Переключение тех или иных повторителей в активное состояние обеспечивает возможность выбора набора сегментов для

21

пересылки данных. Каждый ПЭ включает набор повторителей, необходимых для поддержки глобального коммутационного ресурса. Таким образом, конфигурация ПЭ также должна содержать информацию о состоянии того или иного повторителя. За счет этого обеспечивается возможность управления переключениями повторителей в режиме реального времени и динамической коммутации ПЭ системы.

ПЭ, координаты которого совпадают с точкой пересечения глобальных линий, используется в качестве динамически конфигурируемого маршрутизатора, позволяющего осуществлять транзит данных в пределах вычислительной матрицы. Соответствующим образом динамически конфигурируются повторители, сегментирующие глобальную шину в отрезок между активным ПЭ, и ПЭ, используемый в качестве маршрутизатора.

В шестой главе представлены результаты апробации разработанных методов, реализованных в ИС РВС на базе ПЛИС ХПшх.

Представлен прототип ИС РВС, предназначенный для верификации ИС РВС и схем-макросов прикладных алгоритмов, реализованных на ИС РВС.

Описан экспериментальный стенд обеспечивающий процесс создания и отладки программных средств для реализации прикладных алгоритмов, отладки и верификации аппаратуры ИС РВС и в дальнейшем - обеспечения разработки и верификации схем-макросов прикладных вычислительных алгоритмов для формирования библиотеки алгоритмов ИС РВС.

Приведена методика комплексной верификации ИС РВС и схем-макросов прикладных алгоритмов, реализованных на ИС РВС. Разработка и анализ ИС РВС на системном уровне обеспечивает основу для реализации аппаратной МЪ-модели, а процесс синтеза и последующей загрузки конфигурационных настроек ПЭ в программном средстве (ПС) ИС РВС вычислительной матрицы в аппаратуру ИС РВС обеспечивает быструю верификацию и простое наращивание базы данных библиотек алгоритмов для их последующей аппаратной реализации, как отдельно, так и в составе сложных прикладных задач (рисунок 10).

Разработанная на основе предлагаемых аппаратных методов обеспечения высоких уровней производительности архитектура ИС РВС верифицирована на аппаратном уровне. Реализован набор прикладных задач. Апробация результатов в составе

экспериментального стенда подтвердила реализуемость и эффективность предлагаемых методов повышения производительности ИС РВС.

ПС рас Лрогатил РВС

Рисунок 10 Маршрут комплексной программно-аппаратной верификации ИС РВС в процессе реализации схемы-макроса для заданного прикладного вычислительного алгоритма

В заключении сформулированы основные результаты, полученные в ходе выполнения данной диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1). Выявлены основные факторы, ограничивающие производительность ИС РВС.

2). Разработана и верифицирована функциональная модель ИС РВС, обеспечивающая возможность комплексного анализа и возможность оценки производительности ИС РВС.

3). Предложена комплексная методика оценки эффективности функциональных элементов ИС РВС, основанная на сравнительном анализе показателя удельной производительности ИС РВС, построенных на базе указанных элементов.

4). Разработана структурная схема ПЭ реконфигурируемой вычислительной системы, обеспечивающая параллельную одновременную обработку двух операций, как простых арифметико-логических функциональных операторов, так и мультипликативных.

5). Разработан метод схемотехнической оптимизации вычислений на ИС РВС, основанный на введении поддержки альтернативных вычислений в ПЭ ИС РВС и обеспечивающий эффективную поддержку на ИС РВС обработки алгоритмов с ветвлениями.

6). Разработана и оптимизирована топология системы межсоединений ПЭ ИС РВС как на уровне регулярных ближних связей, так и на уровне глобального коммутационного ресурса, обеспечивающая снижение времени простоя ИС РВС.

7). Предложен новый принцип динамической частичной реконфигурации ПЭ ИС РВС, обеспечивающий снижение времени простоя системы, связанного с циклами переконфигурирования всего вычислительного массива ПЭ.

8). Предложен принцип обеспечения динамической коммутации ПЭ на уровне глобальных связей, основанный на выделении в отдельный режим процесса загрузки конфигурации коммутационных настроек ПЭ, интеграции в ПЭ конфигурируемых повторителей, управление которыми обеспечивает динамическую сегментацию глобальных шин, что определяет эффективность и гибкость коммутационной системы и, как следствие, повышение производительности ИС РВС.

9). Разработан прототип ИС РВС с использованием ПЛИС Xilinx, предназначенный для верификации ИС РВС и схем-макросов прикладных алгоритмов, реализованных на РВС.

10). Разработана методика комплексной верификации ИС РВС и схем-макросов прикладных алгоритмов, реализованных на РВС.

11). Результаты исследований апробированы в составе экспериментального стенда, включающего прототип И С РВС в ПЛИС.

Апробация результатов исследований в составе экспериментального стенда подтвердила реализуемость и эффективность предлагаемых методов повышения производительности ИС РВС.

12). Проведена оценка технических характеристик разрабатываемой ИС РВС для различных уровней технологии и различных размеров кристалла относительно элементной базы СнК. В процессе масштабирования не требуется перепроектирование ИС РВС, их производительность растет с увеличением числа ПЭ в системе. Оцененная пиковая производительность ИС РВС на частоте 300 МГц составляет 197, 4 миллиардов операций в секунду, потребляемая мощность 22,1 Вт.

Таким образом, в результате выполнения работы решена задача повышения производительности интегральных схем реконфигурируемых вычислительных систем класса однородных вычислительных сред. Реализованный комплекс схемотехнических методов повышения эффективности ИС РВС позволил повысить производительность системы в 4 и более раз относительно базовой исходной архитектуры.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Материалы диссертации опубликованы в следующих работах:

1. Артамонов Д.С. Метод обеспечения динамической частичной реконфигурируемости аппаратуры высокопроизводительного систолического процессора // Известия высших учебных заведений, Электроника №5 2010. - С. 86-88

2. Артамонов Д.С. Повышение производительности реконфигурируемых однородных вычислительных сред методом поддержки альтернативных вычислений // Известия высших учебных заведений, Электроника 5(79) 2009. - С.50-56

3. Артамонов Д.С. Путря М.Г. Методы оптимизации вычислительного процесса на реконфигурируемых однородных вычислительных средах // Информационные технологии и вычислительные системы, №3,2010. - С. 19-26

4. Артамонов Д.С. Процессорный элемент для реконфигурируемых вычислительных систем // В сборнике тезисов доклада всероссийского молодежного научно-

инновационного конкурса-конференции Электроника - 2006, Москва, МИЭТ. - С. 103.

5. Артамонов Д. С. Разработка процессорного элемента для реконфигурируемых вычислительных систем потоковой обработки данных // Сборник тезисов докладов всероссийского молодежного научно-инновационного конкурса-конференции Электроника - 2007, Москва, МИЭТ. - С.87

6. Артамонов Д.С Методы повышения эффективности вычислительного процесса на однородных вычислительных средах // Труды 52-й научной конференции «Современные проблемы фундаментальных и прикладных наук». Часть I. Радиотехника и кибернетика, Том 1, Москва, МФТИ. - С. 42-44.

7. Артамонов Д.С. Разработка высокопроизводительного микропроцессора на основе принципов реконфигурируемых вычислений // Всероссийская молодежная выставка-конкурс прикладных исследований, изобретений и инноваций, Сборник трудов, Саратов, 2009. - С. 4.

8. Артамонов Д.С. Разработка самореконфигурируемого матричного процессора потоковой обработки данных // В сборнике тезисов доклада 16-ой международной научно-технической конференции Микроэлектроника и Информатика, Москва, МИЭТ, 2009. - С. 187

9. Артамонов Д.С. Метод обеспечения эффективной межпроцессорной коммутации в реконфигурируемых вычислительных средах // В сборнике тезисов доклада 17-ой международной научно-технической конференции Микроэлектроника и Информатика 2010, Москва, МИЭТ. - С. 144

10. Артамонов Д.С. Высокопроизводительные реконфигурируемые многопроцессорные "системы-на-кристалле" (СнК) на основе унифицированной параметризованной платформы СнК. К В сборнике тезисов докладов международной научно-технической конференции с элементами научной школы для молодежи. «Проектирование систем на кристалле: тенденции развития и проблемы». Москва, МИЭТ, 2010. - С. 57.

Автореферат

Артамонов Дмитрий Сергеевич

Исследование и разработка методов повышения производительности интегральных схем реконфигурируемых вычислительных систем

Подписано в печать:

Заказ №/З^Тираж 100 экз. Уч.-изд.л. ^ Формат 60x84 1/16

Отпечатано в типографии МИЭТ(ТУ) 103498, Москва, МИЭТ(ТУ)

Оглавление автор диссертации — кандидата технических наук Артамонов, Дмитрий Сергеевич

Определения, обозначения и сокращения.

Введение.

Глава 1. Анализ принципов построения ИС РВС и выявление причин, ограничивающих их производительность.

1.1 Проблемы многоядерных процессоров.

1.2 Реконфигурируемые вычислительные системы.

1.3 Сравнение архитектур БРвА (ПЛИС) и ИС РВС.

1.4 Обзор существующих архитектур ИС РВС.

1.5 О перспективах развития однородных вычислительных сред.

1.6 Анализ факторов, ограничивающих производительность ИС РВС.

1.6.1 Архитектура процессорного элемента и его функциональность.

1.6.2 Оптимизация затрат аппаратных ресурсов матрицы вычислительной системы.

1.6.3 Топология межпроцессорных связей и коммутационная логика.

1.6.4 Организация процесса загрузки конфигурационных данных в ПЭ ИС РВС.

1.7 Выводы.

Глава 2. Методика анализа ИС РВС. Решение проблемы ограниченного функционального спектра ПЭ ИС РВС.

2.1 Программное средство, обеспечивающее анализ моделей ИС РВС.

2.2 Функциональная модель ИС РВС.

2.2.1 Основные элементы для создания высокоуровневой модели ИС РВС.

2.2.2 Создание модели ПЭ.

2.2.3 Создание схемы-шаблона.

2.2.4 Разработка схемы-макроса.

2.3 Методика комплексного анализа ИС РВС.

2.4 Разработка структурной схемы ПЭ ИС РВС.

2.4.1 Требования к ПЭ ИС РВС.

2.4.2 Выбор модели аппаратной реализации операционного блока ПЭ ИС РВС

2.4.3. Разработка структурной схемы многофункционального мультипликативного устройства.

2.4.4 Структурная схема ПЭ.

2.5 Выводы.

Глава 3. Метод обеспечения аппаратной поддержки альтернативных вычислений наИС РВС.

3.1 Проблема низкой эффективности использования аппаратных ресурсов ИС РВС в случае реализации на них вычислительных структур с ветвлением.

3.2 Схемотехническая реализация альтернативных вычислений на ПЭ ИС РВС.

3.3 Сравнение производительности базовой и модифицированной ИС РВС.

3.4 Выводы.

Глава 4. Решение проблемы простоя системы, связанного с транзитом данных через неактивные ПЭ ИС РВС. Оптимизированная топология межпроцессорных связей

ИС РВС.:.

4.1 Исследование зависимости времени простоя ИС РВС от количества активных задач и типа их размещения.

4.2 Выбор оптимального типа топологии системы межсоединений ПЭ ИС РВС.

4.2.1 Основные характеристики топологии системы связей ПЭ ИС РВС.

4.2.2 Модель, используемая для оценки характеристик топологии сети межсоединений ИС РВС.

4.2.3 Методика выбора оптимальной топологии накристальной системы межпроцессорных связей ИС РВС.

4.2.4 Сравнения характеристик различных вариантов топологий системы межсоединений ПЭ ИС РВС.

4.2.5 Оптимизация топологии сети межпроцессорных соединений ИС РВС на уровне регулярных связей в рамках статической конфигурации.

4.2.5 Оптимизация топологии сети межпроцессорных соединений ИС РВС на уровне нерегулярных глобальных коммутационных ресурсов.

4.3 Выводы.168,

Глава 5. Метод обеспечения динамической частичной реконфигурируемости аппаратуры ИС РВС.

5.1 Конфигурация процессорного элемента.

5.2 Статический режим загрузки конфигурационных настроек в аппаратуру ИС РВС.

5.3 Динамическая частичная реконфигурируемость аппаратуры ИС РВС.

5.4 Обеспечение динамической коммутации схем-макросов прикладных задач

5.5 Выводы.

Глава 6. Апробация результатов исследований в составе прототипа ИС РВС, реализованного в ПЛИС Xilinx.

6.1 Архитектура прототипа ИС РВС.

6.1.1 Режимы работы прототипа ИС РВС.

6.1.2 Реализация прототипа ИС РВС.

6.2 Плата прототипа ИС РВС.

6.3 Архитектура экспериментального стенда.

6.4 Комплексная программно-аппаратная верификация ИС РВС.

6.5 Оценка характеристик ИС РВС.

6.6 Выводы.

Введение 2010 год, диссертация по электронике, Артамонов, Дмитрий Сергеевич

Актуальность. Развитие технологий создания микроэлектронных продуктов с одной стороны, и развитие электроники и вычислительной техники - с другой, предопределили появление технологий создания сложных устройств типа «система-на-кристалле» (СнК), объединяющих в одном микрочипе различные функциональные устройства - микропроцессор, специализированные 1Р-блоки, аналоговые и радиочастотные модули, модули памяти, периферийные устройства и т.д. Развитие технологий производства интегральных схем, степень интеграции которых может достигать сотен миллионов вентилей на кристалле, а минимальные топологические размеры - 45-32 нм, потенциально обеспечивает возможность создания СнК новых поколений, обладающих значительно лучшими технико-эксплуатационными характеристиками.

Использование в ядре СнК реконфигурируемых вычислительных систем (РВС),,т.е. систем, аппаратура которых может реконфигурироваться, менять свои функции, в зависимости от решаемых вычислительной системой5 задач' позволяет эффективно адаптировать архитектуру под структуру решаемой, задачи и тем самым обеспечить максимальный уровень производительности СнК. Архитектура, интегральных схем (ИС) РВС в общем случае представляет собой однородный массив вычислительных ячеек структуры^- процессорных элементов (ПЭ), каждый из которых может выполнять как минимум одну специфическую функцию из определенного набора возможных функций, в зависимости от конфигурации, в которой он находится. При этом ПЭ массива могут находиться в различных конфигурациях, конфигурации можно изменять в процессе эксплуатации реализованного микрочипа такого массива, обеспечивая тем самым реализацию различных функций и вычислительных алгоритмов.

Такая архитектура в силу своей внутренней регулярности очень технологична и при логическом, и при физическом проектировании, и существующие системы САПР могут эффективно использоваться для проектирования таких устройств. Более того, такая* архитектура может и эффективно использовать современные технологии, поскольку производительность ИС такой архитектуры, в силу ее естественного параллелизма, может увеличиваться практически, пропорционально с ростом числа ПЭ в одном кристалле.

Благодаря своим уникальным свойствам, это направление выходит в настоящее время на передний план развития мировой электроники. Этот процесс обусловлен двумя основными причинами - насыщением вычислительных возможностей, заложенных в традиционной модели компьютерных вычислений, и постоянно развивающимся уровнем технологии- полупроводникового производства,- открывающим новые, глобальные перспективы для реализации сложных электронных систем на одном кристалле.

Однако существуют факторы, сдерживающие развитие этого перспективного направления. Основными среди них являются отсутствие многообразия эффективных и прошедших практическую апробацию • интегральных схем, вычислительных архитектур указанного класса, отсутствие автоматизированных средств' проектирования- системного уровня и систем программирования реконфигурируемых архитектур.

Существующие интегральные схемы (ИС) РВС на фоне- гибкости и технологичности архитектуры не обеспечивают требуемых- уровней-производительности. Наличие данной; проблемы является следствием недостаточного количества проведенных исследований в области оптимизации ИС РВС. В свою* очередь, недостаточное количество- проведенных исследований в области построения эффективных ИС РВС определяется низкой эффективностью широко применяемой методики анализа- интегральных схем на основе моделирования предварительно разрабатываемого- ЮХ-описания, что является трудоемким и долговременным процессом.

Таким образом, актуальной является задача выявления причин, ограничивающих вычислительные мощности ИС РВС, разработки- эффективной комплексной, методики анализа ИС РВС и проведения исследований и разработки методов повышения производительности ИС РВС с использованием разработанной методики:

Цель работы

Цель работы заключается в разработке и схемотехнической реализации методов увеличения производительности ИС РВС.

Для достижения цели работы было необходимо решить следующие задачи:

• Провести анализ факторов, ограничивающих вычислительную мощность ИС РВС и исследование существующих подходов и решений в области повышения производительности ИС вычислительных систем данного класса.

• Разработать модель ИС РВС и комплексную методику анализа на системном, функциональном и схемотехническом уровнях.

• Определить и сформулировать требований к процессорному элементу (ПЭ) ИС РВС, выполнение которых обеспечит наилучший показатель производительности ИС вычислительных систем данного класса.

• Оптимизировать операционные блоки ПЭ в соответствии с разработанными требованиями и разработать структурную схему ПЭ на основе данных блоков.

• Разработать и реализовать метод схемотехнической оптимизации вычислений на ИС РВС, основанный на введении поддержки альтернативных вычислений в ПЭ ИС РВС.

• Исследовать зависимость времени простоя ИС РВС от количества активных задач и алгоритма их размещения на аппаратуре ИС РВС для различных типов топологии межпроцессорных связей и разработать аппаратные средства обмена данными между процессорными элементами ИС РВС, обеспечивающие снижение времени простоя ИС РВС, связанного с транзитом данных через ПЭ.

• Разработать эффективные средства обеспечения динамической частичной реконфигурируемости ИС РВС.

• Разработать прототип ИС РВС на основе предлагаемых методов повышения производительности и провести экспериментальную апробация результатов исследований.

Научная новизна работы

1. Установлены основные причины, ограничивающие производительность ИС РВС: ограниченная функциональность процессорных элементов (ПЭ), не позволяющая покрыть широкий спектр типовых алгоритмов высокопараллельной потоковой обработки данных, низкая эффективность использования аппаратных ресурсов ИС РВС в случае реализации на ней вычислительных алгоритмов с ветвлениями, простой ИС РВС, обусловленный транзитом данных через неактивные ПЭ к активному ПЭ, длительное время переконфигурирования ИС РВС, невозможность динамической реконфигурации части матрицы процессорных элементов ИС РВС, совмещенной с вычислениями.

2. Предложена методика комплексной оценки эффективности схемотехнической реализации функциональных элементов ИС РВС, основанная на сравнительном анализе показателя удельной производительности (производительности на единицу площади) ИС РВС, построенных на базе данных элементов.

3. Проведен анализ зависимости эффективности ИС РВС от параметрических характеристик ПЭ, определены и сформулированы требования к ПЭ ИС РВС, выполнение которых обеспечивает максимальную производительность ИС РВС относительно обработки заданного диапазона прикладных задач потоковой обработки данных.

4. Выявлены механизмы влияния типов функциональных операторов и вычислительных структур прикладных задач, выполняемых на ПЭ на производительность ИС РВС, и предложен способ ее повышения, основанный на обеспечении аппаратной поддержки альтернативных вычислений в процессорном элементе системы.

5. Предложен способ обеспечения динамической коммутации ПЭ ИС РВС на уровне глобального коммутационного ресурса, основанный на интеграции в коммутационную систему глобальных вертикальных и горизонтальных шин и системы реконфигурируемых повторителей, и обоснование возможности его практической реализации.

Практическая значимость работы

1. Разработанный комплекс схемотехнических решений, позволяющих увеличить производительность ИС РВС, применен в системе на кристалле «РРХ4096», разработанной в ООО ИДМ, что в совокупности обеспечило увеличение производительности реконфигурируемого ядра, входящего в состав СнК «РРХ4096», более чем в 4 раза для прикладных задач цифровой обработки сигналов.

2. Разработанная библиотека конфигурационных настроек ПЭ ИС РВС для наборов прикладных задач, обеспечивающая повторное использование программно-аппаратных блоков интеллектуальной собственности, внедрена в ООО ИДМ, что позволило оптимизировать, используемую на предприятии методологию совместного проектирования и верифицирования СБИС класса "система-на-кристалле" на базе реконфигурируемых вычислительных систем и программных средств-для реализации прикладных алгоритмов на основе данных систем.

3. Разработанная методика- комплексной оценки эффективности функциональных блоков ИС РВС использована при разработке и модернизации лекционных курсов и лабораторных практикумов, входящих в учебные планы ФЭКТ МИЭТ.

На защиту выносятся положения'

1. Структурно-функциональная модель >ИС РВС, обеспечивающая возможность комплексного анализа ИС РВС, и, построенная на базе данной модели, методика оценки эффективности функциональных элементов ИС РВС.

2'. Структурная' схема ПЭ с расширенным функциональным спектром, обеспечивающая одновременную обработку как простых арифметических и логических, так и комплексных мультипликативных функциональных операторов.

3. Схемотехническая4 реализация альтернативных вычислений на ПЭ ИС РВС, представляющая обеспечение возможности условного выбора того или иного функционального оператора на ПЭ ИС РВС, и определяющая повышение её удельной производительности.

4. Оптимизированная топология межсоединений ПЭ ИС РВС, основанная на интеграции в двумерную решетку взаимосвязанных иерархических двумерных тор-соединений, обеспечивающих гибкость коммутационной системы на уровне регулярных ближних взаимосвязей ПЭ, а также глобальных горизонтальных и вертикальных шин, обеспечивающих эффективность обмена данными между ПЭ на глобальном уровне, и определяющая снижение времени простоя, обусловленного транзитом данных в активные ПЭ ИС РВС.

5. Принцип организации процесса загрузки конфигурационных данных, основанный на обеспечении индивидуального доступа к конфигурационному регистру ПЭ ИС РВС в режиме вычислений, обеспечивающий динамическую частичную реконфигурируемость ИС РВС.

Личный вклад. Все основные научные результаты, приведенные в диссертации и сформулированные в положениях, выносимых на защиту, получены соискателем лично.

Апробация работы. Основные результаты работы были представлены на следующих научно-технических конференциях:

Всероссийский молодежный научно-инновационный конкурс-конференция «Электроника - 2006», МГИЭТ 2006; Всероссийский молодежный научно-инновационный конкурс-конференция «Электроника - 2007», МГИЭТ 2007; 52-ая научная конференция «Современные проблемы фундаментальных и прикладных наук» МФТИ 2009; Всероссийская молодежная выставка-конкурс прикладных исследований, изобретений и инноваций, Саратов 2009; Всероссийская межвузовская научно-техническая конференция «Микроэлектроника и Информатика 2009», МГИЭТ 2009; Всероссийская межвузовская научно-техническая конференция «Микроэлектроника и

Информатика 2010», МГИЭТ 2010; Международная научно-техническая конференция с элементами научной школы для молодежи «Проектирование систем на кристалле: тенденции развития и проблемы», МГИЭТ 2010.

Публикации. По теме диссертационной работы опубликовано 10 научных работ, в том числе 3 статьи опубликованы в журналах, входящих в перечень ВАК, 7 тезисов докладов, 1 научно-технический отчет по НИР, 1 научно-технический отчет по НИОКР.

Структура и объем работы. Диссертационная работа состоит из введения, 6 глав, заключения и списка литературы из 88 наименований. Общий объём диссертации составляет 207 страниц, в том числе 7 таблиц и 76 рисунков.

Заключение диссертация на тему "Исследование и разработка методов повышения производительности интегральных схем реконфигурируемых вычислительных систем"

6.6 Выводы

• Разработана архитектура ИС РВС, включающая аппаратную реализацию предложенных методов повышения производительности ИС РВС.

• Разработан прототип ИС РВС с использованием ПЛИС Xilinx, предназначенный для верификации ИС РВС и схем-макросов прикладных алгоритмов, реализованных на ИС РВС.

• Разработан экспериментальный стенд обеспечивающий процесс создания и отладки программных средств для реализации прикладных алгоритмов, отладки и верификация аппаратуры ИС РВС и в дальнейшем - обеспечения разработки и верификации схем-макросов прикладных вычислительных алгоритмов для формирования библиотеки алгоритмов ИС РВС.

• Разработана методика комплексной верификации ИС РВС и схем-макросов прикладных алгоритмов, реализованных на ИС РВС. Разработка и анализ ИС РВС на системном уровне обеспечивает основу для реализации аппаратной модели, а процесс синтеза и последующей загрузки конфигурационных настроек ПЭ вычислительной матрицы в аппаратуру, обеспечивает быструю верификацию и простое наращивание базы данных библиотек алгоритмов для их последующей аппаратной реализации как отдельно, так и в составе сложных прикладных задач.

• Разработанная на основе предлагаемых аппаратных методов обеспечения высоких уровней производительности, архитектура ИС РВС верифицирована на аппаратном уровне. Реализован набор прикладных задач. Апробация результатов в составе экспериментального стенда подтвердила реализуемость и эффективность предлагаемых методов повышения производительности ИС РВС.

• Проведена оценка технических характеристик разрабатываемой ИС РВС для различных уровней технологии и различных размеров кристалла. Реализованный комплекс схемотехнических методов повышения эффективности ИС РВС позволил повысить производительность более чем в 6 раз относительно базовой исходной архитектуры. Оцененная пиковая производительность ИС РВС л площадью 400 мм с количеством ПЭ, равным 10520, функционирующей на частоте 300 МГц составляет 197, 4 GOPS (Giga operations per second, миллиардов операций в секунду). Потребляемая мощность ИС 22,1 Вт.

Заключение

1). Проведенный в работе анализ позволил выявить основные причины насыщения производительности ИС РВС, среди которых наиболее важными являются: ограниченная функциональность процессорных элементов, не позволяющая покрыть широкий спектр типовых алгоритмов высокопараллельной обработки данных; низкая эффективность использования аппаратных ресурсов ИС РВС в случае реализации на ней вычислительных алгоритмов с ветвлением; простой ИС РВС, связанный с увеличением значения времени задержки, обусловленного транзитом данных к активному ПЭ; длительное время переконфигурирования ИС РВС; невозможность динамической реконфигурации части матрицы ПЭ ИС РВС, совмещенной с вычислениями.

2). Разработана и верифицирована функциональная модель ИС РВС обеспечивающая возможность комплексного анализа на различных уровнях абстракции (на уровне простейших функциональных блоков, на уровне ПЭ, на системном уровне), а также обеспечивающая возможность оценки производительности ИС РВС для различных конфигураций функциональных элементов ИС РВС.

3). Предложена методика комплексной оценки эффективности функциональных элементов ИС РВС, основанная на сравнительном анализе показателя удельной производительности (производительности на единицу площади) ИС РВС, построенных на базе данных элементов.

4). На базе предложенной функциональной модели разработана структурная схема ПЭ ИС РВС, обеспечивающая поддержку обработки установленного набора функциональных операторов, а также параллельную одновременную обработку двух операций, как простых арифметико-логических функциональных операторов, так и мультипликативных, что повышает производительность ИС РВС.

5). Разработан способ схемотехнической оптимизации вычислений на ИС РВС, основанный на введении поддержки альтернативных вычислений в ПЭ ИС

196

РВС и обеспечивающий эффективную поддержку на ИС РВС обработки алгоритмов с ветвлениями.

6). Разработана и оптимизирована топология системы межсоединений ПЭ ИС РВС как на уровне регулярных ближних связей (на базе связанных двумерных тор-соединений размерностью 8*8), так и на уровне глобальных связей в рамках взаимодействия схем-макросов (система глобальных вертикальных и горизонтальных шин). Данное решение ИС РВС обеспечивает уменьшение значения времени простоя ИС РВС, возникающее, с одной стороны, в процессе пересылки данных между активными ПЭ в рамках статической конфигурации одной схемы-макроса, а с другой, - в процессе пересылки данных между активными ПЭ разных схем-макросов в рамках динамической конфигурации произвольно размещаемых на аппаратуре ИС РВС прикладных задач.

7). Предложен новый принцип организации процесса загрузки конфигурационных данных, основанный на обеспечении индивидуального доступа к конфигурационному регистру ПЭ ИС РВС в режиме вычислений, обеспечивающий динамическую частичную реконфигурируемость ИС РВС.

8). Предложен принцип обеспечения динамической коммутации ПЭ на уровне глобальных связей, основанный на выделении в отдельный режим процесса загрузки конфигурации коммутационных настроек ПЭ, интеграции в ПЭ реконфигурируемых повторителей, управление которыми обеспечивает динамическую сегментацию глобальных шин, что определяет эффективность и гибкость коммутационной системы и, как следствие, повышение производительности ИС РВС.

9). Разработан прототип ИС РВС с использованием ПЛИС ХШпх, предназначенный для верификации ИС РВС и реализованных схем-макросов прикладных алгоритмов.

10). Разработана методика комплексной верификации ИС РВС и реализованных схем-макросов прикладных алгоритмов. Разработка и анализ ИС РВС на системном уровне обеспечивает основу для реализации аппаратной модели, а процесс синтеза и последующей загрузки конфигурационных настроек ПЭ вычислительной матрицы в аппаратуру, обеспечивает быструю верификацию и

197 простое наращивание базы данных библиотек алгоритмов для их последующей аппаратной реализации как отдельно, так и в составе сложных прикладных задач.

11). Результаты исследований апробированы в составе экспериментального стенда, включающего прототип ИС РВС в ПЛИС. Апробация результатов исследований в составе экспериментального стенда подтвердила реализуемость и эффективность предлагаемых методов повышения производительности ИС РВС.

12). Проведена оценка технических характеристик разрабатываемой ИС РВС для различных уровней технологии и различных размеров кристалла. В процессе масштабирования не требуется перепроектирование ИС РВС, их производительность растет с увеличением числа ПЭ в системе. Оцененная пиковая производительность ИС РВС площадью 400 мм2 с количеством ПЭ, равным 10520, функционирующей на частоте 300 МГц составляет 197, 4 GOPS (Giga operations per second, миллиардов операций в секунду). Потребляемая мощность ИС 22,1 Вт.

Таким образом, в результате выполнения работы решена задача повышения производительности интегральных схем реконфигурируемых вычислительных систем класса однородных вычислительных сред. Реализованный комплекс схемотехнических методов повышения гибкости ИС РВС относительно дифференцируемого диапазона приложений, повышения эффективности ИС РВС относительно обработки прикладных алгоритмов, в которых широко используется вычислительная структура с ветвлением по условию - структура типа "выбор" и "повторение", повышения эффективности коммутационной системы ИС РВС, обеспечения эффективных механизмов динамической реконфигурации аппаратуры ИС РВС, позволил повысить производительность системы более чем в 6 раз относительно базовой исходной архитектуры.

Библиография Артамонов, Дмитрий Сергеевич, диссертация по теме Твердотельная электроника, радиоэлектронные компоненты, микро- и нано- электроника на квантовых эффектах

1. Аладышев ОС, Дикарев НИ., Овсянников А.П. и др., СуперЭВМ: области применения и требования к производительности // Известия ВУЗов. Электроника, 2004, №1. С. 13-17.

2. Варшавский В.И., Мораховский В.Б. и др. Однородные структуры. // М.: Энергия, 1973.- 150 с.

3. Воеводин В.В., Воеводин Вл.В. Параллельные вычисления. // С.-Петербург: «БХВ-Петербург», 2002. 599 с.

4. Димитриев Ю.К., Хорошевский В.Г. Вычислительные системы из мини-ЭВМ. // М.: Радио и связь, 1982. 304 с.

5. КорнеевВ.В. Архитектура вычислительных систем с программируемой архитектурой // Новосибирск: Наука, 1983.-С. 116.

6. Распараллеливание обработки информации / Под ред. Грицика. Львов, 1985. - Т.2.

7. Kuch D.J. ILLIACIV Software and Application Programming // IEEE Jrans. Comput, 1968, v. 6-17, N 8. P. 758-770.

8. Каляев И.А., Левин И.И., Семерников Е.А., Шмойлов В.И. Реконфигурируемые мультиконвейерные вычислительные системы. // Ростов-на-Дону, ЮНЦ РАН, 2008. С. 393 .

9. Векторизация программ: теория, методы, реализация / Сборник переводов статей.// М.: Мир, 1991. С. 246-267.

10. Blum Т., Paar С. Montgomery Modular Multiplication on Reconfigurable Hardware // 14th IEEE Symposium on Computer Arithmetic (ARITH-14), April 14-16, 1999, Adelaide, Australia.

11. Gross Т., O'Hallaron D. R. iWARP. Anatomy of a Parallel Computing System. // MIT Press, March 1998, pp. 530.

12. Gross Т., O'Hallaron D. R, and Subhlok J. Task parallelism in a High Performance Fortran framework // IEEE Parallel & Distributed Technology, Vol 2, Num 3, 1994, pp. 16-26.

13. Fujita Y. Nobuyuki Y. Okazaki S. IMAP VISION: An SIMD Processor with HighSpeed On-chip Memory and Large Capacity External Memory // MVA '96 IAPR Workshop on Machine Vision Applications, November. 12-14. 1996. Tokyo, Japan, pp. 170-173.

14. Jones G. PulseDSP: A Signal Processing Oriented Programmable Architecture // Field Programmable Logic and Applications Lecture Notes in Computer Science, 2004, Volume 1673/2004, pp. 282-290.

15. Multicore DSP architecture // http://www.picochip.com/page/42/multi-core-dsp-architecture

16. PACT XPP Technologies // http://www.pactxpp.com/main/index.php

17. Каляев A.B. Теория цифровых интегрирующих машин и структур. // М.: Сов. Радио, 1970.

18. Евреинов Э.В., Косарев Ю.Г. Однородные универсальные вычислительные системы высокой производительности. //Новосибирск: Наука, 1966. С. 308.

19. Прангишвши И.В., Абрамова Н.А., Бабичева Б.В., Игнатущенко В.В. Микроэлектроника и однородные структуры для построения логических и вычислительных устройств. // М.: Наука, 1967. С. 228.

20. Евреинов Э.В., Прангишвши И.В. Цифровые автоматы с настраиваемой структурой.//М.: Энергия, 1974. С. 240.

21. Прангишвши КВ., ТодуаД.А., Абрамова Н.А. и др. ЭВМ ПС-300. // Приборы и системы управления, 1978, №10.

22. Русин Б.П., Кузьо М.Н., Шмойлов В.И. Пульсирующие информационные решётки новое поколение однородных вычислительных сред // Автоматика и вычислительная техника. - Рига, 2002, №1. - С. 60-71.

23. Седое B.C., Соболев В.Н., Самчинский A.A. и др. Элементная база ОВС. -Львов: ИППММАНУССР, 1989. С. 38.

24. Шмойлов В.И. Организация вычислительного процесса в мультиконвейерной вычислительной структуре. Львов: НТЦ «Интеграл», 1991. - С. 93.

25. Шмойлов В.И, Русын Б.П., Кузьо М.Н. Однородные вычислительные среды и пульсиры. Львов: Меркатор, 2001. - С. 62.

26. Кун С. Матричные процессоры на СБИС / Пер. с англ. // М.: Мир, 1991. С. 672.

27. Kung Н.Т. and Leiserson С.Е. Systolic arrays (for VLSI). // In Sparse Matriz Symposium, SIAM, 1978, pp. 256-282.

28. Бачериков Г.И., Богачёв М.П., Шмойлов В.И и др. Мультиконвейерные вычислительные структуры на однородных средах. // Львов: ФМИ АН УССР, 1985. С. 70.

29. Камша U.C., Камша В.П., Шмойлов В.И. и др. Суперкристалл ОВС с анализом команд. // Львов: НТЦ "Интеграл", 1990. С. 63.

30. Кузьо М.М., Русин Б.П., Шмойлов В.И. Однорщш середовища елементна база високопродуктивних обчислювальних систем. // Управляющие системы и машины.-Киев, 2000, №4. - С. 52-62.

31. Кузьо М.М., Русын Б.П., Шмойлов В.И. Однородные вычислительные среды // Оптико-електронш шформацшно-енергетичш технологи. Вшниця, 2001, №2. - С.19-37.

32. РусынБ.П., КузьоМ.Н., Шмойлов В.И. Реконфигурируемые высокопроизводительные системы на однородных средах // Автоматика и вычислительная техника. Рига, 2000, №3. С. 72-81.

33. Елейко В.И., Елейко Я.И., Шмойлов В.И. и др. ОВС безрезервных процессорных элементов. // Львов: НТЦ "Интеграл", 1991. С. 34.

34. Елейко Я.И. Самчинский A.A., Шмойлов В.И. Построение отказоустойчивой однородной вычислительной среды. // Львов: НТЦ "Интеграл", 1991. С. 67.

35. Подрубный О.В., Самчинский A.A., Шмойлов В.И. Построение отказоустойчивой элементной базы ОВС. // Львов: НТЦ "Интеграл", 1990. -С. 36.

36. Шмойлов В.И. Архитектура однородных вычислительных сред. // Львов: НТЦ "Интеграл", 1993. С. 289.

37. Самчинский A.A., Седов B.C., Шмойлов В.И. Архитектура однородной вычислительной среды. // Львов: НТЦ "Интеграл", 1991. С. 228.

38. Камша В.П., Кузъо М.Н., Шмойлов В.И. и др. ОВС на пластине. // Львов: НТЦ "Интеграл", 1990. С.63.

39. Кокурин СЛ., Кузъо М.Н., Шмойлов В.И. Разработка однородной вычислительной среды на пластине. // Львов: НТЦ "Интеграл", 1991. С. 26.

40. Кузъо М.М., Русын Б.П., Шмойлов В.И. Пульсирующие информационные решётки. // Оптико-електронш шформацшно-енергетичш технологи. -Вшниця, 2001, №1. С. 51-78.

41. Шмойлов В.И, Русин Б.П., Кузъо М.Н., Каший О.В. Проектирование пульсирующих информационных решёток. // Львов: Меркатор, 2000. С. 101.

42. Шмойлов В.И., Русин Б.П., Кузъо М.Н. Ячейка пульсирующих информационных решёток. // Львов: Меркатор, 2001. С. 34.

43. Шмойлов В.И, Русын Б.П., Кузъо М.Н. Однородные вычислительные среды и пульсиры. // Львов: Меркатор, 2001. С. 62.

44. Edsger W. Dijkstra. Notes on structured programming // Eds. Ole-Johan Dahl, Edsger W. Dijkstra, C. A. R. Hoare. Structured Programming. Academic Press, 1972.-88 p.

45. Шмойлов В.И., Адамацкий A.M., Кузьо M.H. Русин Б.П., Тимченко А.В. Пульсирующие информационные решетки. Львов: Меркатор, 2004. 302 с.

46. Шмойлов В.И., Русин Б.П., Кузьо М.Н. Пульсирующие информационные решетки новое поколение однородных вычислительных сред // Управляющие системы и машины.-Киев, 2004, №2. - С. 23-38.

47. Шмойлов В.И. Пульсирующие информационные решетки и суперкомпьютеры класса А. Львов: Меркатор, 2005. - С. 902.

48. Барский А.Б. Архитектура параллельных вычислительных систем http://www.intuit.rU/department/hardware/paralltech/9/l.html

49. Р. К. Chan, М. D. F. Schlag, С. D. Thomborson, and V. G. Oklobdzija, Delay Optimization of Carry-Skip Adders and Block Carry-Lookahead Adders // 10th IEEE Proceedings on Computer Arithmetic, June 26-28, 1991, pp.154-164.

50. K-H. Cheng; ¡V-S. Lee and Y-C. Huang, A 1.2V 500 MHz 32-bit Carry-Lookahead Adder. // 8th IEEE International Conference on Electronics, Circuits and Systems, Vol. 2, September 2-5, 2001, pp. 765-768.

51. P. Corsonello, S. Perri and G. Cocorullo, Hybrid carry select statistical carry lookahead adder. // Electronics Letters, Vol. 35, Issue 7 April 1, 1999, pp. 549551.

52. C-J. Fang, C-H. Huang, J-S. Wang and C-W. Yeh Fast and compact dynamic ripple carry adder design. // IEEE Asia- Pacific Conference on ASIC, Aug. 6-8, 2002, pp. 25-28.

53. Артамонов Д.С. Процессорный элемент для реконфигурируемых вычислительных систем. // Электроника 2006, Всероссийский молодежный научно-инновационный конкурс-конференция, Тезисы докладов, МИЭТ, 2006.-С.103.

54. Артамонов Д.С. Разработка процессорного элемента для реконфигурируемых вычислительных систем потоковой обработки данных. // Электроника 2007, Всероссийский молодежный научно-инновационный конкурс-конференция, Тезисы докладов, МИЭТ, 2007. - С.87.

55. Артамонов ДС., Вихров O.A. Повышение производительности реконфигурируемых однородных вычислительных сред методом поддержки альтернативных вычислений. // Известия высших учебных заведений, Электроника 5(79) 2009. С.50-56

56. Артамонов Д.С., Путря М.Г. Метод оптимизации вычислительного процесса на реконфигурируемых однородных вычислительных средах. // Информационные технологии и вычислительные системы, 3/2010. С. 19-26

57. Цилькер Б. Я., Орлов С. А. Организация ЭВМ и систем // Учебник для вузов. СПб., 2004. - 667 с.

58. Cordan В. An Efficient Bus Architecture for System-on-a-Chip Design // Proceedings of IEEE Custom Integrated Circuits Conference. 1999. May. pp. 623626.

59. Winegarden S. Bus Architecture of a System on a Chip with User Configurable System Logic // IEEE Journal of Solid State Circuits. 2000. Vol. 35, No. 3. pp. 425-433.

60. Артамонов Г. Т., Тюрин В.Д. Топология сетей ЭВМ и многопроцессорных систем. М.: Радио и связь, 1991. 248 с.

61. Open Core Protocol Reference Document Revision 002 // OCP-IP Association. 2001.202 p.

62. Корнеев В.В. Параллельные вычислительные системы. // М.: Нолидж, 1999. -320 с.

63. Суворова Е. А. Параллельные устройства вычислительной техники класса "системы-на-кристалле" // Дис. . канд. техн. наук : 05.13.05, СПб., 2004. -203 с.

64. Thompson С. D. Area-Time complexity for VLSI // Proc. ACM, Symp. Theory of Computing. 1979, pp. 81-88

65. Chi-Hsiang Yen, E. A. Varvarigos, B. Parhami The recursive grid layout sceme for VLSI layout of hierarchical networks / // Proc. Merged Int'l Parallel Processig Symp. & Symp. Parallel and Distributed Processing. 1999. Apr. pp.48-55.

66. С. H. Yeh, E.A. Varvarigos, B. Parhami Efficient VLSI layouts of hypercubic networks / // Proc. Symp. Fron-tiers of Massively Parallel Computation. 1999. Feb. pp. 98-105.

67. С. H. Yeh, B. Parhami, E.A. Varvarigos, H. Lee VLSI layout and packaging of butterfly networks / // Proc. ACM Symp. Parallel Algorithms and Architectures. 2000. pp.196-205.

68. C. H. Yeh, B. Parhami, E.A. Varvarigos The recursive grid layout scheme for VLSI layout of hierarchical networks / // Proc. Merged Int'l Parallel Processing Symp. & Symp. Parallel and Distributed Processing. 1999. Apr. pp. 441-445.

69. S. Even, S. Muthukrishnan, M.S. Paterson, S. Cenk Sahinalp Layout of the Batcher bitonic sorter. // Proc. ACM Symp. Parallel Algorithms and Architectures. 1998. pp. 172-181.

70. Chen G., Lau F. Layout of the Cube-connected Cycles without Long Wires // The Computer Journal. 2001. Vol. 44. pp. 374-383.

71. Kruskal C. P., Snir M. A unified theory of interconnection network structure // Theoretical Computer Science. 1986. Vol. 48. pp. 75-94.

72. The International Technology Roadmap for Semiconductors (ITRS), 1999.

73. K. C. Saraswat and F. Mohammadi, "Effect of interconnection scaling on time delay of VLSI circuits," IEEE Trans. Electron Devices, vol. ED-29, 1982, pp. 645650.

74. M. T. Bohr, "Interconnect scaling-the real limiter to high performance ULSI," IEDM Tech. Dig., 1995, pp. 241-244.

75. J. D. Meindl, "Low power microelectronics: retrospect and prospect," Proc. of the IEEE, vol. 83, no. 4, pp. 619-635, 1995.

76. S-Y Oh and K-J Chang, "2001 needs for multi-level interconnect technology," Circuits and Devices, pp. 16-21, 1995.

77. M. T. Bohr and Y. A. El-Mansy, "Technology for advanced high-performance microprocessors," IEEE Trans. Electron Devices, vol 45, no. 3, pp. 620-625, 1998.

78. H. B. Bakoglu, Circuits, Interconnections and Packaging for VLSI. // Reading, MA: Addision-Wesley, 1990

79. K. Banerjee, S. J. Souri, and K. C. Saraswat, "3-D ICs: A Novel Chip Design for Improving Deep Submicron Interconnect Performance and Systems-on-Chip Integration," Proc. IEEE, May 2001

80. Лап Liu, Meigen Shen, Li-Rong Zheng, et al., System level interconnect design for network-on-chip using interconnect IPs, Proceedings of the 2003 international workshop on System-level interconnect prediction (SLIP 03).

81. C. Grecu et al., "A Scalable Communication-Centric SoC Interconnect Architecture," Proc. Fifth Int'l Symp. Quality Electronic Design (ISQED '04), pp. 343-348, 2004

82. Артамонов Д.С. Метод обеспечения динамической частичной реконфигурируемости аппаратуры высокопроизводительного систолического процессора.// Известия высших учебных заведений, Электроника 5 2010. С.68-70.