автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.05, диссертация на тему:Теория, разработка и создание проблемно-ориентированных процессорных ядер с оптимальным вычислительным конвейером и многоядерных сигнальных процессоров на их основе.

доктора технических наук
Беляев, Андрей Александрович
город
Москва
год
2012
специальность ВАК РФ
05.13.05
Диссертация по информатике, вычислительной технике и управлению на тему «Теория, разработка и создание проблемно-ориентированных процессорных ядер с оптимальным вычислительным конвейером и многоядерных сигнальных процессоров на их основе.»

Автореферат диссертации по теме "Теория, разработка и создание проблемно-ориентированных процессорных ядер с оптимальным вычислительным конвейером и многоядерных сигнальных процессоров на их основе."

На правах рукописи

Беляев Андрей Александрович

ТЕОРИЯ, РАЗРАБОТКА И СОЗДАНИЕ ПРОБЛЕМНО-ОРИЕНТИРОВАННЫХ 1РОЦЕССОРНЫХ ЯДЕР С ОПТИМАЛЬНЫМ ВЫЧИСЛИТЕЛЬНЫМ КОНВЕЙЕРОМ И МНОГОЯДЕРНЫХ СИГНАЛЬНЫХ ПРОЦЕССОРОВ НА ИХ ОСНОВЕ

05.13.05 - «Элементы и устройства вычислительной техники и систем управления»

АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук

005047812

2 О ДЕК 2012

Москва-2012

005047812

Работа выполнена в ОАО «Научно-производственный центр «Электронные вычислительно-информационные системы» (ОАО НПЦ «ЭЛВИС»).

Научный консультант: доктор технических наук

Петричкович Ярослав Ярославович

Официальные оппоненты: Бобков Сергей Геннадьевич, доктор технических

наук, доцент, НИИСИ РАН, заведующий отделением

Защита состоится « 20 » декабря 2012 г. в _10_ часов 00 минут на заседании диссертационного совета Д 002.078.01 при Федеральном государственном бюджетном учреждении науки Институте проблем проектирования в микроэлектронике Российской академии наук (ИППМ РАН) по адресу: 124365, Российская Федерация, г. Москва, Зеленоград, Советская ул., д.З.

С диссертацией можно ознакомиться в библиотеке ИППМ РАН.

Автореферат разослан «Ю »НО ЯО0 Я 2012 года.

Ученый секретарь диссертационного совета,

Галушкин Александр Иванович, доктор технических наук, профессор, Центр информационных технологий и систем исполнительной власти, советник директора

Сиренко Владимир Григорьевич, доктор технических наук, профессор, ОАО «НИИ «Субмикрон», директор

Ведущая организация:

ОАО «Институт электронных управляющих машин имени И.С. Брука»

к.т.н„ доцент

• ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Постоянное повышение сложности задач, решаемых устройствами вычислительной техники и систем управления, ужесточение требований, предъявляемых к их функциональным характеристикам, вызывает необходимость непрерывного совершенствования их архитектуры.

В разработку теории и практики построения вычислительных систем и микропроцессорной техники весомый вклад внесли и российские ученые: С.А.Лебедев,

B.М.Глушков, В.С.Бурцев, Г.Г.Рябов, Б.А.Бабаян, Ю.В.Гуляев, В.К.Левин, Л.Н.Преснухин, А.К.Ким, А.И.Галушкин, В.В.Корнеев и другие. В создании новейших архитектур процессоров, а также в области практической их реализации в виде интегральных схем участвовали отечественные организации: ИТМиВТ им.

C.А.Лебедева, НИИСИ РАН, ИНЭУМ им. И.С.Брука, ИППМ РАН, НИИМЭ и завод «Микрон», НИИТТ и завод «Ангстрем», НИИМА "Прогресс", НТЦ «Модуль», МЦСТ, НПЦ «ЭЛВИС» и ряд других. Достигнутые в этой области успехи связаны с именами таких ученых, как К.А.Валиев, Г.Я.Гуськов, В.Б.Бетелин, В.А.Шахнов, В.П.Корячко, В.Н.Филатов, А. Л. Стемпковский, В.Г.Немудров, Г.Я.Красников, Я.Я.Петричкович и многих других.

В последнее десятилетие в развитии микропроцессорной техники произошёл фундаментальный сдвиг - переход от одноядерных архитектур к многоядерным. Этот переход был вызван тем, что возможности повышения производительности эдноядерных процессоров только за счет увеличения тактовой частоты при уменьшении технологических норм были практически исчерпаны в силу фундаментальных физических ограничений, связанных с необходимостью рассеивания всё возрастающей потребляемой мощности с единицы площади кристалла.

Однако переход к многоядерным архитектурам сам по себе не обеспечивает повышения энергоэффективности выполняемых вычислений. Напротив, он связан с усложнением процесса программирования, вызванным необходимостью декомпозиции выполняемой задачи на несколько подзадач для нескольких процессорных ядер и организации обмена данными между ними, что приводит к дополнительным энергетическим затратам.

По этой причине в настоящее время наиболее быстро развиваются не просто многоядерные, а многоядерные гетерогенные архитектуры - то есть такие архитектуры, в которых наряду с процессорными ядрами общего назначения используются специализированные процессорные ядра, ориентированные на реализацию некоторого заданного круга прикладных задач.

Процессоры, предназначенные для эффективной реализации заданного круга приложений, получили в зарубежной научно-технической литературе название ASIP (application-specific instruction-set processor) - процессоры с проблемно-ориентированной системой команд или, проще, проблемно-ориентированные процессоры. Проблемно-ориентированные процессоры обеспечивают возможность реализации растущего числа приложений, включая графику, видеоприложения, построение сетей, обработку сигналов.

Эти программируемые устройства представляют собой высокопроизводительную и энергетически эффективную альтернативу применению процессоров общего

назначения. Они обладают также существенными преимуществами по сравнению с ASIC (application-specific integrated circuit) - специализированными большими интегральными схемами (СБИС). Сложность и стоимость проектирования СБИС при переходе к более совершенным техпроцессам постоянно возрастает, что является неприемлемым для значительного круга коммерческих приложений. По этой причине гибкость и возможность повторного использования являются теми качествами, которые делают проблемно-ориентированные процессоры более привлекательным выбором в сравнении со специализированными схемами. Таким образом, проблемно-ориентированные процессоры должны сочетать в себе, с одной стороны, гибкость процессоров и, с другой стороны, эффективность специализированных схем.

Наиболее распространенной разновидностью проблемно-ориентированных процессоров являются процессоры цифровой обработки сигналов (DSP), которые ориентированы на решение достаточно широкого сектора задач, связанных с сигнальной обработкой. К областям их применения относятся обработка аудио- и видеосигналов, навигация, связь, гидроакустика, радиолокация, цифровое телевидение, системы дистанционного зондирования Земли и многое другое. Разработка новых поколений таких систем требует всё возрастающей производительности сигнальной обработки. Этим определяется актуальность исследований, направленных на повышение производительности и улучшение других функциональных характеристик сигнальных процессоров.

В связи с вышесказанным крайне актуальной является проблема разработки высокоэффективных проблемно-ориентированных процессорных ядер и многоядерных процессоров сигнальной обработки на их основе для вычислительных систем и комплексов управления различного назначения.

Сложность проектирования проблемно-ориентированных процессоров вытекает из фундаментальных задач выбора и оптимизации их архитектуры применительно к рассматриваемым областям приложений. По этой причине должна быть выработана целостная методология исследования пространства архитектурных решений, которая бы учитывала как статистические характеристики исполняемых прикладных задач, так и свойства используемого технологического базиса.

Объектом исследования в диссертационной работе являются проблемно-ориентированных процессорные ядра для многоядерных гетерогенных вычислительных систем на кристалле, а предметом исследования - методика проектирования проблемно-ориентированных процессорных ядер с оптимальным вычислительным конвейером и многоядерных сигнальных процессоров на их основе.

Исходя из анализа существующих в данной области проблем, были сформулированы следующие цели и задачи диссертационной работы.

Целью диссертационной работы является разработка теории, методик расчета и научно обоснованных технических решений, направленных на создание проблемно-ориентированных процессорных ядер с оптимальным вычислительным конвейером и многоядерных сигнальных процессоров на их основе.

Для достижения указанной цели в работе поставлены следующие задачи: 1. Вывести аналитические соотношения для функции производительности и оптимальной глубины однородного и неоднородного конвейера.

Разработать дискретный метод определения оптимального периода неоднородного конвейера.

Разработать методику оптимизации вычислительного конвейера проблемно-ориентированных процессорных ядер с учётом статистических характеристик исполняемых приложений и временных характеристик используемого технологического базиса.

к Разработать принципы и способы построения ББР-ядер с оптимальным вычислительным конвейером для многоядерных сигнальных процессоров. ). На основе предложенной методики выполнить разработку серии В8Р-ядер ЕЬ-

соге-хх с оптимизированным по производительности конвейером. 5. Разработать принципы и способы построения многоядерных кластеров на основе разработанных ОБР-ядер.

Разработать способ синхронизации вычислительных потоков в процессорных ядрах многоядерной системы для задач типа «производитель-потребитель» на основе применения специализированного буфера обмена с усовершенствованной логикой управления.

!. Выполнить разработку и создание многоядерных сигнальных процессоров на основе разработанных ББР-ядер.

Выполнить экспериментальную проверку выведенных в работе соотношений и измерение производительности, достигаемой многоядерными сигнальными процессорами на основе разработанных БЗР-ядер.

Методы исследования. Для решения поставленных задач использовались •еория и методы оптимизации, теория программирования, теория графов, теория па->аллельных вычислительных систем, теория и алгоритмы цифровой обработки сиг-¡алов, теория и методы проектирования интегральных схем.

Научная новизна. При выполнении диссертационной работы получены сле-(ующие новые научные результаты.

1. Выведены аналитические соотношения для функции производительности и оптимальной глубины однородного и неоднородного конвейера.

'.. Разработан дискретный метод определения оптимального периода неоднородного конвейера.

|. Разработана методика оптимизации вычислительного конвейера проблемно-ориентированных процессорных ядер с учётом статистических характеристик исполняемых приложений и временных характеристик используемого технологического базиса.

•. Разработаны принципы и способы построения ББР-ядер с оптимальным вычислительным конвейером для многоядерных сигнальных процессоров. . Разработаны принципы и способы построения многоядерных кластеров на основе разработанных БЗР-ядер.

6. Разработан способ синхронизации вычислительных потоков в процессорных ядрах многоядерной системы для задач типа «производитель-потребитель» на основе применения специализированного буфера обмена с усовершенствованной

логикой управления.

Практическая значимость работы состоит в следующих достижениях.

1. Предложенный в работе дискретный метод, за счет более точного определения оптимальной глубины конвейера, позволяет получить на некоторых приложениях выигрыш в производительности более 20% по сравнению с ранее известными аналитическими методами.

2. Применение разработанной методики, за счет сокращения итеративности, позволяет уменьшить общее время проектирования проблемно-ориентированных процессорных ядер на 20-30%.

3. На основе предложенной методики разработана серия масштабируемых рекон-фигурируемых ОЗР-ядер ЕЬсоге-хх для многоядерных сигнальных процессоров.

4. На основе разработанных БЗР-ядер созданы микросхемы сигнальных процессоров серий 1891, 1892. Созданные микросхемы обладают производительностью от 240 миллионов до 12 миллиардов операций с плавающей точкой в секунду, что соответствует мировому уровню для сигнальных процессоров данного класса.

5. В результате проведенной оптимизации ББР-ядра имеют относительно короткий конвейер - от 3 до 7 фаз (для сравнения, конвейер процессоров Т^егЗНАЛС содержит 10 фаз). Это позволило, при сохранении требуемой производительности, уменьшить энергопотребление, и тем самым значительно повысить энергоэффективность созданных процессоров. Например, сравнение изготовленных по технологии 130 нм процессоров 1892ВМ10Я и Т52035 (^егБНАЛС) показывает, что процессор 1892ВМ10Я обладает в 2,5 раза лучшей энергоэффективностью - 3,33 Гфлопс/Вт против 1,36 Гфлопс/Вт.

6. Микросхемы 1892ВМЗТ, 1892ВМ2Я, 1892ВМ4Я, 1892ВМ5Я, 1892ВМ8Я включены в «Перечень электрорадиоизделий, разрешенных к применению при разработке (модернизации), производстве и эксплуатации аппаратуры, приборов, устройств и оборудования военного назначения» Министерства обороны РФ. Микросхемы серии 1892 внедрены при разработке аппаратуры на 124 предприятиях.

В соответствии с государственной стратегией импортозамещения компонентов вычислительной техники и систем управления, выполненная работа непосредственно связана с планом научных исследований предприятия НПЦ «ЭЛВИС» и является критически важной для повышения обороноспособности страны ввиду возможности создания на основе полученных в ней результатов высокоэффективных отечественных вычислительных систем и комплексов управления. Соискатель проводил исследования в рамках «Приоритетных направлений развития науки, технологий и техники РФ», утвержденных указом Президента Российской Федерации от 07 июля 2011 г. № 899 и «Стратегии развития электронной промышленности России на период до 2025 года», утвержденной приказом Министра промышленности и энергетики Российской Федерации от 07 августа 2007 г. № 311.

Достоверность результатов работы обусловлена применением общепринятых математических методов оптимизации, математического моделирования, использованием систем автоматизированного проектирования, и подтверждается многолетним опытом эксплуатации ББР-ядер ЕЬсоге-хх и сигнальных процессоров серии 1892 «Мультикор», разработанных на основе теоретических и технических результатов данной работы.

Внедрение результатов работы. На основе научных результатов, полученных в диссертационной работе, автором была разработана серия БЗР-ядер ЕЬсоге, на базе которых созданы микросхемы сигнальных процессоров серий 1891ВМ и 1892 «Мультикор»: 1892ВМЗТ (РАЯЖ.431285.003), 1892ВМ2Я (РАЯЖ.431285.002), 1892ВМ4Я (РАЯЖ.431285.004), 1892ВМ5Я (РАЯЖ.431285.005), 1892ВМ7Я (РАЯЖ.431282.003), 1891ВМ7Я (ТВГИ.431281.012), 1892ВМ8Я (РАЯЖ.431285.006), 1892ВМ10Я (РАЯЖ.431282.012), 1892ВМ11Я (РАЯЖ.431282.011).. Микросхемы гигнальных процессоров 1892ВМЗТ, 1892ВМ2Я, 1892ВМ4Я, 1892ВМ5Я, 1892ВМ8Я включены в «Перечень электрорадиоизделий, разрешенных к применению при разработке (модернизации), производстве и эксплуатации аппаратуры, приборов, устройств и оборудования военного назначения» Министерства обороны РФ. Микросхемы серии 1892 «Мультикор» были внедрены при разработке аппара-гуры более чем на ста отечественных предприятиях. Среди них можно выделить :истемные концерны российской оборонной промышленности: ФГУП "НПО машиностроения", ОАО "Концерн "Созвездие", ОАО НПО "Алмаз" им. академика А..А.Расплетина, ОАО Концерн радиостроения "Вега", ФГУП ЦНИИ "Комета", ФГУП "НИИ "Вектор", ФГУП НПО "Орион", ФНПЦ «Раменское приборостроительное конструкторское бюро» и другие.

Устройства, созданные на базе сигнальных процессоров серии 1892, применяются, в частности, в самолетах СУ-35, вертолетах МИ-28Н, комплексах ПВО С-100, цифровых радиостанциях 6-го поколения и на многих других объектах стратегического назначения.

Основные научно-технические результаты работы, основанные на исследованиях автора, были использованы при выполнении 16-ти ОКР и НИР, проводившихся на предприятии НПЦ «ЭЛВИС» в течение ряда лет.

Личный вклад автора. Все выносимые на защиту научные положения, проведенные в рамках диссертационной работы теоретические и экспериментальные исследования, разработка и внедрение выполнены автором лично. Кроме того, автор участвовал в подготовке и проведении приемо-сдаточных испытаний изготовленных микросхем, в разработке программной, текстовой и конструкторской документации, а также проводил сопроводительные работы в местах эксплуатации изделий, созданных на базе изготовленных микросхем. На защиту выносятся:

— аналитические соотношения для функции производительности и оптимальной глубины однородного и неоднородного конвейера;

- дискретный метод определения оптимального периода неоднородного конвейера;

— методика оптимизации вычислительного конвейера проблемно-ориентированных процессорных ядер с учётом статистических характеристик исполняемых приложений и временных характеристик используемого технологического базиса;

- принципы и способы построения ББР-ядер с оптимальным вычислительным конвейером для многоядерных сигнальных процессоров;

- разработка ОБР-ядер серии ЕЬсоге-хх с оптимальным вычислительным конвейером для многоядерных сигнальных процессоров;

— принципы и способы построения многоядерных кластеров на основе разработан-

ных DSP-ядер;

- способ синхронизации вычислительных потоков в процессорных ядрах многоядерной системы для задач типа «производитель-потребитель» на основе применения специализированного буфера обмена с усовершенствованной логикой управления:

- создание многоядерных сигнальных процессоров серий 1891, 1892 на основе разработанных DSP-ядер,

Апробация работы. Основные результаты работы докладывались и обсуждались на: Всероссийской научно-технической конференции «Проблемы разработки перспективных микроэлектронных систем - 2005», ИППМ РАН, Истра, 2005; Всероссийской научно-технической конференции «Проблемы разработки перспективных микроэлектронных систем - 2006», ИППМ РАН, Истра, 2006; Всероссийской научно-технической конференции «Проблемы разработки перспективных микро- и наноэлектронных систем - 2008», ИППМ РАН, Истра, 2008; Всероссийской научно-технической конференции «Проблемы разработки перспективных микро- и наноэлектронных систем - 2010», ИППМ РАН, Истра, 2010; международной научно-технической конференции «Современные телевизионные технологии. Состояние и направления развития», МНИТИ, Москва, 2004; международной научно-технической конференции «Современные телевизионные технологии. Состояние и направления развития», МНИТИ, Москва, 2006; VIII научно-технической конференции «Системы наблюдения, мониторинга и дистанционного зондирования Земли», МНТОРЭС им. A.C. Попова, Геленджик, 2011, и других конференциях.

Публикации. По теме диссертации автором опубликовано 68 научных работ. Из них в ведущих рецензируемых журналах, входящих в перечень, утвержденный ВАК - 32, тезисов докладов всероссийских конференций - 18. Без соавторов опубликовано 43 работы. Основные научные результаты диссертации опубликованы в рецензируемых научных изданиях.

Структура и объем диссертации. Диссертационная работа состоит из введения, семи глав, заключения, списка использованной литературы и приложений. Общий объем диссертации - 373 страницы, объем основного текста - 270 страниц. В работе содержится 148 рисунков и 24 таблицы. Список литературы содержит 159 наименований.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность решаемой проблемы, формулируются цели и задачи работы, перечисляются элементы научной новизны и практической значимости, дается краткое содержание глав работы.

В первой главе дан обзор современных тенденций развития микропроцессорных архитектур. Представленный обзор показывает, что в последнее десятилетие происходит переход от одноядерных архитектур к многоядерным. Кроме того, наблюдается рост числа разработок проблемно-ориентированных процессоров и гетерогенных вычислительных систем на кристалле на их основе.

Показаны перспективы применения проблемно-ориентированных процессоров. Дан обзор проблемно-ориентированных процессоров ведущих зарубежных и

.ечественных производителей. Проанализированы особенности архитектуры цифровых процессоров обработки сигналов.

Рассмотрены принципы функционирования и методы оптимизации вычислительного конвейера. Анализ работы конвейера инструкций показывает, что при уве-шчении числа фаз конвейера его эффективность снижается из-за дополнительных горможений, возникающих из-за наличия в исполняемом приложении программных переходов и зависимостей по данным. Связанные с конвейеризацией проблемы обу-:ловливают необходимость оптимизации структуры конвейера при проектировании микропроцессора с учетом статистических характеристик исполняемых программ.

Рассмотрены известные аналитические соотношения, представленные в работах Эмма и Дэвидсона1, а также Харстейна и Пузака2, для определения функции производительности и оптимальной глубины конвейера с учетом зависимостей по данным и программных переходов в исполняемом приложении. Недостатками ука-¡анных соотношений является то, что они имеют ограниченную область применения, поскольку исходят из предположения об однородности конвейера, тогда как на практике более распространены конвейеры с неоднородной структурой. Приведенные формулы, кроме того, содержат ряд трудноопределимых параметров, что не зсегда дает возможность получить точный результат.

Проведен анализ существующих методов архитектурного проектирования проблемно-ориентированных процессоров и связанных с их применением проблем, главная из которых состоит в необходимости, при проведении проектирования, в целях оптимизации, исследования огромного многомерного пространства архитек-гурных решений. Показано, что существующие методы реализуют, как правило, принцип проектирования «сверху вниз», основываются почти исключительно на компьютерном моделировании и практически не применяют аналитические модели для оптимизации конвейера.

С учетом проведенного анализа поставлены цели и задачи диссертационной работы, состоящие в разработке теории и методики проектирования проблемно-ориентированных процессорных ядер с оптимальным вычислительным конвейером и создании на их основе многоядерных сигнальных процессоров.

Во второй главе проанализированы теоретические основы построения и оптимизации вычислительного конвейера проблемно-ориентированных процессоров.

На рис. 1 приведена структура N-фазного вычислительного конвейера. Элементами конвейера, помимо комбинационных вычислительных устройств, являются конвейерные регистры, используемые для хранения промежуточных данных. На этом и последующих рисунках приняты следующие обозначения: ор - вычислительное (операционное) устройство; reg - конвейерный регистр.

На физическом уровне быстродействие вычислительного конвейера определяется временными характеристиками входящих в него устройств: временем срабаты-

' Emma P.G., Davidson E.S. Characterization ob Branch and Data Dependencies in Programs for Evaluating Pipeline Performance // IEEE Trans. On Computers, V.C-36, №7, 1987, pp.859-875.

3 Hartstein A., Puzak T.R. The optimum pipeline depth for a microprocessor // Proceedings of the 29th Annual International Symposium on Computer Architectures, 2002, pp.7-13.

9

вания самого вычислительного (операционного) устройства С, временем выборки данных с выходов регистра гд и временем предустановки данных на входах регистра Для устройства, изображенного на рис. 1, минимальный период тактовой частоты конвейера Тр (или, для краткости, «период конвейера»), рассчитывается по формуле:

N

где N — число фаз конвейера, Я = + интегральный параметр, характеризующий общие временные затраты на срабатывание регистра.

Быстродействие вычислительного конвейера, а вместе с ним и производительность процессора в целом, определяется как временными свойствами входящих в него элементов, так и структурой конвейера. Уменьшение периода, и, следовательно, повышение тактовой частоты работы конвейера при увеличении числа его фаз приводит к росту производительности.

Рис. 1. Аппаратная структура jV-фазного вычислительного конвейера

Под производительностью процессора понимается среднее число инструкций, выполняемых им в единицу времени при реализации того или иного программного приложения. Если приложение содержит Na инструкций, которые выполняются за общее время Ta(N), то производительность процессора Pa(N) определяется формулой:

N

P<(N) =-4-.

Тл№

В том случае, когда конвейер затрачивает на выполнение каждой команды по одному процессорному такту, общее время исполнения приложения равно произведению числа инструкций на период конвейера:

и производительность конвейера вычисляется по формуле:

р.(ЛГ) = ——. Г,(Л?)

Если из-за зависимостей по данным в исполняемом приложении в ходе работы конвейера возникают такты вынужденного простоя, то общее количество процессорных тактов NCa, затрачиваемых на исполнение приложения, оказывается большим, чем число инструкций в нем.

Для оценки эффективности работы конвейера используются такие характеристики, как среднее количество инструкций, исполняемых за один процессорный такт IPC (instructions per cycle) или обратная ей величина - среднее количество тактов, затрачиваемых на исполнение одной инструкции CPI (cycles per instruction):

IPC = , CPI=

Л'сл Na

Для оценки зависимости производительности от числа фаз конвейера N используется функция относительной производительности (или просто «функция производительности») V(N), определяемая как отношение производительности N-фазного конвейера к производительности 1-фазного конвейера для одного и того же вычислительного тракта:

PAN) N.-ТП)

WAO = " = л р

РА 1) тАт

На производительность конвейера оказывает влияние наличие либо отсутствие зависимостей по данным между выполняемыми инструкциями.

При отсутствии подобных зависимостей конвейер имеет возможность на каждом такте приступать к обработке следующей команды; в этом случае производительность конвейера монотонно нарастает с увеличением числа его фаз:

44jV)_ = N-(/+1)

Tp{N) N + r '

где у = — - отношение суммарной задержки вычислительного устройства к общему R

времени срабатывания регистра.

В тех случаях, когда какая-либо исполняемая команда зависит по данным от предыдущей, конвейер вынужден откладывать начало ее обработки до завершения предшествущей, для чего вводятся дополнительные такты торможения конвейера, и производительность его падает. Если каждая следующая команда зависит по данным от предыдущей, на выполнение каждой команды приходится затрачивать N тактов и функция производительности конвейера приобретает вид:

N-Tp(N) N + r

Если доля инструкций, зависимых по данным от предыдущей, составляет d (О < d < 1), то из-за торможений конвейера общее количество процессорных тактов Nca> затрачиваемых на исполнение приложения, возрастет:

Na(N) = {l-d)-NA+d-NA-N,

Общее время выполнения приложения при этом станет равно:

TA(N) = (l-d)-NA-Tp(N) + d-NA-N-Tp(N), и функция производительности конвейера будет определяться формулой: Г,Ц) _ ЛЧх+1)

(l-d + d ■ N)-Tp (N) (l-d + d-N)-(N + f)

Приравняв нулю производную функции ^(N) по N, можно получить формулу для определения оптимальной по критерию производительности глубины конвейера в виде:

Зависимость относительной производительности от глубины конвейера при у=10 и различных значениях параметра d приведена на графиках на рис. 2.

Зависимость оптимальной глубины конвейера Мор, от параметра с1 для различных значений у в рассматриваемом случае представлена на рис. 3.

Рис. 2. Зависимость относительной производительности однородного конвейера от его глубины при у=10 и различных значениях параметра (1

Полученные результаты свидетельствуют о том, что выбор оптимальной структуры конвейера и достигаемая при этом производительность процессора в существенной степени зависят от статистических характеристик исполняемых приложений (в данном случае от параметра <£). Рассмотренная структура конвейера называется однородной, то есть построенной в предположении, что все вычислительные операции имеют одинаковое время задержки исполнения, и, соответственно, конвейеризуются на одинаковое число фаз.

На практике, однако, вычислительные операции могут сильно отличаться по времени исполнения, и такой ситуации соответствует более сложная модель неоднородного конвейера. В вычислительном тракте микропроцессора используется, как правило, не одно, а несколько операционных устройств, время задержки которых может сильно различаться. В этом случае операции, имеющие разное время исполнения, могут быть конвейеризованы на разное количество фаз. Построенный таким образом конвейер называется неоднородным.

Предположим, что процессор содержит и операционных устройств, пронумерованных в порядке возрастания времени исполнения Ск: С] < Сг < ... < < ... < Си, к=\,2,...,и, как это показано на рис. 4.

(Ь 1«-

К-Я

Ь

к-ж-

Сь

-*

Рис. 4. Время задержки операционных устройств в неоднородном конвейере

Взаимосвязь между числом фаз неоднородного конвейера и его периодом ГР(Л0 определяется по самой длительной операции (С = Си):

13

N = N,1 =-^-.

Для других операций число фаз конвейера может быть меньшим, и определяется по формулам:

= —^-= где &=1,2,...,£/.

7", (АО-Л С„

Пусть доля инструкций, выполняемых на к-м устройстве, от общего числа инструкций в приложении, составляет рк (0 <рк< 1), таким образом, общее число инструкций, выполняемых на к-м устройстве, равно:

Ми = рк ЛГА,

и и

при этом =1 =КЛ.

1.1

Пусть с1к (0 < йк < 1) - относительная частота инструкций в приложении, непосредственно следующих за инструкциями к-то типа (то есть за инструкциями, выполняемыми на к-м вычислительном устройстве) и зависимых по данным от них.

Функция относительной производительности для неоднородного конвейера имеет вид:

И) =-—--—

(г+ло-Хла-^+^-т?"^) к-1

Оптимальная глубина неоднородного конвейера определяется формулой:

N...

1-ХрА

у ""_

'и с

¿=! ^ Г/

Дискретный метод определения оптимального периода неоднородного конвейера. В приведенном выше теоретическом анализе предполагалось, что функция производительности конвейера ¥(Л0 является гладкой и дифференцируемой, а ее аргумент N рассматривался как действительная переменная. Однако по своему смыслу аргумент N - количество фаз конвейера - является натуральным числом. В связи с этим возникают вопросы о точности и применимости полученных соотношений. Для ответа на подобные вопросы необходим более детальный анализ поведения функции производительности с учетом дискретного характера аргумента N.

Для проведения такого анализа удобнее перейти из частотной области во временную и использовать в качестве аргумента нормализованный период конвейера -отношение текущего периода к периоду при N=1:

Г(Ло

1)

Предметом анализа при этом является не функция производительности, а обратная ей %(Т)=1№(Т), имеющая смысл относительного времени выполнения приложения и равная отношению времени выполнения приложения конвейером с периодом Г ко времени выполнения этого же приложения 1-фазным конвейером:

г,(1)

Оптимальному значению периода соответствует минимальное время выполнения приложения, то есть минимальное значение функции %(Т). Аналитическая и построенная дискретным методом зависимость %(Т) для случая у= 10 и (1=0.5 представлены на рис. 5.

Построенная дискретным методом функция %(Т) имеет вид пилообразной ломаной линии (на графике - с увеличенной толщиной). В точках, соответствующих целым значениям Ы, эта линия совпадает с аналитической кривой. В промежутках между этими точками с увеличением периода конвейера общее время исполнения приложения линейно нарастает, пока не достигнет точки, соответствующей следующему целочисленному значению N. В этой точке общее время исполнения приложения скачкообразно уменьшается за счет сокращения числа процессорных тактов при переходе к конвейеру с меньшим количеством фаз, и так далее, в результате чего рассматриваемая зависимость и имеет вид ломаной линии. На графике вертикальными штриховыми линиями отмечены значения периодов Т(М), соответствующие Д^-фазному конвейеру.

Точки локальных минимумов этой ломаной линии лежат на аналитической кривой. Поэтому нахождение минимума для аналитической кривой легко позволяет найти минимальное значение и для ломаной линии. Для этого, в случае дробного /V, достаточно вычислить значения функции х(Т) в точках двух соседних локальных минимумов, и выбрать из них наименьшее. Это и позволит определить оптимальную глубину конвейера и соответствующее значение функция производительности.

¿=0.5

Для случая неоднородного конвейера построение зависимости времени исполнения приложения от периода конвейера осложняется тем, что каждое из вычислительных устройств конвейера имеет собственное время задержки. Точки на оси Т, соответствующие целому числу фаз конвейера для каждого из устройств, могут располагаться относительно друг друга самым различным образом. Автором был предложен дискретный метод построения вида зависимости %(Т) для случая неоднородного конвейера и определения оптимального периода (и глубины) конвейера.

Суть метода заключается в следующем.

Вначале, исходя из вида теоретической зависимости %{Т) определяется нижняя граница (по оси Т) поиска экстремума. Это делается для сокращения объема последующих построений и вычислений. В данном примере эта граница располагается примерно по линии Т= 0.25.

Для каждого из устройств находятся значения периода, лежащие правее указанной границы и соответствующие целому числу фаз конвейера для данного устройства. Соответствующие найденным значениям Т вертикальные линии наносятся на график, как это показано на рис. 6. Для удобства анализа линии, соответствующие разным устройствам (в рассматриваемом примере их три), изображены в разных стилях: устройству 1 соответствуют пунктирные линии; устройству 2 - штрих-пунктирные; устройству 3 - штриховые. В рассматриваемом примере проведено 10 таких линий, включая линию 7=1, соответствующую N=1 для самого медленного устройства 3. хОТ

¿/,=0.6, £/2=0.8, ¿з=1.0 и у=10

Затем по линии 7=1, начиная от точки (1,1), вверх последовательно откладываются отрезки, длины которых равны произведению р\ г =1,2,3, для соответст-

вующего устройства. Отрезки откладываются в том же порядке, считая справа налево, в каком расположены построенные ранее вертикальные линии. (Эти отрезки будут определять угол наклона соответствующего участка получаемой в итоге в виде ломаной линии функции %{Т)).

К основаниям всех отложенных отрезков из начала координат проводятся наклонные линии. (Для удобства построения стиль наклонной линии соответствует стилю вертикального отрезка, к основанию которого она проведена).

Затем, подобно тому, как это было сделано ранее для случая однородного конвейера, справа налево, начиная с точки с координатами (1,1), используя соответствующие наклонные и вертикальные линии, производится построение ломаной линии (рис. 6), вид которой соответствует фактической зависимости %(Т) для неоднородного конвейера. На графике вертикальными штриховыми линиями отмечены значения периода Т(Л0, соответствующие целому числу фаз конвейера, а вертикальной сплошной линией - точка минимума теоретической функции х(7).

Анализ вида полученной функции говорит о том, что, в отличие от случая однородного конвейера, точки ее локальных минимумов могут лежать довольно далеко от теоретической кривой.

Таким образам, предложенный дискретный способ построения функции %(Т) и определения оптимального периода позволяет значительно повысить точность такого рода вычислений для случая неоднородного конвейера.

Функция производительности и оптимальная глубина однородного конвейера для приложений с программными переходами. Число тактов, затрачиваемых однородным конвейером на исполнение приложения, при наличии в нем программных переходов и зависимостей по данным, равно:

где N5- количество фаз установочной части конвейера; рь - относительная частота исполненных инструкций программных переходов (т.е. отношение числа таких инструкций к общему числу исполненных инструкций).

При увеличении глубины конвейера соотношение N3 и N остается примерно постоянным, то есть:

где - коэффициент, равный отношению общей комбинационной задержки установочной части конвейера к общей комбинационной задержке исполнительной части конвейера С. С учетом этого функция производительности однородного конвейера при наличии в приложении программных переходов определяется соотношением:

Формула для определения оптимальной глубины однородного конвейера Ыор1, в этом случае имеет вид:

N = 1г.1~а-Рь

Функция производительности и оптимальная глубина неоднородного конвейера для приложений с программными переходами, с учетом полученных ранее соот-

ношений, определяются формулами:

=-^-*-

1 -Pb-ks~Y.Ptdk

у__И__

и с '

Функция производительности и оптимальная глубина однородного конвейера для приложений с программными переходами и распределенной зависимостью по данным. Зависимость по данным между вычислительными инструкциями возникает в тех случаях, когда текущая исполняемая инструкция использует в качестве входного операнда результат какой-либо из предыдущих. В таких случаях текущая инструкция называется зависимой (dependent), а инструкция, результат которой используется, - разрешающей (resolving). Для получения правильного результата в конвейер вводятся дополнительные такты торможения. Если расстояние зависимости между двумя инструкциями i оказывается меньше, чем число фаз исполнительной части конвейера N, то это вызывает торможение конвейера на (N - i) тактов. Расстоянием зависимости между двумя инструкциями, разрешающей и зависимой, называется число тактов, проходящих между их выборкой.

В общем виде влияние зависимостей по данным и программных переходов на производительность конвейера выражается формулой:

CP/= 1 +-1) + £ rf, (W - 0,

где dj - относительная частота вычислительных инструкций, зависимых по данным с расстоянием зависимости г.

С учетом этого функция производительности конвейера и оптимальная глубина конвейера определяются в виде:

(1 + Р>Ч^-1))-ЛЧГ+1)_

У(Л0 = -

(1 + р„ ■ (ks ■N-1)+ (N -d, + D(k)) ■ (N + у)

1 -k-^d,+D(k)-pb

r--£-

+лл

где £>(*) = ]Г -/) и к- наименьшее значение параметра глубины конвейеризации,

¿=1

при котором все ненулевые параметры учитываются под знаком суммы: к - 1 > 0.

В третьей главе исследуются теоретические вопросы, связанные с многокритериальной оптимизацией структуры вычислительного тракта проблемно-ориентированного процессора. Рассмотрены принципы многокритериальной опти-

мизации, проблемы и методы исследования пространства архитектурных решений. Рассмотрены вопросы выбора аппаратной платформы и пространственно-временного отображения на нее исполняемых приложений. Предложена система теоретических моделей для проведения многокритериальной оптимизации состава вычислительного тракта. Представлена общая методология оптимизации структуры вычислительного тракта проблемно-ориентированного процессора.

При многокритериальной (многоцелевой) оптимизации проблемно-ориентированных процессоров в качестве наиболее важных критериев обычно рассматриваются производительность, площадь и энергопотребление.

Производительность. Как правило, является основной характеристикой процессора. Она обычно измеряется в терминах пропускной способности (throughput) и измеряется количеством инструкций выполняемых в единицу времени (millions instructions per second, MIPS). В некоторых случаях учитывается также задержка (latency) - время от начала обработки некоторого массива данных до ее завершения.

Энергоэффективность. Одним из ограничивающих факторов при разработке кристалла является потребляемая мощность. По этой причине энергоэффективность рассматривается как одна из наиболее важных целей проектирования и критериев дифференциации различных платформ. Для ее измерения обычно применяется метрика, определяемая как количество миллионов операций в секунду на один ватт потребляемой мощности (MIPS/W).

Площадь. Площадь кристалла и общая стоимость разработки тесно связаны между собой по следующим причинам:

- стоимость разработки, как правило, определяется сложностью разрабатываемого устройства, т.е. количеством транзисторов, входящих в его состав, а следовательно, его площадью;

- стоимость изготовления назначается полупроводниковыми фабрками пропорционально площади спроектированного кристалла;

- цена выпускаемых микросхем зависит от выхода годных, который, в свою очередь, определяется площадью кристалла.

Теория многокритериальной (многоцелевой) оптимизации основана на концепции, связанной с именем Вильфредо Парето. Применительно к проблеме оптимизации микроархитектуры проблемно-ориентированного процессора основными целями являются минимизация занимаемой площади и потребляемой мощности и максимизация производительности. Эти три цели (критерия) тесно связаны между собой. Достижение оптимума лишь по одному из них может серьезным образом ухудшить характеристики проектируемого устройства по другим критериям.

Задача многокритериальной оптимизации состоит в поиске вектора целевых переменных:

х = {хих2,..., ®n)T, £ е который относится к не пустой области определения S,. удовлетворяет наложенным ограничениям и оптимизирует векторную функцию:

mm{/i(£),h{x),.... fk(x)}.

//: Rn —>■ R k> 2, элементы которой соответствуют k Целевым функциям. Эти функции образуют математическое описание критерия удовлетворительности и, как правило, взаимно

конфликтуют. Оптимизация заключается в поиске такого решения, при котором значения целевых функций удовлетворяли бы всем требованиям поставленной задачи. Задача оптимизации решается путем исследования пространства архитектурных решений, которое состоит в оценке всех возможных решений и выбора из них оптимального по заданному набору критериев. Исследование пространства решений проводится как в пространстве задачи (problem space) - пространстве оптимизируемых параметров, так и в пространстве критериев или целей (objective space).

Исследование пространства архитектурных решений (design space exploration, DSE) при проектировании проблемно-ориентированных процессоров является многоэтапной итеративной процедурой перебора и изучения всех возможных решений и выбора из них оптимального.

Такие исследования обычно проводятся по методологии Y-карты (Y-chart), когда аппаратная платформа и исполняемое приложение (одно или несколько) специфицируются вначале по отдельности. После этого производится процедура распределения ресурсов (отображения), которая увязывает между собой прикладную задачу и используемые для ее решения аппаратные блоки (рис. 7).

Таким образом, проектирование проблемно-ориентированного процессора по методологии Y-карты связано с проведением работ по трем направлениям: оптимизация архитектуры, оптимизация программ, распределение ресурсов.

Последующая оценка распределения ресурсов в терминах производительности, площади и потребляемой мощности может потребовать проведения логического синтеза по данному архитектурному описанию, переписывания либо адаптации исполняемого программного кода, а иногда и создания специальных программных средств для выполнения тестовых прогонов приложения. Получаемые в ходе исследования результаты могут вызвать необходимость проведения последующих итераций оценок с соответствующимй изменениями в архитектуре, либо в программной

реализации приложения, либо в стратегии распределения ресурсов.

Выбор аппаратной платформы для реализации видеоприложений. Для реали-

а)

Рис. 8. Сравнение аппаратных платформ в «пространстве архитектур»: a) RISC+Extensions, DSP, ASIC; б) RISC+ASIP

Для увеличения производительности RISC-процессоров часто применяются так называемые расширения (extensions) системы инструкций с соответствующей аппаратной поддержкой. На рис. 8(a) эта архитектура представлена в виде эллипса «RISC+Extensions», содержащего внутри себя обычный, «нерасширенный» RISC-

21

зации видеоприложений, в особенности сжатия видеосигнала высокого разрешения, требуется колоссальная производительность. Для реализации сложных алгоритмов видеообработки требуется выполнять сотни и даже тысячи операций над каждым пикселем. По этой причине выбор аппаратной платформы, которая потенциально могла бы справляться со столь огромными объемами вычислений в реальном масштабе времени, представляет собой непростую задачу.

Для проведения анализа удобно отображать все многообразие процессорных архитектур на плоскость с полярными координатами, в которых угловая координата соответствует типу прикладной задачи, а радиальная координата - достигаемой производительности, при этом за единицу принимается производительность какого-либо из «классических» RISC-процессоров (RISC - reduced instruction set computer). Поскольку такое ядро является универсальным и в состоянии решать, в принципе, любые вычислительные задачи, его архитектура будет отображаться во введенной системе координат в виде круга с единичным радиусом (рис. 8(a)).

Н.264 (Full HD)

MP EG-2

(full

H.264

MPEG-4 (pull HD):

ASIC

RISC

4

AS1P

процессор.

Цифровые процессоры обработки сигналов (DSP - digital signal processor) ориентированы на решение довольно широкого сектора задач, связанных с сигнальной обработкой, и при их выполнении обеспечивают более высокую производительность, чем процессоры общего назначения.

Однако имеются приложения сигнальной обработки (и их число постоянно растет), для которых производительности обычных сигнальных процессоров оказывается недостаточно. В качестве одного из примеров таких приложений на рис. 8(a) указана задача сжатия видеосигнала высокой четкости (Full HD) по стандарту Н.264.

Традиционным способом решения подобных задач является создание специализированных больших интегральных схем - ASIC (application-specific integrated cirquit), аппаратно реализующих конкретный алгоритм обработки данных. Они достигают требуемой производительности, но способны решать только одну задачу.

Перечисленные выше типы аппаратных платформ - RISC, DSP, ASIC - можно рассматривать как классические. В последние годы широкое распространение получили комбинированные типы архитектур, в которых разработчики, в соответствии с современными требованиями, пытаются сочетать высокую производительность и гибкость. Оптимальным решением для реализации видеоприложений представляется архитектура, использующая для решения этих задач проблемно-ориентированное процессорное ядро, работающее под управлением универсального процессорного ядра - RISC+ASIP (рис. 8(6)). Как и универсальный DSP, проблемно-ориентированный процессор охватывает сектор родственных приложений, но значительно более узкий, достигая на этих задачах производительности, близкой к производительности ASIC.

В качестве базовой архитектуры для начала проектирования процессорного ядра, ориентированного на реализацию видеоприложений, в принципе, может быть выбрано как универсальное RISC-ядро, так и более специализированное DSP-ядро. Преимуществом первого решения является практически неограниченная возможность компиляции любых приложений на универсальную RISC-платформу. Второй вариант, однако, предпочтительнее в силу того, что по своему содержанию система команд DSP находится гораздо ближе к системе команд видеопроцессора.

Способы оптимизации вычислительного тракта. После выбора базовой аппаратной платформы и отображения на нее рассматриваемой прикладной задачи, последняя представляется в виде последовательности вычислительных инструкций, выполняемых на различных операционных устройствах, входящих в состав вычислительного тракта, как это показано на рис. 9. Цифрами 1,2,3 на рисунке обозначены типы выполняемых инструкций. Тип инструкции определяет и тип устройства, на котором она выполняется.

Задача оптимизации вычислительного тракта, как правило, состоит в увеличении его производительности при сохранении на приемлемом уровне других характеристик - площади и энергопотребления.

Три хорошо известных способа увеличения производительности вычислительного тракта проиллюстрированы на рис. 9. Первый из них состоит в том, что однотипные инструкции, выполняемые над различными, не зависящими друг от друга данными, могут выполняться параллельно - этот способ реализуется архитек-

турой SIMD. Второй способ связан с одновременным выполнением нескольких разнотипных команд на разных вычислительных устройствах над не связанными между собой данными. Этот способ соответствует, в зависимости от организации программного управления, архитектуре VLIW или Superscalar. Третий способ состоит в комплексировании (объединении) нескольких следующих друг от другом инструкций, зависящих друг от друга по данным, в одну. Инструкции могут быть как однотипными, так и разнотипными. Данный способ применяется в процессорах с архитектурой CISC.

4lHIHlHl

1 2 3

SIMD

VLIW, Superscalar

CISC

Рис. 9. Архитектурные способы ускорения вычислений

Теоретические модели для оптимизации состава вычислительного тракта.

Для оптимизации состава вычислительного тракта в рамках данной работы используются следующие критерии (целевые функции):

Т - относительное время выполнения приложения. Поскольку до начала оптимизации приложение выполняется со скоростью одна инструкция за один командный цикл, то Т-СР1;

А - относительная общая площадь, занимаемая устройствами вычислительного тракта проблемно-ориентированного процессора;

IV - относительная мощность, потребляемая устройствами вычислительного тракта во время исполнения приложения;

Е - относительная общая энергия, потребляемая устройствами вычислительного тракта за время исполнения приложения.

Используемые безразмерные величины представляют собой отношение соответствующих физических величин после и до выполнения оптимизации.

Оптимизация вычислительного тракта может проводиться при помощи какого-либо из трех рассмотренных выше методов или их сочетания. Каждому из методов соответствует свой набор оптимизирующих параметров.

Предполагается, что базовая архитектура процессора содержит и операционных устройств, каждое из которых выполняет свой тип инструкции, и доля инструкций к-го типа в приложении составляетрк (0 <рк < 1), к-1,2,...,и, при общем количестве инструкций в приложении Л'д. Предполагается также, что (0 < ¿V < 1) - доля площади, которую устройство к-го типа занимает в общей площади вычислитель-

и

ного тракта, =1, а ек (0 < ек < 1) - доля энергии, затрачиваемой на выполнение

А=1

одной инструкции к-то типа, в общей энергии, затрачиваемой на выполнение всего

и

приложения, Y,NAket =1. где NAk = рк 'Na - количество инструкций к-го типа в при-

к=1

ложении.

Оптимизация вычислительного тракта по методу SIMD. В качестве оптимизирующих параметров в данном методе используется набор коэффициентов nf, характеризующих степень распараллеливания по каждому типу инструкций.

Пусть - Д°ля инструкций к- го типа, допускающих SIMD-

распараллеливание с коэффициентом nf' в приложении. Тогда целевые функции будут выражаться формулами:

*«i пк

A = l + fX(nf-l), к=1

W=T~\ Е = 1.

Оптимизация вычислительного тракта по методу VLIW/Superscalar. При использовании метода VLIW/Superscalar для оптимизации вычислительного тракта в качестве оптимизирующего параметра используется коэффициент , характеризующий максимальное для данного состава вычислительного тракта количество инструкций, которые могут быть объединены по принципу VLIW / Superscalar (nlJ,l SI/); пУ) = n'v'(nZl) - среднее для рассматриваемого приложения количество инструкций, допускающих такое объединение );AT<V1- относительные временные затраты, требующиеся на одну дополнительную операцию; S<V) - относительные аппаратные затраты (относительная площадь), требующиеся для организации каждого дополнительного тракта передачи данных. Целевые функции в этом случае принимают вид:

п

W = T\ Е = 1.

где:

/""ОС) = «¡2-

в случае линейной зависимости, либо:

/""(о^о^о.

в случае логарифмической зависимости времени исполнения от максимального количества объединяемых операций.

Оптимизация вычислительного тракта методом комплексирования (CISC). В качестве оптимизирующих параметров в данном методе используется набор коэффициентов л^,, характеризующих степень комплексирования по каждому типу инструкций, то есть максимальное число инструкций к-го типа, которые могут быть

выполнены в рамках одной комплексной инструкции.

Пусть л1с)=л1с,(п1с™х)<«1с™1 - среднее число инструкций к-го типа в приложении, допускающих комплексирование; ДГ/С) - относительные временные затраты, требующиеся на одну дополнительную операцию; - относительные аппаратные затраты (относительная площадь), требующиеся для организации комплексирования на одну дополнительную операцию; е<С| - относительные энергетические затраты (относительная энергия), требующиеся для организации каждой дополнительной операции ¿-го типа в составе комплексной операции.

Целевые функции в этом случае будут выражаться формулами:

к-1 пк г

*=1

где:

J V"*.™« ^ к,шах 1 '

в случае линейной зависимости, либо:

в случае логарифмической зависимости времени исполнения от количества ком-плексируемых операций (л^, >1).

Разработанная система теоретических моделей позволяет, с использованием методов скаляризации, выполнять многокритериальную многопараметрическую оптимизацию структуры вычислительного тракта проблемно-ориентированного процессора с учетом весовых коэффициентов и ограничений, определяемых конкретными требованиями к проектируемому кристаллу.

Общая методологии оптимизации структуры вычислительного тракта проблемно-ориентированного процессора. На основе выполненного теоретического анализа автором была предложена и практически апробирована методология оптимизации структуры вычислительного тракта проблемно-ориентированного процессора на основе статистических характеристик исполняемых прикладных задач и разработанных теоретических моделей, маршрут проведения которой в обобщенном виде иллюстрируется схемой, приведенной на рис. 10.

В отличие от общепринятой методологии У-карты, предусматривающей в качестве основного направление проектирования «сверху вниз», известной как «воронка проектирования», в данной работе, на основе предварительно полученных статистических характеристик исполняемых приложений («сверху вниз»), оставшаяся часть маршрута проектирования строится в направлении «снизу вверх».

По аналогии с У-картой предлагаемую методологию можно назвать «и-картой». Предлагаемый подход позволяет уменьшить характерную для стратегии У-карты итеративность проектирования, при которой результаты, получаемые на более глубоких стадиях проектирования, часто заставляют вносить коррективы в более

высокоуровневые модели. Предложенная методология, тем самым, улучшает сходимость проектирования и кардинально уменьшает время, необходимое для создания и верификации сложных гетерогенных систем на кристалле.

Выбор базовой архитектуры

и системы инструкций. Определение статистических характеристик исполняемых приложений

Формирование управления

I

Определение структуры памяти, регистровых файлов, шин данных

Оптимизация конвейера

1

Оптимизация системы инструкций и состава вычислительного тракта

Синтез вычислительных блоков

Рис. 10. Маршрут проведения оптимизации структуры вычислительного тракта проблемно-ориентированного процессора («и-карта»)

В четвертой главе рассмотрены вопросы, связанные с практической разработкой программного конвейера БЗР-ядер серии ЕЬсоге-хх. Проанализировано влияние временных характеристик используемого технологического базиса, в том числе внутрикристальной памяти, на структуру конвейера. Определены ограничения, связанные с выполнением неконвейеризуемых операций. На основе проведенных исследований предложена комплексная методика оптимизации конвейера БЗР-ядер по производительности с учётом статистических характеристик исполняемых программ и временных характеристик используемого технологического базиса. Схема, иллюстрирующая применение методики оптимизации конвейера приведена на рис. 11.

Для построения оптимального по производительности конвейера ББР-ядра необходимо последовательно выполнить следующие процедуры:

а) в части учёта статистических характеристик прикладных программ:

- определить прикладную программу (набор прикладных программ), по которой будет выполняться оптимизация;

- построить для выбранной прикладной программы программную трассу и граф зависимостей по данным;

- произвести редукцию графа зависимостей по данным согласно правилам, изложенным в работе;

- вычислить статистические характеристики исполняемой программной трас-

сы - вероятности программных переходов и зависимостей по данным;

Рис. 11. Схема применения комплексной методики оптимизации конвейера проблемно-ориентированных процессорных ядер на микроархитектурном уровне

б) в части учёта временных характеристик технологического базиса:

- посредством схемотехнического синтеза определить полную комбинационную задержку установочной Cs и исполнительной части конвейера СЕ; и вычислить параметр ks-{Cs + СЕ)/ СЕ,

- посредством схемотехнического синтеза входящих в состав DSP-ядра операционных устройств, конвейеризованных на различное число фаз, экспериментально определить временные затраты на каждую фазу конвейера Л;

- вычислить значение величины у - отношение полной комбинационной задержки исполнения вычислительной команды к к общим временным расходам на одну фазу конвейеризации;

- по соответствующим формулам вычислить оптимальную глубину конвейеризации и соответствующий период рабочей частоты конвейера Tpip_opl;

- посредством схемотехнического синтеза входящих в состав DSP-ядра устройств экспериментально определить временные характеристики Tmin!, Ттт2, T,ni„3, Ттт4, tBL согласно формулам:

Trninl — to + ÎAS ■ ТтЫ2 = tА + h ■

ТттЗ — ts + tp + tmodPAi' T„,in4 = ts + to + tmoclDAÏ lbl - 'D + fCMP + lor + hllf>

где: tD - время задержки выходного сигнала данных D-триггера;

ts-время предустановки входного сигнала данных D-триггера;

tas - время предустановки адреса (address setup) памяти;

tA - время выборки данных (access time) памяти;

tmodPA. tmoiDA ~ время модификации адреса памяти программ и данных;

tCMp- время срабатывания схем сравнения;

¡or- время срабатывания схемы логического «ИЛИ»;

tBUF - время задержки «дерева» буферных усилителей.

- определить значение минимального периода по формуле:

Tinin max(Tminh Tmi„2,

- рассчитать соответствующее число фаз конвейера по формуле:

N-{Cs+Ce) / (Tmin - R)

Построение структуры конвейера DSP-ядер серии Е1соге-хх. На основе предложенной методики спроектирована структура конвейера DSP-ядер серии Е1соге-хх. Структура конвейера DSP-ядер Е1соге-28, Elcore-ЗОМ для различных типов инструкций приведена, в качестве примера, на рис. 12.

В пятой главе рассмотрены принципы построения и особенности архитектуры серии разработанных DSP-ядер.

DSP-ядра серии Е1соге-хх представляют собой процессорные ядра, предназначенные для построения на их основе многоядерных микросхем сигнальных процессоров. Они имеют гарвардскую архитектуру с внутренним параллелизмом по потокам обрабатываемых команд/данных и предназначены для высокопроизводительной обработки данных в форматах с фиксированной и плавающей точкой. Система инструкций, реализующих параллельно несколько вычислительных операций и пересылок, программный конвейер и гибкие адресные режимы позволяют реализовать

алгоритмы сигнальной обработки с высокой производительностью.

К основным принципам построения Б8Р-ядер Е1соге-хх относятся: 1) масштабируемость; 2) реконфигурируемость; 3) обеспечение возможности эффективного взаимодействия с другими ядрами в составе многоядерной системы на кристалле.

Масштабируемость. Под масштабируемостью понимается возможность, оставаясь в рамках заданной архитектуры, изменять отдельные ее параметры, и, тем самым, функциональные возможности разрабатываемого БЗР-ядра. Масштабируемость позволяет на этапе проектирования адаптировать характеристики системы на кристалле к требованиям целевой прикладной задачи. В таблице 1 приведены основные характеристики ББР-ядер Е1соге-хх. В рассматриваемых ядрах масштабируются следующие параметры: объем памяти программ и памяти данных; производительность (число операций, выполняемых процессором за один такт); разрядность шин данных; число фаз конвейера.

и

1 фаза 2 фаза 3 фаза 4 фаза

(А) (F) (D) (Е)

РАв

PRAM

S

DC

Rg

RF

"tn

_.MX

и

5 фаза (E1)

6 фаза 7 фаза

(Е2) (ЕЗ)

a)

РАв

PRAM

S

DC

1 фаза 2 фаза 3 фаза

(А) (F) (D)

РАй

PRAM

S

DC

AGU Rg XRAM J Rg

S _f

RF

4 фаза

(E)

5 фаза 6 фаза 7 фаза I

(E1) (E2) (ЕЗ) |

6)

Rg

1 фаза 2 фаза 3 фаза 4 фаза 5 фаза

(А) (F) (D) (Е) (Е1)

XRAM

S

B)

Rg РАБ PRAM s Rg DC Rg RF Rg RC

Ld S J I I

(A)

2 фаза i

(F) i

3 фаза (D)

4 фаза

(E)

5 фаза (E1)

Г)

Рис. 12. Структура конвейера ББР-ядер Е1соге-28, Е1соге-30М: а) при выполнении вычислительной операции; б) при выполнении чтения из памяти данных; в) при выполнении записи в память данных; г) при выполнении записи в регистр управления

Реконфигурируемость. В ЭЗР-ядрах Е1соге-хх выполняются операции не только над скалярными, но и над векторными данными, представленными в форматах 16/32/64/128 бит с фиксированной и плавающей точкой. Указанные возможности реализуются при помощи реконфигурируемого тракта обработки данных. Кроме того, в БЗР-ядре Е1соге-30 имеется возможность перераспределения общего задан-

ного объема памяти между памятью программ и данных. Таким образом, в указанном процессорном ядре реализована реконфигурируемая гарвардская архитектура.

Эффективное взаимодействие в составе системы на кристалле. Возможность встраивания и эффективного взаимодействия ОБР-ядер в составе системы на кристалле обеспечивают следующие архитектурные решения:

- применение стандартных интерфейсов АМВА АНВ, АМВА АХ1;

- двухпортовая память программ и данных, что позволяет производить обмен данными на фоне выполнения программ;

- аппаратные поддержка синхронизации вычислительных потоков;

- система входящих и исходящих прерываний.

В таблице 1 представлены основные технические характеристики ОБР-ядер серии Е1соге-хх, входящих в состав серийно выпускаемых микросхем: объем памяти программ и данных, технология изготовления, максимальная рабочая частота и пиковая производительность при обработке различных типов данных.

Таблица 1

DSP-ядро Входит в Па- Память Техно- Рабо- Производительность,

состав мять данных логия, чая млн. операций в секунду

м/схемы про- нм часто- плав. фикс. фикс.

грамм та, точка, точка, точка,

МГц 32 р. 32 р. 16 р.

Е1соге-14 1892ВМЗТ 4Кх32 36Кх32 250 80 240 320 640

Elcore-24 1892ВМ2Я 4Кх32 40Кх32 250 80 480 640 1280

Elcore-26 1892ВМ4Я 1892ВМ5Я 4Кх32 16Кх32 250 100 600 800 1600

Elcore-28 1892ВМ7Я 8Кх32 32Кх32 180 250 1500 2000 6000

Elcore-09 1891ВМ7Я 8Кх32 32Кх32 90 500 3000 4000 12000

Elcore-ЗОМ 1891ВМ10Я 8Кх32 32Кх32 130 300 1800 2400 7200

На рис. 13 представлена структурная схема одного из разработанных ядер -DSP-ядра Е1соге-14. Другие DSP-ядра этой серии построены по той же архитектуре, но различаются функциональными и схемотехническими параметрами.

Следует выделить следующие наиболее существенные архитектурные особенности разработанной серии DSP-ядер.

Модифицированная гарвардская архитектура. Память программ PRAM отделена от памяти данных, причем память данных также разделена на две области (XRAM и YRAM) и адресуется двумя указателями, что позволяет в течение одного процессорного такта выполнять чтение инструкции и извлечение/запись двух операндов. При этом если в первых модификациях DSP-ядер рассматриваемой серии (а именно в DSP-ядрах Elcore-14, Elcore-24, Е1соге-26) граница между XRAM и YRAM была фиксированной, то в более поздних модификациях, начиная с DSP-ядра Elcore-28, используется общее поле памяти данных XYRAM.

Наиболее гибко ресурсы памяти могут использоваться в архитектуре DSP-ядра Elcore-ЗОМ, имеющего подвижную границу между памятью программ и данных - данное ядро имеет реконфигурируемую гарвардскую архитектуру.

Рис. 13. Блок-схема DSP-ядра Elcore-14. Обозначения: PAG - генератор адреса программной памяти; PRAM - память программ; PDC - декодер инструкций; AGU (AGU-Y) - генераторы адреса памяти данных; XYRAM - память данных; RF - регистровый файл; MS, FMU, AU, FASU - операционные устройства, ALU_ctr - устройство управления ALU; EDBS, IDBS - коммутаторы шин данных; РАВ, ХАВ, YAB -шины адреса; PDB,XDB,YDB,GDB, IDB+Ctr- шины данных

Двухпортовая память программ и данных. Во всех DSP-ядрах серии Е1соге-хх память программ и данных является двухпортовой, что позволяет производить загрузку/выгрузку обрабатываемых данных одновременно с выполнением программ.

VLIW-подобная система инструкций. Используемая в DSP-ядрах серии Elcore-хх VLIW-подобная система инструкций позволяет одновременно, в рамках одной инструкции выполнять до двух вычислительных команд и до двух команд пересылок. Это дает, в частности, возможность выполнять над массивами данных широко используемую в сигнальной обработке процедуру умножения с накоплением каждый процессорный такт.

Реконфигурируемый тракт обработки данных. Вычислительные устройства и регистровый файл с реконфигурируемой структурой позволяют производить обработку данных, имеющих форматы 8/16/32/64/128 бит, с фиксированной и плавающей точкой (IEEE-754). Предусмотрены операции над векторными данными.

Конвейер команд, оптимизированный с учетом зависимостей по данным. DSP-ядра серии Е1соге-хх имеют сравнительно неглубокий конвейер инструкций -от 3 до 7 фаз, оптимизированный с учетом зависимостей по данным между ними.

Это позволяет не только повысить производительность обработки данных, но и снизить потребляемую мощность.

Аппаратная поддержка циклов. Предусмотрена аппаратная поддержка циклов, в том числе вложенных и бесконечных, с нулевой избыточностью, повышается производительность обработки сигналов.

Комплекс средств аппаратной поддержки для организации многоядерных систем на кристалле. В DSP-ядрах серии Elcore-хх предусмотрены развитые средства аппаратной поддержки для эффективной организации многоядерных систем на кристалле на их основе. К ним, в частности, относятся: 1) стандартные интерфейсы для подключения центрального процессора (host-интерфейс) - АМБА АНВ (Slave), и устройства прямого доступа к памяти - AMBA AXI; 2) механизм прерываний; 3) развитые отладочные средства.

Таким образом, перечисленные архитектурные особенности DSP-ядер серии Elcore-хх обеспечивают для них такие основополагающие свойства, как: 1) высокая производительность и масштабируемость, которая достигается за счет применения принципа параллелизма на всех уровнях архитектуры; 2) реконфигурируемость пространств памяти и трактов обработки данных, что дает возможность гибко адаптировать имеющиеся ресурсы к требованиям выполняемой прикладной задачи; 3) возможность встраивания и эффективного взаимодействия DSP-ядер в составе многоядерных систем на кристалле.

Шестая глава посвящена вопросам создания многоядерных вычислительных систем на кристалле на основе разработанных DSP-ядер.

К основным принципам построения многоядерных вычислительных кластеров на основе DSP-ядер серии Elcore-xx относятся: 1) масштабируемость; 2) обеспечение скорости ввода-вывода данных, соответствующей скорости выполнения вычислений; 3) обеспечение синхронизации вычислительных потоков в ядрах.

Принцип масштабируемости для многоядерной системы на кристалле означает возможность наращивания ее производительности за счет увеличения числа вычислительных ядер без изменения (или с минимальными изменениями) архитектуры самой системы. Масштабируемость позволяет на этапе проектирования адаптировать характеристики системы на кристалле к требованиям выполняемой прикладной задачи. Однако при построении многоядерных вычислительных систем основная проблема заключается в том, что с увеличением числа ядер рост реальной производительности системы замедляется вследствие нарастания временных затрат на обмены данными. По этой причине важнейшей задачей при организации таких систем является организация обменов данными между вычислительными ядрами.

Указанные принципы были практически реализованы при построении ряда многоядерных кластеров на базе DSP-ядер серии Elcore-xx, в частности, 4-ядерного DSP-кластера QElcore-09 (рис. 14), спроектированного на основе DSP-ядер Elcore-09, и входящего в состав разработанного ЗАО «МЦСТ» процессора 1891ВМ7Я. Кластер представляет собой 4-ядерную мультипроцессорную систему. Память данных является общей для всего DSP-кластера. Физически память программ и данных DSP-кластера организована как двухпортовая. По одному порту производятся внешние обращения от центрального процессора (CPU) и контроллеров DMA, дру-

го и

порт используется DSP-ядром для внутренних обменов. I Коммутатор AXI ~| I "

"JL.

О

і о

с; £

Сегмент памяти данных О

IT-

Сегмент І Сегмент памяти ) памяти данных 1 I данных 2

Коммутатор АХ!

Т"~"Т............¥.........Т

Глобальный коммутатор

Сегмент памяти данных 3

I

т

DSP О

JL,, ♦ rJ~I

ПйКійГа І ПаСйгъ Т

J I фзфаны I

DSP 1

DSP 2

T

J_г

Гйшгь гііхзейймм і

DSP 3

Обменный буфер XBUF

Обменный буфер XBUF

а)

б)

Коммутатор AXI

Сегмент памяти данных О

ИГЕ

Сегмент памяти данных 1

3_Е

Сегмент Сегмент памяти J памяти данных 2|данных 3

.......I.............У

л

Глобальный коммутатор

J I цххулут J

DSP О

К

DSP 1

Память ЩЩ!Ц>,т

DSP2

_L

pf тряны

DSP 3

Обменный 6yi

г)

Рис. 14. Направления потоков данных в DSP-кластере QELcore-09: а) структура DSP-кластера; б) обмены между DSP-ядрами через общее поле памяти; в) обмены между CPU и DSP-ядрами; г) обмены между DSP-ядрами через буфер XBUF

Обмены данными между центральным процессорным ядром и DSP-ядрами могут производиться также при помощи специализированного буфера обмена XBUF, дополнительной функцией которого является аппаратная поддержка синхронизации вычислительных потоков в DSP-ядрах. На рис. 14 представлены возможные направления потоков данных в системе и поддерживающие их аппаратные структуры. Суммарно средствами коммутации 4-ядерного DSP-кластера QElcore-09, на тактовой частоте 500 МГц обеспечивается скорость обмена 80 Гбайт/с внутри кластера и 4 Гбайт/с - с центральным процессором.

Синхронизация вычислительных потоков в многоядерных кластерах на основе DSP-ядер серии Elcore-хх реализуется при помощи специализированного буфера обмена и синхронизации XBUF. Буфер обмена XBUF представляет собой многопортовый регистровый файл, доступный по записи и чтению со стороны всех входящих в систему процессорных ядер. Каждая ячейка буфера снабжена дополнительным

флагом, формируемым аппаратно и отображающим тип последней транзакции, выполненной с данной ячейкой (запись либо чтение). Таким образом, на аппаратном уровне механизм синхронизации обеспечивается, во-первых, отслеживанием типа транзакции и блокировкой запрещенных транзакций в обменном буфере, и, во-вторых, приостановкой (блокировкой конвейера) соответствующего процессорного

Рис. 15. Многопроцессорная система с буфером обмена и синхронизации

Усовершенствованная логика формирования сигналов блокировки, предложенная автором,, учитывает запросы от обоих обменивающихся ядер. Временные диаграммы управляющих сигналов при выполнении последовательного обмена данными между двумя ядрами, включая состояния программных счетчиков РС(0), РС(1) двух ядер, флага обмена ЕР и сигналов блокировки ВЦО), ВЦ1) приведены на рис. 16.

Таким образом, проблема синхронизации вычислительных потоков в процессорных ядрах многоядерной системы на кристалле для задач типа «производитель-потребитель» эффективно решается путем применения буфера обмена с аппаратной поддержкой примитивов синхронизации - формированием для каждой ячейки буфера флага последней выполненной транзакции и блокировкой запрещенных транзакций. Данный способ, при сравнительно простой аппаратной реализации, обеспечивает существенную экономию программного кода и времени исполнения по срав-

ВЦО) ЕЯ

1 «моуе го.холмоуе р!1.хо) I 3 ) \move Я2.ха/ I 4 \ \mov6 яз,х0/ (

/ \

' x моуе xo.ro ] I 2 \ \move х0.р1/ ( 3 ) \move х0д2[ I 4 v ^моуе хо.рзд

ВЦ1 )J \_

Рис. 16. Временные диаграммы сигналов управления при последовательной передаче данных через буфер обмена с усовершенствованной логикой управления

34

Необходимо отметить те ключевые архитектурные решения, которые обеспечивают требуемые качества систем на основе DSP-ядер серии Е1соге-хх.

Раздельная память программ и общая память данных. Каждое DSP-ядро имеет собственную память программ, что дает возможность всем ядрам работать одновременно, и общее поле памяти данных, обеспечивающее наиболее эффективный обмен обрабатываемыми данными. Такая архитектура обладает одновременно как свойством масштабируемости, поскольку позволяет включать в состав кластера в принципе любое число DSP-ядер, так и возможностью максимально оперативного обмена данными внутри такой системы.

Несимметричный доступ к памяти данных. Для организации обменов между DSP-ядрами и общей памятью данных применяется архитектура с несимметричным доступом к памяти (NUMA - Non-Uniform Memory Access). Каждое DSP-ядро обладает локальной памятью данных, являющейся частью общего поля памяти данных всего кластера. В такой архитектуре DSP-ядро имеет быстрый доступ к своей локальной памяти, и более медленный - при обращении к памяти другого ядра. Архитектуры NUMA обладают целым рядом достоинств, среди них стоит отметить наличие общего адресного пространства, быстрый доступ ядер к своей памяти и масштабируемость.

Глобальный коммутатор с буферизацией обращений. Архитектура NUMA реализуется при помощи глобального коммутатора «точка-точка», связывающего между собой все DSP-ядра и модули общей памяти данных, позволяющего выполнять передачу данных одновременно по восьми 128-разрядным шинам. Для снятия торможений, возникающих при конфликтах, применяется буферизация.

Распределенный арбитраж. Коллизии при обменах возникают при одновременных обращениях нескольких DSP-ядер, либо Х-указателя и Y-указателя одного из DSP-ядер к одной и той же странице памяти. Для разрешения возникающих конфликтов применяется распределенный арбитраж, при котором процедура арбитража выполняется одновременно четырьмя локальными арбитрами, каждый из которых является ответственным за свой сегмент памяти данных. Такая организация позволяет, во-первых, повысить быстродействие арбитров, и, во-вторых, обеспечивает масштабируемость архитектуры.

Двухпортовая память программ и данных позволяет ускорить обмен данными и производить его одновременно с выполнением программ.

Специализированный буфер обмена и синхронизации. Для оперативных обменов данными в составе кластера QElcore-09 имеется специализированный буфер обмена XBUF, состоящий из 32-х 64-разрядных регистров, доступных по записи и чтению для всех процессорных ядер. Каждая ячейка XBUF снабжена дополнительным битом состояния для сохранения информации о типе последней транзакции. В синхронном режиме для конкретного регистра XBUF обязательно должны чередоваться операции чтения и записи, если какое-либо ядро пытается осуществить запись после записи или чтение после чтения - оно блокируется. Обмен через XBUF в синхронном режиме является дополнительным аппаратным средством (к известным программным) синхронизации DSP-ядер.

Стандартные внешние интерфейсы для организации многоядерных систем. Масштабируемость многоядерной системы обеспечивается также применением

стандартных интерфейсов и других средств межъядерного взаимодействия.

Создание сигнальных процессоров серий 1891ВМ и 1892ВМ. На основе DSP-ядер серии Elcore-xx в рамках платформы «Мультикор» разработан и внедрен в серийное производство ряд многоядерных сигнальных процессоров серий 189 IBM и 1892 для различных типов прикладных задач, имеющих различное число ядер на кристалле - от двух (1892ВМЗТ) до шести (1891ВМ7Я) и различную производительность - от 240 (1892ВМЗТ) до 12000 (1891ВМ7Я) миллионов операций с плавающей точкой в секунду.

Структурная схема первого представителя серии 1892 - процессора 1892ВМЗТ - приведена на рис. 17. Процессор содержит два процессорных ядра - управляющий 32-разрядный RISC-контроллер и DSP-ядро Е1соге-14.__

□[31:0] t А[31:0]

DMA

1

LPORTO LPORT1 LPORT2 LPORT3

DDB [31:0]

SPORTO SPORT1

CDB [31:0]

CPU

1 CACHE 1

CPU TLB CP0

csr QSTR MASKR

OnCD

IT WDT RTT

DSP Elcore-14

X

PRAM

AGU AGU-Y

U ART

EDBS

I

YRAM

TZ

XRAM

IDBS

PAG

ALU

ALU CIr

X_Y

H

JTAG port IRQ

Рис. 17. Структурная схема процессора 1892ВМЗТ. Обозначения: CPU - центральный процессор; ICACHE - кэш программ; CRAM - память данных; DMA - контроллер прямого доступа к памяти; MPORT, A, D - порт внешней памяти и его шины адреса и данных; PLL- блок фазовой автоподстройки частоты; SPORT - последовательный порт; LPORT - линк-порт; UART - универсальный асинхронный порт; IT, WDT, RTT - блок таймеров; CDB, DDB - шины данных CPU и DMA; OnCD -встроенные средства отладки; DSP - сопроцессор обработки сигналов; PRAM, XRAM,YRAM - память программ и данных DSP; AGU - адресный генератор; EDBS, IDBS - коммутаторы шин;; PAG - генератор адреса программ; PDC - программный дешифратор; RF - регистровый файл; ALU - арифметическое устройство; ALU_Ctr - блок управления ALU; XDB, GDB, PDB - шины данных DSP; ХАВ, YAB, РАВ - адресные шины DSP; M, S, A, L - операционные устройства ALU

Семейство сигнальных процессоров «Мультикор» (серия 1892) построено на единых архитектурных и функциональных принципах. Каждый процессор содержит управляющее ядро с архитектурой RISC и одно или несколько ядер цифровой обработки сигналов (DSP-ядер). Тем самым в сигнальных процессорах серии 1892 реализуется многоядерная гетерогенная архитектура. Это позволяет строить эффективные системы, обрабатывающие не только потоки сигналов и изображений, но и осуществляющие функции управления. К областям применения процессоров серии 1892 относятся радиолокация, гидроакустика, навигация, связь, системы промышленного контроля, мультимедийная обработка изображений и звука, электронные системы обеспечения безопасности, другие области сигнальной обработки.

В седьмой главе рассмотрены экспериментальные данные о результатах применения разработанной методологии, в том числе: данные экспериментальных проверок полученных теоретических соотношений, выполненных при практическом проектировании DSP-ядер серии ELcore-xx; методика и результаты измерения характеристик производительности сигнальных процессоров серии 1892ВМ; примеры практического применения сигнальных процессоров этой серии в системах обработки данных и управления различного назначения и достигаемые с их помощью показатели производительности.

Результаты практического применения дискретного метода определения оптимальной глубины неоднородного конвейера. В таблице 2 приведены результаты схемотехнического синтеза операционных устройств, входящих в состав процессорного ядра Elcore-ЗОМ: AU - арифметическое устройство; LU - логическое устройство; MU - устройство умножения в форматах с фиксированной точкой; SH - устройство сдвига, FASU и FMU - устройства соответственно сложения и умножения в формате с плавающей точкой (IEEE 754), а также статистические характеристики рк и dk, для ряда типовых приложений сигнальной обработки.

Для исследуемых приложений дискретным и аналитическим способом была экспериментально построена функция %(7). Полученные данные позволили произвести определение оптимальной глубины конвейера для рассматриваемых приложений. Графики полученных зависимостей для приложений FFT_32flx (быстрое преобразование Фурье) и Viterbi (декодер Витерби) приведены соответственно на рисунках 18 и 19.

Таблица 2

Результаты синтеза операционных устройств DSP-ядра Elcore-ЗОМ и статистические

характеристики приложений FFT-1024, fir_filter, DCT_8x8, Viterbi, FFT_32fix

Устройство Tk, HC ck Приложение

FFT-1024 fir filter DCT 8x8 Viterbi FFT 32fix

Pk dk Pk dk Pk dk Pk dk Pk dk

AU 0,5 0,22 0.03 0.33 0.06 0.50 0.45 0.98 0.41 0.94 0.63 0.46

LU 0,3 0,22 0.06 0.03 0.00 1.00 0.06 1.00 0.20 1.00 0.00 0.00

MU 1,1 0,61 0.04 0.06 0.00 1.00 0.44 0.95 0.00 0.00 0.24 0.67

SH 0,4 0,22 0.08 0.60 0.00 1.00 0.06 0.83 0.00 0.00 0.13 0.75

FASU 1,7 1,0 0.43 0.62 0.48 0.94 0.00 0.00 0.00 0.00 0.00 0.00

FMU 1,8 1,0 0.36 0.74 0.45 1.00 0.00 0.00 0.40 1.00 0.00 0.00

"О 0.5 ^^

Рис. 18. Функция х(Т) для приложения РРТ_32Ах ХОТ

1.6 г

Рис. 19. Функция х(Т) для приложения УНегЫ

Приведенные графики соответствуют: пунктирная кривая - формуле Эмма и Дэвидсона, сплошная кривая - формуле для неоднородного конвейера, полученной в диссертации, пилообразная ломаная линия - дискретному методу.

Анализ вида приведенных графиков говорит о том, что точки локальных минимумов построенной дискретным методом функции %{Т) могут располагаться до-

вольно далеко от аналитических кривых. Таким образом, предложенный дискретный метод построения функции хШ позволяет значительно повысить точность определения оптимального значения периода для случая неоднородного конвейера.

За счет более точного определения оптимальной глубины конвейера дискретный метод позволяет получить для рассматриваемых приложений РТТ_32Ах и УИегЫ существенный выигрыш в производительности - более 20% по сравнению с аналитическими методами.

Результаты применения метода комплексирования с целью оптимизации состава вычислительного тракта. В рассматриваемом примере было исследовано применение комплексирования по отношению к однотипным операциям сложения. Задача была поставлена следующим образом: при заданных (измеренных) аппаратных характеристиках устройства суммирования N операндов, заданных (измеренных) статистических характеристиках исполняемого приложения и выбранном критерии (критериях) оптимизации определить оптимальное значение N. то есть количество одновременно суммируемых операндов.

Результаты схемотехнического синтеза 16-разрядного іУ-входового сумматора по одной из библиотек с технологическими нормами 65 нм приведены в таблице 3.

Таблица 3

Результаты схемотехнического синтеза (время задержки и площадь) 16-разрядного

п т, НС в, мкм п т, НС Б, мкм" п Т, не 5, мкм2

2 0.41 1285.6 9 1.51 7344.0 16 1.59 13846.8

3 0.82 2086.8 10 1.53 8157.2 32 1.92 27106.6

4 0.80 3294.0 11 1.49 9466.8 64 2.29 48586.7

5 1.18 3946.8 12 1.51 10722.4 128 2.55 118157.1

6 1.17 5388.0 13 1.52 11763.6 256 2.91 276843.8

7 1.18 5998.8 14 1.59 11908.4 - - _

8 1.20 7396.8 15 1.56 13590.4 - - -

На рис. 20 приведен пример выполнения многокритериальной оптимизации одновременно по двум критериям - времени задержки и площади, со скалярной целевой функцией вида 0,57 + О^Я. Приведена зависимость целевой функции от рассчитанная теоретически, и эта же зависимость, полученная по результатам схемотехнического синтеза (точки этой кривой обозначены символами «о»).

Приведенные графики свидетельствуют о том, что теоретическая кривая достаточно хорошо аппроксимирует реальную зависимость и может быть использована для оценки оптимального значения параметра комплексирования N. Экспериментальная и теоретическая кривая показывают и в этом случае достаточно хорошее совпадение, расхождение между ними не превышает 10 %.

Рис. 20. Зависимость целевой функции вида 0,57+0,55 от п

Экспериментальная проверка соотношений для функции производительности и оптимальной глубины однородного конвейера для приложений с программными переходами и распределенной зависимостью по данным и сравнение с ранее известными Формулами. В качестве стандартных приложений сигнальной обработки при проектировании процессорных ядер серии Е1соге-хх рассматривались наиболее широко применяемые задачи сигнальной обработки, такие, как цифровая фильтрация, линейные преобразования, алгоритмы сжатия изображений. В частности, были использованы следующие библиотечные функции сигнальной обработки: быстрое преобразование Фурье - БПФ (FFT_1024 и FFTfl_complex), скользящее среднее (av_fl_window), КИХ-фильтр (fir_filter_15), БИХ-фильтр (IIR2fl), интерполятор (INTERPfl), кодер Хэмминга (Hamming), адаптивный фильтр (lms_r_s), вэйвлет-преобразование (FDWTreal), косинус-преобразование (DCT-8), оценка вектора перемещения (motion_estimate), кодер Хаффмана по стандарту JPEG (HENC), корреляция (Dir_cyc_corr), декодер Витерби (Viterbi).

Для указанных приложений были определены статистические параметры рь и ph значения которых приведены в таблице 4.

На графиках на рис. 21 приведены зависимости производительности конвейера DSP-ядер от его глубины для двух из рассматриваемых приложений: FFT_1024 и fir_filter_15.

Таблица 4

Статистические характеристики зависимостей по данным библиотеки программ _____сигнальной обработки_

Приложение Ръ Р\ Р2 Ръ Р4 Ръ Рб Р1

ЕРТ_1024 0.0243 0.3861 0.0701 0.0418 0.0027 0.0000 0.0000 0.0000

ау_А_\¥тс1о\у 0.0048 0.3286 0.1429 0.0000 0.0000 0.0000 0.0000 0.0000

№Т11_ сошр1ех 0.0494 0.4870 0.0474 0.0236 0.0000 0.0002 0.0000 0.0000

&_Шег_15 0.0004 0.7230 0.0900 0.0000 0.0004 0.0000 0.0000 0.0000

Натгтпй 0.0541 0.4865 0.0541 0.0000 0.0000 0.0000 0.0000 0.0000

Ш12А 0.0123 0.2889 0.1419 0.0235 0.0018 0.0000 0.0006 0.0000

ПЧТЕЯРП 0.0631 0.5468 0.0822 0.0019 0.0010 0.0010 0.0000 0.0000

1Ш5 Г в 0.0015 0.3877 0.0030 0.0000 0.0000 0.0000 0.0000 0.0000

НЕ1ЧС 0.2796 0.3760 0.0332 0.0016 0.0000 0.0000 0.0000 0.0000

РБ\\Тгеа1 0.0019 0.8432 0.0019 0.0019 0.0000 0.0000 0.0000 0.0000

БСТ-8 0.0036 0.7628 0.0000 0.0000 0.0109 0.0000 0.0000 0.0000

тойоп езипШе 0.0009 0.1505 0.2267 0.0009 0.0009 0.0000 0.0000 0.0000

01г_сус_согт 0.0006 0.9533 0.0141 0.0000 0.0000 0.0000 0.0000 0.0000

УкегЫ 0.0145 0.6522 0.0145 0.0000 0.0000 0.0000 0.0000 0.0000

а)РГГ_1024 б) йг_й11ег_15

Рис. 21. Сравнение теоретических (вычисленных по формуле Эмма и Дэвидсона (*) и предлагаемой в данной работе (о) формулам) и экспериментально полученных (х) значений функции ¥(Л0 для приложений РБТ_1024 (а) и Яг_Пкег_15 (б)

Расхождение между экспериментально определенными и теоретически полученными в диссертационной работе данными составляет не более 1-2%.

Экспериментальное измерение производительности сигнальных процессоров на основе РБР-ядер серии Е1соге-хх. В таблице 5 приведены сравнительные характеристики сигнальных процессоров ведущих мировых производителей и отечественных сигнальных процессоров, созданных на основе разработанных ББР-ядер. Приводимые данные показывают, что созданные в рамках выполненной работы

ББР-процессоры имеют характеристики производительности сопоставимые, а в некоторых случаях превосходящие лучшие зарубежные аналоги.

Таблица 5

Сравнение сигнальных процессоров на основе БЗР-ядер Е1соге-хх с зарубежными

аналогами

Процессор Фирма Технология, нм Тактовая частота, МГц Потреб, мощность, Вт Производительность Конвейер, число фаз (уст./исп.)

MOPs (16 р.) (MMACs) MFLOPs

1892БМЗТ НЩ «ЭЛВИС» 250 80 0,8 640 240 3 (2/1)

1892ВМ2Я НПЦ «ЭЛВИС» 250 80 1,0 1280 480 3 (2/1)

1892БМ4Я НЩ «ЭЛВИС» 250 100 1,2 3200 1200 4 (3/1)

1892БМ5Я НЩ «ЭЛВИС» 250 100 1,2 3200 1200 4 (3/1)

TMS320C6701 Texas Instruments 180 166 1,1 1333 1000 11 (6/5)

1892ВМ7Я НЩ «ЭЛВИС» 130 250 2,4 24000 8000 7(4/3)

ADSP-21469 Analog Devices 130 450 1,5 900 MMACs 2700 10(6/4)

TMS320C6713 Texas Instruments 130 300 1.2 2400 1800 11 (6/5)

ADSP-TS201S Analog Devices 130 600 3,5 14400 3600 10(6/4)

ADSP-TS203S Analog Devices 130 500 2,2 12000 3000 10(6/4)

1892ВМ10Я НПЦ «ЭЛВИС» 130 250 1,2 16000 4000 7(5/2)

1891ВМ7Я (Эль6рус-2С+) ЗАО «МЦСТ» НЩ «ЭЛВИС» 90 500 25 48000*' 12000 *> 7(5/2)

1892ВМ11Я НЩ «ЭЛВИС» 65 500 1,0 32000 8000 7(5/2)

TMS320C6655 Texas Instruments 40 1250 3,1 40 GMACs 20000 11 (6/5)

TMS320C6657 Texas Instruments 40 1250 4,4 80 GMACs 40000 11 (6/5)

''только DSP-кластер

Например, сравнение выполненных по технологии 130 нм процессоров Т32035 семейства ^егБНАКС и 1892ВМ10Я (Навиком-02Т) показывает, что при меньшей глубине конвейера и меньшей тактовой частоте процессор Навиком-02Т обеспечивает более высокую производительность. В частности, время выполнения быстрого преобразования Фурье составляет для процессора 1892ВМ10Я 16,8 мкс, а для процессора ТБгОЗБ - 19,4 мкс. При этом процессор Навиком-02Т потребляет меньшую мощность и соответственно обладает значительно лучшей энергоэффективностью - 3,33 Гфлопс/Вт против 1,36 Гфлопс/Вт у процессора ТБгОЗБ.

Внешний вид некоторых из разработанных микросхем приведен на рис. 22.

Д) е) ж) з)

Рис. 22. Внешний вид микросхем 1892ВМЗТ (а), 1892ВМ2Я (б), 1892ВМ4Я (в), 1892ВМ5Я (г), 1892ВМ7Я (д), 1892ВМ8Я (е), 1892ВМ10Я (ж), 1892ВМ11Я (з)'

В заключении сформулированы основные результаты работы.

Приложения к диссертационной работе содержат:

Приложение 1 - акты о внедрении результатов диссертационной работы;

Приложение 2 - перечень ОКР и НИР, в которых были использованы результаты диссертационной работы;

Приложение 3 - фрагменты использованных в работе программ и скриптов для схемотехнического синтеза, в том числе:

- фрагмент прикладной программы РРГ-1024 на языке ассемблера ВЭР-ядра ЕЬсоге-30;

- фрагмент несинтезируемого кода на языке Уепк^, используемого для сбора статистических характеристик исполняемых приложений;

- фрагмент скрипта схемотехнического синтеза операционных устройств вычислительного тракта разрабатываемых процессорных ядер;

- фрагмент программы на языке МаНаЬ, используемой для оптимизации неоднородного конвейера дискретным методом;

Приложение 4 - основные технические и эксплуатационные характеристики серийно выпускаемых сигнальных процессоров серии 1892 «Мультикор»;

Приложение 5 - перечень организаций, внедривших сигнальные процессоры серии 1892 «Мультикор».

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Наиболее значимые результаты диссертации состоят в следующем. 1. Выведены математические соотношения для функции производительности и оптимальной глубины однородного и неоднородного конвейера проблемно-ориентированных процессорных ядер при наличии в исполняемом приложении программных переходов и зависимостей по данным. Разработан дискретный ме-

тод определения оптимальной глубины неоднородного конвейера. Предложенный метод, за счет более точного определения оптимальной глубины конвейера, позволяет получить на некоторых приложениях выигрыш в производительности более 20% по сравнению с ранее известными аналитическими методами.

2. Разработана методика оптимизации структуры вычислительного тракта проблемно-ориентированных процессорных ядер с учётом статистических характеристик исполняемых программ и временных характеристик используемого технологического базиса. Применение предложенной методики, за счет сокращения итеративности, позволяет уменьшить общее время проектирования на 20-30%.

3. На основе предложенной методики разработана серия масштабируемых рекон-фигурируемых ББР-ядер ЕЬсоге-хх для многоядерных сигнальных процессоров.

4. Разработаны принципы и способы построения многоядерных кластеров на основе ББР-ядер ЕЬсоге-хх, реализация которых обеспечивает масштабируемость, требуемую скорость обмена данными и синхронизацию вычислительных потоков в ядрах. Разработан аппаратный способ синхронизации вычислительных потоков в процессорных ядрах многоядерной системы для задач типа «производитель-потребитель» на основе применения специализированного буфера обмена с усовершенствованной логикой управления, позволяющий в несколько раз повысить скорость выполнения таких обменов.

5 На основе разработанных Р8Р-ядер созданы микросхемы сигнальных процессоров серий 1891 и 1892 «Мультикор»: 1892ВМЗТ, 1892ВМ2Я, 1892ВМ4Я, 1892ВМ5Я, 1892ВМ7Я, 1892ВМ8Я, 1892ВМ10Я, 1892ВМ11Я, 1891ВМ7Я. Созданные микросхемы обладают производительностью от 240 миллионов до 12 миллиардов операций с плавающей точкой в секунду, что соответствует мировому уровню для сигнальных процессоров данного класса.

6. В результате проведенной оптимизации ББР-ядра имеют относительно короткий конвейер - от 3 до 7 фаз (для сравнения, конвейер процессоров "ЩегБИАЖ: содержит 10 фаз). Это позволило, при сохранении требуемой производительности, уменьшить энергопотребление, и тем самым значительно повысить энергоэффективность созданных процессоров. Например, сравнение изготовленных по технологии 130 нм процессоров 1892ВМ10Я и ТБгОЗБ СЩегБНАКС) показывает, что процессор 1892ВМ10Я обладает в 2,5 раза лучшей энергоэффективностью - 3,33 Гфлопс/Вт против 1,36 Гфлопс/Вт.

7. Микросхемы 1892ВМЗТ, 1892ВМ2Я, 1892ВМ4Я, 1892ВМ5Я, 1892ВМ8Я включены в «Перечень электрорадиоизделий, разрешенных к применению при разработке (модернизации), производстве и эксплуатации аппаратуры, приборов, устройств и оборудования военного назначения» Министерства обороны РФ. Микросхемы серии 1892 «Мультикор» внедрены при разработке аппаратуры более чем на 100 предприятиях.

8. Таким образом, представленная диссертация является научно-квалификационной работой, в которой изложены научно обоснованные технические решения, направленные на создание проблемно-ориентированных процессорных ядер с оптимальным вычислительным конвейером и многоядерных сигнальных процессоров на их основе, внедрение которых вносит значительный вклад в развитие страны.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Беляев A.A. Организация программного конвейера DSP-ядер серии ELcore-xx IP-Библиотеки «МУЛЬТИКОР» // Всероссийская научно-техническая конференция «Проблемы разработки перспективных микроэлектронных систем - 2005». Сб. трудов / под общ. ред. акад. А.Л.Стемпковского. М.: ИППМ РАН, 2005. С. 508511.

2. Беляев A.A. Влияние программных переходов и зависимостей по данным в исполняемом программном коде на производительность конвейера DSP-ядра // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2009. №3. С. 75-80.

3. Беляев A.A. Оптимизация структуры программного конвейера DSP-ядра с гарвардской архитектурой по критерию быстродействия // II Всероссийская научно-техническая конференция «Проблемы разработки перспективных микроэлектронных систем - 2006». Сб. трудов / под общ. ред. акад. А.Л.Стемпковского. М.: ИППМ РАН, 2006. С. 361-366.

4. Беляев A.A. Исследование зависимости производительности DSP-ядра от глубины его конвейера инструкций // IV Всероссийская научно-техническая конференция «Проблемы разработки перспективных микро- и наноэлектронных систем -2010». Сб. трудов / под общ. ред. акад. А.Л.Стемпковского. М.: ИППМ РАН, 2010. С. 382-385.

5. Беляев A.A. Оптимальная по производительности глубина программного конвейера для приложений с программными переходами и зависимостью по данным // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2010. №2(82) С. 48-51.

6. Беляев A.A. Влияние глубины конвейера на производительность процессора // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2009. № 6(80) С. 50-53.

7. Беляев A.A. К вопросу развития теории конвейерных вычислений для проблемно-ориентированных процессоров // Оборонная техника. М.: ФГУП «НТЦ «Ин-формтехника», 2012. № 1. С. 45-47.

8. Беляев A.A., Путря Ф.М. Выбор оптимальной структуры функционально полного контроллера шины SPI с 32-разрядным интерфейсом // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2006. №4. С. 71-75.

9. Беляев A.A. Способы оптимизации вычислительного тракта проблемно-ориентированных процессоров // Техника и технология. М.: Спутник Плюс, 2012. №3. С. 51-53.

Ю.Беляев A.A. Разработка системы теоретических моделей для оптимизации вычислительного тракта проблемно-ориентированных процессоров // Техника и технология. М.: Спутник Плюс, 2012. № 3. С. 48-50.

П.Беляев A.A., Путря Ф.М. Глобальный коммутатор для многоядерного процессора с несимметричным доступом к памяти // Вопросы радиоэлектроники, серия ЭВТ. 2008. Вып. 3. С. 28-39.

12.Беляев A.A., Солохина Т.В., Юдинцев В.А. Современные устройства цифровой

обработки сигналов. Вместе или врозь? // Электроника: Наука, Технология, Бизнес. 2009. № 1.С. 28-35.

13.Авторское свидетельство SU №1774472 Al. Динамический D-триггер с третьим состоянием по выходу / Антонова С.С., Беляев A.A., Епанчинцев А.Г., Заболот-ный А.Е., Максимов В.А., Назаров С.И., Петричкович Я.Я. ; заявитель НПО «ЭЛАС»; заявл. 13.08.1990 ; опубл. 07.11.1992.

14.Беляев A.A., Грибов Ю.И., Солохина Т.В. Конвейеризация и распараллеливание: два подхода к повышению производительности цифровых вычислительных устройств // III Всероссийская научно-техническая конференция «Проблемы разработки перспективных микро- и наноэлектронных систем - 2008». Сб. трудов / под общ. ред. акад. А.Л.Стемпковского. М.: ИППМ РАН, 2008. С.411-414.

15.Беляев A.A. Влияние характеристик памяти на выбор структуры конвейера DSP-ядра // Вопросы радиоэлектроники, серия Общетехническая. М.: 2011. Вып. 1. С. 68-77.

16.Беляев A.A. Неконвейеризуемые операции как фактор ограничения производительности DSP-ядра // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2009. № 4. С. 56-60.

П.Беляев A.A. Процессорные ядра сигнальной обработки для многоядерных систем на кристалле // Оборонная техника. М.: ФГУП «НТЦ «Информтехника», 2011. № 8. С. 52-53.

18.Беляев A.A. DSP-ядра серии ELcore-xx™ для многоядерных вычислительных систем на кристалле // Техника и технология. М.: Спутник-Плюс, 2010. № 6 (41). С. 17-19.

19.Беляев A.A. Реконфигурируемые DSP-ядра для многоядерных систем на кристалле // Материалы научной конференции "Зеленоград - космосу". М.: МНТО-РЭС им. A.C. Попова, 2011. С. 85-88.

20. Беля ев A.A. Аппаратная реализация сжатия изображений методом ДИКМ в системах дистанционного зондирования Земли // Материалы научной конференции "Зеленоград - космосу". М.: МНТОРЭС им. A.C. Попова, 2011. С. 82-84.

21.Беляев A.A. Гарвардская архитектура с реконфигурируемой памятью программ и данных // Техника и технология. М.: Спутник-Плюс, 2010. № 6 (41). С. 14-16.

22.Беляев A.A. Реконфигурируемая структура регистровых файлов DSP-ядер ELcore-xx™ платформы «Мультикор» // Оборонный комплекс - научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2011. № 2. С. 16-19.

23.Беляев A.A. Обработка и хранение различных типов данных в DSP-ядре ELcore-30 // Техника и технология. М.: Спутник Плюс, 2011. № 1(42). С. 29-31.

24.Козлова H.H., Солохина Т.В., Грибов Ю.И., Беляев A.A. Исследование архитектуры реконфигурируемых IP-ядер по критерию реализуемости в составе IP -библиотеки платформы «МУЛЬТИКОР» // Всероссийская научно-техническая конференция «Проблемы разработки перспективных микроэлектронных систем -2005». Сб. трудов / под общ. ред. акад. А.Л.Стемпковского. М.: ИППМ РАН, 2005. С. 523-529.

25.Беляев A.A. Построение реконфигурируемого тракта обработки данных в сиг-

нальных процессорах с VLIW-архитектурой // Известия высших учебных заведений. Электроника. М., 2011. №3 (89). С. 64-68.

26.Беляев A.A. Проблемы применения принципа параллелизма в архитектуре сигнальных процессоров // Оборонный комплекс - научно-техническому прогрессу России. М: ФГУП «ВИМИ», 2011. № 3. С. 31-35.

27.Беляев A.A. Векторные АЛУ и архитектура SIMD: два уровня параллелизма в архитектуре сигнальных процессоров // Техника и технология. М.: Спутник Плюс, 2011. №2(43). С. 23-25.

28.Беляев A.A. О реализации принципа параллелизма в архитектуре сигнальных процессоров // Оборонная техника. М.: ФГУП «НТЦ «Информтехника», 2011. № 6-7. С. 68-70.

29.Беляев A.A. Два способа реализации SIMD-распараллеливания в архитектуре сигнальных процессоров // Оборонная техника. М.: ФГУП «НТЦ «Информтехника», 2012. № 1.С. 42^4.

30.Беляев A.A. Аппаратная поддержка программных циклов в сигнальных процессорах с глубоким конвейером // Оборонная техника. М.: ФГУП «НТЦ «Информтехника», 2011. № 6-7. С. 70-73.

31.Беляев A.A. Структура конвейера адресных генераторов для ядер цифровых сигнальных процессоров // Оборонный комплекс - научно-техническому прогрессу России. М: ФГУП «ВИМИ», 2012. № 1. С. 17-18.

32.Беляев A.A. Построение мультипроцессорных систем на базе DSP-ядер ELcore-хх™//Техника и технология. М.: Спутник-Плюс, 2010. № 6 (41). С. 20-23.

33.Беляев A.A. Организация многоядерных кластеров на базе DSP-ядер ELcore-xx™ // Оборонный комплекс - научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2011. №2. С. 11-16.

34.Беляев A.A. Средства межпроцессорного взаимодействия в DSP-кластерах платформы «Мультикор» // Оборонная техника. М.: ФГУП «НТЦ «Информтехника», 2011. №8. С. 56-57.

35.Александров Ю.Н., Беляев A.A., Солохина Т.В. Способ синхронизации вычислительных потоков в многоядерной системе на кристалле // Оборонный комплекс -научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2011. № 4. С. 1922.

36.Солохина Т.В., Петричкович Я.Я., Глушков A.B., Беляев A.A. и др. Время кентавров: Микросхемы серии Мультикор-11хх (МС-11хх) для встраиваемых и мобильных применений // Chip News. 2002. № 8(71). С. 10-17.

37.Солохина Т.В., Петричкович Я.Я., Глушков A.B., Александров Ю.Н., Глушков В.Д., Семенович A.M., Беляев A.A. и др. Мультикор-128 - сигнальный контроллер с плавающей точкой для высокоточных встраиваемых применений // Chip News. 2003. № 8(81). С. 4-15.

38.Александров Ю.Н., Беляев A.A., Глушков A.B., Петричкович Я.Я., Солохина Т.В. и др. Новая отечественная платформа СБИС «МУЛЬТИКОР» для высокоточной скоростной обработки информации и управления объектами // Цифровая обработка сигналов. 2001. № 3. С. 25-38.

39.Солохина Т.В., Петричкович Я.Я., Александров Ю.Н., Герасимов Ю.М., Заболот-нов И.В., Алексеев М.Н., Беляев A.A. и др. Микросхемы базовых серий «МУЛЬ-ТИКОР». Сигнальный микроконтроллер 1892ВМ2Т (МС-24) // Chip News. 2005. №2(95). С. 20-31.

40.Солохина Т.В., Петричкович Я.Я., Александров Ю.Н., Герасимов Ю.М., Заболот-нов И.В., Алексеев М.Н., Беляев A.A. и др. Микросхемы базовых серий «МУЛЬ-ТИКОР». Сигнальный микроконтроллер 1892ВМ2Т (МС-24) // Chip News. 2005. № 3(95). С. 20-26.

41.Глушко в A.B., Беляев A.A., Путря Ф.М., Алексеев И.Н., Миронова Ю.В. Библиотека периферийных IP - ядер платформы «МУЛЬТИКОР» // Всероссийская научно-техническая конференция «Проблемы разработки перспективных микроэлектронных систем - 2005». Сб. трудов / под общ. ред. акад. А.Л.Стемпковского. М.: ИППМ РАН, 2005. С. 530-535.

42.Беляев A.A., Путря Ф.М. Проектирование СФ-блока контроллера шины SPI с интерфейсом АМВА // Тезисы докладов научно-технической конференции «Электроника и информатика». М., 2005. С. 180.

43.Беляев A.A., Солохина Т.В. Архитектура высокопроизводительных сигнальных контроллеров МС-0428 семейства «МУЛЬТИКОР» // Вопросы радиоэлектроники. Серия Общетехническая. М., 2011. Вып. 1. С. 25-34.

44.Беляев A.A. Сигнальные процессоры платформы «Мультикор»: основные характеристики и особенности архитектуры // Оборонный комплекс - научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2011. № 1. С. 85-87.

45.A. Belyaev, Т. Solokhina, J. Petrichkovich, A. Glushkov, Y. Alexandrov, I. Alekseev, Y. Sheynin. Next Generation DSP Multi-Core Processor with SpaceWire links as the Development of the 'MCFlight' Chipset for the Onboard Payload Data Processing Applications // Proceedings of the 3rd International SpaceWire Conference. St. Petersburg, 2010. PP. 313-318.

46.Беляев A.A. Реконфигурируемая гарвардская архитектура сигнальных процессоров платформы «Мультикор» // Оборонный комплекс - научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2011. № 2. С. 7-10.

47.Беляев A.A. Радиационно-стойкий сигнальный процессор 1892ВМ8Я // Материалы VIII научно-технической конференции «Системы наблюдения, мониторинга и дистанционного зондирования Земли». М.: МНТОРЭС им. А.С.Попова, 2011. С. 338-340.

48.Беляев A.A. Функциональные возможности, основные параметры и условия эксплуатации сигнального процессора 1892ВМЗТ // Оборонная техника. М.: ФГУП «НТЦ «Информтехника», 2011. № 8. С. 71-72.

49.Беляев A.A. Организация аппаратной поддержки программных циклов в процессорах обработки сигналов // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2011. № 6(92). С. 49-54.

50.Беляев A.A. Реализация SIMD-распараллеливания в сигнальных процессорах платформы «Мультикор» // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2012. № 2(94). С. 67-70.

5¡.Беляев A.A. Организация работы конвейера сигнальных процессоров платформы «Мультикор» // Оборонная техника. М.: ФГУП «НТЦ «Информтехника», 2011. № 8. С. 54-55.

52.Беляев A.A. Функциональные возможности, основные параметры и условия эксплуатации сигнального процессора 1892ВМ2Я // Оборонный комплекс - научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2012. № 2. С. 25-26.

53.Беляев A.A. Усовершенствованный способ синхронизации вычислительных потоков в многоядерной системе на кристалле // Оборонный комплекс - научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2012. № 2. С. 27-30.

54.Беляев A.A. Реконфигурируемые вычислители на основе многоядерных DSP-систем // Оборонная техника. М.: ФГУП «НТЦ «Информтехника», 2012. № 1. С. 37^1.

55.Беляев A.A., Путря Ф.М., Солохина Т.В., Юдинцев В.А. Многоядерные процессоры для устройств связи. Перспективы и проблемы // Электроника: Наука, Технология, Бизнес. М., 2011. № 8. С. 90-104.

56.Беляев A.A., Александров Ю.Н., Глушков A.B., Солохина Т.В., Петричкович Я.Я. Отечественные трехядерные сигнальные микроконтроллеры с производительностью 1,5 GFLOPS //Электроника: Наука, Технология, Бизнес. 2006. № 6. С. 73-78.

57.Беляев A.A., Солохина Т.В., Глушков A.B., Александров Ю.Н., Миронова Ю.В., Петричкович Я.Я., Герасимов Ю.М. Аналого-цифровая «система на кристалле» мультимедийного процессора МСат-01 серии «Мультикам» // Всероссийская научно-техническая конференция «Проблемы разработки перспективных микроэлектронных систем - 2005». Сб. трудов / под общ. ред. акад. А.Л.Стемпковского. М.: ИППМ РАН, 2005, С. 446-452.

58.Беляев A.A. Архитектура модуля оценки движения для видеопроцессора // Техника и технология. М.: Спутник Плюс, 2012. № 3. С. 45-47.

59.Беляев A.A. Сигнальный микроконтроллер для видеоприложений // Вопросы радиоэлектроники, Серия общетехническая. М., 2006. Вып. 2. С. 48-58.

60.Солохина Т.В., Петричкович Я.Я., Александров Ю.Н., Беляев A.A. Системы на кристалле на базе платформы «МУЛЬТИКОР» для создания мультистандартных телекоммуникационных терминалов // Тезисы докладов научно-технической конференции «Современные телевизионные технологии. Состояние и направления развития». М., 2004. С. 14-15.

61.Беляев A.A., Гуторов Л.В., Широков В.В. Сжатие информации в оптико-электронных системах дистанционного зондирования Земли // Тезисы докладов 3-й международной научно-технической конференции «Микроэлектроника и информатика» (МФИ-97). М.: МИЭТ, 1997. С. 119-120.

62.Кузьмичев A.M., Гуторов Л.В., Беляев A.A., Фоменко И.Б., Миронова Ю.В. Многоканальное интегральное устройство сжатия цифровой видеоинформации // Proceedings IIA. Отделение микроэлектроники и информатики. Microelectron-ics&Informatics Department. М., 2003. С. 252-270.

63.Беляев A.A., Кузьмичёв A.M. Цифровая обработка видеоинформации в многоканальной аппаратуре дистанционного зондирования Земли на ПЛИС с ограничен-

ными ресурсами встроенной блочной памяти // Труды НИИР. М., 2011. № 4. С. 20-24.

64.Беляев A.A. Сравнительный анализ возможностей аппаратной реализации методов сжатия изображений на базе ПЛИС XC2V4000 // Материалы VIII научно-технической конференции «Системы наблюдения, мониторинга и дистанционного зондирования Земли». М.: МНТОРЭС им. A.C. Попова, 2011. С. 157-161.

65.Беляев A.A., Кузьмичёв A.M. Усовершенствованный кодер ДИКМ многоканальных ИОЭП СППИ КА ДЗЗ // Труды VI Научно-технической конференции "Системы наблюдения, мониторинга и дистанционного зондирования Земли". М.: МНТОРЭС им. A.C. Попова. 2009. С. 104-113.

66.Беляев A.A., Солохина Т.В., Александров Ю.Н., Миронова Ю.В., Коплович Е.А. Программная реализация алгоритмов сжатия изображений на базе процессоров семейства «Мультикор» // Тезисы докладов научно-технической конференции «Современные телевизионные технологии. Состояние и направления развития». М., 2006. С. 30-31.

67.Беляев A.A. Оптимизация по критерию быстродействия приложений для DSP-ядер ELcore-xx с различной глубиной конвейеризации // Вопросы радиоэлектроники. Серия ЭВТ. М., 2008. Вып. 3. С. 99-112.

68.Беляев A.A. Анализ влияния глубины конвейера на производительность проблемно-ориентированного процессора для случая неоднородного конвейера // Вопросы радиоэлектроники, Серия общетехническая. М„ 2012. Вып. 2. С. 88-96.

Подписано в печать

Заказ № ИЬ Тираж 100 экз. Формат 60484 1/16. ОАО НПЦ «ЭЛВИС»,

124460, Москва, Зеленоград, проезд 4922, строение 2.

Оглавление автор диссертации — доктора технических наук Беляев, Андрей Александрович

ВВЕДЕНИЕ.

ГЛАВА 1 . АРХИТЕКТУРА И МЕТОДЫ ПРОЕКТИРОВАНИЯ ПРОБЛЕМНО-ОРИЕНТИРОВАННЫХ ПРОЦЕССОРОВ.

1.1. Классификация микропроцессоров по назначению.

1.1.1. Процессоры общего назначения.

1.1.2. Проблемно-ориентированные процессоры.

1.2. Архитектура современных микропроцессоров.

1.2.1. Архитектура фон Неймана.

1.2.2. Гарвардская архитектура.

1.2.3. Реализация принципа параллелизма в архитектуре современных микропроцессоров.

1.3. Принципы построения многоядерных систем на кристалле.

1.3.1. Многоядерные гомогенные архитектуры.

1.3.2. Многоядерные гетерогенные архитектуры.

1.4. Особенности архитектуры сигнальных процессоров.

1.5. Обзор проблемно-ориентированных процессоров ведущих зарубежных и отечественных производителей.

1.6. Методы проектирования проблемно-ориентированных процессоров и процессорных ядер для многоядерных вычислительных систем на кристалле.

1.6.1. Проблемы проектирования ASIP.

1.6.2. Методология MESCAL проектирования проблемно-риентированных процессоров

1.6.3. Проектирование проблемно-ориентированных процессоров в виде IP-ядер для многоядерных вычислительных систем на кристалле.

1.6.4. Критерии и методы оптимизации проблемно-ориентированных процессорных ядер для многоядерных СнК.

1.7. Методы построения и оптимизации вычислительного конвейера проблемно-ориентированных процессоров.

1.7.1. Принципы построения конвейера инструкций.

1.7.2. Организация конвейера сигнальных процессоров.

1.7.3. Методы оптимизации вычислительного конвейера проблемно-ориентированных процессоров.

1.8. Сравнительный анализ достоинств и недостатков существующих методов проектирования проблемно-ориентированных процессорных ядер и многоядерных систем на кристалле на их основе.

1.9. Цели и задачи диссертационной работы.

Выводы

ГЛАВА 2 . ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ОПТИМИЗАЦИИ ВЫЧИСЛИТЕЛЬНОГО КОНВЕЙЕРА ПРОБЛЕМНО-ОРИЕНТИРОВАННОГО ПРОЦЕССОРА ПО КРИТЕРИЮ ПРОИЗВОДИТЕЛЬНОСТИ.

2.1. Теоретическая модель однородного конвейера. Вывод функции производительности и определение оптимальной глубины однородного конвейера.

2.1.1. Теоретическая модель однородного конвейера.

2.1.2. Вывод функции производительности однородного конвейера.

2.1.3. Определение оптимальной глубины однородного конвейера.

2.2. Теоретическая модель неоднородного конвейера. Вывод функции производительности и определение оптимальной глубины неоднородного конвейера.

2.2.1. Теоретическая модель неоднородного конвейера.

2.2.2. Вывод функции производительности неоднородного конвейера.

2.2.3. Определение оптимальной глубины неоднородного конвейера.

2.3. Дискретный метод определения оптимального периода неоднородного конвейера.

2.4. Вывод функции производительности и определение оптимальной глубины однородного конвейера для приложений с программными переходами.

2.5. Вывод функции производительности и определение оптимальной глубины неоднородного конвейера для приложений с программными переходами.

2.6. Вывод функции производительности и определение оптимальной глубины однородного конвейера для приложений с программными переходами и распределенной зависимостью по данным.

Выводы

ГЛАВА 3 . МНОГОКРИТЕРИАЛЬНАЯ ОПТИМИЗАЦИЯ СТРУКТУРЫ ВЫЧИСЛИТЕЛЬНОГО ТРАКТА ПРОБЛЕМНО-ОРИЕНТИРОВАННОГО ПРОЦЕССОРА.

3.1. Принципы многокритериальной оптимизации вычислительного тракта проблемно-ориентированного процессора.

3.1.1. Критерии (цели) оптимизации.

3.1.2. Методология многокритериальной оптимизации.

3.2. Проблема исследования пространства архитектурных решений.

3.3. Методы исследования пространства архитектурных решений.

3.3.1. Аналитические методы.

3.3.2. Методы, основанные на компьютерном моделировании.

3.3.3. Сравнительный анализ методов исследования пространства архитектурных решений.

3.4. Выбор архитектуры вычислительного тракта и пространственно-временное отображение задачи.

3.4.1. Влияние характера исполняемых приложений на выбор архитектуры вычислительного тракта.

3.4.2. Выбор аппаратной платформы для реализации видеоприложений.

3.5. Разработка системы теоретических моделей для оптимизация структуры вычислительного тракта проблемно-ориентированного процессора.

3.5.1. Способы оптимизации вычислительного тракта.

3.5.2. Разработка системы теоретических моделей для оптимизации вычислительного тракта.

3.6. Общая методика оптимизации структуры вычислительного тракта проблемно-ориентированного процессора.

3.6.1. Маршрут проведения оптимизации вычислительного тракта.

3.6.2. Методы определения статистических характеристик исполняемых

Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Беляев, Андрей Александрович

Актуальность работы. Уже на первых этапах развития вычислительной техники стало очевидно, что характеристики вычислительных машин напрямую определяются не только достигнутым технологическим уровнем их производства, но и их архитектурой. Поэтому одновременно с совершенствованием технологии развивались научные идеи, связанные с построением процессоров, методами организации вычислений, принципами управления ЭВМ - всем тем, что получило название архитектуры ЭВМ.

В разработку теории и практики построения вычислительных систем и микропроцессорной техники значительный вклад внесли и российские ученые: С.А.Лебедев, В.М.Глушков, В.С.Бурцев, Г.Г.Рябов, Б.А.Бабаян, Ю.В.Гуляев, В.К.Левин, Л.Н.Преснухин, А.К.Ким, А.И.Галушкин, В.В.Корнеев и другие. В создании новейших архитектур процессоров, а также в области практической их реализации в виде интегральных схем участвовали отечественные организации: ИТМиВТ им. С.А.Лебедева, НИИСИ РАН, ИНЭУМ им. И.С.Брука, ИППМ РАН, НИИМЭ и завод «Микрон», НИИТТ и завод «Ангстрем», НИИМА "Прогресс", НТЦ «Модуль», МЦСТ, НПЦ «ЭЛВИС» и другие. Достигнутые в этой области успехи связаны с именами таких ученых, как К.А.Валиев, Г .Я. Гуськов, В.Б.Бетелин, В.Г.Немудров, В.А.Шахнов, В.П.Корячко, А. Л. Стемпковский, В.Н.Филатов, Г.Я.Красников, Я.Я.Петричкович и многих других. Исследованием влияния статистических свойств исполняемых приложений на производительность конвейера микропроцессора занимались зарубежные ученые П.Эмма, Э.Дэвидсон, А.Харстейн, Т.Пузак.

В последнее десятилетие в развитии микропроцессорной техники произошёл фундаментальный сдвиг - переход от одноядерных архитектур к многоядерным. Этот переход был вызван тем, что возможности повышения производительности одноядерных процессоров только за счет увеличения тактовой частоты при уменьшении технологических норм были практически исчерпаны в силу фундаментальных физических ограничений, связанных с необходимостью рассеивания всё возрастающей потребляемой мощности с единицы площади кристалла.

Однако переход к многоядерным архитектурам сам по себе не обеспечивает повышения энергоэффективности выполняемых вычислений. Напротив, он связан с усложнением процесса программирования, вызванным необходимостью декомпозиции выполняемой прикладной задачи на несколько процессорных ядер и организации обмена данными между ними, что может приводить к дополнительным энергетическим затратам.

По этой причине в настоящее время наиболее быстро развиваются не просто многоядерные, а многоядерные гетерогенные архитектуры - то есть такие архитектуры, в которых наряду с процессорными ядрами общего назначения используются специализированные процессорные ядра, ориентированные на реализацию некоторого заданного круга прикладных задач.

Процессоры, предназначенные для эффективной реализации заданного круга приложений, получили в зарубежной научно-технической литературе название ASIP (application-specific instruction-set processor) - процессоры с проблемно-ориентированной системой команд или, проще, проблемно-ориентированные процессоры.

Проблемно-ориентированные процессоры обеспечивают возможность реализации растущего числа приложений, включая графику, видеоприложения, построение сетей, обработку сигналов.

Эти программируемые устройства представляют собой высокопроизводительную и энергетически эффективную альтернативу применению процессоров общего назначения. Они обладают также существенными преимуществами по сравнению с ASIC (application-specific integrated circuit) - специализированными большими интегральными схемами (СБИС). Сложность и стоимость проектирования СБИС при переходе к более совершенным технологическим процессам постоянно возрастает, что является неприемлемым для значительного круга коммерческих приложений. По этой причине гибкость и возможность повторного использования являются теми качествами, которые делают проблемно-ориентированные процессоры более привлекательным выбором в сравнении со специализированными схемами. Таким образом, проблемно-ориентированные процессоры должны сочетать в себе, с одной стороны, гибкость процессоров и, с другой стороны, эффективность специализированных схем.

Наиболее распространенной разновидностью проблемно-ориентированных процессоров являются процессоры цифровой обработки сигналов (DSP), которые ориентированы на решение достаточно широкого сектора задач, связанных с сигнальной обработкой. К областям их применения относятся обработка аудио- и видеосигналов, навигация, связь, гидроакустика, радиолокация, цифровое телевидение, системы дистанционного зондирования Земли и многое другое. Разработка новых поколений таких систем требует всё возрастающей производительности сигнальной обработки. Этим определяется актуальность исследований, направленных на повышение производительности и улучшение других функциональных характеристик сигнальных процессоров.

Существующий в мире уровень производительности сигнальных процессоров очень высок, и достижения лидеров в этой области, таких, как компании Texas Instruments, Analog Devices предоставляют широкие возможности для создания систем обработки сигналов и управления различного назначения. Однако не является секретом, что, как и в прежние годы, странами северо-атлантического альянса проводится политика ограничения поставок на российский рынок новейшей элементной базы, которая могла бы быть использована для создания систем вооружений, в связи с чем всё большую остроту приобретает проблема импортозамещения.

В связи с вышесказанным крайне актуальной является проблема разработки высокоэффективных проблемно-ориентированных процессорных ядер и многоядерных процессоров сигнальной обработки на их основе для вычислительных систем и комплексов управления различного назначения.

Сложность проектирования проблемно-ориентированных процессоров вытекает из фундаментальных задач выбора и оптимизации их архитектуры применительно к рассматриваемым областям приложений. По этой причине должна быть выработана целостная методология исследования пространства архитектурных решений, которая бы учитывала как статистические характеристики исполняемых прикладных задач, так и свойства используемого технологического базиса.

Объектом исследования в диссертационной работе являются проблемно-ориентированных процессорные ядра для многоядерных гетерогенных вычислительных систем на кристалле, а предметом исследования - методика проектирования проблемно-ориентированных процессорных ядер с оптимальным вычислительным конвейером и многоядерных сигнальных процессоров на их основе.

Исходя из анализа существующих в данной области проблем, были сформулированы следующие цели и задачи диссертационной работы.

Целью диссертационной работы является разработка теории, методик расчета и научно обоснованных технических решений, направленных на создание проблемно-ориентированных процессорных ядер с оптимальным вычислительным конвейером и многоядерных сигнальных процессоров на их основе.

Для достижения указанной цели в работе поставлены следующие задачи:

1. Вывести аналитические соотношения для функции производительности и оптимальной глубины однородного и неоднородного конвейера.

2. Разработать дискретный метод определения оптимального периода неоднородного конвейера.

3. Разработать методику оптимизации вычислительного конвейера проблемно-ориентированных процессорных ядер с учётом статистических характеристик исполняемых приложений и временных характеристик используемого технологического базиса.

4. Разработать принципы и способы построения ЭБР-ядер с оптимальным вычислительным конвейером для многоядерных сигнальных процессоров.

5. На основе предложенной методики выполнить разработку серии ББР-ядер ЕЬ-соге-хх с оптимизированным по производительности конвейером.

6. Разработать принципы и способы построения многоядерных кластеров на основе разработанных ББР-ядер.

7. Разработать способ синхронизации вычислительных потоков в процессорных ядрах многоядерной системы для задач типа «производитель-потребитель» на основе применения специализированного буфера обмена с усовершенствованной логикой управления.

8. Выполнить разработку и создание многоядерных сигнальных процессоров на основе разработанных ОБР-ядер.

9. Выполнить экспериментальную проверку выведенных в работе соотношений и измерение производительности, достигаемой многоядерными сигнальными процессорами на основе разработанных ОБР-ядер.

Методы исследования. Для решения поставленных задач использовались теория и методы оптимизации, теория программирования, теория графов, теория параллельных вычислительных систем, теория и алгоритмы цифровой обработки сигналов, теория и методы проектирования интегральных схем.

Научная новизна. При выполнении диссертационной работы получены следующие новые научные результаты.

1. Выведены аналитические соотношения для функции производительности и оптимальной глубины однородного и неоднородного конвейера.

2. Разработан дискретный метод определения оптимального периода неоднородного конвейера.

3. Разработана методика оптимизации вычислительного конвейера проблемно-ориентированных процессорных ядер с учётом статистических характеристик исполняемых приложений и временных характеристик используемого технологического базиса.

4. Разработаны принципы и способы построения ББР-ядер с оптимальным вычислительным конвейером для многоядерных сигнальных процессоров.

5. Разработаны принципы и способы построения многоядерных кластеров на основе разработанных ББР-ядер.

6. Разработан способ синхронизации вычислительных потоков в процессорных ядрах многоядерной системы для задач типа «производитель-потребитель» на основе применения специализированного буфера обмена с усовершенствованной логикой управления.

Практическая значимость работы состоит в следующих достижениях.

1. Предложенный в работе дискретный метод, за счет более точного определения оптимальной глубины конвейера, позволяет получить на некоторых приложениях выигрыш в производительности более 20% по сравнению с ранее известными аналитическими методами.

2. Применение разработанной методики, за счет сокращения итеративности, позволяет уменьшить общее время проектирования проблемно-ориентированных процессорных ядер на 20-30%.

3. На основе предложенной методики разработана серия масштабируемых рекон-фигурируемых DSP-ядер ELcore-xx для многоядерных сигнальных процессоров.

4. На основе разработанных DSP-ядер созданы микросхемы сигнальных процессоров серий 1891, 1892. Созданные микросхемы обладают производительностью от 240 миллионов до 12 миллиардов операций с плавающей точкой в секунду, что соответствует мировому уровню для сигнальных процессоров данного класса.

5. В результате проведенной оптимизации DSP-ядра имеют относительно короткий конвейер - от 3 до 7 фаз (для сравнения, конвейер процессоров TigerSHARC содержит 10 фаз). Это позволило, при сохранении требуемой производительности, уменьшить энергопотребление, и тем самым значительно повысить энергоэффективность созданных процессоров. Например, сравнение изготовленных по технологии 130 нм процессоров 1892ВМ10Я и TS203S (TigerSHARC) показывает, что процессор 1892ВМ10Я обладает в 2,5 раза лучшей энергоэффективностью - 3,33 Гфлопс/Вт против 1,36 Гфлопс/Вт.

6. Микросхемы 1892ВМЗТ, 1892ВМ2Я, 1892ВМ4Я, 1892ВМ5Я, 1892ВМ8Я включены в «Перечень электрорадиоизделий, разрешенных к применению при разработке (модернизации), производстве и эксплуатации аппаратуры, приборов, устройств и оборудования военного назначения» Министерства обороны РФ. Микросхемы серии 1892 внедрены при разработке аппаратуры на 124 предприятиях.

В соответствии с государственной стратегией импортозамещения компонентов вычислительной техники и систем управления, выполненная работа непосредственно связана с планом научных исследований предприятия ОАО НПЦ «ЭЛВИС» и является критически важной для повышения обороноспособности страны ввиду возможности создания на основе полученных в ней результатов высокоэффективных отечественных вычислительных систем и комплексов управления. Соискатель проводил исследования в рамках «Приоритетных направлений развития науки, технологий и техники РФ», утвержденных указом Президента Российской Федерации от 07 июля 2011 г. № 899 и «Стратегии развития электронной промышленности России на период до 2025 года», утвержденной приказом Министра промышленности и энергетики Российской Федерации от 07 августа 2007 г. № 311.

Достоверность результатов работы обусловлена применением общепринятых математических методов оптимизации, математического моделирования, использованием систем автоматизированного проектирования, и подтверждается многолетним опытом эксплуатации ОБР-ядер Е1соге-хх и сигнальных процессоров серии 1892 «Мультикор», разработанных на основе теоретических и технических идей данной работы.

Внедрение результатов работы. На основе научных результатов, полученных в данной работе, автором была разработана серия ОЗР-ядер Е1соге-хх, на базе которой созданы микросхемы сигнальных процессоров серий 1891 и 1892 «Мультикор»: : 1892ВМЗТ (РАЯЖ.431285.003), 1892ВМ2Я (РАЯЖ.431285.002), 1892ВМ4Я (РАЯЖ.431285.004), 1892ВМ5Я (РАЯЖ.431285.005), 1892ВМ7Я (РА-ЯЖ.431282.003), 1891ВМ7Я (ТВГИ.431281.012), 1892ВМ8Я (РАЯЖ.431285.006), 1892ВМ10Я (РАЯЖ.431282.012), 1892ВМ11Я (РАЯЖ.431282.011). Микросхемы сигнальных процессоров 1892ВМЗТ, 1892ВМ2Я, 1892ВМ4Я, 1892ВМ5Я, 1892ВМ8Я включены в «Перечень электрорадиоизделий, разрешенных к применению при разработке (модернизации), производстве и эксплуатации аппаратуры, приборов, устройств и оборудования военного назначения» Министерства обороны РФ. Микросхемы серии «Мультикор» были внедрены при разработке аппаратуры более чем на 100 предприятиях (см. Приложение 5). Среди них можно выделить системные концерны российской оборонной промышленности: ФГУП "НПО машиностроения", ОАО "Концерн "Созвездие", ОАО НПО "Алмаз" им. академика А.А.Расплетина, ОАО Концерн радиостроения "Вега", ФГУП ЦНИИ "Комета", ФГУП "НИИ "Вектор", ФГУП НПО "Орион", ФНПЦ «Раменское приборостроительное конструкторское бюро» и другие.

Устройства, созданные на базе процессоров серии 1892ВМ, в частности, применяются в самолетах СУ-35, вертолетах МИ-28Н, комплексах ПВО С-400, цифровых радиостанциях 6-го поколения и многих других объектах стратегического назначения. Общий объем поставок процессоров серии 1892 составляет более 5000 штук в год.

Основные научно-технические результаты работы, основанные на исследованиях автора, были использованы при выполнении 16-ти ОКР и НИР, проводившихся на предприятии НПЦ «ЭЛВИС» в течение ряда лет (см. Приложение 2).

Личный вклад автора. Все выносимые на защиту научные положения, проведенные в рамках диссертационной работы теоретические и экспериментальные исследования, разработка и внедрение выполнены автором лично.

Кроме того, автор участвовал в подготовке и проведении приемо-сдаточных испытаний изготовленных микросхем, в разработке программной, текстовой и конструкторской документации, а также проводил сопроводительные работы в местах эксплуатации изделий, созданных на базе изготовленных микросхем.

На защиту выносятся:

- аналитические соотношения для функции производительности и оптимальной глубины однородного и неоднородного конвейера;

- дискретный метод определения оптимального периода неоднородного конвейера;

- методика оптимизации вычислительного конвейера проблемно-ориентированных процессорных ядер с учётом статистических характеристик исполняемых приложений и временных характеристик используемого технологического базиса;

- принципы и способы построения ББР-ядер с оптимальным вычислительным конвейером для многоядерных сигнальных процессоров;

- разработка ББР-ядер серии ЕЬсоге-хх с оптимальным вычислительным конвейером для многоядерных сигнальных процессоров;

- принципы и способы построения многоядерных кластеров на основе разработанных ББР-ядер;

- способ синхронизации вычислительных потоков в процессорных ядрах многоядерной системы для задач типа «производитель-потребитель» на основе применения специализированного буфера обмена с усовершенствованной логикой управления:

- создание многоядерных сигнальных процессоров серий 1891ВМ, 1892 на основе разработанных ББР-ядер.

Апробация работы. Основные результаты работы докладывались и обсуждались на: Всероссийской научно-технической конференции «Проблемы разработки перспективных микроэлектронных систем - 2005», ИППМ РАН, Истра, 2005; Всероссийской научно-технической конференции «Проблемы разработки перспективных микроэлектронных систем - 2006», ИППМ РАН, Истра, 2006; Всероссийской научно-технической конференции «Проблемы разработки перспективных микро- и наноэлектронных систем - 2008», ИППМ РАН, Истра, 2008; Всероссийской научно-технической конференции «Проблемы разработки перспективных микро- и наноэлектронных систем - 2010», ИППМ РАН, Истра, 2010; международной научно-технической конференции «Современные телевизионные технологии. Состояние и направления развития», МНИТИ, Москва, 2004; международной научно-технической конференции «Современные телевизионные технологии. Состояние и направления развития», МНИТИ, Москва, 2006; VIII научно-технической конференции «Системы наблюдения, мониторинга и дистанционного зондирования Земли», МНТОРЭС им. A.C. Попова, Геленджик, 2011, и других конференциях.

По теме диссертации опубликована 68 научных работ. Из них в ведущих рецензируемых журналах, входящих в перечень, утвержденный ВАК - 32, тезисов докладов всероссийских конференций - 18 , одно авторское свидетельство об изобретении. Без соавторов опубликовано 43 работы. Основные научные результаты диссертации опубликованы в рецензируемых научных изданиях.

Структура и объем диссертации. Диссертационная работа состоит из введения, семи глав, заключения, списка использованной литературы и приложений. Общий объем диссертации - 377 страниц, объем основного текста - 270 страниц. В работе содержится 148 рисунков и 24 таблицы. Список литературы содержит 162 наименования.

Заключение диссертация на тему "Теория, разработка и создание проблемно-ориентированных процессорных ядер с оптимальным вычислительным конвейером и многоядерных сигнальных процессоров на их основе."

Выводы

1. Произведена экспериментальная проверка выведенных аналитических соотношений и их сравнительный анализ с ранее известными аналогичными формулами, в результате которого подтверждена более высокая точность полученных в данной работе результатов.

2. Применение DSP-ядер серии Elcore-хх при создании перечисленных микросхем сигнальных процессоров позволило обеспечить их производительность и энергоэффективность на уровне ведущих мировых производителей - фирм Analog Devices и Texas Instruments. Так, изготовленный по 0,13-мкм технологии процессор 1892ВМ10Я обеспечивает производительность большую, чем процессор TS203S фирмы Analog Devices: при вычислениях в формате плавающей точки -4 Гфлоп/с против 3,0 Гфлоп/с; а при вычислениях в 16-разрядном формате фиксированной точки - 16,0 млрд.оп/с против 12,0 млрд.оп/с. Время выполнения быстрого преобразования Фурье составляет для процессора 1892ВМ10Я 16,8 мкс, а для процессора TS203S - 19,4 мкс. При этом процессор Навиком-02Т потребляет меньшую мощность и соответственно обладает значительно лучшей энергоэффективностью - 3,33 Гфлопс/Вт против 1,35 Гфлопс/Вт у процессора TS203S.

3. DSP-кластер QElcore-09 в составе процессора 1891ВМ7Я, спроектированного по технологическим нормам 90 нм на тактовой частоте 500 МГц обеспечивают производительность 12 млрд. операций с плавающей точкой в секунду, что является на сегодняшний день наивысшим достижением среди отечественных сигнальных процессоров.

4. Применение сигнального процессора 1892ВМЗТ для реализации системы управления бортовыми приборами визуализации изображений (БПВ) позволило достичь следующих характеристик по производительности: 10-12 Гц при визуализации трехмерной сцены из 1200 треугольников и 18 Гц при формировании двухмерной карты сложностью 3 тыс. треугольников (10 тыс. вершин), 16 тыс. линий. Практическая производительность стадии растеризации составила 92% от теоретической оценки (4,9 млн. текстурированных пикселей в секунду).

5. Применение сигнального процессора 1892ВМ2Я при реализации системы обработки в реальном времени тепловизионных изображений, поступающих с матричного тепловизионного матричного фотоприёмного устройства, на основе процессора 1892ВМ2Я были достигнуты следующие результаты по производительности: при поступлении тепловизионных кадров размером 256x256 точек с частотой 50 Гц (разрядность данных - 14 бит на точку; интенсивность входного потока - 6,25 МБайт/с) загрузка по вычислениям микропроцессора 1892ВМ2Я составляет 90% (1,463,808 тактов на кадр).

6. При реализации стандартных алгоритмов сжатия изображений на базе процессоров серии «Мультикор» были достигнуты следующие результаты по производительности: сжатие неподвижных изображений размером 720x576 пикселей по стандарту JPEG на базе процессоров NVCom-01/NVCom-02T выполняется со скоростью 75 кадров в секунду, сжатие видео формата SD по стандарту MPEG-2 на базе этих же процессоров - со скоростью 31.25 кадров в секунду.

Заключение

Наиболее значимые результаты выполненной диссертационной работы состоят в следующем.

1. Выведены математические соотношения для функции производительности и оптимальной глубины однородного и неоднородного конвейера проблемно-ориентированных процессорных ядер при наличии в исполняемом приложении программных переходов и зависимостей по данным. Разработан дискретный метод определения оптимальной глубины неоднородного конвейера. Предложенный метод, за счет более точного определения оптимальной глубины конвейера, позволяет получить на некоторых приложениях выигрыш в производительности более 20% по сравнению с ранее известными аналитическими методами.

2. Разработана методика оптимизации структуры вычислительного тракта проблемно-ориентированных процессорных ядер с учётом статистических характеристик исполняемых программ и временных характеристик используемого технологического базиса. Применение предложенной методики, за счет сокращения итеративности, позволяет уменьшить общее время проектирования на 2030%.

3. На основе предложенной методики разработана серия масштабируемых рекон-фигурируемых ББР-ядер ЕЬсоге-хх для многоядерных сигнальных процессоров.

4. Разработаны принципы и способы построения многоядерных кластеров на основе ОБР-ядер ЕЬсоге-хх, реализация которых обеспечивает масштабируемость, требуемую скорость обмена данными и синхронизацию вычислительных потоков в ядрах. Разработан аппаратный способ синхронизации вычислительных потоков в процессорных ядрах многоядерной системы для задач типа «производитель-потребитель» на основе применения специализированного буфера обмена с усовершенствованной логикой управления, позволяющий в несколько раз повысить скорость выполнения таких обменов.

5. На основе разработанных ЭБР-ядер созданы микросхемы сигнальных процессоров серий 1891 и 1892 «Мультикор»: 1892ВМЗТ, 1892ВМ2Я, 1892ВМ4Я, 1892ВМ5Я, 1892ВМ7Я, 1892ВМ8Я, 1892ВМ10Я, 1892ВМ11Я, 1891ВМ7Я. Созданные микросхемы обладают производительностью от 240 миллионов до 12 миллиардов операций с плавающей точкой в секунду, что соответствует мировому уровню для сигнальных процессоров данного класса.

6. В результате проведенной оптимизации ББР-ядра имеют относительно короткий конвейер - от 3 до 7 фаз (для сравнения, конвейер процессоров ТлдегЗНАЫС содержит 10 фаз). Это позволило, при сохранении требуемой производительности, уменьшить энергопотребление, и тем самым значительно повысить энергоэффективность созданных процессоров. Например, сравнение изготовленных по технологии 130 нм процессоров 1892ВМ10Я и Т82038 ОЩе^НАШ:) показывает, что процессор 1892ВМ10Я обладает в 2,5 раза лучшей энергоэффективностью - 3,33 Гфлопс/Вт против 1,36 Гфлопс/Вт.

7. Микросхемы 1892ВМЗТ, 1892ВМ2Я, 1892ВМ4Я, 1892ВМ5Я, 1892ВМ8Я включены в «Перечень электрорадиоизделий, разрешенных к применению при разработке (модернизации), производстве и эксплуатации аппаратуры, приборов, устройств и оборудования военного назначения» Министерства обороны РФ. Микросхемы серии 1892 «Мультикор» внедрены при разработке аппаратуры более чем на 100 предприятиях.

8. Таким образом, представленная диссертация является научно-квалификационной работой, в которой изложены научно обоснованные технические решения, направленные на создание проблемно-ориентированных процессорных ядер с оптимальным вычислительным конвейером и многоядерных сигнальных процессоров на их основе, внедрение которых вносит значительный вклад в развитие страны.

Библиография Беляев, Андрей Александрович, диссертация по теме Элементы и устройства вычислительной техники и систем управления

1. Таненбаум Э. Архитектура компьютера, 4-е изд. Спб.: Питер, 2003. - 704 с.

2. Столлингс В. Структурная организация и архитектура компьютерных систем. Проектирование и производительность. 5-е издание. Москва, 2002. 896 с.

3. Микропроцессоры и микропроцессорные комплекты интегральных микросхем. Под ред. Шахнова В.А. М.: "Радио и связь" ,1988. Т.1, (Т.2) - 368 е., (368 с.)

4. Корнеев В. В. Современные микропроцессоры / Корнеев В. В., Киселев А. В. -3-е изд. СПб. : БХВ - Петербург, 2003. - 448 с.

5. Хамахер К., Вранешич 3., Заки С. Организация ЭВМ. Спб.:Питер, 2003 - 848с.

6. Микропроцессоры. В 3-х кн. // Нестеров П.В.,.Шаньгин В.Ф, Горбунов В.Л.и др.; Под ред. Преснухина Л.Н. М.: "Высшая школа", 1986. Кн.1: Архитектура и проектирование микроЭВМ. Организация вычислительных процессов. 495 с.

7. Микропроцессорные системы. Под ред. Пузанкова Д.В. «Политехника», С.Петербург, 2002. 935 с.

8. Современные высокопроизводительные компьютеры. Информационно-аналитический обзор. -М.:ЦИТ, 1997.9. http://www.intel.com/10. http://www.amd.com/11. http://www.arm.com/12. http://www.mips.com/13. http://www.sun.com/

9. Intel®64 and IA-32 Architectures Software Developer's Manual. Intel Corporation, 2011.

10. MIPS32® Architecture For Programmers. Volume IV-e: The MIPS® DSP Application-Specific Extension to the MIPS64® Architecture. MIPS Technologies. April 06, 2010.

11. Gries M. and Keutzer K. Building ASIPs: The Mescal Methodology. Springer, Berlin, Heidelberg, 2005.17.1enne, P. and Leupers, R. editors, Customizable Embedded Processors: Design Technologies and Applications. Morgan Kaufmann, Los Altos, CA, July 2006.

12. Liu D. Embedded DSP Processor Design: Application Specific Instruction Set Processors. Morgan Kaufmann, 2008.

13. Schliebusch О., Meyr H., Leupers R.Optimized ASIP Synthesis from Architecture Description Language Models. — Dordrecht: Springer, 2007.

14. Jerraya A.A., Wolf W. Multiprocessor Systems-on-Chips (Design Space Exploration). Springer, 2005.

15. Hiibner M., Becker J. Multiprocessor System-on-Chip: Hardware Design and Tool Integration. Springer, 2010.

16. Ehliar A. Design of Embedded DSP Processors. Linkoping University, 2011.

17. Каган Б.М. Электронные вычислительные машины и системы. М.; Энергоатом-издат, 1991.- 592 с.

18. Галушкин А.И. Нейрокомпьютеры в системах обработки сигналов. М.; Радиотехника, 2003. - 224 с.

19. Von Neumannn J. First Draft of a Report on the ED VAC. Moore School, University of Pensylvania, 1945.

20. Flynn M. Very high-speed computing system // In proceddings of IEEE. 1966. N 54. P.1901-1909.

21. Flynn M. Some Computer Organisations and Their Effectiveness // In proceddings of IEEE Trans. Computers. 1972. V.21. N 9. P.948-960.28. http://www.analog.com/29. http://www.ti.com/

22. Беляев А.А., Путря Ф.М. Глобальный коммутатор для многоядерного процессора с несимметричным доступом к памяти // Вопросы радиоэлектроники, серия ЭВТ. 2008. Вып. 3. С. 28-39.

23. Солонина А., Улахович Д., Яковлев JI. Алгоритмы и процессоры цифровой обработки сигналов. С-Пб, «БХВ-Петербург», 2002 г. 464 с.

24. TMS320C64x Technical Overview. Texas Instruments. SPRU395B January 2001.

25. TMS320C64x/C64x+ DSP CPU and Instruction Set Reference Guide. Texas Instruments. SPRU732H October 2008.

26. TMS320DM6467 Digital Media System-on-Chip. Texas Instruments. SPRS403E -December 2007.

27. ADSP-219x/2192 DSP Hardware Reference Revision 1.1, April 2004 Part Number 82-002001-01 Analog Devices, Inc.

28. TigerSHARC®Embedded Processor ADSP-TS203S 2006 Analog Devices, Inc.

29. ADSP-TS201 TigerSHARC® Processor Programming Reference Revision 1.1, April 2005 Part Number 82-000810-01 Analog Devices, Inc.

30. Рябов Г.Г. Поэлементное моделирование вычислительных систем — М., 1978.

31. Кривченко И. Системы на кристалле: общее представление и тенденции развития. Компоненты и технологии.№6, 2001г.

32. Бухтеев А.В. Методы и средства проектирования систем на кристалле. Chip News №4, 2003. с.4-14.

33. РТМ «Сложно-функциональные блоки. Общие требования к разработке», ШИЛГ 430109.004 РМ. ФГУП «НИИМА «Прогресс» — М„ 2002.

34. РТМ «Состав информации и форматы её передачи для цифровых СФ блоков», ШИЛГ 430109.002 РМ. ФГУП «НИИМА «Прогресс» — М„ 2002.

35. РТМ «Состав и форматы передачи информации для тестирования цифровых СФ блоков», ШИЛГ 430109.003 РМ. ФГУП «НИИМА «Прогресс» — М., 2002.

36. Немудров В., Мартин Г. Проектирование систем на кристалле. Техносфера. — М., 2004г., 216 с.

37. Michael J. Flynn, Patrick Hung, Kevin W. Rudd. Deep-Submicron Microprocessor Design Issues // IEEE Micro, Vol. 19, No. 4, July/Aug. 1999, pp. 11-22.

38. Marc Duranton. The challenges for high performance embedded systems // Proceedings of 9th EUROMICRO Conference on Digital System Design (DSD'06),2006,pp.3-7.

39. Borkar S. Design Challenges of Technology Scaling // IEEE Micro, Vol. 19, No. 4, July/Aug. 1999, pp. 23-29.

40. Ullman J.D. Computational Aspects of VLSI. // Computer Science Press, Rockville, Md.,1984, pp. 42-79.

41. Vikas Agarwal, Hrishikesh Stephen, Keckler W., Doug Burger. Clock Rate versus IPC: The End of the Road for Conventional Microarchitectures // Proceedings of the 27 Annual International Symposium on Computer Architecture, 2000,pp.248 259.

42. Коуги П.М. Архитектура конвейерных ЭВМ // Пер. с англ.— М.: Радио и связь,1985. 360 с.

43. Hartstein A. and Puzak Т. R. The optimum pipeline depth for a microprocessor. //Proceedings of the 29th Annual International Symposium on Computer Architectures, pp. 7- 13, 2002.

44. Hrishikesh M., Jouppi N., Farkas K., Burger D., Keckler S. and Shivakumar P. The optimal logic depth per pipeline stage is 6 to 8 F04 inverter delays // Proceedings of the 29th Annual Int Symposium on Computer Architectures, pp.14 24, 2002.

45. Sprangle E. and Carmean D. Increasing processor performance by implementing deeper pipelines // Proceedings of the 29th Annual International Symposium on Computer Architectures, pp. 25 35, 2002.

46. Srinivasan V., Brooks D., Gschwind M., Bose P., Zyuban V., Strenski P. N. and Emma P. G. Optimizing pipelines for power and performanc. // Proceedings of the 35th Annual IEEE/ACM International Symposium on Microarchitecture, pp.333 -344, 2002.

47. Kunkel S.R. and Smith J.E. Optimal pipelining in supercomputers // Proceedings of the 13th Annual International Symposium on Computer Architectures, pp. 404 411,1986.

48. Emma P.G., Davidson E.S. Characterization ob Branch and Data Dependencies in Programs for Evaluating Pipeline Performance // IEEE Trans. On Computers, Vol.C-36, N0.7, July 1987, pp.859-875.

49. Hartstein A., Puzak T.R. Optimum Power/Performance Pipeline Depth // Proceedings of the 36th International Symposium on Microarchitecture (MICRO-36'03), pp.117 -125, 2003.

50. MIPS32™ Architecture For Programmers. Volume I: Introduction to the MIPS32™ Architecture. MIPS Technologies. March 12, 2001.

51. Беляев A.A. Влияние программных переходов и зависимостей по данным в исполняемом программном коде на производительность конвейера DSP-ядра // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2009. №3. С. 75-80.

52. Беляев A.A. Оптимальная по производительности глубина программного конвейера для приложений с программными переходами и зависимостью по данным // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2010. №2(82). С. 48-51.

53. Беляев A.A. Влияние глубины конвейера на производительность процессора // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2009. № 6(80). С. 50-53.

54. Беляев A.A. Оптимизация по критерию быстродействия приложений для DSP-ядер ELcore-xx с различной глубиной конвейеризации // Вопросы радиоэлектроники. Серия ЭВТ. М„ 2008. Вып. 3. С. 99-112.

55. Беляев A.A. Анализ влияния глубины конвейера на производительность проблемно-ориентированного процессора для случая неоднородного конвейера // Вопросы радиоэлектроники, Серия общетехническая. М., 2012. Вып. 2. С. 8896.

56. Беляев A.A. К вопросу развития теории конвейерных вычислений для проблемно-ориентированных процессоров // Оборонная техника. М.: ФГУП «НТЦ «Ин-формтехника», 2012. № 1. С. 45^17.

57. Беляев А. А. Анализ влияния глубины конвейера на производительность проблемно-ориентированного процессора для случая неоднородного конвейера // Вопросы радиоэлектроники, серия Общетехническая. М., 2012. - Вып.5, - С. 88-96.

58. Bailey В., Martin G., and Piziali A. ESL Design and Verification. Morgan Kaufmann, Los Altos, CA, 1st ed., 2007.

59. Кини P.Jl., Райфа X. Принятие решений при многих критериях: предпочтения и замещения. — М: Радио и связь, 1981. — 560 с.

60. Markovic D., Stojanovic V., Nikolic В., Horowitz M.A, and Brodersen R.W. Methods for true energy-performance optimization // IEEE J. Solid-State Circuits, vol. 39, pp. 1282-1293, Aug. 2004.

61. Chandrakasan A.P, Sheng S., Brodersen R.W. Low power CMOS digital design // IEEE J. Solid-State Circuits, vol. 27, pp. 473^*84, Apr. 1992.

62. Беляев A.A. Способы оптимизации вычислительного тракта проблемно-ориентированных процессоров // Техника и технология. М.: Спутник Плюс, 2012. №3. С. 51-53.

63. Беляев A.A. Разработка системы теоретических моделей для оптимизации вычислительного тракта проблемно-ориентированных процессоров // Техника и технология. М.: Спутник Плюс, 2012. № 3. С. 48-50.

64. Беляев A.A., Солохина Т.В., Юдинцев В.А. Современные устройства цифровой обработки сигналов. Вместе или врозь? // Электроника: Наука, Технология, Бизнес. 2009. № 1.С. 28-35.

65. Преснухин Н., Воробьев Н.В., Шишкевич A.A. Расчет элементов цифровых устройств. Москва, Издательство Высшая школа, 1991. 384 с.

66. Стемпковский A.J1. Методы логического и логико-временного анализа цифровых КМОП СБИС // А.Л. Стемпковский, C.B. Гаврилов, А.Л. Глебов ; под общ. ред. А.Л. Стемпковского ; Ин-т проблем проектирования в микроэлектронике РАН. — М. : Наука, 2007. — 218 с.

67. Artisan Components. 1st Silicon (Malaysia) Sdn. Bhd. 0.25mm Process 2.5-Volt // SAGETM Standard Cell. Library Databook. - September 2002. - Release 2.0.

68. Петричкович Я.Я., Филатов В.Н., Заболотный А.Е., Максимов В.А. Конвейеризация суммирующих устройств // Электронная техника. Сер. 10. Микроэлектронные устройства, 1987, вып. 5/65/, с. 3-6.

69. Филатов В.Н., Петричкович Я.Я., Максимов В.А., Заболотный А.Е. Конвейеризация схем с помощью графов» // Электронная техника. Сер. 10. Микроэлектронные устройства, вып. 1/61/, 1987, с. 42-47.

70. Беляев A.A. Влияние характеристик памяти на выбор структуры конвейера DSP-ядра // Вопросы радиоэлектроники, серия Общетехническая. М.: 2011. Вып. 1.С. 68-77.

71. Беляев A.A. Неконвейеризуемые операции как фактор ограничения производительности DSP-ядра // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2009. № 4. С. 56-60.

72. Беляев A.A. Процессорные ядра сигнальной обработки для многоядерных систем на кристалле // Оборонная техника. М.: ФГУП «НТЦ «Информтехника», 2011. №8. С. 52-53.

73. Беляев A.A. DSP-ядра серии ELcore-xx™ для многоядерных вычислительных систем на кристалле // Техника и технология. М.: Спутник-Плюс, 2010. № 6(41). С. 17-19.

74. Беляев A.A. Реконфигурируемые DSP-ядра для многоядерных систем на кристалле // Материалы научной конференции "Зеленоград космосу". М.: МНТО-РЭС им. A.C. Попова, 2011. С. 85-88.

75. Беляев A.A. Реконфигурируемая структура регистровых файлов DSP-ядер EL-core-хх™ платформы «Мультикор» // Оборонный комплекс научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2011. № 2. С. 16-19.

76. Беляев A.A. Обработка и хранение различных типов данных в DSP-ядре ELcore-30 // Техника и технология. М.: Спутник Плюс, 2011. № 1(42). С. 29-31.

77. Беляев A.A. Построение реконфигурируемого тракта обработки данных в сигнальных процессорах с VLIW-архитектурой // Известия высших учебных заведений. Электроника. М„ 2011. №3 (89). С. 64-68.

78. Беляев A.A. Проблемы применения принципа параллелизма в архитектуре сигнальных процессоров // Оборонный комплекс научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2011. № 3. С. 31-35.

79. Беляев A.A. Векторные АЛУ и архитектура SIMD: два уровня параллелизма в архитектуре сигнальных процессоров // Техника и технология. М.: Спутник Плюс, 2011. № 2(43). С. 23-25.

80. Беляев A.A. О реализации принципа параллелизма в архитектуре сигнальных процессоров // Оборонная техника. М.: ФГУП «НТЦ «Информтехника», 2011. № 6-7. С. 68-70.

81. Беляев A.A. Два способа реализации SIMD-распараллеливания в архитектуре сигнальных процессоров // Оборонная техника. М.: ФГУП «НТЦ «Информтех-ника», 2012. № 1. С. 42^14.

82. Беляев A.A. Реализация SIMD-распараллеливания в сигнальных процессорах платформы «Мультикор» // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2012. № 2(94). С. 67-70.

83. Беляев A.A. Организация аппаратной поддержки программных циклов в процессорах обработки сигналов // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2011. № 6(92). С. 49-54.

84. Беляев A.A. Аппаратная поддержка программных циклов в сигнальных процессорах с глубоким конвейером // Оборонная техника. М.: ФГУП «НТЦ «Ин-формтехника», 2011. № 6-7. С. 70-73.

85. Беляев A.A. Структура конвейера адресных генераторов для ядер цифровых сигнальных процессоров // Оборонный комплекс научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2012. № 1. С. 17-18.

86. Беляев A.A. Реконфигурируемая гарвардская архитектура сигнальных процессоров платформы «Мультикор» // Оборонный комплекс научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2011. № 2. С. 7-10.

87. Беляев A.A. Гарвардская архитектура с реконфигурируемой памятью программ и данных // Техника и технология. М.: Спутник-Плюс, 2010. № 6 (41). С. 14-16.

88. Дубинин В. Н., Зинкин С. А. Проектирование вычислительных систем и сетей на основе сетевых формализмов. Пенза: Изд-во Пенз. гос. ун-та, 1998. -322 с.

89. Беляев A.A. Построение мультипроцессорных систем на базе DSP-ядер EL-соге-хх™ // Техника и технология. М.: Спутник-Плюс, 2010. № 6 (41). С. 2023.

90. Беляев A.A. Организация многоядерных кластеров на базе DSP-ядер ELcore-хх™ // Оборонный комплекс научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2011. № 2. С. 11-16.

91. Беляев A.A. Средства межпроцессорного взаимодействия в DSP-кластерах платформы «Мультикор» // Оборонная техника. М.: ФГУП «НТЦ «Информтех-ника», 2011. №8. С. 56-57.

92. Александров Ю.Н., Беляев A.A., Солохина Т.В. Способ синхронизации вычислительных потоков в многоядерной системе на кристалле // Оборонный комплекс научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2011. №4. С. 19-22.

93. Беляев A.A. Усовершенствованный способ синхронизации вычислительных потоков в многоядерной системе на кристалле // Оборонный комплекс научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2012. № 2. С. 27-30.

94. Солохина Т.В., Александров Ю.Н., Петричкович Я.Я. Сигнальные контроллеры компании «Элвис»: первая линейка отечественных DSP // Электроника: Наука, Технология, Бизнес. 2005. - №7. - С. 70-77.

95. Солохина Т.В., Петричкович Я.Я., Глушков A.B., Беляев A.A. и др. Время кентавров: Микросхемы серии Мультикор-llxx (МС-11хх) для встраиваемых и мобильных применений // Chip News. 2002. № 8(71). С. 10-17.

96. Солохина Т.В., Петричкович Я.Я., Глушков A.B., Александров Ю.Н., Глушков В.Д., Семенович A.M., Беляев A.A. и др. Мультикор-128 сигнальный контроллер с плавающей точкой для высокоточных встраиваемых применений // Chip News. 2003. № 8(81). С. 4-15.

97. Солохина Т.В., Петричкович Я.Я., Александров Ю.Н., Герасимов Ю.М., За-болотнов И.В., Алексеев М.Н., Беляев A.A. и др. Микросхемы базовых серий «МУЛЬТИКОР». Сигнальный микроконтроллер 1892ВМ2Т (МС-24) // Chip News. 2005. № 2(95). С. 20-31.

98. Солохина Т.В., Петричкович Я.Я., Александров Ю.Н., Герасимов Ю.М., За-болотнов И.В., Алексеев М.Н., Беляев A.A. и др. Микросхемы базовых серий

99. МУЛЬТИКОР». Сигнальный микроконтроллер 1892ВМ2Т (МС-24) // Chip News. 2005. № 3(95). С. 20-26.

100. Петричкович Я.Я., Солохина T.B. SoC серии «МУЛЬТИКОР» первый шаг и положительная динамика развития // Компоненты и технологии, №5, 2003г., с.104-106.

101. Петричкович Я.Я., Солохина T.B. SoC серии «МУЛЬТИКОР» первый шаг и положительная динамика развития // Компоненты и технологии, №6, 2003г., с. 140-143.124. http: // www.multicore.ru

102. Беляев A.A., Солохина Т.В. Архитектура высокопроизводительных сигнальных контроллеров МС-0428 семейства «МУЛЬТИКОР» // Вопросы радиоэлектроники. Серия Общетехническая. М., 2011. Вып. 1. С. 25-34.

103. Беляев A.A. Сигнальные процессоры платформы «Мультикор»: основные характеристики и особенности архитектуры // Оборонный комплекс научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2011. № 1. С. 85-87.

104. Беляев A.A., Путря Ф.М. Выбор оптимальной структуры функционально полного контроллера шины SPI с 32-разрядным интерфейсом // Известия высших учебных заведений. Электроника. М.: МИЭТ, 2006. №4. С. 71-75.

105. Беляев A.A., Путря Ф.М. Проектирование СФ-блока контроллера шины SPI с интерфейсом АМВА // Тезисы докладов научно-технической конференции «Электроника и информатика». М., 2005. С. 180.

106. Беляев A.A. Радиационно-стойкий сигнальный процессор 1892ВМ8Я // Материалы VIII научно-технической конференции «Системы наблюдения, мониторинга и дистанционного зондирования Земли». М.: МНТОРЭС им. A.C. Попова, 2011. С. 338-340.

107. Беляев A.A. Функциональные возможности, основные параметры и условия эксплуатации сигнального процессора 1892ВМЗТ // Оборонная техника. М.: ФГУП «НТЦ «Информтехника», 2011. № 8. С. 71-72.

108. Беляев A.A. Организация работы конвейера сигнальных процессоров платформы «Мультикор» // Оборонная техника. М.: ФГУП «НТЦ «Информтехника», 2011. №8. С. 54-55.

109. Беляев A.A. Функциональные возможности, основные параметры и условия эксплуатации сигнального процессора 1892ВМ2Я // Оборонный комплекс научно-техническому прогрессу России. М.: ФГУП «ВИМИ», 2012. № 2. С. 25-26.

110. Беляев A.A. Реконфигурируемые вычислители на основе многоядерных DSP-систем // Оборонная техника. М.: ФГУП «НТЦ «Информтехника», 2012. № 1. С. 37-41.

111. Беляев A.A., Путря Ф.М., Солохина Т.В., Юдинцев В.А. Многоядерные процессоры для устройств связи. Перспективы и проблемы // Электроника: Наука, Технология, Бизнес. Мм 2011. № 8. С. 90-104.

112. Беляев A.A., Александров Ю.Н., Глушков A.B., Солохина Т.В., Петричкович Я.Я. Отечественные трехядерные сигнальные микроконтроллеры с производительностью 1,5 GFLOPS // Электроника: Наука, Технология, Бизнес. 2006. № 6. С. 73-78.

113. Беляев A.A. Архитектура модуля оценки движения для видеопроцессора // Техника и технология. М.: Спутник Плюс, 2012. № 3. С. 45-47.

114. Беляев A.A. Сигнальный микроконтроллер для видеоприложений // Вопросы радиоэлектроники, Серия общетехническая. М., 2006. Вып. 2. С. 48-58.

115. ISO/IEC 13818-2 Video, international standard, 1994.

116. Information Technology-Coding of Audio-Visual Objects-Part 2: Visual, ISO/IEC 14496-2, 1999.

117. ITU-T Recommendation H.264 and ISO/IEC 14496-10 A VC, 2003.

118. Pennebaker W.B., Mitchell J.L. JPEG Still Image Data Compression Standard// VNR, New York, 1992.

119. Ю.Н.Александров,О.Н.Зинченко,Е.С.Колобанова. «Цифровой охранный радиолокатор KU-диапазона» // Вопросы радиоэлектроники. ,Серия общетехническая, Выпуск 2, Москва,2006г.,с.115-125.

120. Беляев A.A., Кузьмичёв A.M. Цифровая обработка видеоинформации в многоканальной аппаратуре дистанционного зондирования Земли на ПЛИС с ограниченными ресурсами встроенной блочной памяти // Труды НИИР. М., 2011. № 4. С. 20-24.

121. Беляев A.A., Кузьмичёв A.M. Усовершенствованный кодер ДИКМ многоканальных ИОЭП СППИ КА ДЗЗ // Труды VI Научно-технической конференции "Системы наблюдения, мониторинга и дистанционного зондирования Земли". М.: МНТОРЭС им. A.C. Попова. 2009. С. 104-113.

122. Беляев A.A. Аппаратная реализация сжатия изображений методом ДИКМ в системах дистанционного зондирования Земли // Материалы научной конференции "Зеленоград космосу". М.: МНТОРЭС им. A.C. Попова, 2011. С. 82-84.