Вычислительные устройства с параллельной и изменяемой архитектурой для задач обработки изображения

Аряшев, Сергей Иванович

Элементы и устройства вычислительной техники и систем управления

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.05, диссертация на тему:Вычислительные устройства с параллельной и изменяемой архитектурой для задач обработки изображения

кандидата технических наук: Аряшев, Сергей Иванович
город: Москва
год: 2002
специальность ВАК РФ: 05.13.05

Диссертация по информатике, вычислительной технике и управлению на тему «Вычислительные устройства с параллельной и изменяемой архитектурой для задач обработки изображения»

Оглавление автор диссертации — кандидата технических наук Аряшев, Сергей Иванович

ВВЕДЕНИЕ.

1. Анализ области применения, обработка изображения в реальном времени.

1.1. Постановка задачи.

1.1.1. Характеристики обрабатываемых изображений.

1.1.2. Обработка в реальном времени.

1.1.3. Этапы обработки изображений в реальном времени

1.2. Методы обработки телевизионных и тепловизионных изображений.

1.2.1. Фильтрация.

1.2.2. Повышение контрастности.

1.2.3. Выделение контуров.

1.2.4. Распознавание по эталону.

1.2.5. Распознавание с преобразованием.

1.3. Требования к производительности вычислительной системы.

1.3.1. Оценка объема вычислений для алгоритма свертки

1.3.2. Оценка объема вычислений при реализации БПФ.

1.4. Нейросетевые алгоритмы распознавания образов.

Выводы.

2. Вычислительные устройства с параллельной и изменяемой архитектур ой.

2.1. Выбор вычислительных устройств, удовлетворяющих поставленным требованиям.

2.1.1. Классификация вычислительных устройств.

2.1.2. Универсальные процессоры.

2.1.3. Цифровые процессоры.

2.1.4. Многопроцессорные системы.

2.1.5. Специализированные вычислительные устройства

2.2. Нейрокомпьютеры, как специализированные вычислительные устройства.

2.2.1. Общие характеристики.

2.2.2. Эмуляционный подход.

2.2.3. Аппаратные нейрочипы.

2.3. Перепрограммируемые вычислительные устройства на базе FPGA микросхем.

2.4. Разработка вычислительных устройств с параллельной и изменяемой архитектурой.

2.4.1. Этапы разработки.

2.4.2. Параметры вычислительных устройств.

2.4.3. Принципы разработки и методы реализации архитектуры.

2.4.4. Методы повышения производительности.

2.5. Реализация вычислительных устройств с изменяемой архитектурой.

2.5.1. Краткое описание вычислителя.

2.5.2. Структурная схема.

2.5.3. Основные характеристики.

2.6. Программное обеспечение вычислительных устройств с параллельной и изменяемой архитектурой.

2.6.1. Идеи разработки программного обеспечения.

2.6.2 Характеристики программного обеспечения.

2.6.3. Библиотеки узлов и функций.

2.6.4. Методика решения задач обработки изображения при использовании вычислительных устройств с изменяемой архитектурой.

Выводы.

Управляющий процессор.

3.1. Краткое описание и структурная схема.

3.2. Методы разработки и моделирования.

3.3. Регистры и память программ.

3.4. Набор команд.

3.4.1. RISC команды.

3.4.2. VLIW команды.

3.5. Конвейер с изменяемой глубиной.

3.6. Аппаратные способы повышения производительности.

3.7. Программное обеспечение.

3.7.1. Среда разработки.

3.7.2. Транслятор.

3.7.3. Трассировщик.

3.7.4. Пример программ.

Выводы.

4. Блок векторной обработки.

4.1. Общие подходы.

4.1.1. Пространственный и временной параллелизм.

4.1.2. Векторная обработка и потоковая машина.

4.1.3. Вычислительные ресурсы FPGA микросхем.

4.2. Реализация блока векторной обработки для ряда задач обработки изображений.

4.2.1. Методы разработки.

4.2.2. Схема перемножения матриц.

4.2.3. Схемы реализаций нейронных сетей.

4.2.4. Архитектура для алгоритмов работы в окне.

4.2.5. Использование в других областях.

4.3. Производительность вычислительных устройств.

4.3.1. Оценочная производительность.

4.3.2. Реальная производительность.

4.3.3. Зависимость производительности от разрядности и количества вычислительных элементов.

4.4. Каскадирование вычислительных устройств.

4.4.1. Устройство управления последовательным каналом

4.4.2. Построение вычислительных систем.

4.5. Дальнейшее развитие вычислительных устройств.

Выводы.

Введение 2002 год, диссертация по информатике, вычислительной технике и управлению, Аряшев, Сергей Иванович

Развитие информационных технологий стимулирует исследования и разработку методов и аппаратных средств для таких областей как обработка изображений, распознавание образов и моделирование нейронных сетей. Отличительной чертой многих задач, свойственных данным областям, является большое количество простых базовых операций (сложение, умножение с накоплением, сравнение, пороговые функции) и возможность параллельного выполнения этих операций.

Так как решение задач такого класса на стандартных компьютерах требует больших временных затрат, а используемые для их решения алгоритмы хорошо распараллеливаются, наиболее перспективным и динамичным направлением увеличения скорости вычислительных систем является широкое внедрение идей параллелизма в их работу. К настоящему времени спроектированы и опробованы сотни типов различных компьютеров, использующих в своей архитектуре тот или иной вид параллельной обработки данных. В научной литературе и технической документации можно найти более десятка различных названий, характеризующих лишь общие принципы функционирования параллельных машин: векторно-конвейерные, массивно-параллельные, компьютеры с широким командным словом, систолические массивы, гиперкубы, спецпроцессоры и мультипроцессоры, иерархические и кластерные компьютеры, потоковые машины, матричные ЭВМ и многие другие.

Из всего этого множества можно выделить три основных общих варианта реализации систем, позволяющих достигнуть требуемой производительности для обработки изображения в реальном времени:

• использование универсальных многопроцессорных вычислительных систем;

• использование систем на сигнальных процессорах;

• использование специализированных ускорительных плат, предназначенных для решения конкретной задачи.

В силу того, что обработка двумерных изображений, распознавание голоса и образов, обработка трехмерных изображений, сжатие и кодирование требуют больших объемов не сложных, но специализированных операций, оптимальным вариантом является использование специализированных устройств, таких как специализированные дополнительные платы и специализированные блоки IP(intellectual property) в составе универсального процессора.

Основные отличия систем, реализованных на универсальных процессорах, от систем, реализованных на аппаратных процессорах, очевидны. Первые системы могут использоваться для решения любого типа задач, для них существуют развитые средства разработки и отладки. Однако универсальные процессоры существенно медленнее аппаратных и ряд таких задач, как обработка изображения в реальном времени решены такими процессорами быть не могут. Аппаратные процессоры имеют производительность на порядки большую производительности универсальных, однако, стоимость и время разработки таких вычислительных устройств на порядки выше универсальных.

Кроме того, задачи обработки изображения в реальном времени для систем встроенного применения можно решить, применяя только аппаратные процессоры, так как в этих системах существенную роль играют масса, габаритные размеры и потребляемая мощность.

Существует большое количество как систем, реализованных на цифровых и на специализированных процессорах (триггерные системы в электронике физических установок, устройства обработки 3D графики, аппаратные кодировщики), так и систем на базе перепрограммируемых микросхем, настроенных под конкретный ряд задач (молекулярная биология). Однако эти системы разрабатываются заново при переходе на задачу другого класса.

В работе предлагается, в какой-то степени, универсальное вычислительное устройство, позволяющее создавать вычислительные устройства, решающие конкретную задачу с быстродействием характерным для специализированных устройств. Использование в предлагаемых вычислительных устройствах FPGA микросхем имеет ряд преимуществ. Используя библиотечные элементы и заданные возможности вычислителя, определяемые классом решаемых задач, разработчик системы в полуавтоматическом режиме программирует архитектуру вычислителя, учитывающую особенности задачи.

Изменяемая архитектура позволяет эффективно адаптировать архитектуру вычислительного устройства под структуру задачи и повысить удельную производительность вычислительного устройства за счет устранения аппаратной избыточности. Производительность такого вычислительного устройства более чем в 100 раз превышает производительность универсального процессора, а время и стоимость разработки снижаются более чем в 10 раз, так как нет необходимости для каждой задачи разрабатывать свое вычислительное устройство.

Возможность снижения стоимости и сроков разработки вычислительных устройств для задач обработки изображения в реальном времени является весьма актуальной для России, особенно сейчас, когда имеются весьма ограниченные ресурсы разработки.

Более того, рынок таких изделий в России фактически отсутствует, а то, что может быть приобретено, дорого и не может быть использовано в индустриальном применении, так как не функционирует в жестких условиях внешних воздействий.

Разработка устройств с изменяемой архитектурой является актуальной научно-технической задачей, требующей новых методик моделирования, оригинальных архитектурных, схемных и алгоритмических решений. На важность работы указывает большое количество публикаций по этой теме в отечественной и зарубежной литературе.

Цель диссертации заключается в научном исследовании, направленном на развитие теории и практики построения вычислительных устройств с параллельной и изменяемой архитектурой для обработки информации в реальном времени с производительностью, превышающей на ряде задач более чем в 100 раз производительность универсального процессора, и на развитие схемотехнических и алгоритмических методов построения базовых узлов и блоков таких вычислительных устройств.

Для достижения цели был использован комплексный подход, включающий исследование алгоритмов, моделирование потоков данных, разработку архитектуры, узлов и программного обеспечения, экспериментальное подтверждение идеи на реализованном изделии.

Состояние вопроса определяет необходимость:

• провести анализ алгоритмов обработки изображения;

• провести исследование структурно-схемотехнических решений;

• провести исследование способов, протоколов и алгоритмов.

В соответствии с этим были определены следующие основные задачи:

• анализ методов обработки изображения, определение типовых операций, выделение алгоритмов для аппаратной реализации;

• анализ принципов построения и способов повышения производительности вычислительных устройств, применяемых для обработки изображения в реальном времени;

• анализ и выбор методов повышения производительности вычислительных устройств с изменяемой архитектурой;

• разработка методики реализации алгоритмов на вычислительных устройствах с изменяемой архитектурой;

• разработка архитектуры вычислительных устройств с изменяемой архитектурой, объединяющей RISC архитектуру управляющего процессора с VLIW архитектурой блока векторной обработки;

• разработка обобщенной модели и выбор конкретных реализаций управляющего процессора с изменяемой архитектурой;

• разработка архитектуры и узлов блока векторной обработки;

• разработка программного обеспечения, базовых узлов и микропрограмм, позволяющих аппаратно выполнять выделенные алгоритмы;

• разработка методики проведения исследований и испытаний предлагаемого вычислительного устройства.

Методы исследования

Программные модели алгоритмов обработки изображения разрабатывались на языке высокого уровня СИ. Ассемблер для управляющего процессора написан на ДССП (Диалоговой Системы Структурированного Программирования).

В качестве инструмента разработки управляющего процессора и вычислительных элементов использован язык описания аппаратуры Verilog и AHDL. Для моделирования узлов, получения моделей с реальными задержками и загрузки микросхем использовалась система проектирования FPGA микросхем MAX+plusII фирмы Altera.

Для поведенческого и RTL моделирования конечной архитектуры использовался VerilogXL фирмы Cadence.

Научная новизна и значимость диссертации

Предложена идея построения нового типа вычислительных устройств для обработки изображения и другой информации в реальном времени - вычислительных устройств с параллельной и изменяемой архитектурой. Отличительной чертой таких устройств является возможность эффективно настраивать архитектуру вычислительного устройства под структуру задачи и повысить удельную производительность за счет устранения аппаратной избыточности.

Разработана теория проектирования и реализации вычислительных устройств с параллельной и изменяемой архитектурой, позволяющая в короткий срок создавать аппаратные процессоры, решающие конкретную задачу в реальном времени и отличающиеся от существующих специализированных вычислителей возможностью настройки архитектуры на различные задачи обработки изображения.

Исследованы классические и нейросетевые алгоритмы обработки изображения и распознавания образов. Выделены алгоритмы, позволяющие решить поставленную задачу в реальном времени. Показана возможность их аппаратной реализации.

Разработаны вычислительные устройства с параллельной и изменяемой архитектурой, реализованные на базе FPGA микросхем, содержащие элементы архитектур RISC и VLIW - управляющий процессор и блок векторной обработки. Предложена архитектура, позволяющая объединять особенности известных вычислительных устройств (процессоров, сопроцессоров, специализированных процессоров) и включающая: потоковую машину, управляемую командой и данными, машину состояний и управляющий процессор. Такая архитектура позволяет получить максимальную производительность при заданном объеме вычислительных ресурсов и облегчает реализацию алгоритмов.

Разработаны типовые узлы специализированного управляющего процессора с изменяемым набором команд. Отличительной чертой управляющего процессора является возможность изменения архитектуры и ассемблера под требования конкретной задачи.

Разработаны типовые узлы блока векторной обработки и реализованы законченные вычислительные элементы для решения следующих типовых задач: обработка векторов и матриц, фильтрация маской, быстрое преобразование Фурье, нейронные сети. Особенностью блока векторной обработки является возможность настройки архитектуры вычислительных элементов под конкретную задачу путем изменения разрядности операндов, потоков данных и их внутренней структуры.

Предложена методика, позволяющая в полуавтоматическом режиме настраивать архитектуру вычислительного устройства на реализацию алгоритма. Использование предлагаемых вычислительных устройств, программного обеспечения и типовых узлов на порядок сокращает время и стоимость разработки специализированных процессоров для решения конкретных задач обработки изображения в реальном времени.

Новизна полученных результатов подтверждена патентами Российской федерации:

Патент 2115161: Аряшев С.И., Бобков С.Г. Вычислитель с перепрограммируемой архитектурой, 1998г.

Патент 2146389: Аряшев С.И., Бобков С.Г. Перепрограммируемый вычислитель для систем обработки информации, 2000г.

Основные положения, представляемые к защите

Классические и нейросетевые алгоритмы обработки изображений и распознавания образов, позволяющие решить поставленные задачи обработки изображения в реальном времени и отличающиеся возможностью распараллеливания и выделения базовых операций (умножение с накоплением и др.) и функций (умножение матриц, свертка).

Вычислительные устройства с параллельной и изменяемой архитектурой для задач обработки изображения, реализованные на базе FPGA, объединяющие достоинство программируемое™ универсальных процессоров и производительность специализированных процессоров и позволяющие получить на ряде задач производительность, превышающую более чем в 100 раз производительность универсальных процессоров. Отличительной чертой таких вычислительных устройств является изменяемая архитектура, что позволяет эффективно адаптировать архитектуру вычислительного устройства под структуру задачи и повысить удельную производительность за счет устранения аппаратной избыточности.

Методика реализации на предлагаемых вычислительных устройствах алгоритмов обработки изображения. Предлагаемая методика позволяет сократить срок разработки и добиться максимальной производительности специализированного вычислительного устройства для конкретной задачи из исследованной области.

Программное обеспечение и типовые узлы управляющего процессора и блока векторной обработки, позволяющие в полуавтоматическом режиме проводить разработку аппаратных узлов и программных функций, в несколько раз (3-10, в зависимости от задачи) сокращающие время и стоимость разработки специализированного процессора для задач обработки изображения.

Схемотехнические решения узлов управляющего процессора позволяющие поднять его производительность на ряде микропрограмм в 2-4 раза, относительно стандартной реализации коммуникационного RISC процессора.

Схемотехнические решения узлов блока векторной обработки, позволяющие реализовать принципы адаптивности и многофункциональности. Возможность настройки вычислительных элементов блока векторной обработки на конкретный алгоритм, изменяя разрядности операндов, настраивая потоки данных и внутреннюю структуру, обеспечивает способность увеличивать производительность устройства в 2-10 раз, относительно универсальной реализации.

Варианты построения многопроцессорных систем с использованием вычислительных устройств с параллельной и изменяемой архитектурой, связанных посредством высокопроизводительного внешнего канала обмена информацией, и принципы дальнейшего развития вычислительных устройств с параллельной и изменяемой архитектурой.

Практическая ценность и внедрение научных результатов

Разработаны и исследованы вычислительные устройства с параллельной и изменяемой архитектурой для решения ряда задач обработки изображения в реальном времени, позволяющие получить выигрыш производительности на ряде задач по сравнению с универсальным процессором более чем в 100 раз, и не имеющие отечественных аналогов.

Проведены развитие и формализация методов проектирования вычислительного устройства с параллельной и изменяемой архитектурой. Приведена методика реализации алгоритмов на предлагаемых вычислительных устройствах.

Предложены программное обеспечение и библиотека узлов и микропрограмм, которые позволяют реализовывать алгоритмы обработки изображения в полуавтоматическом режиме. Использование библиотеки узлов позволяет выполнять изменение архитектуры процессора (разрядность, количество регистров, добавление специальных операций) и набора команд, выбирать архитектуру вычислительных элементов в соответствии с поставленной задачей и требованиями к производительности.

Разработаны узлы управляющего процессора и блока векторной обработки, позволяющие сократить время и стоимость разработки специализированного процессора для задач обработки изображения.

Реализован и внедрен в серийное производство вычислитель с перепрограммируемой архитектурой. Получена практическая реализация принципа адаптивности и многофункциональности.

Приведенные в работе алгоритмы и вычислительные устройства использовались в разработках, проводимых в рамках опытно-конструкторской работы «Разработка нейровычислителя и нейроалгоритмов обработки телевизионной, тепловизионной и радиолокационной информации».

Разработанные типовые блоки управляющего процессора, коммуникационного канала и вычислительных элементов использовались при разработке процессорного ядра интеллектуального коммуникационного адаптера, блоков графического ускорителя.

Апробация

Основные положения диссертации докладывались и обсуждались на научно-технических конференциях и семинарах:

• на Всероссийской научно-технической конференции "Нейроинформатика-99", "Научная сессия МИФИ-99", МИФИ, 1999г.

• на XII Международной конференции по нейрокибернетике, "Проблемы нейрокибернетики", Ростов-на-Дону, 1999г.

• на VI международной конференции PRIP'2001 - Pattern Recognition and Information Processing, Minsk, Republic of Belarus 2001r.

• на 6 международной конференции РаСТ'2001 Parallel Computing Technologies. Novosibirsk, Russia, 200 lr.

• на семинарах НИИСИ РАН и МИФИ.

Публикации

По теме диссертации опубликовано 11 работ, в том числе получено два патента.

Структура и объем работы

Работа состоит из введения, четырех глав, заключения и списка литературы.

В первой главе рассматриваются классические и нейросетевые методы обработки изображения. Описываются основные алгоритмы предобработки и распознавания образов.

Для выбранных алгоритмов выделяются базовые операции, обосновывается необходимость их аппаратной реализации. Анализируются необходимые вычислительные ресурсы для реализации алгоритмов обработки изображения в реальном времени.

Вторая глава посвящена разработке архитектуры и реализации вычислительных устройств с параллельной и изменяемой архитектурой для обработки изображения в реальном времени.

Определяется направления, наиболее перспективные с точки зрения вычислительных возможностей, стоимости и требуемого времени разработки.

Описаны методы разработки, решения задач и программирования вычислительных устройств. Рассмотрены принципы реализации и методы повышения производительности.

Приведена архитектура вычислительного устройства, позволяющего реализовать обработку изображения в реальном времени и состоящего из двух основных частей, управляющего процессора и блока векторной обработки.

Показаны программное обеспечение и библиотеки алгоритмов обработки изображения, микропрограмм и узлов управляющего процессора и блока векторной обработки.

В третьей главе рассматривается архитектур управляющего процессора.

Приводится описание конвейера, набора команд, регистров адреса, данных и вычислительных элементов. Показана возможность изменения глубины конвейера и количества регистров.

Предлагаются аппаратные методы, позволяющие поднять производительность управляющего процессора.

Рассматривается программное обеспечение управляющего процессора, приводятся особенности ассемблера и написания микропрограмм.

В четвертой главе рассматривается блок векторной обработки вычислителя.

Предлагаются методы выбора пространственного и временного параллелизма.

Рассматриваются различные архитектуры вычислительных элементов: перемножение векторов и матриц, нейронные сети, фильтрация.

Приводятся производительность вычислителя и зависимости производительности от ряда параметров. Приводятся возможные области применения вычислительного устройства.

Показаны способы объединения нескольких вычислителей и возможности дальнейшего развития вычислительного устройства и вычислительной системы на базе такого типа устройств.

В заключении формулируются основные результаты работы, полученные автором на основе исследований, проведенных в диссертации. Делается основной вывод по результатам диссертации.

Заключение диссертация на тему "Вычислительные устройства с параллельной и изменяемой архитектурой для задач обработки изображения"

Выводы

В четвертой главе представлен блок векторной обработки вычислительного устройства с параллельной и изменяемой архитектурой. Блок содержит до шести вычислительных микросхем. Отличительной особенностью блока является то, что вычислительные микросхемы могут быть настроены (сконфигурированы) на реализацию представленных алгоритмов обработки изображения.

Описаны методы выбора уровня пространственного (количество устройств) и временного (глубина конвейера) параллелизма и приведены параметры, которые необходимо оценивать для выбора лучшего соотношения. Оптимальный вариант сильно зависит от параметров задачи и поэтому его выбор рекомендуется проводить вручную.

Приведены способы реализации вычислительного элемента: векторный сопроцессор, управляемая данными и специализированной командой потоковая машина, позволяющие максимально задействовать вычислительные ресурсы микросхем. Векторный сопроцессор имеет меньшую производительность, но легче реализуем. Именно такой способ обычно выбирается при полуавтоматической реализации алгоритма.

Вычислительные элементы блока векторной обработки могут быть настроены либо все на параллельное выполнение одного алгоритма, либо каждый на свой алгоритм. Разделение алгоритма между вычислительными элементами может быть выполнено экспертной системой поддержки. При решении задач, в которых необходимо использовать несколько алгоритмов одновременно, рекомендуется провести разбиение вручную.

Совместимость микросхем внутри семейства позволяет реализовывать вычислительные устройства с параллельной и изменяемой архитектурой разной производительностью и стоимостью. Оптимальное соотношение вычислительных ресурсов и стоимости имеет микросхема EPF10K70.

Приведена общая архитектура вычислительного элемента, состоящая из базового каркаса и настраиваемого блока. Такое разделение облегчает процесс аппаратной реализации алгоритмов на основе библиотеки разработанных узлов и позволяет в несколько раз уменьшить время разработки новых узлов.

Приведены структурные схемы ВЭ, реализующие основные базовые алгоритмы обработки изображения.

Показаны реальная и оценочная производительности вычислителя на ряде специализированных задач и зависимость производительности от количества используемых ВЭ размеров обрабатываемой информации. Использование таких вычислительных устройств позволяет повысить производительность вычислительной машины на ряде задач обработки изображения в сотни раз, что показано в таблице 4.5 и подтверждено актом государственных испытаний изделия приведенном в приложении.

Возможность использования предлагаемых вычислительных устройств для решения множества задач различных областей таких, как обработки изображений и сигналов, молекулярной биологии и нейронных сетей, 3D графики и криптографии, физики высоких энергий и создания прототипов, подтверждает правильность выбранного направления.

Обоснован выбор высокопроизводительного последовательного канала, приведена схемы устройства управления этим каналом. Показаны примеры построения вычислительных систем на основе вычислительных устройств.

Описаны возможности дальнейшего развития вычислительных устройств с параллельной и изменяемой архитектурой, позволяющие разрабатывать высокопроизводительные вычислительные системы.

ЗАКЛЮЧЕНИЕ

Основной результат диссертации заключается в разработке нового подхода к созданию специализированных процессоров обработки изображения, в развитии теории и реализации вычислительных устройств с параллельной и изменяемой архитектурой для задач обработки изображения в реальном времени и в развитии схемотехнических и алгоритмических методов построения узлов предлагаемого вычислительного устройства.

В ходе исследования получены следующие результаты:

Исследованы классические и нейросётевые алгоритмы обработки изображения и распознавания образов. Предложена библиотека алгоритмов обработки изображений и распознавания образов, позволяющих решить поставленные задачи в реальном времени и отличающихся возможностью распараллеливания.

Разработаны вычислительные устройства с параллельной и изменяемой архитектурой для задач обработки изображения, реализованные на базе FPGA, объединяющие достоинство программируемое™ универсальных процессоров и производительность специализированных процессоров и позволяющие получить на ряде задач производительность, превышающую более чем в 100 раз производительность универсальных процессоров. Отличительной чертой таких вычислительных устройств является изменяемая архитектура, что позволяет эффективно адаптировать архитектуру вычислительного устройства под структуру задачи и повысить удельную производительность за счет устранения аппаратной избыточности.

Предложена архитектура вычислительных устройств с параллельной и изменяемой архитектурой, объединяющая особенности известных вычислительных устройств (процессоров, сопроцессоров, специализированных процессоров) и включающая потоковую машину, управляемую командой и данными, машину состояний, управляющий процессор.

Разработаны типовые узлы специализированного управляющего процессора с изменяемым набором команд, объединяющего элементы RISC и VLIW архитектур. Отличительной чертой управляющего процессора является возможность изменения архитектуры и ассемблера под требования конкретной задачи.

Разработаны типовые узлы блока векторных вычислительных элементов и библиотека законченных вычислительных элементов для решения ряда типовых задач. Реализованы узлы для алгоритмов работы с векторами и матрицами, фильтрации маской, быстрого преобразования Фурье, нейронных сетей.

Предложена методика, позволяющая в полуавтоматическом режиме настраивать архитектуру вычислительного устройства на решение поставленной задачи. Разработанное программное обеспечение и библиотека аппаратных модулей позволяют выполнять изменение архитектуры процессора, выбирать архитектуру вычислительных элементов в соответствии с поставленной задачей и требованиями к производительности.

На основе полученных результатов диссертации разработано дополнительное устройство для вычислительной машины с системной шиной VME, позволяющее даже при использовании в системах встроенного применения, совместно с центральным процессором типа R3000, выполнять обработку изображения в реальном времени. Изготовленный модуль и программное обеспечение прошли Государственные испытания и рекомендованы в серийное производство, что подтверждается актом Государственных испытаний изделия 1В586, утвержденным совместным решением в/ч 64176-Р и НИИСИ РАН от 21 декабря 1999г.

Библиография Аряшев, Сергей Иванович, диссертация по теме Элементы и устройства вычислительной техники и систем управления

1. Грибков И.В., Захаров А.В. и др. Предобработка и распознавание двумерных изображений // Вопросы кибернетики. Под ред. В.Б. Бетелина.- Москва, 1997, с. 3-72.

2. Линдли К. Практическая обработка изображений на языке Си: Пер. с англ.- М.: Мир, 1996.-512 е., ил.

3. Бейтс Р., Мак-Доннел М. Восстановление и реконструкция изображения М.:Мир, 1989. - 334 с.

4. Претт У. Цифровая обработка изображений: Пер. с англ. М.: Мир, 1982.-Кн.1-312с.

5. Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов: Пер. с англ. М.: Мир, 1979.-536с.

6. Брейсуэлл Р. Преобразование Хартли. Пер. с англ. М.: Мир, 1990-175с.

7. Дж. Голуб, Ч. Ван Лоун, Матричные вычисления. М.: Мир, 1999.

8. Elder and S. W. Zucker. "Local Scale Control for Edge Detection and Blur Estimation", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No.7, July 1998.

9. Fuchs, H.Haken. Computer Simulations of Pattern Recognition as a Dynamical Process of a Synergetic System// Neural and Synergetic Computers, Springer-Verlag, 1988.

10. А.В. Захаров, П.П. Кольцов, Ю.М. Лазутин, В.К. Николаев Использование нейронных сетей для распознавания слабоконтрастных изображений// Вопросы кибернетики. Сб. статей под ред. В.Б. Бетелина .Москва, 1997, с. 73-104.

11. D.C. Marr, Е. Hildreth "Theory of Edge Detection" Proc. Roy. Soc. London, Vol B207 pp 187-217, 1980.

12. Дворкович А.В., Дворкович В.П., Зубарев Ю.Б. и др. Цифровая обработка телевизионных компьютерных изображений. М.: Международный центр научной и технической информации, 1997. -212 с.

13. Гаврилей Ю.Л., Кубатько А.Ю., Самарин А.И. Целенаправленный анализ изображений в системе с ретиноподобным сенсором. Сборник "Нейроинформатика-99", Москва, 1999, 4.2, 140-148.

14. Coombs D., Herman М., Hong Т. and Nashman Real-time obstacle avoidence using central flow divergence and peripheral flow/ Proc. Of the 5th Intern. Conf. On computer Vision, ICCV'95, June 1995.

15. P. Meer, I. Weiss Smoothed differential filters for images, Visual Commun. And image Represent., vol 3, pp.58-72, 1992.

16. R.A. Boie, I.J. Cox Two dimensional optimal edge recognition using matched and Wiener filters for machine vision, in Proc. Int. Conf. Comp.Vis., 1987, pp450-456.

17. I. Weiss "High-Order differential filters that work", IEEE Pattern Anal. Machin. Intell., vol. 16, pp. 321-343, 1986.

18. D.H. Ballard, Generalizing the Hough transform to direct arbitrary shapes, patt. Recogn., vol. 13 pp. 111-122, 1981.

19. J. Illinworth, J. Kitter, A survey of the Hough transform, Comput. Vision. Graphics Image processing, vol. 44, pp. 87-116, 1988.

20. Sutton R.N., Hall E.L., Texture Measure for Automatic Classification of pulmonary Disease, IEEE Trans. Computers, C-21, pp. 667-676, 1972.

21. Bovic A., Clark M., Geisler W., Multichannel texture analysis using localized spatial filters, IEEE Trans. Pattern Anal. Machine Intell., 12 pp. 5573, 1990.

22. Kulikowski J.J., Marcelja S., Bishop P., Theory of spatial position and spatial frequency relations in the receptive fields of simple cells in the visual cortex, Biological cybernetics, 43, pp. 187-198,1982.

23. Аряшев С.И., Бобков С.Г. Нейронные сети: основные типы, перспективы развития// Вопросы кибернетики. Средства разработки внутреннего программного обеспечения. Микроэлектроника. Перепрограммируемые системы. Под ред. В.Б. Бетелина. М.: 1997. с. 120137.

24. Ф. Уоссермен Нейрокомпьютерная техника: Теория и практика/ Пер. с англ. М.: Мир, 1992, 240 с.

25. Амосов Н.М., Байдык Т.Н. и др. Нейрокомпьютеры и интеллектуальные роботы. . Под ред. Амосова Н.М. : АН УССР Ин-т кибернетики . Киев : Наук. Думка, 1991 .- 272с.

26. Badgett W., Burkett K., Mu D.Y. "A Neural Network Calorimeter Trigger used in CDF" . Proceedings of the 1992 IEEE Nuclear Science Simposium, Orlando, Florida.

27. McCartor H. "Back Propagation Implementation on the Adaptive Solutions CNAPS NeurocomputerChip", proc. of NIPS-3, "Advances in Neural Information Processing Systems 3", 1991, pp. 1028-1031.

28. Schiek S., Schmidt G., "Application of a High Speed Analog Neural Network Chip for the First Level Triggering at the HI-Experiment at HERA",

29. Proc. of the "International Conference on Artificial Neural Networks" ICANN'95, Oct. 9-3, 1995, Paris, France,Vol. 2, pp.363-368.

30. A.B. Каляев, Г.А. Галуев. Современное состояние и перспективы развития нейрокомпьютерной техники// Электронное моделирование, Т. 12, №2, с. 14-19.

31. А.Ю. Истратов Новинка компьютерной индустрии фирмы SIEMENS NIXDORF нейрокомпьютер SYNAPS1N110/ Успехи современной радиоэлектроники, №2, 1997.

32. Duranton М., Aglan F., and Mauduit N. Hardware Acceleration for Neural Networks// Simulation in Parallel Machines, T.Node User Manual, v.5, Telmat Multinode.

33. J. Gao M. Ahmandi and M. M. Shridhar A Hierarchial Neural Network Architecture for Handwriten Numeral Recognition// Pattern Recognition, Vol.30, №2, 1997.

34. Zheru Chi, Mark Suters and Hong Yan Handwritten Digit Recognition Using Combined ID3-derived Fuzzy Rules and Markov Chains// Pattern Recognition, Vol.29, №11, 1996.

35. R. Bajaj, S. Chaudhury Signature Verification Using Multiple Neural Classifiers// Pattern Recognition, Vol.30, №1, 1997.

36. Г.А. Галуев. Архитектура цифровых нейрокомпьютеров// Электронное моделирование, Т. 13, № 2, 1991, с. 21-25.

37. Э.Ю. Кирсанов. Цифровые нейрокомпьютеры: Архитектура и схемотехника/Казан, гос. ун-т, Казань, 1995, 131 с.

38. А.В. Бочаров, А.С. Грошев. Аппаратная реализация ускорителя нейровычислений// Изв. Вузов. Приборостроение, 1995, Т.38, № 1-2.

39. Д.В. Кирсанов Архитектура, призводительность и использование нейрочипа ETANN// Успехи современной радиоэлектроники №2, 1997.

40. FLEX 10К. Embedded Programmable Logic Family. Data Sheet// Altera Corporation, 1998.

41. Texas Instruments TMS320C4x User's Guide, 1993.

42. TMS320C80 Multimedia Video Processor (MVP). Technical Brief, Texas Instruments, Inc., 1994.

43. VMEbus Specification Manual// Revision C.l, Oct. 1985, p. 261.

44. Цифровой процессор сигналов DSP96002// НИИСИ, 1990.

45. Пояснительная записка технического предложение на опытно-конструкторскую работу «Разработка нейровычислителя и нейроалгоритмов обработки телевизионной, тепловизионной и радиолокационной информации, НИИСИ РАН, внутренний документ.

46. Аряшев С.И., Бобков С.Г. Специализированный вычислитель для задач обработки изображения // Вопросы кибернетики. Архитектура магистрально-модульных компьютеров специального назначения. Под ред. В.Б. Бетелина. М.: 1997. с. 94-118.

47. S. Aryashev, S. Bobkov, Е. Sidorov, I. Yudin. Parallel FPGA Processor Card for Distributed Information Processing.// Real-Time Magazine 99-2. Brussels, Belgium: 1999. pp. 46-50.

48. Виксне П.Е., Фомин Д.В., Черников В.М. Однокристальный цифровой нейропроцессор с переменной разрядностью операндов.// Приборостроение, N7, 1996г.

49. Нейропроцессор NM6403. Введение в архитектуру. Версия 1.1Ы АО НТЦ "Модуль".

50. Аряшев С.И., Бобков С.Г., Сидоров Е.А. Параллельный перепрограммируемый вычислитель для систем обработки информации и сигналов.// Проблемы нейрокибернетики. Ростов-на-Дону. Издательство СКНЦВШ. 1999. с. 123-126.

51. Аряшев С.И., Бобков С.Г., Сидоров Е.А. Интеллектуальный коммуникационный контроллер.// Электроника, Микро- и Наноэлектроника. Сборник научных трудов. М.: МИФИ, 2000. с. 162164.

52. Аряшев С.И., Евлампиев Б.Е., Корниленко А.В. Микросхема ускорителя в составе графического контроллера.// Электроника, Микро- и Наноэлектроника. Сборник научных трудов. М.: МИФИ, 2000. с. 162164.

53. Аряшев С.И., Евлампиев Б.Е., Корниленко А.В. Графический контроллер для ускорения операций Х-Windows.// Электроника, Микро- и Наноэлектроника. Сборник научных трудов. М.: МИФИ, 2000. с. 162164.

54. Аряшев С.И., Бобков С.Г. Вычислитель с перепрограммируемой архитектурой, Патент 2115161, 1998г.

55. Аряшев С.И., Бобков С.Г. Перепрограммируемый вычислитель для систем обработки информации, Патент 2146389, 2000г.

56. Виксне П.Е., Каталов Ю.Т., Корнеев В.В., Панфилов А.П., и др. Транспьютероподобный 32-разрядный RISC-процессор с масштабируемой архитектурой// Вопросы радиоэлектроники. Серия ЭВТ. Выпуск 2, НИИЭИР, 1994.

57. Э.Хювенен, Й.Сеппянен «Мир Лиспа», Москва «Мир», 1990г., в 2-х томах.

58. Брусенцов Н.П., Захаров В.Б., Руднев И.А., Сидоров С.А. Диалоговая система структурированного программирования ДССП-80. В кн.: Диалоговые микрокомпьютерные системы. М.: Изд-во МГУ, 1986, с.3-21.

59. Келли М., Спайс Н. Язык программирования ФОРТ. М.: Радио и связь 1993.

60. R. Goslin, "A Guide to Using Field Programmable Gate Arrays (FPGA) for Application-Specific Digital Processing Performance", Xilinx Inc., V.1.0, 1995.

61. AMPP Catalog, June 1998, by Altera Corporation.

62. ADSP-2106x SHARC DSP Microcomputer Family, Analog Devices, Inc., 1996.

63. ADSP-2106x Preliminary User's Manual// Analog Devices, Inc, 1994.

64. Regler (ed.), "Data Analysis Techniques for High-Energy Physics Experiments", Cambridge: Cambridge University Press, 1990.

65. S. Sidorov , "Data in DSSP ~ Prefix Access in Postfix Language", Proceedings of EuroForth 97, Oxford.

66. Frantov, M. Shumakov "DED — DSSP Editor and Debugger", Proceedings of EuroForth 97, Oxford.

67. M. Cavadini, M. Wosnitza, G. Troster Multiprocessor System for High-Resolution Image Correlation in Real Time, IEEE Transaction on Very Large

68. Scale Integration (VLSI) Systems,June 2001, volume 9, number 3.

69. T. Bautista, A. Nunez Quantitative Study of the Impact of Design and Synthesis Options on Processor Core Perfomance, IEEE Transaction on Very Large Scale Integration (VLSI) Systems, June 2001, volume 9, number 3.

70. J. Kin, C. Lee, W. Mangione-Smith Exploring the Diversity of Multimedia Systems, IEEE Transaction on Very Large Scale Integration (VLSI) Systems, June 2001, volume 9, number 3.

71. A. Elbirt, W. Yip, B. Chetwynd An FPGA-Based performance Evalution of the AES Block Cipher Candidate Algorithm Finalists, IEEE Transaction on Very Large Scale Integration (VLSI) Systems, June 2001, volume 9, number 4.

72. S. Hwang, C. Wu Unified VLSI Systolic Array Design for LZ Data Compression, IEEE Transaction on Very Large Scale Integration (VLSI) Systems, June 2001, volume 9, number 4.

73. B.B. Корнеев Параллельные вычислительные системы. М.: "Нолидж", 1999. -320 е., ил.

74. Харари Ф. Теория графов. М.: Мир, 1973. 299 с.

75. Свами М., Тхуласираман К. Графы, сети, алгоритмы.: Пер. с англ. М.: Мир, 1984. 454 с.

76. Hwang К., Advanced Computer Architecture with Parallel Programming, McGraw-Hill, New York, 1993.

77. Ж. Макс Методы и техника обработки сигналов при физических измерениях М.:Мир, 1983. В 2-х т.

78. Бенхем К., Блейсделл Б. Бурке К. и др. Математические методы для анализа последовательностей ДНК М.:Мир, 1999. 349 с.

79. Е. Угрюмов Цифровая схемотехника. СПб.: Санкт-Петербург, 2001. -528 с.

80. В.В. Корнеев, А.В. Киселев Современные микропроцессоры. М.: "Нолидж", 1998. -240 е., ил.

81. Smith J.E., Sohi G.S. The Microarchitecture of Superscalar Processor// Proc. Of the IEEE, 1995, Vol.83, N 3, p. 414-425.

82. Alpha Architecture Handbbok, Digital Equipment Corporation, 1996.

83. J. Cong,Y. Hwang, Boolean Matching for LUT-Based Logic Blocks With Applications to Architecture Evaluation and Technology Mapping, IEEE Transaction on Computer-Aided Design of Integrated Circuits and Systems, August 2001, volume 20, number 8.

84. M. Gschwind, V. Salapura, D. Maurer, FPGA Prototyping of a RISC Processor Core for Embedded Application, IEEE Transaction on Very Large Scale Integration (VLSI) Systems, April 2001, volume 9, number 2.

85. T. Suyama, M. Yokoo, H. Sawada, Solving Satisfiability Problem Using Reconfigurable Computer, IEEE Transaction on Very Large Scale Integration (VLSI) Systems, February 2001, volume 9, number 1.

86. A. Marquardt, V. Betz, J. Rose Speed and Area Tradeoffs in Claster-Based FPGA Architectures, IEEE Transaction on Very Large Scale Integration (VLSI) Systems, February 2000, volume 8, number 1.

87. R Rinker, M. Carter, A. Patel, An Automated Process for Compiling Dataflow Graphs into Reconfigurable Hardware, IEEE Transaction on Very Large Scale Integration (VLSI) Systems, February 2001, volume 9, number 1.

88. D. Buell, J. Arnold, W. Kleinfelder, Splash 2: FPGAs in a Custom Computing Machine; IEEE CS press, 1996.

89. G. Lu, H. Singh, M. Lee, The Morphosis parallel reconfigurable systems, in proc. EuroPar99, sept 1999.

90. De Micheli, G. Synthesis and Optimization of Digital Circuits, McGraw-Hill, 1994.

91. The HARP Reconfigurable Computing System, Oxford University Hardware Compilatoin Group, 1994, available from URL:http://www.comlab.ox.ac.uk/oucl/users/ian.page/papers.html.

92. Reconfigurable Processors, Invited Keynote Address for Heathrow PLD Conference, April 1995, available from URL:http://www.comlab.ox.ac.ukyoucl/users/ian.page/papers.html.

93. Rowson, J. A. Hardware/Software Co-Simulation, Proc. 31st ACM/IEEE Design Automation Conference, 1996, pp 439-440.

94. Hauser, J. R and Wawrzynek, J., Garp: A MIPS Processor with a Reconfigurable Coprocessor, Proceedings of the IEEE Symposium on Field Programmable Custom Computing Machines, April 1997, pp. 24-33.

95. Ya. I. Fet, Parallel Processing in Cellular Arrays, Research Studies Press: Taunton UK, 1995.

96. J.Villasenor and W.Mangione-Smith, Configurable Computing, Scientific American, June 1997.101. http://parallel.ru.102. http://www.research.digital.com/SRC/pamette/overview/.103. http://compugen.co.il/products/bioc-t.html.

97. W.H. Mangione-Smith, Seeking Solution in Configurable Computing, IEEE Computer, vol. 30, Dec. 1997.

98. Gokhale et al., "Building and Using a Highly Parallel Programmable Logic Array", Computer, No.l, Jan. 1991, pp. 81-89.

99. Aubury et al., "Advanced Silicon Prototyping in a Reconfigurable Environment", IOS Press, 1998.

100. Harvey G. Cragon Memory Systems and Pipelined Processor, Jones and Bartlett publishers, 1995. 576 c.

101. Newbridge Corporation, SCV64 User Manual, 1994.л РОССИЙСКАЯ ГОСУДАРСТВЕННА?!

Похожие работы

Информатика, вычислительная техника и управление
05.13.00