автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Автоматизация процесса верификации абонентов АСУ с речевым управлением

кандидата технических наук
Катков, Олег Николаевич
город
Орел
год
2008
специальность ВАК РФ
05.13.06
Диссертация по информатике, вычислительной технике и управлению на тему «Автоматизация процесса верификации абонентов АСУ с речевым управлением»

Автореферат диссертации по теме "Автоматизация процесса верификации абонентов АСУ с речевым управлением"

На правах рукописи

КАТКОВ Олег Николаевич

АВТОМАТИЗАЦИЯ ПРОЦЕССА ВЕРИФИКАЦИИ АБОНЕНТОВ АСУ С РЕЧЕВЫМ УПРАВЛЕНИЕМ

Специальность 05 13 Об - Автоматизация и управление

технологическими процессами и производствами (промышленность)

00344Э292

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

1 6 ОКТ 2008

Орел, 2008 г

003449292

Работа выполнена в Академии Федеральной службы охраны Российской Федерации

Научный руководитель

кандидат технических наук, доцент Богачев Геннадий Васильевич

Официальные оппоненты

доктор технических наук Шарупич Вадим Павлович

кандидат технических наук Тютякин Александр Васильевич

Ведущая организация

Институт проблем информатики РАН (Орловский филиал)

Защита состоится 2008 года в А/ часов на заседании

диссертационного совета Д212 182 01 в Орловском государственном техническом университете по адресу 302020, г Орел, Наугорское шоссе, д 29, (ауд 212) факс (4862)-41-98-19, тел (4862)-41-66-84

С диссертацией можно ознакомиться в библиотеке Орловского государственного технического университета

Автореферат разослан сиг&ци^А 2008 г Отзывы на автореферат в двух экземплярах, заверенные печатью, просим направлять по адресу Совета университета 302020, г Орел, Наугорское шоссе, 29

Ученый секретарь диссертационного совета Д212 182 01

доктор технических наук, профессор / А И Суздальцев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы Создание современных автоматизированных систем управления характеризуется расширением их функциональных возможностей и предоставлением потребителям дополнительных сервисных услуг Перспективным направлением дальнейшего совершенствования АСУ является разработка и внедрение человеко-машинных систем с речевым управлением, основанных на распознавании речи и ее преобразовании в набор управляющих команд или текстовых файлов Создание таких систем позволит значительно упростить процесс управления производством с представлением различных протоколов и графиков технологических процессов с дополнительными комментариями Особое место занимают автоматизированные системы, обеспечивающие поиск информации по речевому запросу и выдачу справочных данных

Вторым направлением развития АСУ является создание эргатических систем управления Их особенность заключается в том, что в контур управления технологическими процессами включен сам человек - оператор Особенности управления в эргатических системах отличаются тем, что психофизиологические свойства человека - оператора должны быть включены в параметры управляющей системы Закон управления для таких систем должен быть спроектирован с гарантией требуемого качества управления, как и в обычных АСУ Если функционирование эргатических систем происходит в условиях неопределенности, то качество управления обеспечивается результатами работы человека - оператора

По мере усложнения эргатических систем все ощутимее становятся вопросы несоответствия характеристик технических средств возможностям человека При этом основные трудности связаны не только с совершенствованием технических и программных средств, но и с недостаточным развитием методов учета человеческого фактора при создании и эксплуатации таких систем

Сложность внедрения на предприятиях эргатических систем управления связана с наличием информационных барьеров между управленческим и технологическими уровнями При этом необходимо разграничить доступ лиц к общей информационной базе АСУ в соответствии с занимаемым положением и функциональными обязанностями

Применение устройств распознавания речи в эргатических системах позволяет также решать задачи автоматической оценки эмоционального состояния операторов, управляющих сложными производственными процессами По снижению скорости речи можно судить о степени утомляемости, а повышение громкости и частоты слов указывает на эмоциональное возбуждение оператора при возникновении непредвиденных или нештатных ситуаций

В связи с этим одной из важнейших научно-практических задач является исследование и разработка универсальных микропроцессорных устройств для автоматического распознавания абонентов по особенностям речи

Объектом исследования являются системы верификации пользователей АСУ с речевым управлением

Предметом исследования являются модели и алгоритмы обработки речевых сигналов

Цель исследования состоит в повышении качества функционирования АСУ с речевым управлением за счет совершенствования системы верификации пользователей

Для достижения поставленной цели в работе поставлены и решены следующие научные задачи

1 Обоснование способа эффективной верификации пользователей АСУ на основе их речевых характеристик

2 Разработка алгоритмов обработки речевых сигналов для задач верификации пользователей в АСУ с речевым управлением

3 Моделирование и экспериментальное исследование алгоритма речевой верификации для оценки его результативности и аппаратурных затрат

Методы и средства исследования При решении задач использовались методы системного анализа, методы теории множеств, теория нейронных сетей, теория принятия решений, методы объектно-ориентированного программирования, теория электрической связи, методы статистической обработки сигналов, а также программные и языковые средства современных компьютерных технологий

Достоверность научных положений, результатов, выводов и рекомендаций, приведенных в диссертационной работе, обеспечивается за счет корректного применения методов системного анализа, теории вероятности, математической статистики, а также непротиворечивости и воспроизводимости результатов, полученных теоретическим путем При выполнении работы применялись неформальные и формальные методы исследования и использован апробированный математический аппарат исследований, адекватный природе изученных явлений Применены обобщения накопленного опыта работы по формализации процессов речеобразования и воспроизведения речевых сигналов с достаточно полным учетом многократно проверенных, в том числе и на практике, речевых данных, с проведением верификации отдельных результатов в рамках известных теоретических конструкций, широко используемых в теории автоматизированного управления

Научная новизна диссертационного исследования состоит в том что

1 Разработаны математическая модель и алгоритм верификации пользователей АСУ с речевым управлением, основанные на аппарате динамических нейронных сетей, учитывающие статистические характеристики речевого сигнала

2 Разработан новый алгоритм фрагментирования речевых сигналов для формирования признакового пространства на входе нейронной сети, учитывающий автокорреляционные связи между соседними речевыми кадрами

3 Разработан способ определения частоты основного тона речевого сигнала, основанный на быстром преобразовании Фурье и адаптивном изменении интервала анализа

Практическая значимость заключается в разработке технических предложений по реализации программно-аппаратного комплекса системы голосовой верификации пользователей АСУ с речевым управлением

Реализация и внедрение результатов работы

Полученные научно-технические решения использованы при выполнении научно-исследовательской работы "Синтезатор - 1" Результаты исследований внедрены и используются при проведении лекционных занятий по дисциплине "Теория электрической связи" и лабораторных работ по курсу "Микропроцессоры и цифровая обработка сигналов" в Академии ФСО России, о чем свидетельствует полученный акт реализации

Апробации и публикации

Основные результаты диссертационных исследований докладывались и обсуждались на IX Международной научной конференции "Информатизация и информационная безопасность правоохранительных органов" (Москва, 2004 г), на XI Всероссийской научно-технической конференции студентов, молодых ученых и специалистов "Новые информационные технологии в научных исследованиях и образовании" (Рязань, 2006 г), на XII Всероссийской научно-технической конференции студентов, молодых ученых и специалистов "Новые информационные технологии в научных исследованиях и образовании" (Рязань, 2007 г), на XIII Всероссийской научно-технической конференции студентов, молодых ученых и специалистов "Новые информационные технологии в научных исследованиях и образовании" (Рязань, 2008 г), на 33-й Всероссийской научно-технической конференции "Сети, системы связи и телекоммуникации Деятельность ВУЗа при переходе на федеральный государственный образовательный стандарт 3-го поколения" (Рязань, 2008 г )

По результатам исследований опубликовано 10 научных работ (в том числе четыре работы - в изданиях из перечня ВАК Минобрнауки России)

Положения, выносимые на защиту

1 Способ определения частоты основного тона речевого сигнала, основанный на адаптивном изменении интервала анализа

2 Устройство и алгоритм исключения неинформативных параметров речевого сигнала, обеспечивающий сокращение времени верификации абонентов АСУ с речевым управлением

3 Математическая модель и алгоритм процесса речевой верификации абонентов АСУ с речевым управлением на основе аппарата динамических нейронных сетей

Диссертация состоит из введения, четырех глав, заключения и списка литературы из 118 наименований Основная часть работы изложена на 160 страницах, содержит 38 рисунков и 3 таблицы

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы исследований, сформулированы основная цель работы и решаемые задачи, указаны научная новизна и практическая ценность полученных результатов, приведены основные положения, выносимые на защиту

В первой главе показано место верификации пользователей в структуре АСУП, а также проведен сравнительный анализ методов идентификации личности в целях защиты от несанкционированного доступа в автоматизированные системы управления предприятий

Вследствие того, что в настоящее время ПЭВМ пользователей АСУ включены в ИБС, необходимо обеспечить защиту не только информационных ресурсов АСУ, но и автоматизированных рабочих мест (АРМ) разработчиков службы административного управления, обеспечивающих ее сопровождение в течение всего цикла предприятия

На рисунке 1 представлена модель верификации пользователей в структуре службы административного управления безопасностью (АУб) АСУП

Рисунок 1 - Модель верификации пользователей в структуре службы АУб АСУП

Проблема обеспечения информационной безопасности в автоматизированных системах управления обусловлена тем, что широкое распространение и

повсеместное применение современных информационных технологий, в первую очередь компьютерных и сетевых, резко повысило уязвимость собираемой, хранимой и обрабатываемой в них информации

Основой любых систем обеспечения информационной безопасности является идентификация пользователей, так как все механизмы защиты информации рассчитаны на работу с поименованными субъектами и объектами автоматизированных систем В качестве субъектов таких систем могут выступать как пользователи, так и процессы, а в качестве объектов - только информация и другие информационные ресурсы системы

Термин верификация определяет такой режим идентификации, при котором субъект сознательно идет на сотрудничество с системой При этом предъявляемый образ сравнивается с эталоном, хранящимся в базе, и по степени его схожести принимается решение

Наиболее распространенные существующие методы идентификации основываются на паролях - секретных идентификаторах субъектов При вводе субъектом своего пароля подсистема идентификации сравнивает его с паролем, хранящимся в базе эталонных данных в зашифрованном виде, и в случае совпадения паролей разрешает доступ к ресурсам автоматизированной системы Но, несмотря на простоту использования, пароли недостаточно надежны Известно множество способов вскрытия пароля - от подсмотра через плечо до перехвата сеанса связи

В последнее время, как в России, так и за рубежом развивается специальное научно-техническое направление - биометрия Одной из важнейших задач биометрии является создание технических устройств, способных узнавать конкретного человека по почерку, голосу и физиологическим параметрам

Существующие продукты биометрической идентификации можно разделить на две группы К первой группе следует отнести биометрические продукты, построенные на анализе статических (неизменяемых) образов личности, данных ей от рождения и хорошо наблюдаемых окружающими Примерами этого типа биометрических продуктов являются устройства, построенные на измерении и анализе особенностей геометрии лица, кожного покрова руки, радужной оболочки глаза и отпечатка пальца

Основным преимуществом статической биометрии является ее относительная независимость от психологического состояния пользователей, малые затраты усилий для пользователей и, как следствие, возможность организации биометрической идентификации больших потоков людей за ограниченное время На проходных крупных предприятий обычно применяется статическая идентификация пользователей по особенностям геометрии лица

Ко второй и принципиально иной группе биометрических продуктов относя 1ся биометрические устройства и программы, построенные на анализе динамических образов личности Динамические образы личности отражают особенности характерных для нее быстрых подсознательных движений в процессе воспроизведения контрольного слова на клавиатуре, рукописным почерком или при произнесении контрольной фразы голосом пользователя

Сравнение различных систем биометрической идентификации (рисунок 2) показывает перспективность разработки и практического использования систем распознавания личности по голосу абонента.

Проведенный анализ позволил установить, что наиболее приемлемые характеристики точности идентификации имеют системы анализа индивидуальности голоса. При этом они сочетают в себе минимальные временные затраты и требования к операционным ресурсам, максимальное удобство для пользователя и обладают низкой стоимостью. С учетом современной тенденции распространения мультимедийных средств, применяемых для цифровой обработки речевого сигнала, разработка новых систем голосовой идентификации, обеспечивающих высокую степень достоверности распознавания при минимальных аппаратурных и временных затратах, является перспективной и вполне актуальной с практической точки зрения.

100% 80% 60% 40% 20 % 0 •

Пароль Геометрия Почерк Отпечатки Роговица Сетчатка Геометрия Голос руки пальцев глаз глазного лица

рук дна

Рисунок 2- Сравнительная оценка эффективности систем идентификации личности по четырем основным критериям: ПИ - стоимость; П — временные затраты пользователя; Ш - вероятность верной идентификации; Ш - неудобства для пользователя

Во второй главе проанализированы основные параметры речевого сигнала, которые могут являться индивидуальными признаками, определяющими легитимность абонента автоматизированной системы. Предложена обобщенная структура системы речевого распознавания, а также показана взаимосвязь алгоритмов нечеткой логики и систем распознавания. Определен способ формирования признакового пространства речевого сигнала. Предложен способ определения частоты основного тона речевого сигнала, обеспечивающий снижение временных затрат при идентификации абонентов АСУ.

Согласно акустической теории речеобразования, восприятие звуков определяется областями максимальной концентрации энергии - формантами. По мере развития средств вычислительной техники и методов цифровой фильтрации частотные методы идентификации замещаются системами, использующими линейные предсказатели речевого сигнала.

В общем случае речь представляет собой многоуровневый, иерархически организованный процесс, поэтому сложные системы распознавания содержат две основных части речевую и языковую, чтобы учитывать акустические и лингвистические особенности речи Однако для верификации абонентов АСУ достаточно применять только речевую подсистему, что позволяет уменьшить ее сложность и сократить аппаратурные затраты

Необходимость уменьшения сложности устройств распознавания поставила задачу поиска таких параметров речевого сигнала, которые обеспечивали бы максимальную узнаваемость пользователей АСУ В результате проведенных исследований усовершенствован способ формирования признаков речевого пространства (рисунок 3), составными элементами которого являются 4 из 12 коэффициентов линейного предсказания, частоты первой, второй и четвертой формант, а также частота основного тона Еот Выделение данных параметров является компромиссным решением между надежностью верификации абонентов АСУ и временем реакции системы распознавания Анализ параметров речевых сигналов выполняется в цифровой форме, с представлением информации в дискретизированной и спектральной формах

Рисунок 3 - Способ формирования признакового пространства речевого сигнала

При моделировании процесса дискретизации речевого сигнала установлено, что дискретный интервал анализа влияет на спектральный состав сигнала, обогащая его большим количеством гармоник, из которых важно правильно выделить частоту основного тона Рот При моделировании процесса дискретизации гласной буквы речевого сигнала, состоящего из суммы фех гармонических колебаний, установлено, что в частотном спектре речевого сигнала три гармоники просматриваются достаточно четко, в то время как при его дискретном преобразовании Фурье эти гармонические составляющие практически не видны (рисунок 4) Это приводит к большим погрешностям при оценке частоты основного тона речевого сигнала и, как следствие, к понижению надежности верификации абонентов АСУ

Рисунок 4 - Спектры исходного и дискретизированного речевого сигнала

Для исключения этого недостатка усовершенствован способ выделения частоты основного тона, основанный на адаптации интервала анализа кадров речи и установке его длительности кратной п периодам основного тона

Согласно полученным результатам (рисунок 5), зависимость отношения нормированной амплитуды сигнала на входе анализатора основного тона от интервала анализа носит периодический характер с периодом повторения, кратным интервалу анализа При этом максимумы данной функции соответствуют такому интервалу анализа, когда он содержит целое число периодов колебаний с частотой основного тона

h-1-1-г т

003 0035 О 04 0 045

Рисунок 5 - Зависимость отношения нормированной амплитуды сигнала на входе анализатора основного тона от интервала анализа

Рисунок 6 - Зависимость частоты основного тона от интервала анализа

Согласно полученным графикам зависимости частоты основного тона от интервала анализа (рисунок 6), погрешность определения частоты основного тона Fot данным способом составляет меньше 1%

При вычислении параметра частоты основного тона необходимо решить оптимизационную задачу по определению периода основного тона Т0 = 1 / Fot

Tü=ars\rnaxAt(fóJa)

(1)

где А\ - функция, показывающая значение нормированной амплитуды сигнала на входе анализатора основного тона

Целевой функционал выражения (1) является недифференцируемым, а целевая функция является функцией скалярного аргумента Поэтому для решения данной задачи можно применить метод золотого сечения, который требует в два раза меньше вычислений, чем метод дихотомического поиска, поскольку на каждом шаге используются вычисления, выполненные на предыдущем шаге Применение такого способа позволяет существенно повысить точность определения частоты основного тона и сократить количество операций при ее вычислении, а, следовательно, и время принятия решения

Для уменьшения вычислительной сложности алгоритма распознавания речевых сигналов целесообразно совместить методы обработки, применяемые в устройствах нечеткой логики и в нейронных сетях Сравнение осуществляемых в них функциональных преобразований показывает наличие общих особенностей, к которым относятся

- нечеткость значений исходных данных или вводимых параметров речевого сигнала,

- неявная взаимосвязь между отдельными признаками речевого сигнала,

- наличие нечетких множеств (в нашем случае - эталонов речевого сигнала) или областей с нечеткими границами,

- итерационный процесс преобразования, применяемый как в системах нечеткой логики, так и в динамических системах распознавания речи,

- начальный этап предварительного обучения, выполняемый для реализации требуемой функциональной зависимости между совокупностью входных параметров и выходными сигналами или управляющими воздействиями

Аналогичность ряда функций, выполняемых в нейронных сетях и в системах нечеткой логики, позволяет сделать вывод о целесообразности практического применения методов нечеткой логики при разработке нейронных устройств распознавания речи

Сокращение объема вычислений и уменьшение сложности устройств для идентификации личности по параметрам речи можно обеспечить при ограничении их функциональных возможностей с учетом следующих условий

- набор применяемых слов не должен превышать нескольких десятков такого количества вполне достаточно для надежного распознавания абонента,

- использовать не более 10-20 простых и коротких предложений, которые можно относительно просто запоминать даже в качестве пароля,

- число логических состояний или кодов выходного сигнала (число различаемых абонентов) также не должно превышать двух деся 1Ков - такого количества вполне достаточно для большинства практических приложений систем идентификации личности оператора в АСУ ТП,

- для формирования речевых эталонов использовать набор ключевых предложений с четким разделением слов Подобную операцию можно реализовать при выводе на дисплей ключевых слов с задержкой каждого последующего слова после произнесения предыдущего на время А? - (0,2 0,3) с

Использование совокупности вышеперечисленных ограничений позволяет практически упростить и существенно ускорить процесс разработки нейронных микросхем для идентификации личности абонента по речевым признакам

В третьей главе рассматриваются общие принципы построения и свойства статических и динамических нейронных сетей применительно к их использованию для выполнения задач по обработке речевых сигналов, а также иерархические структуры на основе динамических нейронных сетей

Общим недостатком традиционных нейронных сетей является то, что их обучение требует больших вычислительных затрат и времени и не всегда приводит к оптимальному результату Это связано с большой размерностью пространства настраиваемых параметров сети (до 106) и рядом специфических трудностей, возникающих в процессе настройки оптимальных параметров

Трудности применения нейронных сетей в системах распознавания речи обусловлены динамической природой речевого сигнала и выражаются в том, что при классификации сигнал должен быть нелинейно деформирован по шкале времени с целью нормализации длительностей различных его участков

Другим характерным недостатком нейронных сетей в приложении к задаче распознавания речевых образов является отсутствие учета иерархической структуры речи, в которой более сложные образы формируются на основе простых, соединяемых специфическими переходными участками Использование словарей эталонов речевых единиц на нескольких уровнях, где каждый из элементов словаря связан с элементами более низкого уровня, позволяет сформировать более гибкие и компактные представления таких эталонов

Применение для распознавания речи динамических нейронных сетей оправдано тем, что процесс порождения речевого сигнала представляет собой сложный динамический процесс, реализуемый под управлением многих уровней нервной системы человека Вследствие этого динамические нейронные сети являются универсальным средством для моделирования динамических систем на однородных вычислительных средах, поэтому они наиболее адекватны для практического решения задачи распознавания речи

С учетом указанных причин для построения системы распознавания речевых сигналов предлагается использовать нетрадиционную нейросеть - реализовать ее на принципе иерархической структуры, содержащей несколько простых динамических нейронных сетей на основе нейроподобных элементов с временным суммированием получаемых на их выходах сигналов

Структурная схема динамической нейронной сети (рисунок 7) содержит регистр сдвига (PC), нейроподобные элементы (НЭ) и механизм управления (МУ) Каждый нейроподобный элемент содержит ряд функциональных блоков адресную часть, арифметико-логическое устройство (АЛУ), цифровой счетчик и блок управления радиусом расфокусировки

НЭ является основным элементом динамической нейронной сети (ДНС) и реализуе! обработку и-членных фрагментов (так называемых и-грамм) вида а, = F(a, _ „, а, _„,2, , а¡) входной последовательности А = F(a,) и моделирует гиперсферу «-мерного сигнального пространства АЛУ вычисляет расстояние от адреса w до /7-граммы на основном входе по метрике вида D = D(w , а ), выбираемой в зависимости от требований задачи распознавания речи

нэ

РС

♦ + + А. НЭ +

»я

* --4----±— НЭ ——

♦ 1__ ♦

МУ

Рисунок 7 - Структурная схема динамической нейронной сети

Основные функции, выполняемые НЭ, разделяются на следующие

• обучение - запоминание и-граммы входной последовательности кодов а, в заданном адресе м>,

• распознавание (избирательная адресация обученного НЭ) - подача сигнала уф 0 на выход при появлении на входе л-граммы а,, близкой к его адресу м у ф О, если выполняется условие Д,( ,а,)< г,

• подсчет частоты встречаемости х и-граммы а = и> или близких к ней по метрике значений Д, во входной последовательности,

• пороговое преобразование, реализующее забывание статистически недостоверной л-граммы с частотой встречаемости меньше заданного порога И

Состояние ДНС в момент времени / описывается двумя множествами переменных состояния {>,{()} и {у,<0} _ значениями радиусов расфокусировки и характеристикой наличия/отсутствия распознавания на множестве НЭ }Ул{\ил,} соответственно Изменение радиусов расфокусировки нейронных элементов позволяет регулировать чувствительность различных участков траекторий эталонов с учетом искажений входных последовательностей

Функция управления в ДНС в общем случае может быть описана функцией Я зависимости радиусов расфокусировок г, всех НЭ{н,Л,} от предыдущего состояния, которое характеризуется наличием или отсутствием распознающего НЭ \\>'р(1) ур (?) Ф 0, и парой параметров гЛа1(() и гас(0, задающих радиусы расфокусировки на множествах НЭ}общ и {м>*(0}ас

\гас (Г +1), еслгВр ур (() * 0, <4 с (и£(0 ),

г,(г+1) = /г[г1(0,{>'1(0},'] = '| ,

[''общ 0 + 0. иначе, где радиусы расфокусировок определяются соотношениями вида

['■общ (0 - МАО, еслиЗр. ур (0 * 0, н>; с Еас (1г;(,_1)),

'■общ (' + !) = ■

го5щ(0+ иначе,

¡гас(Г) + Аг(АО, еслиЗр ур(I) гО.ч^с ^),

'«С+ 1)4 , 1Л

+ иначе,

а величины Уу = 0, {и/(0}общ = {<(0} = 0, г(О) = го6щ (0) = г0 (3)

представляют собой нулевые начальные значения

Уравнения (2) описывают распознавание как динамический процесс, состояние которого зависит от текущей информации на входе ДНС, которая определяет величину >^Лр(7) одного предшествующего состояния, определяющего {и>;{0}ас = Р^^рщ), и, кроме того, зависит неявно от всех предыдущих состояний процесса на интервале времени А? через гас(£\() и гЛт(А1)

Динамика такого процесса характеризуется переключением управления по различным нейроподобным элементам сети в зависимости от формы входной последовательности При этом реализуется иерархия связанных сетей одноуровневые связи между НЭ задают отношения ассоциированности, а межуровневые - отношения вхождения более простых элементов в более сложные

Для уменьшения структурной сложности динамической нейронной системы идентификации личности по речевым параметрам предложено сократить информационную избыточность речевого сигнала на этапе запоминания его параметров в регистре сдвига Сокращение избыточности речи основано на сравнении двух кадров речевого сигнала по совокупности его параметров в предыдущий (/„) и в последующий (?„+]) моменты времени В зависимости от значения разности параметров запоминается либо предыдущий, либо последующий кадр речи Такие операции реализует цифровое устройство, схема которого показана на рисунке 8

Рисунок 8 - Функциональная схема устройства исключения неинформативных параметров речевого сигнала

Алгоритм функционирования устройства, обеспечивающий уменьшение информационной избыточности речевого сигнала, приведен на рисунке 9

едепение состояния "1 ячеек ОЗУ и регистра

^Проверка наличия кадра речи

Считывание »регистр сдвига Считывание »регистр сдаига

1

Переходе следующую ячейщг регистра сдвига

Гоценка степени одегаичности —I данного и предыдущего кадров

Рс тиранке ■ п-1-го кадра "] и запись п-го кадра

Гв ьаделение ноной ячейки памяшОЗУ под п-й кедр

Считывание 7 параметров /_ из регистра / сдаига /

Гп одача

. данных I навход нейросети

^ Конец ^

Рисунок 9 - Алгоритм исключения неинформативных параметров речевого сигнала

Сущность предложенного алгоритма состоит в том, что длительность произнесения гласных букв в большинстве слов значительно превышает интервал дискретизации речевого сигнала (10 30 мс) при кодировании его параметров Вслед-

ствие этого значения коэффициентов или признаков речи в соседних кадрах преобразования могут незначительно отличаться друг от друга Это дает возможность сократить общее количество кадров, используемых для идентификации абонентов по особенностям речевого сигнала, непосредственно в процессе запоминания параметров речи в регистре сдвига динамической нейронной сети

Применение данного устройства и алгоритма позволяет, как минимум, вдвое уменьшить объем информации и время ее обработки при распознавании речи Одновременно уменьшается общее число НЭ в динамической нейронной сети и практически сокращается время идентификации абонентов АСУ ТП

В четвертой главе представлена математическая модель и алгоритм верификации пользователей АСУ на основе динамической нейронной сети Представлены алгоритмы функционирования системы в режиме обучения и распознавания, приведены результаты машинного моделирования и выполнена оценка эффективности распознавания Предложены рекомендации по реализации системы распознавания речи на современной микроэлектронной базе

Согласно представленной математической модели (4) решение на выходе ДНС зависит от вложения принятого речевого сигнала в гипертрубку сигнального пространства ДНС, являющуюся одним из эталонов, полученных в ходе обучения

у(1)Ф 0 (4)

Форма трубки описывает наиболее характерные особенности совокупной динамики реализаций данного речевого кадра в сигнальном пространстве, а изменение диаметра трубки сигнального пространства практически полностью зависит от вариации значения радиуса распознавания г

В процессе обучения ДНС вводят метрику Д определяющую расстояние между адресом НЭ 1¥Л и и-граммой временной последовательности а в окне регистра сдвига, следующего вида

0 = ДХ,<] = тах{<1; = (а,Ау -<'),./ = 1 (5)

л л

где а ] п w J —у-ые компоненты соответствующих и-грамм, представляющие отдельные последовательности, т е а=(аА , ал "), у/ = ( и<Л 1, , и>л")

При обучении ДНС запоминает образ А эталонной последовательности в сигнальном пространстве Для компактности представления эталона близкие точки образа а, отображаются в одну гиперсферу и запоминаются в одном НЭ При этом запоминающие НЭ выделяются динамически по условиям

<г,1 = 1, ...,р, (6)

где р - количество НЭ уже задействованных к моменту времени ?

Функцию автоассоциации на множестве НЭ можно определить как

Технически функция автоассоциации реализуется за счет наличия в ДНС обратной связи Для этого на дополнительные входы всех НЭ по общей шине ДНС подается и-1-грамм (п>Л 2,, , ",) из адреса НЭ и1, и определяются сработавшие НЭ Отображая все обучающее множество последовательностей {А,} в сигнальном пространстве и запоминая его в ДНС с динамическим выделением НЭ при некотором радиусе г, можно получить образ-эталон речевого сигнала в виде суперграфа 5СМЛ , представленного объединением трубок 1У(Х)Л,, соответствующих отдельным реализациям А,

(г)1

(8)

Распознавание в ДНС осуществляется как вложение траектории А , соответствующей входной последовательности А, в траекторию эталона — область одной из трубок графа £(7(Г)Л Попаданию образа входной последовательности А, формируемого регистром сдвига ДНС, в трубку Щг)л, с 5,С(Г)Л соответствует наличие непрерывной последовательности сигналов >{/) Ф О НЭ, которая фактически является критерием распознавания Контроль за правильностью вложения входной траектории в области ассоциативно связанных гиперсфер эталона, а также устойчивое вложение в одну из гипертрубок, обеспечивает механизм управления (МУ), работающий на основе функции автоассоциации (7) Алгоритмы обучения и распознавания в ДНС представлены на рисунках 10 и 11

- —"2- яп)

Гз опись данных " в ячейки НЭ а*,«^

■ -^Получение а*

[Стирание очередного

__параметравектора

. и выделение нового | элемента памяти

Г/

рВпожение входной , последовательности в сигнальное | пространство ДНС

¡Установка Г^д) . ^ в некоторое ■ начальное , значение г

|~При условии I когда у * О

[Увеличение ГоВщ(д I дня продолжения

__траектории,

I уменьшение Гасф | дня других траекторий

[по условиям • — 1) У1 = 1 или у1 £ О,

[2)7, = О

Гкомвнда на вьздачу ' """" соответствующего 1 результата

Рисунок 10 - Ал горя™ обучения ДНС Рисунок 11 - Алгоритм распознавания в ДНС

Таким образом, основными этапами алгоритма верификации являются

1. Формирование признакового пространства речевого сигнала

2 Исключение неинформативных параметров речевого сигнала

3 Формирование вектора входных параметров ДНС

4 Режим обучения ДНС - формирование биометрических эталонов

5 Режим распознавания в ДНС с выдачей решения о результате процедуры верификации

Для оценки эффективности верификации был проведен эксперимент, в котором участвовали 54 человека мужского пола Были проанализированы различные типы нейронных сетей с помощью библиотеки Neural Network Toolboxes среды MatLab Результаты эксперимента (таблица 1) показывают преимущества предлагаемой ДНС для верификации абонентов АСУ

Таблица 1 Оценка качества функционирования нейросетей

Вид сети

Линейные сети Радиальные базисные сети Само-органи-зующи-еся сети Сети Элмана Сети Хоп-филда Динамические сети Динамические с устройством разделения слов

Минимальное количество нейронов >2000 3500 1000 1200 1200 900 900

Количество итераций >15000 8000 5000 4000 4500 4000 3000

Вероятность ошибки обучения 42% 36% 26% 20% 14% 12% <3%

Вероятность верификации 57% 63% 74% 80% 85% 87% 97%

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1 На основании сравнительного анализа выявлена перспективность применения биометрических систем распознавания речи для верификации пользователей АСУ с речевым управлением

2 Обоснована целесообразность применения систем распознавания по голосу абонента, обеспечивающих высокую надежность идентификации при минимальных временных затратах и требованиях к операционным ресурсам, максимальное удобство для пользователя и низкую сшимонь шюювлсния

3 Усовершенствован способ построения систем распознавания речевых сигналов, обеспечивающий повышение надежности и уменьшение трудоемкости на стадии формирования речевых эталонов за счет предварительного исключения кадров речи с малой вариацией параметров

4 Разработан и экспериментально опробован алгоритм фрагментирова-ния речевого сигнала, обеспечивающий уменьшение времени формирования

эталонов и повышение надежности верификации пользователей за счет снижения информационной избыточности речевого сигнала

5 Разработана математическая модель верификации пользователей на основе нейронной сети, отличающаяся от известных решений новым способом перестройки структуры нейросети и обеспечивающая повышение достоверности распознавания, что подтверждено экспериментальными данными

6 Показана реальная возможность разработки и создания специализированных микросхем на нейронных элементах для верификации пользователей по параметрам речи в целях защиты АСУ с речевым управлением, транспортных средств и информационных ресурсов от несанкционированного использования

7 Предложена и реализована программно-аппаратным способом система верификации пользователей АСУ по особенностям речевого сигнала, которая внедрена в Академии ФСО России и используется в учебном процессе

Основные результаты диссертации опубликованы в следующих работах

1 Катков, О. Н. Свойства нейронных сетей и их использование для распознавания речевых сигналов [Текст] / Катков О Н, Пименов В А // Телекоммуникации -2003 -№12 - С 6-11 (Журнал из перечня изданий, рекомендованных ВАК)

2 Катков, О. Н. Система распознавания речи на основе нейронной сети [Текст] / Катков О Н, Пименов В А // Телекоммуникации - 2004 - № 2 - С 14 -19 (Журнал из перечня изданий, рекомендованных ВАК)

3 Катков, О. Н. Использование адаптивной нейронной сети в системе голосовой аутентификации [Текст] / Катков О Н , Пименов В А, Рыжков А П // Телекоммуникации - 2005 - № 2 - С 34 -40 (Журнал из перечня изданий, рекомендованных ВАК)

4 Катков, О. Н. Низкоскоростная система цифрового кодирования речевого сигнала [Текст] / Катков О Н, Пименов В А, Рыжков А П // Телекоммуникации - 2005 - № 2 - С 5-8 (Журнал из перечня изданий, рекомендованных ВАК)

5 Катков, О. Н. Некоторые предложения по созданию системы разграничения доступа на основе голосовой аутентификации [Текст] / Катков ОН// Межвузовский сборник научных трудов № 5 Том 1 "Проблемы совершенствования систем защиты информации и образовательных технологий подготовки специалистов" - Краснодар, 2004 -С 113-117

6 Катков, О. Н. Использование многослойного персептрона в системе голосовой аутентификации [Текст] / Катков ОН// Информатизация и информационная безопасность правоохранительных органов XIII Международная иауч конф 25 -26 мая 2004 г - М Академия управления МВД РФ, 2004 -С 418-421

7 Катков, О. Н. Прототип нейросетевой системы аутентификации личности [Текст] / Катков ОН// Сборник трудов XI Всероссийской научно-технической конференции студентов, молодых ученых и специалистов "Новые

информационные технологии в научных исследованиях и образовании" -Рязань, 2006 - С 151-152

8 Катков, О. Н. Использование нейросетей для обработки речевых данных [Текст] / Катков ОН// Сборник трудов XII Всероссийской научно-технической конференции "Новые информационные технологии в научных исследованиях и образовании" - Рязань, 2007 — С 285 — 287

9 Катков, О. Н. Устройство и алгоритм исключения неинформативных параметров речевого сигнала [Текст] / Катков О. Н., Пименов В А, Полухин А Н // Сборник трудов 33-й Всероссийской научно-технической конференции "Сети, системы связи и телекоммуникации Деятельность ВУЗа при переходе на федеральный государственный образовательный стандарт 3-го поколения" Часть 1 Рязань, 2008 - С 279-282

10 Катков, О. Н. Устройство сокращения входного алфавита динамической нейросети [Текст] / Катков О Н , Пименов В А , Полухин А Н // Сборник трудов XIII Всероссийской научно-технической конференции "Новые информационные технологии в научных исследованиях и образовании" - Рязань, 2008 - С. 149 - 151

Катков Олег Николаевич

Автоматизация процесса верификации абонентов АСУ с речевым управлением

05 13 06 - Автоматизация и управление технологическими процессами и производствами (промышленность)

Автореферат диссертации на соискание ученой степени кандидата технических наук

Подписано в печать.й_0? 08 г Формат 60x84/16 Печать офсетная Уел печ л 1,0 Тираж 80 экз Заказ № №

Отпечатано в типографии Академии ФСО России 302034, г Орел, ул Приборостроительная, 35

Оглавление автор диссертации — кандидата технических наук Катков, Олег Николаевич

Введение.

ГЛАВА 1 Сравнительный анализ способов идентификации пользователей АСУ.

1.1 Верификация пользователей в АСУП.

1.2 Сравнение методов контроля биометрических параметров.

1.2.1 Идентификация личности по рисунку сосудов глазного дна.

1.2.2 Идентификация личности по радужной оболочке глаза.

1.2.3 Идентификация личности по геометрии кисти руки.

1.2.4 Идентификация по папиллярным рисункам пальцев руки.

1.2.5 Идентификация личности по особенности геометрии лица.

1.2.6 Термографическое наблюдение лицевых артерий и вен.

1.2.7 Идентификация личности по венам руки.

1.2.8 Развитие статических методов биометрической идентификации.

1.3 Принципы идентификации методом динамической биометрии.

1.4 Обобщенная структура систем биометрической идентификации.

1.5 Сравнительный анализ систем идентификации личности.

Выводы по первой главе.

ГЛАВА 2 Анализ принципов построения систем речевой верификации личности.

2.1 Характеристики и параметры речевых сигналов.

2.2 Идентификация личности по особенностям голоса.

2.3 Структура систем речевого распознавания.

2.4 Алгоритм определения частоты основного тона.

2.5 Нечеткая логика в системах верификации.

Выводы по второй главе.

ГЛАВА 3 Нейросетевые системы верификации речевых сигналов.

3.1 Нейронные сети и их применение для распознавания речевых сигналов.

3.2 Динамическая нейронная сеть и алгоритмы ее функционирования.

3.3 Устройство и алгоритм исключения неинформативных параметров речевого сигнала.

Выводы по третьей главе.

ГЛАВА 4 Процесс верификации пользователей на основе динамических нейронных сетей.

4.1 Локально-стационарная модель речевых сигналов.

4.2 Распознавание речевых сигналов как решение дискретной экстремальной задачи.

4.3 Математическая модель процесса верификации.

4.4. Разработка алгоритма процесса верификации.

4.5 Разработка рекомендаций по реализации системы речевой верификации.

4.6 Оценка эффективности системы речевой верификации.

Выводы по четвертой главе.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Катков, Олег Николаевич

Современный этап развития информационно-вычислительных и автоматизированных систем характеризуется расширением их функциональных возможностей с предоставлением потребителям широкой сферы дополнительных и сервисных услуг. В частности, значительно упрощен доступ к информационным базам данных по сетям Internet и Intranet, осуществляемый даже с сотовых телефонов, автоматизированы процессы вычислений, различного вида проектирования, маркетинга, составления отчетов и т. п.

Одним из перспективных направлений дальнейшего совершенствования средств информационно-вычислительной техники является разработка и внедрение человеко-машинных систем - автоматизированных систем с речевым управлением, основанных на распознавании речи и ее преобразовании в набор управляющих команд или текстовых файлов. Создание таких систем позволит значительно упростить процессы составления различных отчетов (печатные машинки, управляемые голосом), поиска информации (по ключевым словам в речевом запросе), выдачи справочных данных (о расписании поездов, местонахождении объектов, номерах телефонов и т. п.).

Вторым, и одним из важнейших путей развития систем с речевым управлением является создание устройств идентификации личности абонента в целях защиты информационных баз данных от несанкционированного использования или преднамеренного искажения. Такая защита необходима не только в информационно-вычислительных системах специального назначения, но и в автоматизированных системах управления технологическими процессами на предприятиях точного приборостроения, выпускающих продукцию двойного назначения.

Передовой мировой опыт доказывает, что повышение эффективности деятельности современного предприятия возможно только при наличии единой системы, объединяющей управление финансами, персоналом, снабжением, сбытом и собственно производством. Такие системы рассматриваются как средство достижения основных целей бизнеса: улучшения качества выпускаемой продукции, снижения издержек и увеличения объема производства.

Актуальность работ по созданию и внедрению на предприятии автоматизированной системы оперативного диспетчерского управления (АСО-ДУ) каждый руководитель понимает по-своему. Однако есть ряд объективных факторов, влияющих на принятие решения. Так, решить задачу повышения эффективности собственного производства невозможно без получения объективной картины технических и технологических параметров производства. Другой фактор - это наличие информационных и организационных барьеров между управленческими и технологическими уровнями. И последнее, необходимо осуществить разграничение доступа лиц к общей информационной базе в соответствии с занимаемым положением и возложенными функциональными обязанностями.

В связи с этим исследование и разработка микропроцессорных устройств для автоматического распознавания абонентов по особенностям речи является важной научно-практической задачей, которая особенно актуальна на современном этапе развития информационных технологий.

Создание устройств с высокой надежностью (достоверностью) распознавания речи позволит обеспечить не только допуск легитимных абонентов к информационным сетям специального назначения, но и решать задачи автоматической оценки эмоционального состояния операторов, управляющих сложными производственными процессами, а также других лиц, работающих в реальных или моделируемых стрессовых ситуациях. В частности, по снижению скорости речи можно судить о степени утомляемости, а повышение акустического уровня звука и частоты слов указывает на эмоциональное возбуждение человека при возникновении непредвиденных ситуаций, и т. д.

Исследованиями различных аспектов проблемы распознавания речевых сигналов занимаются тысячи зарубежных организаций. Имеются мощные научные центры в Японии, Франции, Канаде, Швеции и других странах.

Ведущими американскими центрами в области речевых технологий являются Массачусетский технологический институт, Калифорнийский и Карнеги-Меллонский университеты, Хаскинская и Белловская лаборатории. Значительные достижения имеют исследовательские центры фирм IBM и BBN, фирмы Scott Instruments Inc., Kurzweil Applied Intelligence Inc., Voice Processing Corp., Texas Instruments и др. В Японии ведущей фирмой является NliC и исследовательские центры Университетов городов Токио и Киото. В Швеции - Королевский Технологический Институт, в Финляндии - Хельсинский Университет.

В России и странах ближнего зарубежья несколько десятков организаций также работает в области цифровой обработки речевых сигналов. Среди этих организаций три мощных коллектива проводят полный цикл работ в области распознавания речи - начиная от комплексных исследований про-! блемы и закапчивая изготовлением опытных и серийных образцов. К этим коллективам относятся: Институт кибернетики АН Украины, Институт ма-, тематики СО РАН и Институт технической кибернетики АН Белоруссии.

Следует также отметить Московский и Петербургский университеты, в которых работают две лингвистических школы, и Петербургский Институт физиологии РАН, где имеется одна из ведущих в мире физиологических школ.

В СССР процессорное устройство для распознавания изолированных команд "Икар" было создано еще в 1980 году в НИИ СЧЕТМАШ [1, 2], а в 1982-1983 годах созданы системы распознавания изолированных команд: "Речь" (ИК АН Украины) [3], "Марс" (НТК Беларусии) и "Сибирь" (ИМ СО РАН и НГУ) [4].

Применение векторного квантования измеряемых характеристик (признаков) речевых сигналов, представление речевых сигналов в пространстве признаков в виде марковских последовательностей, появление быстродействующих процессоров и увеличение объемов оперативной памяти компьютеров позволило еще в 1980-е годы теоретически решить проблему распознавания речи, составленной из словарей большого объема. Однако широкое распространение систем распознавания речи сдерживалось ограниченной производительностью вычислительной техники. Для распознавания, например, 200 команд необходим процессор с производительностью 30 млн. операций в секунду, содержащий 500 тыс. электронных компонентов. Для распознавания слитно произнесенных цифр нужно выполнять до 100 млн. операций в секунду процессором, имеющим один миллион компонентов. Кроме того, для распознавания слитной речи на базе словаря в 1000 слов требуется производить вычисления со скоростью один млрд. операций в секунду при 10 млн. компонентах на процессор. Для распознавания слитной речи из словаря с 5000 слов - до 300 млрд. операций в секунду на процессоре, имеющем более 30 млн. элементов [5].

Универсальные системы распознавания речи продемонстрировали эф- f фективность устного ввода информации. Однако эти системы трудно адаптировать к конкретной предметной области, поэтому они не нашли широкого практического применения, в частности, из-за относительно невысокой надежности распознавания слов, составляющей в среднем около 80 % при ощутимой задержке при выдаче результатов распознавания речи.

В это же время спегщаяпзированные системы распознавания речевых сигналов характеризуются сравнительно высоким показателем надежности. Так, голосовая пишущая машинка (Voice typewriter) фирмы IBM с системой распознавания речи TANGORA на 20000 слов обучается на голос диктора в течение 20 минут при произнесении фраз с четко выраженными паузами между словами, и при прочтении четырьмя дикторами 100 эталонных предложений (1696 слов) получено всего 3,5 % ошибок [6, 7].

Фирмы British Telecom, Lodgica и Кембриджский университет в рамках программы Alvey создали голосовую систему управления базой данных (VODIS) для получения по телефону информации о движении поездов, которая рассчитана на распознавание 200 слов в составе предложений [8].

В Карнеги-Меллонском университет и фирме Dragon Systems разработана система, ориентированная на словари изолированных слов объемом 1000, 11000 и 30000 слов с надежностью распознавания на тестовом словаре DARPA 1000 слов - 98,6 %, 11000 слов - ,83 % и 30000 слов - 93 % [6].

В настоящее время развиваются проекты по распознаванию слитной речи из словарей, содержащих десятки тысяч и даже более 100 тысяч слов.

Современные системы распознавания речи основаны на использовании сигнальных процессоров серии TMS320 и быстродействующих персональных компьютеров со специализированным программным обеспечением, чем практически ограничивается возможность применения таких устройств в различных областях. В связи с этим ставится задача по разработке и исследованию систем распознавания речи, специализированных по областям применения и реализуемых на базе одной - двух интегральных микросхем.

Возможность практического создания таких речевых микросхем обусловлена несколькими факторами: развитием средств сотовой связи, широким внедрением устройств управления на базе нечеткой логики и разработкой новых алгоритмов динамического программирования, реализуемых на нейтронных сетях. Сочетание принципов построения данных устройств позволяет обеспечить решение задачи по созданию надежных и сравнительно недорогих микросхем распознавания речевых сигналов, предназначенных для идентификации личности или управления технологическими процессами.

В общем случае проблема создания устройств с речевым управлением и систем распознавания речи содержит две принципиально разных задачи.

Первая задача сводится к преобразованию акустического речевого сигнала в электрический сигнал с его последующим цифровым преобразованием или кодированием. При этом выделяются основные информативные признаки речи (частота основного тона и ряд коэффициентов, характеризующих тембр и фонетические особенности речи на интервалах 10-30 мс), которые передаются по каналу связи в виде последовательности параметров.

Вторая задача заключается в сравнении неизвестных параметров речи с некоторыми базовыми эталонными значениями, получаемыми заранее на этапе обучения системы распознавания, и формировании выходных сигналов в зависимости от итогов сравнения в виде необходимых управляющих воздействий или как результат идентификации личности абонента.

Успешное и вполне удовлетворительное решение первой задачи - кодирование параметров речи - доказано практическим использованием миллиардов сотовых телефонов, в которых реализовано цифровое преобразование разноязычной речи и ее передача со скоростью 13,5 килобит в секунду.

В связи с этим объектом исследования в диссертационной работе являются системы верификации пользователей АСУ с речевым управлением.

Предмет исследования - модели и алгоритмы обработки речевых сигналов.

Цель работы состоит в повышении качества функционирования АСУ с речевым управлением за счет совершенствования системы верификации пользователей.

Поставленная цель предполагает решение следующих научных задач:

- обоснование способа эффективной верификации пользователей АСУ на основе их речевых характеристик;

- разработка алгоритмов обработки речевых сигналов для задач верификации пользователей в АСУ с речевым управлением;

- моделирование и экспериментальное исследование алгоритма речевой верификации для оценки его результативности и аппаратурных затрат.

При решении поставленных в диссертационной работе задач применялись следующие методы исследования: методы системного анализа, методы теории множеств, теория нейронных сетей, теория принятия решений, меточ ды объектно-ориентированного программирования, теория электрической связи, методы статистической обработки сигналов, а также программные и языковые средства современных компьютерных технологий.

Научная новизна диссертационной работы заключается в следующем:

- разработаны математическая модель и алгоритм верификации пользователей АСУ с речевым управлением, основанные на аппарате динамических нейронных сетей, учитывающие статистические характеристики речевого сигнала;

- разработан новый алгоритм фрагментирования речевых сигналов для формирования признакового пространства на входе нейронной сети, учитывающий автокорреляционные связи между соседними речевыми кадрами;

- разработан способ определения частоты основного тона речевого сигнала, основанный на быстром преобразовании Фурье и адаптивном изменении интервала анализа

Основные положения, выносимые на защиту диссертационной работы:

1. Способ определения частоты основного тона речевого сигнала, основанный на адаптивном изменении интервала анализа.

2. Устройство и алгоритм исключения неинформативных параметров речевого сигнала, обеспечивающий сокращение времени верификации абонентов АСУ с речевым управлением.

3. Математическая модель и алгоритм процесса речевой верификации абонентов АСУ с речевым управлением на основе аппарата динамических нейронных сетей.

Практическая значимость и реализация результатов работы заключается в том, что полученные научно-технические решения использованы при выполнении двух научно-исследовательских работ, проведенных в Академии ФСО России в 2006 — 2007 годах. Результаты исследований внедрены и используются в образовательном процессе - при проведении практических и лабораторных работ по курсу "Теория электрической связи" и "Цифровая обработка сигналов" на кафедре №7 Академии ФСО России, а также при дипломном проектировании.

Апробация работы. Основные положения и результаты работы докладывались и получили положительную оценку на следующих конференциях:

1. Международная научная конференция "Информатизация и информационная безопасность правоохранительных органов" Москва, 2004 г.

2. XI Всероссийская научно-техническая конференция студентов, молодых ученых и специалистов "Новые информационные технологии в научных исследованиях и образовании" Рязань, 2006.

3. XII Всероссийская научно-техническая конференция студентов, молодых ученых и специалистов "Новые информационные технологии в научных исследованиях и образовании" Рязань, 2007.

4. 33-я Всероссийская научно-техническая конференция "Сети, системы связи и телекоммуникации. Деятельность ВУЗа при переходе на федеральный государственный образовательный стандарт 3-го поколения" Рязань, 2008.

5. XIII Всероссийская научно-техническая конференция студентов, молодых ученых и специалистов "Новые информационные технологии в научных исследованиях и образовании" Рязань, 2008.

По результатам проведенных исследований опубликовано 6 статей, в том числе 4 работы в изданиях из перечня ВАК.

Заключение диссертация на тему "Автоматизация процесса верификации абонентов АСУ с речевым управлением"

Выводы по четвертой главе

1. Применение динамической нейронной сети для систем верификации позволяет реализовать операции динамического обучения и распознавания элементов входной последовательности или векторов параметров речевого сигнала с адаптивной подстройкой весов отдельных нейронов (осей гипертрубок) для наилучшей обработки входной информации.

2. Повышение эффективности распознавания параметров речевого сигнала обеспечивается введением механизма управления, который на основании распознанной информации выстраивает возможные продолжения траекторий гипертрубок и регулирует радиусы расфокусировок нейроэлементов.

3. Для эффективного и надежного распознавания сложных речевых образов целесообразно применять иерархические структуры динамических нейронных сетей, позволяющие учитывать иерархию речи под руководством глобального механизма управления, который управляет локализацией траекторий на всех уровнях структуры на основе анализа состояния всей нейронной сети.

4. При разработке систем распознавания речевых сигналов для структур разграничения доступа в ИВС и АСУ должны быть реализованы, как минимум, три процедуры - регистрации, идентификации и аутентификации легитимных пользователей.

5. Для оценки эффективности речевых систем верификации целесообразно использовать случайный набор контрольных фраз с ярко выраженными признаками распознавания, а в качестве результата использовать вероятность правильных решений системы о принадлежности объекта к тому или иному классу при заранее известной принадлежности классифицируемого объекта.

6. Для решения задач распознавания речи в системах идентификации в рамках цифровой обработки сигналов наиболее эффективно применение сигнальных процессоров платформ С5000 и С6000 в сочетании с программной реализацией динамических нейронных систем, обеспечивающих оптимальное соотношение низкого энергопотребления и высокой производительности.

ЗАКЛЮЧЕНИЕ

В результате проведенных исследований установлено следующее.

1. На основании сравнительного анализа выявлена перспективность применения биометрических систем распознавания речи для верификации пользователей АСУ с речевым управлением.

2. Обоснована целесообразность применения систем распознавания по голосу абонента, обеспечивающих высокую надежность идентификации при минимальных временных затратах и требованиях к операционным ресурсам, максимальное удобство для пользователя и низкую стоимость изготовления.

3. Усовершенствован способ построения систем распознавания речевых сигналов, обеспечивающий повышение надежности и уменьшение трудоемкости на стадии формирования речевых эталонов за счет предварительного исключения кадров речи с малой вариацией параметров.

4. Разработан и экспериментально опробован алгоритм фрагментиро-вания речевого сигнала, обеспечивающий уменьшение времени формирования эталонов и повышение надежности верификации пользователей за счет снижения информационной избыточности речевого сигнала.

5. Разработана математическая модель верификации пользователей на основе нейронной сети, отличающаяся от известных решений новым способом перестройки структуры нейросети и обеспечивающая повышение достоверности распознавания, что подтверждено экспериментальными данными.

6. Показана реальная возможность разработки и создания специализированных микросхем на нейронных элементах для верификации пользователей по речевым параметрам в целях защиты АСУ с речевым управлением, транспортных средств и информационных ресурсов от несанкционированного использования.

7. Предложена и реализована программно-аппаратным способом система верификации пользователей АСУ по особенностям речевого сигнала, которая внедрена в Академии ФСО России и используется в учебном процессе.

Библиография Катков, Олег Николаевич, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)

1. Петров Г.М., Аврин С.Б., Копейкин А.Б. Аппаратурные и программные решения задачи ввода устных команд в диалоговых периферийных устройствах // Автоматическое распознавание слуховых образов. Тбилиси: Мецниереба, 1982.-С. 213-215.

2. Аврин С.Б. О характеристиках надежности распознавания устных команд устройством ИКАР // Тез. докл. 13-й Всесоюз. школы-семинара по автоматическому распознаванию слуховых образов (АРСО-13).-Июль. -Новосибирск, 1984.-С. 179-180.

3. Винцюк Т. К. Анализ, распознавание и смысловая интерпретация речевых сигналов. Киев: Наукова думка, 1987. - 262 с.

4. Sakoe Н., Chiba S, A dynamic programming algorithm optimization for spoken word recognition //IEEE Trans. Aconst. Speech Signal Process. Feb., 1978. -Vol. ASSP-26, jYol. -pp. 43-49.

5. Миловидов H.H. Разговор с компьютером // Реферативный сборник: Новости науки и техники. Серия: Электронизация производства. - Вып.9. -М.: ВИНИТИ. - С. 4-7.

6. Тайпэн Д. Распознавание речи: завтра уже наступило?//Мир ПК. 1995.-№3.-С. 38-44.

7. Coined D. They're giving computers «ears» // Des. News. 1994. -Voi.49,№22.-pp. 75-77.

8. Гостехкомиссия России. Руководящий документ. Концепция защиты средств вычислительной техники и автоматизированных систем от несанкционированного доступа к информации. М.: 1997.

9. Гостехкомиссия России. Руководящий документ. Автоматизированные системы. Защита от несанкционированного доступа к информации. Классификация автоматизированных систем и требования по защите информации. М.: 1997.

10. Теоретические основы автоматического управления / А. В. Меньков, В. А. Острейковский. Учебник для вузов. - М.: Издательство Оникс, 2005. - 640 е.: ил.

11. Катков О. Н. Использование многослойного персептрона в системе голосовой аутентификации. Сборник трудов XIII Международной научной конференции "Информатизация и информационная безопасность правоохранительных органов" М:2004.-с. 418-421.

12. Ярочкин В.И. Безопасность информационных систем. М.:, 1996. - 320с.

13. Вычислительная техника. Терминология: Справочное пособие. -М.: Изд-во стандартов, 1989. 168 с.

14. Петров А. А. Компьютерная безопасность. Криптографические методы защиты. М.: ДМК-2000-447 с.

15. Медведовский И.Д. Атака на Internet / И.Д. Медведовский, П.В.Семьянов, Д.Г.Леонов //U.: ДМК -1999-334 с.

16. Иванов А. И. Биометрическая идентификация личности по динамике подсознательных движений: Монография. Пенза: Изд-во Пенз. гос. ун-та, 2000. - 188 с.:36 ил., 13 табл., библиогр 120 назв.

17. Расторгуев С.П. Программные методы защиты информации в компьютерах и сетях. М.: Из-во «Яхтсмен», 1993.

18. Тельных А. Идентификация личности. Как это делается. /А. Тельных, А. Коган. //Компьютерра. -1999-№10-С.39-41.

19. Филлипс П. Дж. Введение в оценку биометрических систем. /П. Дж. Фил-липс, Э. Мартин, C.JI. Пржибоски //Открытые системы. -2000-№3-С.21-27.

20. Уиллес Д. Пусть Ваши пальцы зарегистрируются сами. //Сети и системы связи.-1998-№9(31)-С. 156-160.

21. Пентланд А. Распознавание лиц для интеллектуальных сред. /А. Пент-ланд, Т. Чаудхари, //Открытые системы. -2000-№3- С.28-33.

22. Белоцерковский О.М. Компьютерное распознавание человеческих лиц. /О.М. Белоцерковский, А.С. Глазунов, В.В. Щеиников //Зарубежная радиоэлектроника. Успехи современной радиоэлектроники. -1997-№8-С.З-14.

23. Ахмед Н. Ортогональные преобразования при обработке цифровых сигналов. /Н. Ахмед, К.Р. Рао -М.: Связь, 1980 248 с.

24. Залманзон JI.A. Преобразование Фурье, Уолша, Хаара и их применение в управлении и других областях. М.: Наука -1989.

25. Маркел Дж. Д. Линейное предсказание речи. /Дж. Д. Маркел, А.Х. Грей -М.: Радио и связь, 1980, 248 с.

26. Марпл С.Л. Цифровой спектральный анализ и его приложения. -М.: Мир 1990.

27. Власенко В.А. Методы синтеза быстрых алгоритмов свертки и спектрального анализа сигналов. /В.А.Власенко, Ю.М.Лаппа, Л.П.ЯрославскиЙ -М.: Наука- 1990.

28. Tokhura Y. A weighted cpestral distance measure for speech recognition. IEEE Trans. On Acoustic, Speech, Signal Processing, 1987, ASSP-35, №. 10.

29. Бочкарев С.Л. Эффект нелинейных кепстральных преобразований при идентификации личности по голосу. //Тезисы доклада конференции «Безопасность и конфиденциальность информации в сетях и системах связи». Пенза: ПНИЭИ, 6-9 октября 1998- С. 62.

30. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу. -М.: Радио и связь-1981- 224 с.

31. Мясников JI.JL, Мясникова Е.Н. Автоматическое распознавание звуковых образов. -JL: «Энергия», 1970,- 183 с.

32. Фомин Я. А., Тарловский Г. Р. Статистическая теория распознавания образов. -М.: Радио и связь, 1986. 264 с : ил.

33. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.-450 с.

34. Величко В.М., Загоруйко Н.Г. Автоматическое распознавание ограниченного набора устных команд // Вычислительные системы. Новосибирск, 1969.-Вып. 36.-С. 101-110.

35. Загоруйко Н.Г. Методы распознавания и их применение. М.: Сов. Радио,-1972.-207 с.

36. Винцюк Т. К. Распознавание слов устной речи методами динамического программирования//Кибернетика. 1968.-№1.-С. 81-88.

37. Винцюк Т К. Анализ, распознавание и смысловая интерпретация речевых сигналов. Киев: Наукова думка, 1987. - 262 с.

38. Sakoe Н., Chiba. S. A dynamic programming approach to continuos speech recognition // Proc. 7-th Int. Congr. Acoustics. Budapest. -1971, Aug., -Vol.3, -pp. 65-68.

39. ТИИЭР // Речевая связь с машинами. Тематический выпуск. -1976,-Т.64,№4.

40. ТИИЭР // Речевая связь с машинами. Тематический выпуск. -1985,-Т.73,№11.S

41. Фланаган Дж. Анализ, синтез и восприятие речи: Пер. с англ. / Под. ред. А. А. Пирогова. М.: Связь, 1968. - 396 с.

42. Кельманов А.В. Первичная обработка сигналов в системах распознавания речи // Вычислительные системы // АН СССР. Сиб. отд. Институт математики. Новосибирск, 1990. - Вып. 134. - Анализ данных и знаний в экспертных системах. - С. 96-139.

43. Винцюк Т. К. Распознавание непрерывной речи, составленной из слов заданного словаря // Кибернетика. 1971. - №2. - С. 133-143.

44. Система распознавания связной речи фирмы NEC // Зарубежная радиоэлектроника.- 1980.-№4.-С. 108-120.

45. Распознавание образов: состояние и перспективы: Пер. с англ./ К. Верха-ген, Р. Дейн, Ф. Грун и др. М.: Радио и связь, 1985. - 104 е., ил.

46. Катков О. Н., Пименов В.^А., Рыжков А. П. Использование адаптивной нейронной сети в системе голосовой аутентификации // Телекоммуникации. -2005. №2-С. 34-40.

47. Катков О. Н., Пименов В. А. Система распознавания речи на основе нейронной сети // Телекоммуникации. -2004. №2-С. 14-19.

48. Потапова Р.К. Речевое управление роботом. М.: Радио и связь, 1989.248 с.

49. Величко В.М. Минимизация вычислений в распознавании речи // Вычислительные системы. Новосибирск, 1985, -Вып. 113. -Анализ символьных последовательностей.- С. 123-132.

50. Proc. Nat. Acad. Sci. USA//1995. Vol.92, №22. -pp. 9911-10063.

51. Zue V.W. Navigating the information superhighway using spoken language interfaces /'IEEE Expert. -1995. Vol 10, Ш. -pp. 39-73. IEE Rev. - 1968. -Vol.34, №10. -pp. 365-368.

52. Гелиг A. X. Динамика импульсных систем и нейронных сетей. Л., Изд-во Ленингр. Ун-та. 1982. 192 с. Ил. библиогр. - 95 назв.

53. Green Т. A word in your ear // Pers. Сотри!. World. 1995. - Vol.18, №4. -pp. 364-370.

54. Основы обучения искусственных нейронных сетей: Ученое пособие/ В. И. Волчихин, А. И. Иванов. Пенза: Издательство пенз. гос. ун-та, 2004. - 116 е.: 45 ил., 2 табл., библиогр. 32 назв.

55. Катков О. Н., Пименов В. А. Свойства нейронных сетей и их использование для распознавания речевых сигналов. // Телекоммуникации. -2003. №12-С. 6-11.

56. Реасоске R.D., Graf D.H. An Introduction to Speech and Speaker Recognition //Computere. Aug. - 1990. - pp. 26-33.

57. Fung M.-W. Improved Speaker Adaptation Using Text-Dependent Spectral Mappings //Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing. -New York City, 1986.-pp. 131-134.

58. Paul D.B. The Lincoln Robust Continuous Speech Recognizer // Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing. Glasgow, Scotland. -May, 1969. -pp. 449-452.

59. Murveit H., Weintraub M. 1000-Word Speaker-Independent Continuous-Speech Recognition Using Hidden Markov Models // Proc. IEEE Int. Conf,

60. Acoustics, Speech, and Signal Processing. New York City, 1968.-pp. 115116.

61. Wylegala W. 20000-Word Recognizer Based on Statistical Evaluations Methods//Speech Technology Magazine. Apr./May, 1969.-pp. 16-16.

62. Фант Г. Акустическая теория речеобразования: Пер. с англ. М.: Наука, 1964.-284 с.

63. Бондарко J1. В. Звуковой строй современного русского языка. -М.: Просвещение, 1977. 175 с.

64. Потапова Р.К. Лингвистические ограничения и сегментация слитной речи // Проблемы построения систем понимания речи. -М.: Наука, 1980.-С. 18-30.

65. Физиология речи. Восприятие речи человеком / А.А. Чистович, А.В. Венцов, МП. Гранстрем и др. Л.: Наука, 1976. - 388 с.

66. Сорокин В.Н. Теория речеобразования. М.: Радио и связь, 1985.-312 с.

67. Шемакин Ю.И., Романов А.А. Компьютерная семантика. М.: НОЦ «Школа Китайгородской», 1995. - 343 с.

68. Cohen J.R. Application of an auditory model to speech recognition // J. Acoust. Soc. Am. -1989. -M>6. -pp. 2623-2629.1A. Дмитренко C.H. Фонемы русского языка. Их сочетаемость и функциональная нагрузка. М.: Наука, 1985. - 231 с.

69. Златоустова Л.В., Потапова Р.К., Трунин-Донской В.Н. Общая и прикладная фонетика: Учеб. пособие. М: МГУ, 1986. - 304 с.

70. Фукунага К. Введение в статистическую теорию распознавания образов: Пер. с англ. / Под ред. А.А. Дорофеюка. М.: Наука, 1979.-368 с.

71. Рабинер Л.Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор // ТИИЭР. 1989. - Т.77, №2. - С. 86-120.

72. Кемени Дж. Дж., Снел Дж. Л. Конечные цепи Маркова: Пер. с англ. / Под ред. В.Н. Прохорова, B.C. Звездина. М.: Связь, 1980.-308 с.79