автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием

доктора технических наук
Изилов, Яков Юноевич
город
Санкт-Петербург
год
2004
специальность ВАК РФ
05.13.06
Диссертация по информатике, вычислительной технике и управлению на тему «Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием»

Автореферат диссертации по теме "Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием"

На правах рукописи

НАУЧНЫЕ ОСНОВЫ АВТОМАТИЗИРОВАННОГО УПРАВЛЕНИЯ ОБОРУДОВАНИЕМ С ИНТЕГРИРОВАННЫМ РЕЧЕВЫМ ВЗАИМОДЕЙСТВИЕМ

Специальность 05.13.06 - Автоматизация и управление технологическими

процессами и производствами (промышленность)

АВТОРЕФЕРАТ

диссертации на соискание учёной степени доктора технических наук

Санкт-Петербург -2004

Работа выполнена в Санкт-Петербургском государственном политехническом университете

заслуженный деятель науки РФ, доктор технических наук, профессор Федотов Алексей Иванович

доктор технических наук, профессор Анкудинов Георгий Иванович

заслуженный деятель науки РФ, доктор технических наук, профессор Варжапетян Артемий Георгиевич

доктор технических наук, профессор Сахаров Владимир Васильевич

Ведущая организация: ФГУП НИИ "РУБИН" (г. Санкт-Петербург)

Защита состоится 22 июня 2004 г. в 14 час. на заседании диссертационного совета Д.212.244.01 при Северо-Западном государственном заочном техническом университете по адресу: 191186, Санкт-Петербург, ул. Миллионная, д. 5,ауд.200.

С диссертацией можно ознакомиться в библиотеке Северо-Западного государственного заочного технического университета.

Автореферат разослан 20 мая 2004 г.

Научный консультант:

Официальные оппоненты:

Учёный секретарь диссертационного совета

Иванова И.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

В диссертации представлены исследования по проблеме автоматизации многономенклатурного мелкосерийного и единичного производства. Данная работа развивает направление создания систем с речевым управлением в области автоматизации.

В этом направлении выполнено много теоретических разработок. Известны примеры их практической реализации, показывающие высокую эффективность применения. Эффективность выражается прежде всего сокращением временных затрат на подготовительные работы и снижением требований к специальной подготовке исполнителей этих работ. Однако известные реализации не выходят за рамки частных решений. Широкое использование методов речевого управления связано с решением ряда проблем. Главной из них является математическое моделирование устной речи. В данной работе предложены фрагментарные проработки этой проблемы..

На основе теоретических исследований, проведенных в работе, предложены технические идеи и разработки, ориентированные на создание человеко-машинной системы (ЧМС) с интегрированным речевым взаимодействием (РВ) и обеспечивающие решение задач по ускорению технологической подготовки автоматизированного оборудования.

Актуальность. Важнейшие цели государственной политики в области развития науки и технологий сформулированы в документе - "Основы политики Российской Федерации в области развития науки и технологий на период до 2010 года и дальнейшую перспективу", утвержденном Президентом Российской Федерации В.В. Путиным 30 марта 2002 года. Развитие науки и технологий служит решению задач социально-экономического прогресса страны и относится к числу высших приоритетов Российской Федерации.

Для достижения поставленных целей Правительством Российской Федерации утвержден ряд федеральных целевых программ развития науки и техники. В частности, федеральная целевая научно-техническая программа "Исследования и разработки по приоритетным направлениям развития науки и техники" на 2002 -2006 годы; федеральная целевая программа "Национальная технологическая база" на 2002 - 2006 годы; федеральная целевая программа "Реформирование и развитие

оборонно-промышленного комплекса на

БИБЛИОТЕКА

СПетер 05 100,

нены решению важных народно-хозяйственных проблем, в том числе: разработке базовых и прикладных технологий взаимодействия человек-машина на основе виртуальной реальности, а также разработке оборудования для технического перевооружения имеющихся производств с целью обеспечения их гибкости, повышения производительности труда и увеличения объемов выпуска продукции.

Приоритет развития базовых и прикладных технологий взаимодействия человек-машина и их народно-хозяйственное значение обусловлено ростом масштабов работ по интенсификации и компьютеризации технологического производства.

Создание основ для построения человеко-машинной системы, обеспечивающей диалог с виртуальным оператором посредством речевого взаимодействия, позволяющих не только разработать новую технику, но и модернизировать существующее оборудование с целью повышения производительности труда и увеличения объемов выпуска продукции, является актуальной проблемой.

За последние два десятилетия временной период нахождения изделия в производстве значительно сократился, а средняя продолжительность цикла технической • подготовки производства'(ТПП) — увеличилась. В условиях многономенклатурного мелкосерийного и единичного производства продолжительность ТПП стала соизмеримой с продолжительностью нахождения изделия в производстве, а во многих случаях превышает её. Это обусловлено ростом трудоемкости и сложности процесса ТПП.

В этой связи • актуальное значение приобретает задача сокращения непроизводительного времени, повышения оперативности и удобства управления оборудованием (станков с ЧПУ, промышленных роботов, гибких производственных систем и т.д.), решение которой требует разработки новых методов и средств автоматизации производственных процессов.

Одним из таких методов является речевое управление. Его использование позволяет сократить количество ручных операций на стадиях подготовки документации, разработки и редактирования управляющих программ (УП) и технологической наладки оборудования с ЧПУ при переходе от обработки одного вида деталей к обработке другого, отличающегося по конструктивно-технологическим признакам. Вместе с тем он позволяет повысить уровень "интеллектуальности" систем управления станков с ЧПУ, промышленных роботов (ПР), гибких производственных систем (ГПС) и т.д., а

также автоматизированных систем управления (АСУ) различного назначения. Реализация такого метода управления требует разработки теоретических и научно-практических решений, что является актуальной проблемой.

Совокупность проблем, возникающих на различных этапах технической подготовки производства и проблем оперативного управления оборудованием в условиях многономенклатурного мелкосерийного и единичного производства, с одной стороны, и с другой - видимая возможность универсального решения для многих из них на основе создания методов и средств автоматизированного управления с речевым человеко-машинным взаимодействием рассматриваются автором как объективные признаки актуальности данной работы.

Цель и задачи исследования. Целью диссертационной работы является создание методов и средств автоматизированного управления оборудованием с интегрированным речевым взаимодействием для повышения его функциональных и эксплуатационных возможностей. Для достижения поставленной цели необходимо решить следующие задачи:

1) разработка метода построения автоматизированных систем с речевым взаимодействием и элементами интеллектуальной поддержки процесса управления;

2) анализ адекватности известных математических методов моделирования речевых сигналов с точки зрения их применимости в создаваемой автоматизированной системе с речевым взаимодействием;

3) разработка теоретических основ автоматического анализа речевых указаний, позволяющих решить проблему автоматического понимания речевых команд для последующего формирования управляющих воздействий на автоматизированное оборудование;

4) разработка пакета прикладных программ для аудио-визуального исследования параметров речевых указаний, функционирующего под управлением операционной системы (ОС) Microsoft Windows, обеспечивающего простоту и удобство использования;

5) разработка устройства речевого взаимодействия на основе предложенных теоретических положений, обеспечивающего поддержку русского языка и позволяющего реализовать автоматизированную систему с речевым взаимодействием;

6) определение объёма обучающей выборки для достижения правильного понимания речевых указаний устройством речевого взаимодействия;

7) разработка структурных решений человеко-машинных систем с речевым взаимодействием, позволяющих расширить функциональные возможности, повысить оперативность и удобство управления промышленных роботов, станков с ЧПУ и прочего автоматизированного оборудования.

Методы исследования. В диссертационной работе использовались методы теорий: графов, вероятностей; распознавания образов, скрытых моделей Маркова, искусственных нейронных сетей, цифровой обработки сигналов; акустической теории речеобразования, теории планирования и постановки эксперимента.

Научная новизна работы. Представленная на защиту диссертация является обобщением, проведённых автором исследований и разработок, в результате которых решена научная проблема создания методов и средств автоматизированного управления оборудованием с речевым взаимодействием на русском языке, имеющая важное народно-хозяйственное значение для деятельности отечественных предприятий в условиях восстановления и дальнейшего развития отечественных производств. Научной новизной обладают следующие результаты:

1) метод построения автоматизированных систем с интегрированным речевым взаимодействием и элементами интеллектуальной поддержки процесса управления;

2) результаты анализа современного состояния систем речевого управления, которые позволили определить возможности их использования для автоматизации производственных процессов;

3) результаты анализа наиболее распространенных математических методов моделирования речевых сигналов;

4) теоретические основы автоматического анализа речевых указаний, позволяющие упростить процесс их математического моделирования и повысить вероятность их правильного понимания при формировании управляющих воздействий на автоматизированное оборудование;

5) метод экспериментального исследования речевых указаний, позволяющий определить объём обучающей выборки для достижения их правильного понимания устройством речевого взаимодействия.

Практическая значимость полученных результатов. Результаты исследований легли в основу разработок для создания автоматизированной системы с речевым взаимодействием.

Разработаны устройство речевого взаимодействия и способ его интеграции в системы ЧПУ класса Industrial PC на уровне ОС Microsoft Windows, что позволяет реализовать автоматизированную систему с речевым взаимодействием.

Разработан пакет прикладных программ для аудио-визуального исследования речевых указаний на IBM PC-совместимом компьютере, функционирующий под управлением ОС Microsoft Windows, обеспечивающий простоту и удобство использования.

Разработаны структурные схемы человеко-машинных систем с речевым взаимодействием на основе использования предложенных теоретических положений и устройства речевого взаимодействия со встроенным модулем преобразования речевых указаний в команды управления, содержащим блоки акустической и лексической обработки и алгоритмическое обеспечение ввода речевых сигналов в устройство управления оборудованием, которые позволяют расширить функциональные возможности и повысить уровень "интеллектуальности" систем управления станков с ЧПУ, ПР, ГПС и других автоматизированных систем.

Создание на научной основе автоматизированной системы с речевым взаимодействием позволит модернизировать не только большой парк станков с ЧПУ и прочего автоматизированного оборудования, которые эксплуатируются в условиях единичного и мелкосерийного производства, но и автоматизированные системы управления (АСУ) широкого назначения, в том числе технологическими процессами (АСТП), производствами (АСУП), технической подготовкой производства (АСТПП) и т.д. Это доступно практическому внедрению, как на крупных, так и на малых предприятиях. Капиталовложения на проведение этой модернизации несоизмеримо малы по сравнению с приобретением нового оборудования.

Полученные в диссертации научные положения, методы и рекомендации могут быть использованы при компьютеризации технологического производства; для организации запросов баз данных; подготовки и корректировки документов; организации автоматических контрольно-пропускных пунктов; в кабинах летательных аппаратов; в диспетчерских пультах атомных и гидроэлектростанций; в условиях

перегрузок, темноты или резкого изменения освещённости; при занятости рук, чрезвычайной сосредоточенности внимания на объекте, который не позволяет отвлечься ни на секунду, и там, где существует большое количество аварийных, предупреждающих и уведомляющих сигналов.

Кроме того, результаты работы могут использоваться в учебном процессе при постановке лабораторных и курсовых работ, в рамках лекционных курсов для студентов машиностроительных и других специальностей, включающих в себя вопросы автоматизации и управления техническими системами.

Основные положения диссертации, выносимые на защиту:

1) метод построения автоматизированных систем с интегрированным речевым взаимодействием и элементами интеллектуальной поддержки процесса управления;

2) теоретические основы автоматического анализа речевых указаний, позволяющие упростить процесс их математического моделирования и повысить вероятность их правильного понимания при формировании управляющих воздействий на автоматизированное оборудование;

3) структурные решения человеко-машинных систем с речевым взаимодействием, построенные с использованием предложенных теоретических положений и устройства речевого взаимодействия со встроенным модулем преобразования речевых указаний в команды управления, содержащим блоки акустической и лексической обработки и алгоритмическое обеспечение ввода речевых сигналов в устройство управления оборудованием, которые позволяют расширить функциональные возможности и повысить уровень "интеллектуальности" систем управления промышленных роботов, станков с ЧПУ и других автоматизированных систем;

4) метод экспериментального исследования речевых указаний, позволяющий определить объём обучающей выборки для достижения их правильного понимания устройством речевого взаимодействия.

Достоверность научных положений, выводов и рекомендаций подтверждается: корректным использованием теории графов, теории цифровой обработки сигналов, акустической теории речеобразования, теории распознавания образов, теории планирования и постановки эксперимента; достаточным совпадением экспериментальных и расчётных данных и успешной проверкой решений, полученных на основе теоретических разработок.

Результаты использования. Результаты диссертационной работы использованы в ЗАО "Станкостроительный завод "Свердлов", ФГУП "Центральный научно-исследовательский институт технологии судостроения" (ЦНИИ ТС).

Публикации. По теме диссертационной работы опубликовано 23 научные работы, в том числе 2 монографии и 2 патента РФ на изобретение,- в которых полностью отражены полученные результаты.

Апробация работы. Основные теоретические положения, результаты, выводы, рекомендации докладывались и обсуждались: на Российской научно-технической конференции "Инновационные наукоёмкие технологии для России", (Санкт-Петербург, 1995); на научной военно-технической конференции "Автоматизация процессов управления соединениями и частями ПВО, информационные технологии. Состояние и перспективы создания единой автоматизированной радиолокационной системы", (Санкт-Петербург, 1996); на международной научно-технической конференции "Информационные технологии в моделировании и управлении", (Санкт-Петербург, 1996).

Структура и объём диссертации. Диссертация состоит из введения, пяти глав, заключения, списка литературы, списка условных сокращений и приложения (акты использования результатов диссертационной работы). Общий объём диссертации составляет 267 страниц, в том числе 226 страниц составляет основной текст, который поясняется 76 рисунками и 14 таблицами. Список литературы насчитывает 210 наименований.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ 1

Во введении обосновывается актуальность работы, определяются цели и задачи диссертационного исследования, научная новизна, Ьрактическая значимость, достоверность научных положений, апробация, приводится краткое содержание глав диссертации.

В первой главе исследуются проблемы обработки деталей с использованием металлорежущих станков (МС) с ЧПУ и промышленных роботов (ПР) в условиях многономенклатурного мелкосерийного и единичного производства. Анализируются конструктивные особенности деталей и особенности процессов технологической подготовки работы МС с ЧПУ и ПР для их обработки.

Результаты анализа позволили определить факторы сдерживания процессов изготовления деталей, которыми являются большая трудоёмкость технологической подготовки автоматизированного оборудования и большие затраты времени на её проведение. Вместе с этим, во многих случаях в процессе непосредственной обработки деталей возможности полностью исключить сложное взаимодействие человека с "машиной" не обнаружено.

Частая смена выпускаемой продукции приводит к необходимости непрерывно модифицировать, дополнять и редактировать управляющие программы (УП).

Современное программное обеспечение (ПО) систем управления МС с ЧПУ и ПР не обеспечивает простоту и удобство пользования, как программистам, так и операторам. Более того, несовершенство алгоритмического и ПО, низкая скорость ручного ввода информации, недостаточная гибкость и ограниченность функциональных команд - образуют те особенности, которые также сдерживают технологическую наладку ПР и МС с ЧПУ. Отмечается необходимость сокращения времени на технологическую наладку и переналадку ПР и МС с ЧПУ.

Рассматриваются проблемы программного управления ПР. Составление программы действий робота является трудоёмкой задачей. Во-первых, это связано с различными источниками погрешностей, которые могут привести к весьма существенным отклонениям составленной программы от желаемого результата. Одни погрешности вносятся технологической средой, т.е. отдельные объекты, составляющие технологическую среду, могут смещаться из своих номинальных положений. Другие - вносятся самим роботом. Например, большие допуски при изготовлении звеньев манипулятора, приводящие к появлению люфтов, недостаточная механическая жёсткость манипулятора, добавляющая погрешности и т.д. Во-вторых, в процессе редактирования траектории движения возможны исключения или смещения некоторых промежуточных точек, например, в силу инерционности движения степеней подвижности. В-третьих, для операций сварки или механообработки (сверление, фрезерование, развертывание, зенковка, удаление заусенцев и т.д.) в добавлении к заданию точного маршрута движения манипулятора требуется еще подготовить инструкции, в соответствии с которыми регулируются технологические действия (например, режимы сварки или резания) в каждой точке маршрута. Режимы сварки или резания могут меняться, например, в зависимости от толщины материала.

В совокупности с вышесказанным можно заключить, что разработка новых методов и средств для управления и программирования роботов и станков с ЧПУ, повышающих оперативность управления, обеспечивающих снижение трудоемкости разработки управляющих алгоритмов и редактирования рабочих программ, позволяющих сократить время их технологической наладки и подготовки является актуальной проблемой.

Предлагается перспективный подход к созданию автоматизированных систем на основе речевого взаимодействия, позволяющий повысить уровень • 'интеллектуальности" систем управления станков с ЧПУ, ПР, ГПС и т.д., а также автоматизированных систем управления (АСУ) различного назначения.

Проводится обзор современного состояния автоматизированного оборудования и систем с речевым управлением, который показывает, что их номенклатура и сфера применения постоянно расширяется. В то же время, серийных систем и устройств отечественного производства, позволяющих осуществить речевое управление на русском языке, не обнаружено. В конце главы формулируются цель и задачи диссертационной работы.

Во второй главе рассматриваются математические методы, которые могут быть использованы для моделирования речевых сигналов (РС).

Первая часть главы посвящена методу векторного квантования. Приводятся обобщённая структурная схема процесса векторного квантования, её математическое описание, различные способы измерения расстояний между векторами, наиболее распространенные алгоритмы кластеризации, оцениваются достоинства и недостатки этого подхода.

Во второй части главы исследуется математический аппарат скрытых моделей Маркова (СММ). Даётся определение СММ, особенности их использования, математическое описание различных типов.СММ: дискретных, непрерывных и полунепрерывных. Приводятся алгоритмы, обучения и распознавания, изменяющихся во времени последовательностей векторов данных, основу которых составляют методы итераций, Баума, динамического программирования, Витерби. Анализируются достоинства и недостатки применения СММ для моделирования РС.

В третьей, заключительной части главы, рассматриваются теоретические основы искусственных нейронных сетей (ИНС). Даётся краткое изложение аспектов,

затрагивающих биологическое строение нейронной сети. Описывается модель искусственного нейрона, приводится классификация нейронных сетей.

Анализируются функциональные возможности наиболее распространённых нейросетевых структур: сети Хопфилда, сети Хэмминга, машина Больцмана, двунаправленная ассоциативная память, сети теории адаптивного резонанса, сети Ко-хонена, сети встречного распространения, сети с радиально-базисной функцией и персептронные нейронные сети (НС). Результаты анализа показывают функциональный приоритет персептронных НС. Приводятся структуры и алгоритм, позволяющий осуществить функционирование многослойной персептронной НС на персональном компьютере. Обсуждаются проблемы, возникающие при практической реализации, а также достоинства и недостатки использования данного подхода.

Проведённый в данной главе анализ математических методов позволил сделать следующие выводы:

1) метод векторного квантования требует выбора определенного числа эталонов и рационального размещения их в параметрическом пространстве с целью минимизации погрешности квантования. При этом универсального критерия выбора числа эталонов нет. Тем не менее, снизить погрешность квантования возможно путём увеличения размера кодовой книги. Однако это ведёт к увеличению времени, необходимого для поиска в ней вектора и увеличению объёма памяти, требуемого для хранения кодовой книги. Вместе с тем, в отдельности, он не позволяет смоделировать внутреннюю структуру слов, словосочетаний и фраз. По этой причине, использование метода векторного квантования возможно только совместно с другими методами, позволяющими моделировать изменяющиеся во времени последовательности векторов данных;

2) возможности нейросетей также не позволяют в достаточной мере осуществить моделирование изменяющихся во времени последовательностей векторов данных, таких как РС;

3) адекватное моделирование РС с применением СММ возможно осуществить при помощи дополнительных изменений и расширений основ данного подхода. Однако для этого требуется проведение отдельных исследований.

Таким образом, осуществление процесса управления с речевым взаимодействием требует разработки теоретических основ автоматического анализа речевых указаний, позволяющих смоделировать структуру произносимых слов, словосочетаний и фраз в виде изменяющейся во времени последовательности векторов данных для дальнейшего формирования управляющих воздействий на автоматизированное оборудование.

В третьей главе рассматриваются разработанные автором теоретические основы автоматического анализа речевых указаний. Автоматический анализ речи -представляет собой многоуровневую задачу, в которой исследуются акустические сигналы. Эти сигналы представляются иерархической структурой, например -фонемы, слова, фразы, предложения. Каждый уровень может обеспечить дополнительные ограничения, например, известные произношения слов или допустимые последовательности слов. Такие ограничения могут скомпенсировать ошибки или неопределённости, возникающие на акустическом уровне.

Отличительной особенностью речевых сигналов ^^ является большая неустойчивость акустических параметров. Основу параметрического описания PC составляют небольшие временные участки (интервалы, сегменты) речи, измеряемые, как правило, в миллисекундах. Выбор специфического сегмента PC в качестве базовой речевой единицы (элемента анализа) является очень важной и сложной задачей. Этот выбор обуславливает подробность и робастность модели PC.

Речевые единицы с большей подробностью описания (например, словоформы или слоги) имеют большую контекстную чувствительность, что позволяет достичь необходимой точности моделирования PC. Однако это приводит к увеличению размерности модели, что усложняет её оценку. Вследствие чего, для надежной оценки такой модели, необходимо обрабатывать больший объём обучающей выборки. И наоборот, столкнувшись с ограниченным объёмом обучающей выборки, преимущество модели с улучшенной структурой не может быть реализовано. По этой причине, этот выбор необходимо осуществлять, исходя из специфики решаемой задачи.

В настоящее время, говорить об автоматическом анализе произвольных слов, произносимых произвольным диктором, нельзя, в связи с тем, что не найдено достаточно удобного описания всех звуков речи, а моделирование грамматическо-

го строя языка вызывает значительные трудности. В случае рассмотрения проблемы автоматического анализа речи, составленной из ограниченного (проблемно-ориентированного) словаря, трудности, хотя и остаются, но на современном этапе они уже не являются непреодолимыми.

Для осуществления процесса автоматического анализа речи требуется получить ответ на вопрос: как представить эталонный акустический образ РС, то есть, как смоделировать речевую единицу и разместить её в многомерном параметрическом пространстве?

В первой части главы приводится метод моделирования слов в слитной речи при неизвестном законе распределения РС. Процесс моделирования заданного набора слов (словаря) для формирования речевых указаний, показан на примере команд, применимых для управления движением захвата манипулятора влево и вправо. В основу представления речевых единиц положен принцип последовательного разложения фонем на дифоны, а дифонов - на "акустические состояния". Создание словаря связано с построением ориентированного графа лексического декодирования, вершинами которого являются акустические состояния (АС). Суть метода заключается в следующем.

Пусть случайный вектор псевдостационарного акустического состояния (АС)

речевого сигнала (РС) со значениями в , распределение которого не известно, представляется следующим образом:

О)

где - координатное пространство, состоящее из всевозможных

векторов-столбцов, размерностью -параметр

т

- символ транспонирования. Центрированное значение параметра АС:

(2)

где - математическое ожидание 1-ой координаты.

Центрированный вектор:

где рч — математическое ожидание V.

Матрица ковариации А:

где = М(У/,У}) - корреляционная функция; X, ]= 1,2,...п.

В предположении, что | Аобозначим через А"1 обратную к А матрицу:

V, а

21

ч»;}. а

-1 12 " аГГ

-1 22' " <

2 - ^пп ;

(5)

где

-1 В»

Ну =--—, В|у — алгебраическое дополнение элемента а^ матрицы А.

С учётом введённых условий и обозначений требуется определить местоположение АС в многомерном параметрическом пространстве. Решение данной задачи получено в следующем виде:

где — уровень доверия (надёжности); — размерность пространства.

.-1

На практике параметры и а,у не известны, поэтому на основе закона больших чисел они определяются приближённо по формулам:

где — элементы обучающей выборки; Б — число испытаний.

Неравенство (6) определяет местоположение эталонного АС в многомерном пространстве параметров, левая часть которого описывает п — мерную область Уэ в виде эллипсоида.

Исходная априорная информация позволяет составить список объектов, с указанием к какому из них относится каждое АС. Эта априорная информация определяется специальным текстом, с соответствующим орфографическим представлением, и включающим в себя множество звуков, необходимых и достаточных для описания звукового строя заданных слов. В качестве базового элемента для автоматического анализа используется дифон:

ВГ=(У(Н),У(К)), (9)

где (н) и (к) - символы начального и конечного АС соответственно.

На основе дифонической транскрипции текста производится описание слов устойчиво обнаруживаемыми звуковыми образами, которые задают ожидаемые последовательности АС.

Автоматический анализ слов в слитной речи, составленной из ограниченного словаря, реализуется на основе направленного поиска оптимальной последовательности вершин (пути), которой соответствуют доверительные области значений параметров АС на фиксированном временном интервале, в ориентированном графе лексического декодирования (ОГЛД), представляющем собой словарь со встроенным фонетическим транскриптором, правилами фонологии и лексикой для заданного набора слов. Проверка текущего АС на принадлежность к какому-либо эталону осуществляется в соответствии с неравенством (6).

Построение ОГЛД представлено на примере указаний, применимых для управления движением захвата манипулятора влево и вправо. Например, "выведи захват влево", "вывод захвата вправо", "показать программу захвата", "покажи программу вывода захвата" и т.д.

На первом этапе формируется необходимый словарь (база данных слов) для речевого общения. Для каждой лексемы сформированного словаря задаётся её орфографическая запись и фонемическая транскрипция по соответствующим правилам правописания и транскрибирования (табл. 1). На втором этапе (рис. 1) для каждой лексемы с возможными окончаниями создаётся моделирующий граф всех ожидаемых фонетических представлений, вершинами которого являются фоны, а дугами указатели на следующие возможные фоны.

Таблица 1 Орфографическое и фонемическое представление лексем

Орфографическое представление Фонемическое представление

1 Влево 1 V Г е V а

2 Вправо 2 Г р г а га

3 Выведи 3 V Б» уМ <11

4 Вывести 4 V и у е в 1 1

5 Вывод 5 V ЕЛ у о 1

6 Вывода 6 у у о <1 а

7 Захват 7 ъ а х V а 1

8 Захвата 8 г а х V а 1 а

9 Показать 9 р а к а г а С

10 Покажи 10 р а к а 2 Б1

11 Программа 11 pragramma

12 Программу 12 ргадгатти

На рис. 1 прямоугольниками обозначены вершины, а цифрами — номера лексем, соответствующие номерам лексем из табл. 1. Затем последовательность фон замещают последовательностью дифонов для всех лексических единиц применяемого словаря и строят их в виде логического дерева решений (рис. 2). Априорно задается начальная вершина дерева - корень дерева, представляющий собой звук, характеризующий паузу (на рис. 2 корень дерева не показан из-за ограниченности чертёжного пространства). Далее, слова, имеющие одинаковые первые звуки, помещают в одной и той же вершине дерева, следующей за начальной. Например, слова "выведи" и "влево" имеют первый общий звук "в". После этого все возможные окончания каждого слова соединяются с корнем дерева, и, с помощью фонологических правил строится граф достижимостей (рис.3) для всех возможных грамматически правильных и неправильных последовательностей слов из словаря. На завершающем этапе последовательность дифонов замещается последовательностью акустических состояний, в результате чего образуется ОГЛД (рис. 4). На рис. 2 и рис. 3 прямоугольниками обозначены вершины, где указаны имена дифонов, а цифрами -разрывы дуговых соединений.

Рис. 1 Моделирующий граф

Рис. 2 Фрагмент логического дерева решений

Рис.3 Граф достижимостей

Рис. 4. Ориентированный граф лексического декодирования

Во второй части главы приводится метод лексической интерпретации слитной речи. Рассматривается процесс создания словаря, который связан с построением ориентированного графа лексической интерпретации (ОГЛИ). Процесс лексической интерпретации слитной речи основан на поиске оптимальной последовательности вершин в ОГЛИ.

Отличительной особенностью данного метода является предварительная классификация произнесённого высказывания, без принятия однозначного решения. Окончательное решение принимается после результатов анализа речевого сообщения на более высоких уровнях обработки.

В основу представления элементов автоматического анализа РС положен принцип последовательного разложения фонем на аллофоны, а аллофонов - на составляющие их АС. Аллофоны легко различимы акустически, вследствие чего исчезает потребность применения фонологических правил на более низких уровнях. Они содержат информацию о границах между слогами и словами. Такую информацию предлагается получать посредством представления аллофонов в виде трёх последовательных АС: начального, серединного и конечного. При этом тип серединного АС зависит только от типа выбранного аллофона, а тип начального или конечного (переходного) АС зависит, кроме того, от типа предшествующей и последующей фонемы.

Возможна различная степень детальности разложения каждой фонемы на аллофоны, а. аллофонов - на АС. Для примера представим один из возможных, вариантов разложений, который является достаточным для обеспечения необходимого многообразия реализаций каждой фонемы и аллофона при лексической интерпретации слитной речи русского языка с ограниченным словарём.

Из русских гласных фонем выбираем множество твёрдых аллофонов -У, Э, И, Ы} имягких— {А»0»У>Э,И,Ь1 }:, а также соответствующие им назализованные множества — {А.О.У,Э,И,Ы } и {А.О.У,Э,И,Ы }•

Для русских согласных необходимо различать губное, зубное, альвеолярное, велярное и латеральное местообразования. Таким образом, для описания переход-

ных (начального или конечного) интервалов PC каждого аллофона гласной необходимо иметь до пяти различных типов АС.

Общее представление каждой гласной фонемы в виде набора АС, дано в табл. 2 на примере гласной /А/. Аналогичным образом предлагается определять три временных интервала РС (начальный, серединный и конечный) для описания согласных звуков. Представление русских фонем в виде АС допускает значительное изменение их количества, которое обусловлено эффектом коартикуляции с предшествующей и последующей фонемами.

Таблица 2 Представление фонемы набором АС

Фонема /А/

Аллофон А Л А А

серединное АС уА 41 уА 12 уА уА 14

переходное губное АС уА 21 уА 22 уА 23 уА 24

переходное зубное АС уА уА 32 уА *33 уА 34

переходное альвеолярное АС уА 41 уА 42 уА 43 уА 44

переходное велярное АС уА 51 уА 52 уА »53 уА 54

переходное латеральное АС уА *61 уА 62 уА ¥63 уА 64

Пусть У9? - АС, необходимое для определения ^-го интервала РС ф-ой фонемы; <7 - индекс, определяющий тип АС, 9=1,2,3 (<7=1 - начальное АС; 9=2 -серединное АС; <?=3 - конечное АС); ф - индекс, определяющий фонему, (р=1,2,З...Ф; (оф_ь Шф+1 - предшествующая и последующая фонемы; 0.т, С2„-множества предшествующих и последующих фонем т-ого и л-ого типов соответственно, /и=1,2,.. ,М\ п—1,2,.. Тогда в общем случае, с учётом введённых обозначений, АС можно представить в виде многозначной функции:

Речевое высказывание представляется в виде последовательности слов:

где W - речевое высказывание; С - слово; I - номер слова в базе данных слов, l=0J,2,...L\j - номер произношения /-го слова, j=0,l,2,... J; i — порядковый номер слова в высказывании,

Слово, представляется в виде последовательности акустических состояний:

сы - {Ум,*(,)=!• {Ум,*о>}*(,)=2 • Уи,*о)=Д • О2)

где V — акустическое состояние; b, е — тип начального и конечного АС соответственно, выбираемый согласно j-ому произношению для-го слова, 0 J,Q <. l<, L, q - индекс, определяющий тип АС, выбираемый в соответствии с произношением j для 1-го слова; q=l,2,3; к - число АС в слове, изменяющееся в зависимости от/ для с/ ls k(j)zK\ h — номер АС в базе данных эталоновАС.А = 0,1,2, ...Н.

Каждое АС задаётся n-мерной доверительной областью, независимой от типа распределения PC в многомерном параметрическом пространстве, математическое описание которой определяется выражением (6).

Если / = 1, то речевое высказывание состоит из одного слова. Тогда:

С1,1 = jVA,/,i- {YU,*0)}2 • Yu,*0)=*}/ .

- АС, связанное с описанием перехода от паузы к началу первой фонемы C/j слова; последовательность АС слова;

- АС, связанное с описанием перехода от конца последней фонемы слова к паузе.

где

4,1,1

-

Если 1< I <1, то допустимые Уу^- начальные и У^щу^ - конечные АС определяют с учетом всех возможных (грамматически правильных и неправильных) последовательностей слов из словаря. Для определения допустимыхУ^ - начальных АС учитывают фонологические явления, которые могут образоваться из-за влияния всех возможных "предыдущих" слов на слово. Для определения допустимых

- конечных АС учитывают фонологические явления, которые могут образоваться из-за влияния всех возможных "последующих" на слово.

Таким образом, каждое слово содержит три участка в речевом высказывании: начальный, серединный и конечный. При этом для фиксированного значения =I речевое высказывание состоит из одного слова и содержит начальный и конечный участки речевого высказывания, связанные с паузой, а при /<¿¿7 слово С/, содержит начальный и конечный участки речевого высказывания, связанные либо, с "предыдущим" и "последующим" словом, либо с паузами соответственно.

Определение возможных вариантов лексической интерпретации исходного речевого указания основано на поиске оптимальной последовательности вершин (пути) в ориентированном графе лексической интерпретации, реализующем последовательное сокращение исходного множества эталонов АС и слов по критериям акустического подобия согласно неравенству (6). Фрагмент ориентированного графа лексической интерпретации (ОГЛИ) представлен на рис. 5.

В соответствии с рис. 5 начальная вершина (корень ОГЛИ) представляет собой паузу. Каждая вершина первого уровня (в порядке следования слева направо и сверху вниз) ОГЛИ представляет собой объект, связанный с одним участком квантованной фразы. Каждая вершина второго уровня содержит АС, связанное со следующими возможными состояниями и т. д. Каждая вершина допускает переход в саму себя (на рис. 5 это не показано, чтобы не загромождать схему). Это приводит к тому, что две и более вершины могут быть связаны с одним и тем же АС.

Рис. 5 Ориентированный граф лексической интерпретации

Следовательно, в процессе выделения V могут возникнуть дополнительные АС, в то время как их отсутствие приводит к искажению интерпретированного речевого указания. Поэтому потенциально отсутствующие АС должны рассматриваться как дополнительные в процессе создания ОГЛИ.

Процесс формирования вариантов лексической интерпретации речевого указания сводится к следующему. По оценкам меры близости текущего АС и ожидаемых эталонов (6), формируют гипотезы о словах, акустически схожих своими начальными АС на текущее. Затем из множества сформировавшихся к этому моменту гипотез о словах отбирают эталоны, акустически схожие своими следующими эталонными АС на следующее текущее АС. Процесс формирования последовательностей слов заканчивается, как только будет обнаружена межфразовая пауза. Таким образом, полученные к этому моменту последовательности слов составляют набор возможных лексических гипотез или вариантов лексической интерпретации входного речевого указания.

Четвёртая глава посвящена разработке структурных схем человеко-машинных систем и принципов автоматизированного управления оборудованием с ЧПУ, используя речевое взаимодействие. На основе предложенных теоретических положений и стандартных аппаратных компонентов разработано устройство речевого взаимодействия (УРВ), обеспечивающее поддержку русского языка, структурная схема которого представлена на рис. 6.

Рис. 6. Структурная схема устройства речевого взаимодействия

Устройство речевого взаимодействия (УРВ) включает в себя аппаратную и программную части. Аппаратная часть состоит из звукового адаптера (ЗА), блоков приёма (БПМ 1, БПМ 2) сигнала, блоков передачи (БПД 1, БПД 2) сигнала, наушника и микрофона. ЗА предназначен для ввода-вывода звуковых сигналов. Он содержит: аналого-цифровой преобразователь (АЦП), цифро-аналоговый преобразователь (ЦАП), регулятор уровня входного сигнала (РУС) и регулятор громкости выходного сигнала (РГС). БПД 1 и БПМ 1 представляют собой радиомикрофонные портативный передатчик и стационарный приёмник соответственно. БПД 2 и БПМ 2 представляют собой радиозвуковые стационарный передатчик и портативный приёмник соответственно. Программная часть УРВ обеспечивает взаимодействие с УЧПУ и реализацию процесса автоматического преобразования речевых указаний в команды управления.

В настоящее время всё большее распространение получают системы ЧПУ класса Industrial PC, которые функционируют под управлением одной из наиболее распространённых операционных систем (ОС) Windows фирмы Microsoft (MS). В этой связи интеграция устройства речевого взаимодействия в такие системы ЧПУ на уровне ОС является актуальной задачей.

В диссертационной работе представлен вариант решения данной задачи посредством реализации программного обеспечения УРВ в ОС MS Windows с использованием процесса обработки сообщений. Предлагаемый подход может быть реализован в средах OS/2 Warp фирмы IBM, MS Windows 98/NT/ME/2000/XP и др.

ОС MS Windows представляет собой объектно-ориентированную среду с защищенным ядром. В ней прикладная программа не имеет непосредственного доступа к аппаратуре ввода-вывода. Функционирование различных аппаратных средств в ОС определяется специальными драйверами, к которым приложение может обращаться через прикладной интерфейс API. Такой механизм обеспечивает универсальное взаимодействие программы с аппаратными средствами и позволяет создавать программы, независящие от типа аппаратных средств. ОС MS Windows использует для обмена информацией между отдельными подсистемами механизм сообщений. Принцип работы приложений в ОС MS Windows несколько отличается

от традиционного. Традиционно программы выполняются линейно и при необходимости обращаются к низкоуровневым процедурам для взаимодействия с аппаратными средствами компьютера. В среде MS Windows приложения управляются событиями. Программа ожидает появления некоторого события и реагирует соответствующими этому событию действиями. События определяются специальными сообщениями. Они передаются от порождающего процесса в системную очередь сообщений, а затем непосредственно в очередь сообщения приложения (рис. 7). Далее, они выбираются с помощью цикла обработки сообщений прикладной программы. Сообщения представляют собой структуру данных, которая содержит код, характеризующий тип и параметры сообщения. Всё это позволяет встроить поддержку УРВ на уровне ОС.

Рис. 7 Схема интеграции устройства речевого взаимодействия в операционную систему Microsoft Windows

Программная часть УРВ функционирует как одна из задач ОС и может загружаться при запуске MS Windows. С помощью специально разработанных алгоритмов она отслеживает, сигнал, поступающий от аппаратной части УРВ. При отсутствии входного сигнала УРВ находится в пассивном режиме, т.е. в режиме "ожидания", и практически не потребляет вычислительных ресурсов. После регистрации звукового сигнала УРВ переключается в активный режим и производит предварительную проверку наличия в этом сигнале акустических состояний (АС), характерных для речевого сигнала (PC).

При обнаружении АС, характерных для PC, подключается модуль автоматического преобразования речевых указаний (МПРУ) в команды управления, структурная схема которого представлена на рис. 8. Он содержит: построитель лексических гипотез (ПЛГ), состоящий из блока акустической обработки (БАО) и блока лексической обработки (БЛО); блок семантико-синтаксического анализа (БССА); блок адресации (БА); блок проверки гипотез (БПГ); блок отображения информации (БОИ); блок интерпретации (БИ).

Рис. 8. Структурная схема модуля преобразования речевых указаний в команды управления

БАО предназначен для ввода РС, измерения параметров АС и их передачи в БЛО для лексической расшифровки. БЛО представляет собой источник лексических и фонологических знаний. Все акустико-фонетические данные представляются в БЛО в виде последовательности АС. В этом блоке используется представ-

ление словаря на основе ОГЛД. Благодаря этому процедура просмотра всего словаря легко реализуема с вычислительной точки зрения и не требует отдельного рассмотрения каждого слова. БЛО может просматривать все слова в словаре или только в выделенной области. Причем, просмотр может проводиться либо изолированно, либо с привлечением найденных ранее слов, для учёта фонологических эффектов между словами.

БССА представляет собой источник семантико-синтаксических-знаний. Его основу составляет граф переходов слов, содержащий только те предложения, которые имеют грамматический смысл. Функции БССА: оценить последовательность слов с точки зрения грамматики; сформировать возможные дополнения к уже выдвинутым гипотезам относительно последовательностей слов; составить формальное описание выражения (семантическое описание).

Язык речевого управления - это язык указаний, строящийся на основе проблемно-ориентированного словаря. Характерной чертой такого языка является высокая формализация. В этом случае рассматриваются лишь правильные и неправильные фразы языка управления, не отделяя синтаксические ограничения от семантических. Это связано с тем, что семантическую правильность фразы нельзя установить до выполнения действий, предписываемых этой фразой. В противном случае семантические ограничения можно ввести в синтаксис языка. Поэтому, в диссертационной работе применяется термин "семантико-синтаксический" анализ, под которым следует понимать описание правильных фраз языка.

БОИ предназначен для отображения результатов преобразования. В качестве блока отображения информации может быть использован монитор и/или синтезатор речи. БПГ обеспечивает процедуру проверки лексических гипотез. БИ предназначен для перевода идентифицированного речевого указания на язык понятный • УЧПУ и формирования команд управления. Б А выполняет функции планирования и координации работы всех блоков, входящих в МПРУ.

Рассматривается ПЛГ с блоком лексической обработки типа 1 (БЛО-1), разработанный на основе метода моделирования слов в слитной речи. Он позволяет формировать лексические гипотезы, минуя уровень фонетического декодирования. Его работа является корректной в тех случаях, когда указание, подлежащее автоматическому анализу, состоит только из слов заданного словаря. На практике

встречаются такие ситуации, когда речевые указания содержат не только слова из заданного словаря, но и слова, не принадлежащие к заданному набору слов. Такой ПЛГ не рассчитан на такие случаи, поэтому ответы, получаемые для них изложенным методом, неизбежно искажаются. Это связано с тем, что на результат анализа влияют акустические состояния входной реализации речевого сигнала, для которых нет эталонов в заданном словаре. Более адекватным • реальным свойствам обнаружения сигналов представляется блок лексической обработки типа 2, разработанный на основе метода лексической интерпретации слитной речи, изложенного в главе 3.

Блок лексической обработки типа 2 (БЛО-2) разрабатывался с учётом того, что анализируемые слова могут непрерывно следовать друг за другом, либо разделяться паузами, либо словами, не принадлежащими к заданному набору слов. В этом случае обнаружение слов заданного словаря происходит по мере их реализации во входном высказывании и производится формирование вариантов возможных последовательностей слов, состоящих только из тех эталонов, которые обнаруживают сходство с соответствующими им реализациями акустических состоя-.ний, удовлетворяющих критерию (6). ПЛГ с блоком лексической обработки типа 2 предусматривает обнаружение заданных элементов и требует описания эталонов слитной речи ограниченного словаря и ограниченных элементов РС. Это является более реальной задачей, чем обнаружение всех элементов входного РС, ибо для его выполнения необходимо уметь синтезировать эталонные сигналы для всего многообразия, как сигналов слитной речи, так и помех, что сегодня остаётся пока не решённой проблемой. К тому же, по мере расширения алфавита анализа, оставаясь в рамках концепции обнаружения заданных элементов, имеется возможность последовательно продвигаться ко всё более полному анализу входных высказываний, а следовательно, и к более подробной их лексической интерпретации. Такой подход позволяет режектировать сигналы, "не похожие" на эталонные элементы анализа. Всё это убеждает отдать предпочтение последнему из рассмотренных двух типов блоков лексической обработки.

Рассматриваются структурные схемы и алгоритмы ПЛГ с блоками лексической обработки типа 1 и 2, а также алгоритм работы модуля преобразования речевых указаний в команды управления. Приводится описание программной части

УРВ, функционирование которой происходит в ОС MS Windows в режимах регистрации пользователя, обучения и автоматического преобразования речевых указаний в команды управления.

На основе использования УРВ и предложенного подхода к его интеграции в УЧПУ класса Industrial PC разработаны структурные схемы человеко-машинной системы (ЧМС) с речевым взаимодействием (РВ), предназначенной для автоматизации процесса технологической наладки и интеллектуальной поддержки процесса управления промышленного робота и горизонтально-расточного станка с ЧПУ, которые показаны на рис. 9 и рис. 10.

блок управления приводами (БУП) и исполнительный механизм (ИМ) с манипулятором (М). УЧПУ состоит из блока ввода-вывода (БВВ) и блока обработки (БО). БВВ предназначен для обеспечения ввода и вывода данных, преобразования сигналов и согласования их с входами БО. БВВ содержит: клавиатуру, пульт-приставку, накопители информации и монитор. БО предназначен для обработки данных, формирования и подготовки управляющих команд, обеспечения диалога с человеком-оператором, контроля состояния системы и для управления манипулятором через ИМ и БУИ БО содержит порты ввода-вывода, узел сопряжения (УС), а также ЭВМ с операционной системой (ОС), программой действий (ПД) робота и программой речевого управления (ПРУ).

В отличие от предшествующей структуры, ЧМС с речевым взаимодействием на базе горизонтально-расточного станка с ЧПУ (рис.10) содержит УРВ, УЧПУ с программой действий (ПД) станка и программой речевого управления (ПРУ), а также блок обратной связи (БОС), блок управления приводами (БУП), механизмы приводов подач (МППх, МППу, МППг) с двигателями (Дх, Ду| Дг). шпиндель (Ш) и поворотную головку (ПГ).

Представленные структурные решения позволяют формировать управляющие воздействия на оборудование путём ввода человеком-оператором команд в УЧПУ непосредственно голосом на русском языке. При этом в качестве обратной связи может использоваться режим звукового повторения воспринятой команды. Такой диалог значительно повышает уровень "интеллектуальности" взаимодействия человека и машины.

Разработанное УРВ обеспечивает функционирование в режимах "регистрация", "обучение" и "управление".

Режим "регистрация" предполагает ввод имени и пароля пользователя с клавиатуры. Если пользователь не известен, то предлагается создать соответствующие данные. При этом запускается режим обучения.

В режиме "обучение" каждый новый пользователь должен настроить УРВ на свой голос. В данном режиме оператору предоставляется возможность создать и сохранить не только свой собственный словарь, но и подсловарь синонимов. Он может использовать несколько речевых значений для одной и той же команды.

Если пользователь зарегистрирован, то происходит автоматическая загрузка его данных из имеющихся файлов в ОЗУ ЭВМ и запускается режим "управление". При этом производится автоматическое преобразование речевых указаний в команды управления. В данном режиме человек-оператор может продублировать голосом любую команду, задаваемую с клавиатуры. Выданную команду можно отменить или изменить. По желанию оператора можно включить опцию звукового повторения команды. При этом УРВ с помощью встроенного речевого синтезатора повторит, как будет интерпретировано произнесённое речевое указание.

Речевой диалог особенно удобен в случаях, когда необходимо осуществить оперативный строгий контроль за соблюдением ряда ограничений, накладываемых на получаемые результаты. При таком взаимодействии, человек-оператор уже может не пользоваться вводом команд вручную и не отвлекаться на чтение сообщений. Параллельно с этим, новые разработанные решения позволяют повысить эффективность работы оборудования с ЧПУ за счёт решения следующих задач:

- автоматизация процесса подготовки УП с целью минимизации на них временных затрат;

- повышение функциональных и эксплуатационных возможностей;

- совершенствование устройства ввода управляющей информации;

- минимизация потерь рабочего времени, вызываемых межкадровыми паузами при вводе управляющей информации в процессе наладки;

- уменьшение длительности технологической наладки оборудования с ЧПУ за счёт уменьшения цикла подготовки управляющих программ, включая их создание, редактирование и контроль;

- уменьшение капитальных вложений на оборудование и подготовку персонала в сравнении с приобретением нового оборудования.

Пятая глава посвящена оценке достоверности научных результатов, предложенных в предыдущих главах. Рассматривается метод экспериментального исследования речевых указаний, который позволяет установить объём экспериментальных работ и определить размер обучающей выборки для достижения их правильного понимания устройством речевого взаимодействия. Он основан на использовании специально разработанного программного комплекса для аудио-визуального исследования речевых указаний, функционирующего на IBM PC-совместимом компьютере под управлением ОС MS Windows. Приводится его краткое описание. Разработанный комплекс обладает большими функциональными возможностями и отличается повышенным удобством использования. Его важным достоинством является связь с реальными сигналами. Различные технические средства ввода-вывода создают файлы с различными форматами представления сигналов, поэтому в разработанном программном комплексе предусмотрена работа с различными форматами исходных данных, в том числе их запись и воспроизведение. Все формы представления для каждого файла данных PC синхронизированы. Использование специально разработанного контекстно-зависимого меню позволяет оперативно обеспечить: изменение шкалы измерений по частоте, времени, быстрое масштабирование, копирование, удаление, вставку участков PC. Вместе с этим,

пользователь может анализировать все обеспечиваемые программным комплексом формы представления PC в графическом виде одновременно.

Произведено исследование процесса изменения времени и вероятности правильного понимания речевого указания устройством речевого взаимодействия (УРВ) в зависимости от количества составляющих его слов. Для этого проводились исследования на трёх типах испытуемых текстов (ИТ), состоящих из 2, 3 и 4 слов соответственно. При этом каждый тип ИТ состоял из 10 видов указаний. Полученные экспериментальные данные позволяют заключить, что при увеличении числа слов в высказывании в 2 раза время преобразования ИТ увеличивается в 2,418 раза, а вероятность правильного понимания ИТ уменьшается в 1,016 раз. Таким образом, увеличение числа слов в высказывании оказывает незначительное влияние на вероятность понимания ИТ.

Приводится сравнительный анализ технологической подготовки работы оборудования с ЧПУ с клавиатурным вводом данных и человеко-машинной системы с речевым взаимодействием. Показываются различные примеры условий эффективного использования человеко-машинной системы с речевым взаимодействием.

Результаты сравнительного анализа показали, что в рассмотренных условиях единичного и мелкосерийного производства деталей, принимая во внимание их . конструктивную сложность, использование человеко-машинной системы с речевым взаимодействием позволяет ускорить технологическую подготовку работы оборудования с ЧПУ до 1,8 раз без учёта непроизводительного времени.

Таким образом, проведённые исследования подтвердили правильность теоретических положений, представленных в диссертации, и, могут служить предпосылкой для рекомендаций к их использованию при создании автоматизированных систем с интегрированным речевым взаимодействием.

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ

Представленная на защиту диссертация является обобщением проведённых автором исследований и разработок, в результате которых решена научная проблема создания методов и средств автоматизированного управления оборудова-

нием с речевым взаимодействием. Основные результаты диссертационной работы заключаются в следующем:

1) разработан метод построения автоматизированных систем с речевым взаимодействием и элементами интеллектуальной поддержки процесса управления;

2) разработаны теоретические основы автоматического анализа речевых указаний, позволяющие упростить процесс их математического моделирования и повысить вероятность их правильного понимания при формировании управляющих воздействий на автоматизированное оборудование;

3) разработано устройство речевого взаимодействия на основе использования предложенных теоретических положений и стандартных аппаратных компонентов, обеспечивающее поддержку русского языка, которое может быть интегрировано в системы ЧПУ класса Industrial PC на уровне операционной системы Microsoft Windows, что позволяет реализовать автоматизированную систему с речевым взаимодействием;

4) разработан пакет прикладных программ, который предназначен для аудиовизуального исследования речевых указаний на IBM PC-совместимом компьютере, функционирующий под управлением операционной системы Microsoft Windows, обеспечивающий простоту и удобство использования;

5) разработан метод экспериментального исследования речевых указаний, позволяющий определить объем обучающей выборки для достижения необходимой вероятности их правильного понимания устройством речевого взаимодействия;

6) разработаны структурные решения человеко-машинных систем с речевым взаимодействием, позволяющие расширить функциональные возможности, повысить оперативность и удобство управления промышленных роботов, станков с ЧПУ и другого автоматизированного оборудования;

7) полученные в диссертации научные положения, методы и рекомендации могут быть использованы не только для автоматизации процесса обработки деталей и оперативного управления оборудованием с ЧПУ, но и при построении автоматизированных систем управления (АСУ) широкого назначения: технологиче-

скими процессами (АСУТП), производствами (АСУП), технической подготовкой производства (АСТПП) и т.д.

Результаты работы могут также использоваться при организации автоматических контрольно-пропускных пунктов; подготовки и корректировки документов; организации запросов в базах данных; в кабинах летательных аппаратов, диспетчерских пультах атомных и гидроэлектростанциях; в условиях темноты или резкого изменения освещённости; при занятости рук, чрезвычайной сосредоточенности внимания на объекте, который не позволяет отвлечься ни на секунду, где существует большое число аварийных, предупреждающих и уведомляющих сигналов.

Кроме того, результаты диссертационной работы могут использоваться в учебном процессе при постановке лабораторных и курсовых работ, в рамках лекционных курсов для студентов машиностроительных и других специальностей, затрагивающих вопросы автоматизации и управления техническими системами.

Основное содержание диссертации опубликовано в следующих работах.

1. Изилов Я.Ю. Научные основы автоматизированных систем с речевым управлением. - СПб.: СЗТУ, 2004. - 176 с: ил., табл.

2. Изилов Я.Ю. Некоторые аспекты моделирования речевых сигналов. - СПб.: Изд-во СПбГТУ, 2001. - 72 с: ил.

3. Изилов Я.Ю. Новые возможности оперативного управления металлообрабатывающими станками с ЧПУ // Металлообработка. - 2003. - №1(13). - С. 41- 43.

4. Изилов Я.Ю., Федотов А.И. Расширение функциональных возможностей робото-технических систем // Научно-технические ведомости СПбГТУ. - 1999. - №3 (17). -С. 94-96.

5. Изилов Я.Ю. Новое решение проблемы технологической подготовки станков с ЧПУ // Металлообработка. - 2003. - № 5 (17). - С. 40 - 43.

6. Изилов Я.Ю., Морозов Б.И. Система речевого программирования промышленного робота // Инновационные наукоёмкие технологии для России: Тезисы докладов Российской научно-технической конференции. - СПб.: Изд-во СПбГТУ, 1995.-ч.8.-С.34.

7. Патент на изобретение № 2101782, Россия, МКИ G10L 5/00. Способ распознавания слов в слитной речи и система для его реализации / Изилов Я.Ю. и др. (Россия). - № 96108879/09; заявл. 06.05.96: опубл. 10.01.98. Бюл. №1.

8. Патент на изобретение № 2119196, Россия; МКИ G10L 5/00. Способ лексической интерпретации слитной речи и система для его реализации / Изилов Я.Ю. и др. (Россия).- № 97117246/09; заявл. 27.10.97: опубл. 20.09.98. Бюл. №26.

9. Изилов Я.Ю. Математическое представление псевдостационарных объектов и их распознавание // Вычислительная техника, автоматика, радиоэлектроника: Сборник научных трудов № 480/СПбГТУ, ИИСТ. - СПб., 2000. - С. 92-94.

10. Изилов Я.Ю. Программный комплекс "Звукоинженер" для интерактивной работы с речевыми базами данных в среде Microsoft Windows 95 // Вычислительная техника, автоматика, радиоэлектроника: Сборник научных трудов № 480 / СПбГТУ, ИИСТ. - СПб., 2000. - С. 180-183.

11. Изилов Я.Ю. Морозов Б.И, Федотов А.И и др. Система речевого ввода информации в ЭВМ на естественном языке // Автоматизация процессов управления соединениями и частями ПВО, информационные технологии. Состояние и перспективы создания единой автоматизированной радиолокационной системы: Тезисы докладов и сообщений научной военно-технической конференции. - СПб.: СПВУРЭ ПВО, 1996.

12. Изилов Я.Ю., Морозов Б.И., Федотов А.И. Система понимания речи // Вычислительные, измерительные и управляющие системы: Сборник научных трудов № 462 / СПбГТУ. - СПб., 1996. - С.3-10.

13. Изилов Я.Ю., Морозов Б.И. Система понимания слитной речи русского языка // Информационные технологии в моделировании и управлении: Тезисы докл. и сообщ. международной научно-технической конференции. - СПб.: Изд-во СПбГТУ, 1996.-С. 190-194.

Н.Изилов Я.Ю., Федотов А.И. Оценка показателей качества систем распознавания

- речи // Труды Санкт-Петербургской Инженерной Академии: Сборник научных трудов / СПбГПУ, - СПб., 2003. - Вып. IV. - С. 163-166.

15. Изилов Р.Ю., Изилов Я.Ю., Федотов А.И. Метод вычитания спектров в задаче снижения шумов в речевых сигналах // Труды Санкт-Петербургской Инженерной Академии: Сборник научных трудов / СПбГПУ. - СПб., 2003. - Вып. IV. -С. 166-173.

16. Изилов Я.Ю. Использование метода векторного квантования для моделирования речевых сигналов // Научно-технические ведомости. - 2003. - № 4 (34), -С. 78 - 83.

17. Изилов Р.Ю, Изилов Я.Ю. Критерии оценки качества речевых сигналов // Научно-технические ведомости СП6ТТУ. - 2002. - № 3 (29), - С. 110-114.

18. Изилов Я.Ю., Федотов А.И. Развитие исследований в области распознавания речи // Вестник Санкт-Петербургского университета технологии и дизайна: Сборник научных трудов № 5 / СПГУТД. - СПб., 2001. - С. 123-126.

19. Изилов Я.Ю. Скрытые модели Маркова в задаче распознавания речевых сигналов // Проблемы машиноведения и машиностроения: Межвуз. сб. / СЗТУ. -СПб., 2003. - Вып. 30. - С. 203-206.

20. Изилов Я.Ю. Многослойная персептронная нейронная сеть в задаче моделирования речевых сигналов // Информационно-управляющие системы. - 2003. — № 2-3,-С.44-50.

21. Изилов Я.Ю. Технологии речевого управления для автоматизации производственных процессов // Информационно-управляющие системы. - 2003. - № 5, - С. 47-50.

22. Изилов Я.Ю. Автоматизация технологической подготовки промышленных роботов // Металлообработка. - 2004. -№ 1 (19). - С. 38 - 42.

23. Изилов Я.Ю. Совершенствование процесса технологической подготовки оборудования с ЧПУ // Проблемы машиноведения и машиностроения: Межвуз. сб. / СЗТУ. - СПб., 2003. - Вып. 30. - С. 192-194.

ШИЛОВ Яков Юноевич

НАУЧНЫЕ ОСНОВЫ АВТОМАТИЗИРОВАННОГО УПРАВЛЕНИЯ ОБОРУДОВАНИЕМ С ИНТЕГРИРОВАННЫМ РЕЧЕВЫМ ВЗАИМОДЕЙСТВИЕМ

АВТОРЕФЕРАТ

Лицензия ЛР № 020308 от 14.02.1997.

Санитарно-эпидемиологическое заключение № 78.01.07.953.П.005641.11.03 от 21.11.2003 г.

Подписано в печать 14.05.2004. Формат 60x84 1/16 Б.кн.-журн. П.л.2,0. Б.л. 1. РТП РИОСЗТУ Тираж 100 экз. Заказ 805

Северо-Западный государственный заочный технический университет

РИО СЗТУ, член Издательско-полиграфической

ассоциации вузов Санкт-Петербурга 191186, Санкт-Петербург, ул. Миллионная, д. 5

04- 14089

\

i i

Оглавление автор диссертации — доктора технических наук Изилов, Яков Юноевич

Введение

Глава 1. Постановка цели и задач диссертационного исследования

1.1. Обработка деталей на станках с ЧПУ в условиях мелкосерийного и единичного производства

1.2. Проблемы программного управления промышленными роботами

1.3. Совершенствование человеко-машинного взаимодействия

1.4. Современное состояние автоматизированного оборудования и систем с речевым управлением

1.5. Постановка цели и задач диссертационного исследования

Глава 2. Математическое моделирование речевых сигналов

2.1. Векторное квантование

2.1.1. Обобщённая структурная схема процесса векторного квантования

2.1.2. Математическое описание задачи векторного квантования

2.1.3. Измерение расстояний

2.1.4. Кластеризация

2.1.5. Достоинства и недостатки векторного квантования

2.2. Скрытая модель Маркова

2.2.1. Определение скрытой модели Маркова

2.2.2. Нуль переходы

2.2.3. Моделирование длительности

2.2.4. Типы моделей Маркова

2.2.4.1. Дискретная СММ

2.2.4.2. Непрерывная СММ

2.2.4.3. Полунепрерывная СММ

2.2.5. Обучение и распознавание на основе СММ

2.2.5.1. Метод итераций

2.2.5.2. Метод Баума

2.2.5.3. Метод динамического программирования

2.2.5.4. Метод Витерби

2.2.6. Достоинства и недостатки СММ

2.3. Искусственная нейронная сеть

2.3.1. Биологическое строение нейронной сети

2.3.2. Модель искусственного нейрона

2.3.3. Классификация искусственных нейросетей

2.3.4. Анализ функциональных возможностей нейронных сетей 99 Щ, 2.3.5. Простая персептронная нейросеть

2.3.6. Многослойный персептрон

2.3.7. Достоинства и недостатки нейросетей

2.4. Выводы

Глава 3. Теоретические основы автоматического анализа речевых указаний

3.1. Метод моделирования слов в слитной речи при неизвестном законе распределения PC

3.1.1. Взаимовлияние слов друг на друга при автоматическом анализе слитной речи

3.1.2. Представление эталонного акустического состояния и-мерной областью, независимой от закона распределения

3.1.3. Формирование эталонов акустических состояний 140 ^ 3.1.4. Предварительные этапы построения ориентированного графа лексического декодирования

3.1.5. Построение ориентированного графа лексического декодирования

3.1.6. Автоматический анализ слов в слитной речи ориентированным графом лексического декодирования

3.2. Метод лексической интерпретации слитной речи

3.2.1. Представление акустических состояний слов в слитной речи на основе аллофонов

3.2.2. Предварительные этапы построения ориентиванного графа лексической интерпретации слитной речи

3.2.3. Построение ориентированного графа лексической интерпретации 3.2.4. Лексическая интерпретация слитной речи

3.3. Выводы

Глава 4. Автоматизированное управление оборудованием с интегрированным речевым взаимодействием

4.1. Устройство речевого взаимодействия для оборудования с ЧПУ

4.2. Интеграция устройства речевого взаимодействия в УЧПУ на уровне операционной системы Microsoft Windows

4.3. Алгоритм ввода речевого сигнала в УЧПУ

4.4. Преобразование речевых указаний в команды управления

4.5. Построитель лексических гипотез

4.5.1. Структурная схема построителя лексических гипотез с блоком лексической обработки типа

4.5.2. Структурная схема блока лексической обработки типа

4.6. Программная часть устройства речевого взаимодействия

4.7. Структурные решения человеко-машинных систем с интегрированным речевым взаимодействием

4.8. Выводы

Глава 5. Оценка достоверности научных результатов

5.1. Метод экспериментального исследования речевых указаний

5.1.1. Программный комплекс для аудио-визуального исследования речевых указаний

5.1.2. Определение количества измерений акустического состояния

5.1.3. Определение количества контрольных испытаний акустического состояния

5.1.4. Расчёт доверительных областей эталонных акустических состояний

5.2. Исследование измерения времени и вероятности понимания речевых указаний

5.3. Сравнительный анализ технологической подготовки работы оборудования с ЧПУ с клавиатурным вводом данных и человеко-машинной системы с речевым взаимодействием

5.4. Выводы

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Изилов, Яков Юноевич

В диссертации представлены исследования по проблеме автоматизации многономенклатурного мелкосерийного и единичного производства. Данная работа развивает направление создания систем с речевым управлением в области автоматизации.

В этом направлении выполнено много теоретических разработок. Известны примеры их практической реализации, показывающие высокую эффективность применения. Эффективность выражается прежде всего сокращением временных затрат на подготовительные работы и снижением требований к специальной подготовке исполнителей этих работ. Однако известные реализации не выходят за рамки частных решений. Широкое использование методов речевого управления связано с решением ряда проблем. Главной из них является математическое моделирование устной речи. В данной работе предложены фрагментарные проработки этой проблемы.

На основе теоретических исследований, проведенных в работе, предложены технические идеи и разработки, ориентированные на создание человеко-машинной системы (ЧМС) с интегрированным речевым взаимодействием (РВ) и обеспечивающие решение задач по ускорению технологической подготовки автоматизированного оборудования.

Актуальность. Важнейшие цели государственной политики в области развития науки и технологий сформулированы в документе - "Основы политики Российской Федерации в области развития науки и технологий на период до 2010 года и дальнейшую перспективу", утвержденном Президентом Российской Федерации В.В. Путиным 30 марта 2002 года. Развитие науки и технологий служит решению задач социально-экономического прогресса страны и относится к числу высших приоритетов Российской Федерации.

Для достижения поставленных целей Правительством Российской Федерации утвержден ряд федеральных целевых программ развития науки и техники. В частности, федеральная целевая научно-техническая программа "Исследования и разработки по приоритетным направлениям развития науки и техники" на 2002 - 2006 годы; федеральная целевая программа "Национальная технологическая база" на 2002 - 2006 годы; федеральная целевая программа "Реформирование и развитие оборонно-промышленного комплекса на 2002 - 2006 годы". Исследования подчинены решению важных народно-хозяйственных проблем, в том числе: разработке базовых и прикладных технологий взаимодействия человек-машина на основе виртуальной реальности, а также разработке оборудования для технического перевооружения имеющихся производств с целью обеспечения их гибкости, повышения производительности труда и увеличения объемов выпуска продукции.

Приоритет развития базовых и прикладных технологий взаимодействия человек-машина и их народно-хозяйственное значение обусловлено ростом масштабов работ по интенсификации и компьютеризации технологического производства.

Создание основ для построения человеко-машинной системы, обеспечивающей диалог с виртуальным оператором посредством речевого взаимодействия, позволяющих не только разработать новую технику, но и модернизировать существующее оборудование с целью повышения производительности труда и увеличения объемов выпуска продукции, является актуальной проблемой.

За последние два десятилетия временной период нахождения изделия в производстве значительно сократился, а средняя продолжительность цикла технической подготовки производства (ТПП) - увеличилась. В условиях многономенклатурного мелкосерийного и единичного производства продолжительность ТПП стала соизмеримой с продолжительностью нахождения изделия в производстве, а во многих случаях превышает её. Это обусловлено ростом трудоемкости и сложности процесса ТИП.

В этой связи актуальное значение приобретает задача сокращения непроизводительного времени, повышения оперативности и удобства управления оборудованием (станков с ЧПУ, промышленных роботов, гибких производственных систем и т.д.), решение которой требует разработки новых методов и средств автоматизации производственных процессов.

Одним из таких методов является речевое управление. Его использование позволяет сократить количество ручных операций на стадиях подготовки документации, разработки и редактирования управляющей программы (УП) и технологической наладки оборудования с ЧПУ при переходе от обработки одного вида деталей к обработке другого, отличающегося по конструктивно-технологическим признакам. Вместе с тем он позволяет повысить уровень "интеллектуальности" систем управления станков с ЧПУ, промышленных роботов (ПР), гибких производственных систем (ГПС) и т.д., а также автоматизированных систем управления (АСУ) различного назначения. Реализация такого метода управления требует разработки теоретических и научно-практических решений, что является актуальной проблемой.

Совокупность проблем, возникающих на различных этапах технической подготовки производства и проблем оперативного управления оборудованием в условиях многономенклатурного мелкосерийного и единичного производства, с одной стороны, и с другой - видимая возможность универсального решения для многих из них на основе создания методов и средств автоматизированного управления с речевым человеко-машинным взаимодействием рассматриваются автором как объективные признаки актуальности данной работы.

Цель и задачи исследования. Целью диссертационной работы является создание методов и средств автоматизированного управления оборудованием с интегрированным речевым взаимодействием для повышения его функциональных и эксплуатационных возможностей. Для достижения поставленной цели необходимо решить следующие задачи:

1. Разработка метода построения автоматизированных систем с интегрированным речевым взаимодействием и элементами интеллектуальной поддержки процесса управления.

2. Анализ адекватности известных математических методов моделирования речевых сигналов с точки зрения их применимости в создаваемой автоматизированной системе с речевым взаимодействием.

3. Разработка теоретических основ автоматического анализа речевых указаний, позволяющих решить проблему автоматического понимания речевых команд для последующего формирования управляющих воздействий на автоматизированное оборудование.

4. Разработка пакета прикладных программ для аудио-визуального исследования параметров речевых указаний, функционирующего под управлением операционной системы Microsoft Windows, обеспечивающего простоту и удобство использования.

5. Разработка устройства речевого взаимодействия на основе предложенных научных положений, обеспечивающего поддержку русского языка.

6. Определение объёма обучающей выборки для достижения правильного понимания речевых указаний устройством речевого взаимодействия.

7. Разработка структурных решений человеко-машинных систем с интегрированным речевым взаимодействием, позволяющих расширить функциональные возможности, повысить оперативность и удобство управления промышленных роботов, станков с ЧПУ и другого автоматизированного оборудования.

Методы исследования. В диссертационной работе использовались методы: теории вероятностей, теории графов, теории распознавания образов, теории скрытых моделей Маркова, теории искусственных нейронных сетей, теории цифровой обработки сигналов, акустической теории речеоб-разования, теории планирования и постановки эксперимента.

Научная новизна работы. Представленная на защиту диссертация является обобщением, проведённых автором исследований и разработок, в результате которых решена научная проблема создания методов и средств автоматизированного управления оборудованием с интегрированным речевым взаимодействием на русском языке, имеющая важное народно-хозяйственное значение для деятельности отечественных предприятий в условиях восстановления и дальнейшего развития отечественных производств. Конкретные результаты, обладающие научной новизной, состоят в следующем:

1. Метод построения автоматизированных систем с интегрированным речевым взаимодействием и элементами интеллектуальной поддержки процесса управления.

2. Результаты анализа современного состояния систем речевого управления, которые позволили определить возможности их использования для автоматизации производственных процессов.

3. Результаты анализа наиболее распространенных математических методов моделирования речевых сигналов.

4. Теоретические основы автоматического анализа речевых указаний, позволяющие упростить процесс их математического моделирования и повысить вероятность их правильного понимания при формировании управляющих воздействий на автоматизированное оборудование.

5. Метод экспериментального исследования речевых указаний, позволяющий определить объём обучающей выборки для достижения их правильного понимания устройством речевого взаимодействия.

Практическая значимость полученных результатов. Результаты исследований легли в основу разработок для создания автоматизированной системы с речевым взаимодействием.

Разработаны устройство речевого взаимодействия и способ его интеграции в системы ЧПУ класса Industrial PC на уровне операционной системы (ОС) Microsoft Windows, что позволяет реализовать человеко-машинную систему с речевым взаимодействием.

Разработан пакет прикладных программ для аудио-визуального исследования речевых указаний на IBM PC-совместимом компьютере, функционирующий под управлением ОС Microsoft Windows, обеспечивающий простоту и удобство использования.

Разработанные структуры человеко-машинных систем с интегрированным речевым взаимодействием на основе использования предложенных теоретических положений и устройства речевого взаимодействия со встроенным модулем преобразования речевых указаний в команды управления, содержащим блоки акустической и лексической обработки и алгоритмическое обеспечение ввода речевых сигналов в устройство управления оборудованием, позволяют расширить функциональные возможности и повысить уровень "интеллектуальности" систем управления станков с ЧПУ, ПР, ГПС и других автоматизированных систем.

Создание на научной основе автоматизированной системы с речевым взаимодействием позволит модернизировать не только большой парк станков с ЧПУ и прочего автоматизированного оборудования, которые эксплуатируются в условиях единичного и мелкосерийного производства, но и автоматизированные системы управления (АСУ) широкого назначения, в том числе технологическими процессами (АСТП), производствами (АСУП), технической подготовкой производства (АСТПП) и т.д. Это доступно практическому внедрению, как на крупных, так и на малых предприятиях. Капиталовложения на проведение этой модернизации несоизмеримо малы по сравнению с приобретением нового оборудования.

Полученные в диссертации научные положения, методы и рекомендации могут быть использованы при компьютеризации технологического производства; для организации запросов баз данных; подготовки и корректировки документов; организации автоматических контрольно-пропускных пунктов; в кабинах летательных аппаратов; в диспетчерских пультах атомных и гидроэлектростанциях; в условиях перегрузок, темноты или резкого изменения освещённости; при занятости рук, чрезвычайной сосредоточенности внимания на объекте, который не позволяет отвлечься ни на секунду, и там, где существует большое количество аварийных, предупреждающих и уведомляющих сигналов.

Кроме того, результаты работы могут использоваться в учебном процессе при постановке лабораторных и курсовых работ, в рамках лекционных курсов для студентов машиностроительных и других специальностей, включающих в себя вопросы автоматизации и управления техническими системами.

Основные положения диссертации, выносимые на защиту:

1. Метод построения автоматизированных систем с интегрированным речевым взаимодействием и элементами интеллектуальной поддержки процесса управления.

2. Теоретические основы автоматического анализа речевых указаний, позволяющие упростить процесс их математического моделирования и повысить вероятность их правильного понимания при формировании управляющих воздействий на автоматизированное оборудование.

3. Структурные решения человеко-машинных систем с интегрированным речевым взаимодействием, построенные с использованием предложенных теоретических положений и устройства речевого взаимодействия со встроенным модулем преобразования речевых указаний в команды управления, содержащим блоки акустической и лексической обработки и алгоритмическое обеспечение ввода речевых сигналов в устройство управления оборудованием, которые позволяют расширить функциональные возможности и повысить уровень "интеллектуальности" систем управления промышленных роботов, станков с ЧПУ и других автоматизированных систем.

4. Метод экспериментального исследования речевых указаний, позволяющий определить объём обучающей выборки для достижения их правильного понимания устройством речевого взаимодействия.

Достоверность научных положений, выводов и рекомендаций подтверждается: корректным использованием теории графов, теории цифровой обработки сигналов, акустической теории речеобразования, теории распознавания образов, теории планирования и постановки эксперимента; достаточным совпадением экспериментальных и расчётных данных и успешной проверкой решений, полученных на основе теоретических разработок.

Результаты использования. Результаты диссертационной работы использованы в ЗАО "Станкостроительный завод "Свердлов", ФГУП "Центральный научно-исследовательский институт технологии судостроения" (ЦНИИ ТС).

Публикации. По теме диссертационной работы опубликовано 23 научные работы, в том числе 2 монографии и 2 патента РФ на изобретение, в которых полностью отражены полученные результаты.

Апробация работы. Основные теоретические положения, результаты, выводы, рекомендации докладывались и обсуждались: на Российской научно-технической конференции "Инновационные наукоёмкие технологии для России", (Санкт-Петербург, 1995); на научной военно-технической конференции "Автоматизация процессов управления соединениями и частями ПВО, информационные технологии. Состояние и перспективы создания единой автоматизированной радиолокационной системы", (Санкт-Петербург, 1996); на международной научно-технической конференции "Информационные технологии в моделировании и управлении", (Санкт-Петербург, 1996).

Структура и объём диссертации. Диссертация состоит из введения, пяти глав, заключения, списка литературы, списка условных сокращений и приложения (акты использования результатов диссертационной работы). Общий объём диссертации составляет 267 страниц, в том числе 226 страниц составляет основной текст, который поясняется 76 рисунками и 14 таблицами. Список литературы насчитывает 210 наименований.

Заключение диссертация на тему "Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием"

Результаты работы могут также использоваться при организации автоматических контрольно-пропускных пунктов; подготовки и корректировки документов; организации запросов в базах данных; в кабинах летательных аппаратов, диспетчерских пультах атомных и гидроэлектростанций; в условиях темноты или резкого изменения освещённости; при занятости рук, чрезвычайной сосредоточенности внимания на объекте, который не позволяет отвлечься ни на секунду, где существует большое число аварийных, предупреждающих и уведомляющих сигналов.

Кроме того, результаты диссертационной работы могут использоваться в учебном процессе при постановке лабораторных и курсовых работ, в рамках лекционных курсов для студентов машиностроительных и других специальностей, затрагивающих вопросы автоматизации и управления техническими системами.

Заключение

Представленная на защиту диссертация является обобщением проведённых автором исследований и разработок, в результате которых решена научная проблема создания методов и средств автоматизированного управления оборудованием с интегрированным речевым взаимодействием на русском языке.

Библиография Изилов, Яков Юноевич, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)

1. Алексеев Д. Handsfree откликаются на голос // Russian Mobile, 1999, № 5/99, С.39 41.

2. Амосов Н.М., Байдык Т.Н. и др. Нейрокомпьютеры и интеллектуальные роботы. Киев: Наукова думка, 1991

3. Афанасьев В.П., Дегтярев Н.П., Ерёмин А.П. и др. Речевой дисплей МАРС-1 //Электрон, промышленность. 1984. No. 3. С.20 -22

4. Беллман Р. Динамическое программирование. М.: Издательство иностранной литературы, 1960.

5. Беллман Р., Дрейфус С. Прикладные задачи динамического программирования -М.: Наука, 1964.

6. Беллман Р., Калаба Р. Динамическое программирование и современная теория управления. М.: Наука, 1969.

7. Белоус А.И., Подрубный О.В., Журба В.М. Микропроцессорный комплект БИС серии К1815 для цифровой обработки сигналов. М.: Радио и связь, 1992.

8. Бендерская Е. Н., Колесников Д. Н, Пахомова В. И., Сиднев А. Г., Тихонов Н.Д. Системный анализ и принятие решений. СПб.: СПбГТУ, 1999.

9. Бондарко В.П. Анализ речевого сигнала на основе его текущего спектра // Тезисы докладов и сообщений 12-й всесоюзной школы семинара "Автоматическое распознавание слуховых образов" (АРСО-12), -Киев, 1982.

10. Васильев Ф.П. Численные методы решения экстремальных задач. М.: Наука, 1988.

11. Вентцель Е.С. Теория вероятностей. -М: Наука, 1969.

12. Винцюк Т.К., Куляс А.И. Универсальная программа анализа речи в реальном масштабе времени // "Автоматическое распознавание слуховых образов материалы (АРСО-Х)". Тбилиси, 1978.

13. Вокодерная телефония / Под. Ред. Пирогова А.А. М.: Связь, 1974.

14. Галунов В.И. Некоторые особенности восприятия речи // Акустический журнал. -1966, №12.

15. Горбань А.Н. Нейросети на ПК. Новосибирск: 1995.

16. Горбань А.Н. Функции многих переменных и нейронные сети // Соросов-ский образовательный журнал. 1998, №12.

17. Гуревич Н., Гуревич О. Программирование звука для DOS и Windows. -М.: БИНОМ, 1995.

18. Гусев И.Т., Елисеев В.Г., Маслов А.А. Устройства числового программного управления. -М.: Высш. школа, 1986.

19. Деркач М., Гумецкий Р., Мишин Л., Оверченко М., Чабан М. Восприятие речи в распознающих моделях. Львов : Издательство Львовского университета, 1971.

20. Джонсон Р. Возможности и перспективы систем распознавания речи // Computer Week Moscow, №20, 1996.

21. Дризовский Л.М, Меньшикова Л.А., Тинина Н.В., Кузьмина Л.И., Современное состояние и тенденции развития устройств речевого ввода-вывода // ЦИИТЭИ. М., 1986. Вып. 6. 64 с. (Сер. ТС-2).

22. Горелик А.Л, Скрипкин В.А. Методы распознавания. М.: Высшая школа, 1989.

23. Златоустова Л. В., Потапова Р. К., Трунин-Донской В. Н. Общая и прикладная фонетика. М.: МГУ, 1986.

24. Изилов Я. Ю., Морозов Б. И. Система речевого программирования промышленного робота // Инновационные наукоёмкие технологии для России: Тезисы докладов Российской научно-технической конференции. СПб.: Изд-во СПбГТУ, 1995. - ч.8. - С.34.

25. Изилов Я.Ю. и др. Способ распознавания слов в слитной речи и система для его реализации / Патент на изобретение №2101782, Россия, МКИ G10L 5/00. № 96108879/09; заявл. 06.05.96: опубл. 10.01.98. Бюл. №1.

26. Изилов Я.Ю., Морозов Б.И. Система понимания слитной речи русского языка // Информационные технологии в моделировании и управлении: Тезисы докл. и сообщ. международной научно-технической конференции. СПб: Изд-во СПбГТУ 1996. - С. 190 -194.

27. Изилов Я.Ю. и др. Способ лексической интерпретации слитной речи и система для его реализации / Патент на изобретение № 2119196, Россия, МКИ G10L 5/00.- № 97117246/09; заявл. 27.10.97: опубл. 20.09.98. Бюл. №26.

28. Изилов Я.Ю., Морозов Б.И., Федотов А.И. Система понимания речи // Вычислительные, измерительные и управляющие системы: Сб. научных трудов No.462 / СПбГТУ. СПб. 1996. - С.3-10.

29. Изилов Я.Ю., Федотов А.И. Расширение функциональных возможностей робототехнических систем / Научно технические ведомости СПбГТУ.1999. -№3 (17). С.94-96.

30. Изилов Я.Ю. Математическое представление псевдостационарных объектов и их распознавание // Вычислительная техника, автоматика, радиоэлектроника: Сб. научных трудов №480 / СПбГТУ, ИИСТ. СПб.,2000. С.92-94.

31. Изилов Я.Ю. Программный комплекс "Звукоинженер" для интерактивной работы с речевыми базами данных в среде Microsoft Windows 95 // Вычислительная техника, автоматика, радиоэлектроника. Сб. научных трудов №480 / СПбГТУ, ИИСТ. СПб., 2000. - С. 180-183.

32. Изилов Я.Ю., Федотов А.И. Развитие исследований в области распознавания речи // Вестник Санкт-Петербургского университета технологии и дизайна: Сб. научных трудов №5/СПГУТД. СПб., 2001. - С. 123-126.

33. Изилов Я.Ю. Некоторые аспекты моделирования речевых сигналов. -СПб: Изд-во СПбГТУ, 2001. 72 с.:ил.

34. Изилов Я.Ю. Новые возможности оперативного управления металлообрабатывающими станками с ЧПУ// Металлообработка. 2003. - №1 (13). - С.41-43.

35. Изилов Я.Ю. Совершенствование процесса технологической подготовки оборудования с ЧПУ // Проблемы машиноведения и машиностроения: Межвуз. сб. Вып.30 СПб.: СЗТУ, 2003, С. 192-194.

36. Изилов Я.Ю. Скрытые модели Маркова в задаче распознавания речевых сигналов / Проблемы машиноведения и машиностроения: Межвуз. сб./ СЗТУ. СПб., 2003. - Вып.30. - С.203-206.

37. Каляжнов В. А., Лизунов А. В., Митрофанов С. В., Нагулин Н. Е., Пер-шин А.Н. Одноплатный программируемый процессор сигналов на основе БИС серии К1838 // Микропроцессорные средства и системы. -1990. No.6.

38. Казаков В.А. Введение в теорию марковских процессов и некоторые радиотехнические задачи. М.: Советское радио, 1973.

39. Кнут Д.Э. Искусство программирования. Второе издание, в трёх томах. -М.: Издательский дом «Вильяме», 2000.

40. Козадаев Б.П. Поиск информативных параметров речевого сигнала на базе системного подхода // Тезисы докладов и сообщений 13-й всесоюзной школы семинара "Автоматическое распознавание слуховых образов" (АРСО-13), Новосибирск, 1984.

41. Колоколов А.С., Яхно В.П. Дикторонезависимое распознавание изолированных речевых команд на основе слуховых моделей // Автоматика и телемеханика. 1995.-No.8.

42. Компьютерные сети+. Учебный курс: официальное пособие Microsoft для самостоятельной подготовки / Пер. с англ. М.: Издательско-торговый дом «Русская Редакция», 2000.

43. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. Определения, теоремы, формулы. Издание пятое. М.: Наука, 1984.

44. Косарев Ю.А. Естественная форма диалога с ЭВМ. Л.: Машиностроение, 1989.

45. Коутс Р., Влейминк И. Интерфейс "человек-компьютер". -М.: Мир, 1990

46. Кохонен Т., Ассоциативная память. М.: Мир, 1987.

47. Левинсон С.Е. Структурные методы автоматического распознавания речи//ТИИЭР. -t.73.No.11, 1985.

48. Ли Ц., Джадж Д., Зельнер А. Оценивание параметров марковских моделей по агрегированным временным рядам. М.: Статистика, 1977

49. Лигетт Т. Марковские процессы с локальным взаимодействием. М.: Мир,1989.

50. Майкл Дж. Янг. Visual С++ 6. Полное руководство: Пер. с англ. К.: Издательская группа BHV,2000.

51. Макс Ж. Методы и техника обработки сигналов при физических измерениях. М.: Мир, 1983, том 2, стр.173

52. Маркел Дж. Д. Грей А.Х. Линейное предсказание речи. М.: Связь, 1980г.

53. Минский М. Л., Пейперт С. Персептроны. М: Мир. - 1971.

54. Microsoft Windows 98: наглядно и конкретно / Пер. с англ. М.: Издательско-торговый дом «Русская Редакция», ТОО «Channel Trading Ltd.», 1999.

55. Microsoft Windows 2000 Professional. Шаг за шагом. Практ. Пособ. / Пер. с англ. М.: Издательство ЭКОМ, 2000.

56. Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. -М.: Радио и связь 1985

57. Никитенко В. Д. Подготовка программ для станков с программным управлением. -М.: Машиностроение, 1973.

58. Плотников В.Н., Суханов В.А., Жигулевцев Ю.Н. Речевой диалог в системах управления. М.: Машиностроение, 1988.

59. Поддержка Microsoft Windows NT 4.0. Учебный курс: официальное пособие Microsoft для самостоятельной подготовки / Пер. с англ. -2-е изд., испр. М.: Издательско-торговый дом «Русская Редакция», 1999.

60. Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983.

61. Пятков B.C. Устройство выделения речевых признаков на интегральных схемах //Дискретная обработка речевых сигналов. М.: ВЦ АН СССР, 1978.

62. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов.-М.: Мир, 1978.

63. Рабинер Л., Шафер Р. Цифровая обработка речевых сигналов. М.: Радио и связь, 1987.

64. Рабинер Л. Скрытые модели Макркова и их применение в избранных приложениях при распознавании речи //ТИИЭР.-1989, №2.

65. Родионова Г. Г. Распознавание речевых образов с предварительной фонетической классификацией // Анализ, распознавание и синтез речи /Под. Ред. Трунина-Донского В.Н. -М.: ВЦ АН СССР, 1987.

66. Розенблатт Ф. Принципы нейродинамики. М.: Мир, 1965.

67. Румшиский Л.З. Математическая обработка результатов эксперимента. Справочное руководство. М.: Наука, 1971.

68. Скурихин А. Н. Нейронные сети: определения, концепции, применение. -М.: ЦНИИ управления экономики и информатики, 1991.

69. Смит К. Развитие систем распознавания речи в Великобритании // Электроника. No.23, 1984, С.24 -26.

70. Сорокин В.Н. Теория речеобразования. М.: Радио м связь, 1985.

71. Сорокин В.Н. Временные параметры элементов русской речи // Речевая информатика. М.: Наука, 1989.

72. Справочник по промышленной робототехнике. Под ред. Нофа Ш. /пер. с англ. М.: "Машиностроение", 1989.

73. Страуструп Б. Язык программирования Си++. М.: Радио и связь, 1991.

74. Тимофеев А.В. Адаптивные робототехнические комплексы. П.: Машиностроение, 1988.

75. Тихонов В.И., Миронов М.А. Марковские процессы. М: Советское радио, 1977

76. Треногин В. А. Функциональный анализ. М.: Наука. Главная редакция физико-математической литературы, 1980.

77. Трунин Донской В.Н. Разработки советских учёных в области автоматического распознавания речи // Актуальные вопросы фонетики в СССР. - М.: ИНИОН АН СССР, 1987, с.71-106.

78. Тэнк Д., Хопфилд Д. Коллективные вычисления в нейроподобных электронных схемах// В мире науки, 1988, №2, с.45-53.

79. Фант Г. Акустическая теория речеобразования. / пер. с англ. М.: Связь, 1964.

80. Фланаган Дж. Анализ, синтез и восприятие речи. -М.: Связь, 1968.

81. Фигурнов В.Э. IBM PC для пользователя. Изд. 6-е, перераб. и доп. М.: ИНФРА-М, 1995.

82. Фролов А.В., Фролов Г.В. Мультимедиа для Windows. Руководство для программиста. М.: ДИАЛОГ-МИФИ, 1994 - (Библиотека системного программиста; т. 15.)

83. Фролов А.В., Фролов Г.В. Операционная система Windows 95. Для программиста. М.: ДИАЛОГ-МИФИ, 1996 - (Библиотека системного программиста; т.22).

84. Цвикер Э., Фельдкеллер Р. Ухо как приёмник информации. М.: Связь, 1972.

85. Черносвитов A. Visual С++ 6 и MFC. Курс MCSD для профессионалов -СПб.: Издательство «Питер», 2000.

86. Чистович Л.А., Венцов А.В., Гангстрем М.П. и др. Физиология речи: Восприятие речи человеком. Л.: Наука, 1976.

87. Чистович Л.А., Кожевников В.А. и др. Речь. Артикуляция и восприятие. -Л.: Наука, 1965.

88. ABB Flexible Automation, http://www.abb.com

89. Acero A., Stern R. Robust Speech Recognition by Normalization of Acoustic Space // IEEE International Conference on Acoustics, Speech, and Signal Processing. 1990, pp. 849-852.

90. Ackley D., Hinton G., Sejnowski T. A learning algorithm for Boltzmann machines// Cognitive Sciences, 1985, vol.9, pp.147-169.

91. Anderberg M.R. Cluster Analysis for Application. Academic Press, New York, USA, 1973.

92. Atal B.S., Rabiner L.R. A Pattern recognition approach to voiced-unvoiced-silence classification with application to speech recognition // IEEE Trans, on ASSP vol. ASSP-24, 1976, -No.6.

93. Atal B.S., Schroeder M.R. Predictive Coding of Speech Signals and Subjective Error Criteria // IEEE Trans, on ASSP vol.ASSP-27, No.3, 1979.

94. Bahl L. R., Bakis R., Cohen P. S., Cole A. G., Jelinek F., Lewis B. L., Mercer R. L. Further Results on the Recognition of a Continuously Read Natural Corpus // IEEE International Conference on Acoustics, Speech, and Signal Processing. 1980.

95. Bahl L.R., Jelinek F., Mercer R. A Maximum Likelihood Approach to Continuous Speech Recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. PAMI-5, 1983, pp. 179-190.

96. Bahl L.R., Brown P.F., P. V. de Souza, and Mercer R.L. Speech Recognition with Continuous Parameter Hidden Markov Models // Proceedings ICASSP, Vol. 1, pp. 40-43, 1988.

97. Baker J.K., The DRAGON System An overview // IEEE Trans. ASSP, 23, No.1. February 1975, pp.24-29.

98. Bakis R., Schen S., Gopalakrishnan P., Gopinath R., Maes S., Polymenakos L. Transcription of Broadcast News System Robustness Issues and Adaptation Techniques// ICASSP, 1997, volume 2, pages 711-715

99. Baum L. E. and Eagon J. A. An inequality with applications to statistical estimation for probabilistic functions of Markov processes and to a model for ecology // Bulletin of the American Mathematical Society, 73:360-363, 1967.

100. Baum L.E. An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Functions of Markov Processes // Inequalities, vol. 3, 1972, pp. 1-8.

101. Bishop C. Neural Networks for Pattern Recognition. Oxford University Press, 1995.

102. Bodenhausen U., and Manke S. Connectionist Architectural Learning for High Performance Character and Speech Recognition // Proceedings IEEE International Conference on Acoustics, Speech, and Signal Processing, 1993.

103. Buhmann J., Schilten K. Noise Driven Temporal Association in Neural Networks // Europhysics Letters 4, pages 1205-1209, 1988.

104. Carver N., Lesser V. Evolution of blackboard control architectures. Hearsay-ll // Expert Systems with Applications 7, No.1, Jan-Mar., 1994, p.1-p30.

105. Cheng Y.H., Lin C.S. Learninig algorithm for radial basis function network with the capability of adding and pruning neurons // Proceeding 1994 Conf. ICNN. Orlando: 1994, pp.797-801.

106. Chevalier H., Ingold C., Kunz C., Moore C., Roven C., Yamron J., Baker В., Bamberg P., Bridle S., Bruce T. and Weader A. Large-vocabulary Speech Recognition in Specialized Domains // ICASSP, 1995, volume 1, pages 217-220.

107. Class F., Kaltenmeier A., Regel-Brietzmann P. Optimization of an HMM-Based Continuous Speech Recognizer// EUROSPEECH, 1993, vol. 2, pages 803-806.

108. Cook C.D., Kershaw D.J., Christie J. D.M., Seymour C. W., Waterhouse S. R. Transcription of Broadcast Television and Radio News: The 1996 Abbot System // ICASSP, 1997, volume 2, pages 723-727.

109. Dehaene S., Changeux J., Nadal J. Neural Networks that Learn Temporal

110. Sequences by Selection // Proceedings National Academy Science, USA, Biophysics 82, pages 2724-2733, 1989.

111. Digital Speech Processing: Speech Coding, Synthesis and Recognition // ed. A. Nejat Ince. Boston: Kluwer Academic Publishers, 1992.

112. Ellermann C., Even S. V., Huang C. and Manganaro L. Dragon Systems' Experiences in Small to Large Vocabulary Multi-Lingual Speech Recognition Applications // EUROSPEECH, 1993, volume 3, pages 2077-2080.

113. Fisher W., Fiscus J. Better Alignment Procedures for Speech Recognition Evaluation // ICASSP, 1993, volume 2, pages 59-62.

114. Fodor J., Pylyshyn Z. Connectionism and Cognitive Architecture: A Critical Analysis. In Pinker and Mehler (eds.), Connections and Symbols, MIT Press, 1988.

115. Forney G. J. The Viterbi Algorithm // Proceedings of the IEEE, 61, 3, 1973, pp. 268-278.

116. Gauvain J., Adda G., Adda-Decker M. Speaker-Independent Continuous Speech Dictation // EUROSPEECH, 1993, volume 1, pages 125-128.

117. Gill P., Murray W., Wrigth M. Practical Optimization N.Y.:Academic Press,1981.

118. Gauvain J.L., Adda G., Lamel L., Adda-Decker M. Transcribing Broadcast News Shows // ICASSP, 1997, volume 2, pages 715-719.

119. Gersho A. On the Structure of Vector Quantizers // IEEE Transactions on Information Theory, vol. 28, no. 2, pp. 157-166, March 1982.

120. Gill C. L., Kuhn G. M. and Williams, R. J. Dynamic recurrent neural networks: Theory and applications // IEEE Transactions on Neural Networks, 1994, 5(2): 153-156.

121. Gray R. Vector Quantization // IEEE ASSP Magazine, 1984, vol. 1, pp. 4-29.

122. Grossberg S. Adaptive pattern classification and universal recoding // Biological Cybernetics, 1976, №23,pp.121-134.

123. Grossberg S., Cohen A., Stork D. Recent Developments in a Neural Model of Real-Time Speech Analysis and Synthesis // First International Conference on Neural Networks, IEEE, pp. 899-902,1987.

124. Grossberg S. Competitive learninig: From interactive activation to adaptive resonance// Cognitive Science, 1987, №11, pp.23-63.

125. Hampshire J., Waibel A. The Meta-Pi Network: Connectionist Rapid Adaptation for high-performance Multi-Speaker Phoneme Recognition // Proceedings IEEE International Conference on Acoustics, Speech, and Signal Processing, 1990.

126. Hanes M., Ahalt S., Krishnamurthy A. Acoustic-to-phonetic mapping using recurrent neural networks // IEEE Transactions on Neural Networks 1994, 5(4), pages 659-662.

127. Hartigan J. A. Clustering algorithms. N.Y: - Wiley. - 1975. - p.386

128. Hartman E., Keeler D., Kawalski J. Layered neural networks with gaussian hidden units as universal approximator// Neural Networks, 1990, vol.35, №2, pp. 210-215.

129. Haykin S. Neural Networks: A comprehensive Foundation. N.Y.: Macmillan College Publishing Company, 1994.

130. He J., Liu L., Palm G. On the Use of Residual Cepstrum in Speech Recognition//Proc. IEEE ICASSP'96. 1996, V.1.

131. Hecht-Nielsen R. Counterpropagation Networks // Proceedings of the IEEE First Inetrnational Conference on Neural Networks // IEEE Press, 1987, pp. 19-32.

132. Hecht-Nielsen R. Counterpropagation networks. Applied Optics, 1987, 26(23): 4979-4984.

133. Hecht-Nielsen R. Applications of Counterpropagation networks // Neural Networks 1: 1988, 131-39.

134. Hinton G.E., Sejnowski T.J. Learning and relearning in Boltzmann machines. // Parallel distributed processing, 1986, vol. 1, pp. 282-317. Cambridge, MA: MIT Press.

135. Hiramatsu K., Kotoh K. A Spoken Digit Recognition System // VI International Congress on Acoustics, Tokyo, D4-3, 1968.

136. Hassibi В., Stork D. Second order derivatives for network prunning: Optimalbrain surgeon // Advances in NIPS2 / Ed.D.Touretzky, San Mateo:Morgan Kaufmann,1993,pp.164-171.

137. Hopfield J. Neural Networks and phisical systems with emergent collective computational abilities // Proceedings of the National Academy of Sciences USA, 1982, pp.2554-2558

138. Horz J., Krogh A., Palmer R. Introduction to the theory of neural computation. Addison Wesley Publishing Company, 1991.

139. Huang X., Lee K., and Hon H. On Semi-Continuous Hidden Markov Modeling // IEEE International Conference on Acoustics, Speech, and Signal Processing. Albuquerque, NM, 1990, pp. 689-692.

140. Huang X.D. Phoneme Classification using Semi-Continuous Hidden Markov Models // IEEE Trans, on Signal Processing, 1992, 40(5), May.

141. Hush D., Home B. Progress in supervised neural networks // IEEE Signal Processing Magazine, 1993, January, pp.8-39.

142. Hwang, M., Hon H., and Lee K. Modeling Between-Word Coarticulation in Continuous Speech Recognition // Proceedings of Eurospeech. Paris, FRANCE, 1989, pp. 5-8.

143. IBM Systems, December, 1995

144. IEEE EXPERT, April 1995, p. 54.

145. IEEE EXPERT, February 1991, p. 41.

146. Imamura A. Speaker Adaptive HMM-Based Speech Recognition with a Stochastic Speaker Classifier // Proceedings ICASSP, Vol. 2, pp. 841-844, 1991.

147. Iso K. and Watanabe T. Speaker-Independent Word Recognition using a Neural Prediction Model // Proceedings IEEE International Conference on Acoustics, Speech, and Signal Processing, 1990.

148. Juang В. H., Rabiner L. R. Mixture Autoregressive Hidden Markov Models for Speech Signals // IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-33 (1985), pp. 1404-13.

149. Kim Doh-Suk, Jeong Jae-Hoon, Kim Jae-Weon, Lee Soo-Young. Feature Extraction Based on Zero-Crossing with Peak Amplitudes for Robust Speech

150. Recognition Noisy Environments // ICASSP-96.-1996, v.1.

151. Kleinfield D. Sequential State Generation by Model Neural Networks // Proceedings National Academy Science, USA, Biophysics 83, pages 94699473, 1988.

152. Klowstad J.W., Mondshein L.F., The CASPERS Linguistic Analysis System, IEEE Trans. ASSP , 23, No.1. February, 1975, pp.118- 123.

153. Kohonen T. The self-organizing map // Proceedings of the IEEE, 78(9),1990, p.1464-1480.

154. Kohonen T. Self-Organizing Maps. Heidelberg: Springer-Verlag, 1995.

155. KoskoB. Constructing an associative memory // Byte, September, 1987, pp. 137-44.

156. Kosko В., Guest С. Optical bi-directional associative memories // Sosiety for Photo-optical and Instrumentation Engineers Proceedings: Image Understanding, 1987, (758), pp.11-18.

157. Kosko B. Competitive Adaptive Bidirectional Associative Memories // Proceedings of the IEEE First International Conference on Neural Networks. -IEEE Press, 1987, vol.2.

158. Kosko B. Feedback Stability and Unsupervised Learning // Proceedings of the IEEE Second International Conference on Neural Networks. IEEE Press, 1988.

159. Kroese B. An introduction to Neural Networks. Amsterdam: University of Amsterdam, 1996.

160. Kubala F., Jin H., Matsoukas S., Nguyen L., Schwartz R., and Makhoul J. Advances in Transcription of Broadcast News // EUROSPEECH, 1997, volume 2, pages 927-930.

161. Kubala F., Jin, H., Nguyen L., Schwartz R., and Matsoukas S. Broadcast News Transcription // ICASSP, 1997, volume 1, pages 203-207.

162. Le Cun Y., Denker J., Solla S. Optimal brain damage // Advances in NIPS2 / Ed.D.Touretzky, San Mateo:Morgan Kaufmann, 1990,pp.598-605.

163. Lee, K. and Hon, H. Large Vocabulary Speaker-Independent Continuous Speech Recognition // IEEE International Conference on Acoustics, Speech,and Signal Processing. New York, NY, 1988.

164. Leonard J.A., Kramer M.A. Radial basis function networks for classifying process faults // IEEE Control System Magazine, 1991, April, pp.31-38.

165. Leonard R.G. A Database for Speaker-Independent Digit Recognition // Proceedings IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 42.11.1 -42.11.4, San Diego, California, USA, April 1984.

166. Lesser V.R., Fennel R.D., Erman L.D., Reddy D.R., Organization of the HEARSAY II Speech Understanding System, IEEE Trans. ASSP, 23, 1, pp.11-24, 1975.

167. L.G. Hellmann Corporation, http://www.lghellmann.com.

168. Li Q.,Tufts D. Synthesizing neural networks by sequencial addition of hidden nodes// IEEE Proc. ICNN, Orlando, 1994., pp.708-713.

169. Linde Y., Buzo A., Gray R. An Algorithm for Vector Quantizer Design // IEEE Transactions on Communication, vol. COM-28 (1), pp.84-95, January 1980.

170. Lippmann R. P. An Inroduction to Computing with Neural Nets // IEEE Transactions ASSP Magazine, April 1987, №2, L4, pp.4-22.

171. Lippman R.P. Review of neural networks for speech recognition // Neural Computation. 1989. - v.1.

172. Moody J., Darken C. Fast Learning in networks locally-tuned processing units // Neural Computation, 1989, №1, pp. 281-294.

173. Morgan N., Bourlard H. Neural networks for statistical Recognition of continuous Speech// Proceedings of the IEEE, 83(5), pp. 741-770, May 1995.

174. Nakagawa S. and Kai A. A context-free grammar-driven, one-pass HMM-based continuous speech recognition method (Toyohashi University of Tech., Japan) // Systems & Computers in Japan 25 No.4 Apr., 1994, p.92-p.102.

175. Narendra K.S., Parthasarathy K. Identification and control of dynamical systems using neural networks // IEEE Trans. Neural Networks, 1990. -Vol.1., pp.4-27.

176. Nash-Webber B. Semantic support for a speech understanding system // IEEE Trans, on ASSP vol. ASSP-23, No.1, February, 1975, p.124-128

177. Newall Electronics, http://www.newall.co.uk

178. Ney H. and Noll A. Phoneme Modeling Using Continuous Mixture Densities // IEEE International Conference on Acoustics, Speech and Signal Processing. 1988, pp. 437-440.

179. Parsons T.W. Voice and Speech Processing. New York: McGraw Hill,1986.

180. PAR Systems, http:// www.par.com.

181. Paul D. В., Lippmann R. P., Chen Y., Weinstein C. Robust HMM-Based Techniques for Recognition of Speech Produced under Stress and in Noise // Proceedings of the Speech Technology Conference. 1986.

182. Peskin В., Gillick L., Liberman N., Newman M., van Mulbregt P. and Wegmann S. Progress in Recognizing Conversational Telephone Speech // ICASSP, 1997, volume 3, pages 1811-1814.

183. Picone J. Continuous Speech Recognition Using Hidden Markov Models // IEEE ASSP Magazine, vol. 7, no. 3, pp. 26-41, July 1990.

184. Pinker S. and Prince A. On Language and Connectionism. In Pinker and Mehler (eds.), Connections and Symbols, MIT Press, 1988.

185. Rabiner L.R., Juang B.H., Levinson S.E., Sondhi M.M. Recognition of Isolated Digits Using Hidden Markov Models With Continuous Mixture Densities. AT&T Technical Journal, vol. 64, 1985, pp. 1211-33.

186. Rabiner L.R., Juang B.H. An Introduction to Hidden Markov Models // IEEE ASSP Magazine, vol. 3, 1986, pp. 4-16.

187. Rabiner L.R. Applications of Voice Processing to Telecommunications // Proceedings of the IEEE, Vol. 82, No. 2, Feb. 1994, pp. 199-228.

188. Reddy D., Zue V. Recognizing Continuous Speech Remains an Illusive Goal // IEEE Spectrum, November 1983, pp. 84-87.

189. Rosenblatt F. Principle of neurodynamics.- N.Y.:Spartan,1992.

190. Roucos S., Makehoul J. and Gish H. Vector Quantization in Speech Coding. Proceedings of the IEEE, vol. 73, pp. 1551-1588, 1985.

191. RSI. (gbp)186 000 record damages for rsi sufferer at newcastle highcourt // Health and Safety at Work, 1997, volume 19-3.

192. Rumelhart D.E., Hinton G.E., Williams R.J. Learning represetation by Back-Propagating Errors// Nature, October 1986, № 323 (9), pp. 533-536.

193. Rumelhart D.E., McClelland J.L. Parallel Distributed Processing.- Cambridge, MA. MIT Press, 1986.

194. Sankar K.P., Sushmita M. Multilayer Perceptron, Fuzzy Sets and Classification // IEEE Transactions on Neural Networks, 3(5):683-697, September 1992.

195. Speech Science and Technology // ed. Shuzo Saito. -Tokyo: Ohmsha,1992.

196. Schwartz R., Klovstad J., Makhou J., and Sorensen J. A Preliminary Design of a Phonetic Vocoder Based on a Diphone Model // IEEE International Conference on Acoustics, Speech, and Signal Processing. 1980, pp. 32-35.

197. Schwartz R.M., Chow Y.L., Roucos S., Krasner M., Makhoul J. Improved Hidden Markov Modeling of Phonemes for Continuous Speech Recognition // IEEE International Conference on Acoustics, Speech, and Signal Processing. 1984.

198. Tappert C.C. Experiments with a Tree-Search Method for Converting Noisy Phonetic Representation Into Standard Orthography, IEEE Trans. Acoust. Speech Signal Process. ASSP-23, 1975, pp.129-130

199. Thimm G., Fiesler E. High Order and Multilayer Perceptron Initialization // IEEE Transactions on Neural Networks, 8(2): 1045-9227,1997.

200. Viterbi A.J. Error Bounds for Convolution Codes and an Asymptotically Optimum Decoding Algorithm // IEEE Transactions on Information Theory, vol. IT-13, 1967, pp. 260-269.

201. Voice control of steel fabrication. //Tool, and Prod., 1977, 42, №12, pp.80-82

202. Wasserman P.D. Expirements in translating Chinese characters using backpropagation // Proceedings of the Thirty-Third IEEE Computer Society International Conference.-Washigton, D.C.: Computer Society Press of the IEEE, 1988.

203. Werbos P.J. Backpropagation through time: what it does and how to do it // Proceedings of the IEEE, 1990, 78(10), pp.1550-1560.

204. Widrow В., Hoff M.E. Adaptive Switching Circuits // IRE WESCON Conventional Record, 1960, part 4, pp. 96-104.

205. Widrow В., Stearns S. Adaptive signal processing. N.Y.:Prentice Hall,1985.

206. Williams R., Zipster D. A learning algorithm for continually running fully recurrent neural networks. Neural Computers, 1989. -vol.1, pp.270-280.

207. White G.W. Dynamic programming, Viterbi Algorithm and Low Cost Speech Recognition // Proc. IEEE Intern. Conf. ASSP, Tulsa, 1978.

208. Woodland P. C., Gales M. J. F., Pye D., and Young S. J. Broadcast News Transcription Using НТК// ICASSP, 1997, volume 2, pages 719-723.

209. Список условных сокращений

210. АС — акустическое состояние

211. АЦП — аналого-цифровой преобразователь1. БА — блок адресации

212. БАО — блок акустической обработки1. БВ — блок вывода

213. БВОМ — блок выбора оптимальной оценки и маркировки вершин

214. ВДВ — блок хранения базы данных вершин

215. БДАС — блок хранения базы данных акустических состояний

216. БДГВ — база данных граничных вершин

217. БДГ1В — база данных локальных вершин

218. БДС — блок хранения базы данных слов1. БИ — блок интерпретации

219. БЛО — блок лексической обработки

220. БОИ — блок отображения информации1. БП — буферная память

221. БПЗС — буфер памяти значений спектра

222. БПВП — блок проверки вершин "паузы"

223. БПГ — блок проверки гипотез

224. БПГВ — блок проверки "граничной" вершины

225. БПО — блок предварительной обработки

226. БППВ — блок проверки последовательности вершин

227. БСА — блок спектрального анализа

228. БССА — блок семантико-синтаксического анализа

229. БСЭ — блок сравнения с эталоном1. БУ — блок управления

230. БФЛГ — блок формирования лексических гипотез

231. ВК — векторное квантование

232. ВВК — вычислитель весового коэффициента

233. ВТАС — вычислитель текущего акустического состояния1. ГВ — граничная вершина

234. ГПС — гибкая производственная система4 2631. ДЗ дикгорозависимый1. ДНЗ дикгоронезависимый

235. ДП динамическое программирование

236. ДСММ дискретная скрытая модель Маркова1. ЗА звуковой адаптерф ИН искусственный нейрон

237. ИНС искусственная нейронная сеть1. КТ контрольный текст

238. МП многослойный персептрон

239. МПР механообрабатывающий промышленный робот

240. МПРУ модуль преобразования речевых указаний1. МС металлорежущий станок1. MS Microsoft

241. НВК настройка весовых коэффициентов1. НИ носитель информации1. НС нейронная сеть

242. НСММ непрерывная скрытая модель Маркова

243. ОГЛД ориентированный граф лексического декодированияи ОГЛИ ориентированный граф лексической интерпретации1. ОЦ обрабатывающий центр

244. ОАС определитель ожидаемых акустических состояний1. ОС операционная система

245. ПВД последовательность векторов данных

246. ПЛГ построитель лексических гипотез

247. ПНСММ полунепрерывная скрытая модель Маркова

248. ПО программное обеспечение

249. ПП параметрическое пространство

250. ППНС простая персептронная нейросеть1. ПР промышленный робот

251. ПРУ программа речевого управления1. ПУ программное управление

252. РБФ радиально-базисная функция1. РВ речевое взаимодействие

253. РГС — регулятор громкости выходного сигнала

254. РИС — распознавание изолированных словpp — распознавание речи1. PC — речевой сигнал

255. РСР — распознавание слитной речи

256. PTC — робототехническая система1. РУ — речевое управление

257. РУС — регулятор уровня входного сигнала

258. САП — система аналитического программирования

259. САПР — система автоматизированного проектирования

260. СММ — скрытая модель Маркова

261. СОЖ — система охлаждения жидкостьюспид — станок-приспособление-инструмент-деталь

262. СПР — сварочный промышленный робот1. С/Ш — сигнал/шум

263. УП — управляющая программа

264. УРВ — устройство речевого взаимодействия

265. УЧПУ — устройство числового программного управления1. ФА — функция активации

266. ФПВ — функция плотности вероятностей

267. ЦАП — цифро-аналоговый преобразователь

268. ЧМС — человеко-машинная система

269. ЧПУ — числовое программное управление