автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.05, диссертация на тему:Оптимизация структуры и разработка блоков сравнения речевых образов в устройствах речевого ввода для ЭВМ

кандидата технических наук
Мочалов, Владимир Андреевич
город
Москва
год
1983
специальность ВАК РФ
05.13.05
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Оптимизация структуры и разработка блоков сравнения речевых образов в устройствах речевого ввода для ЭВМ»

Оглавление автор диссертации — кандидата технических наук Мочалов, Владимир Андреевич

ВВЕДЕНИЕ

Глава I. АНАЛИЗ ОСНОВНЫХ ВАРИАНТОВ АЖ>ШМА

КОЛИЧЕСТВЕННОГО СРАВНЕНИЯ ОБРАЗОВ СЛОВ.

§ 1.1. Анализ проблем, решаемых при создании систем распознавания речи с обучением под конкретного диктора

§ 1.2. Формальное описание исходных данных и условий решения задачи количественного сравнения образов слов

§ 1.3. Анализ преимуществ применения методов динамического программирования для количественного сравнения образов слов с нелинейной деформацией их по времени

Глава 2. ЭКСПЕРИМЕНТАЛЬНЫЙ МЕТОД ОПРЕДЕЛЕНИЯ НАДЕЖНОСТИ

РАСПОЗНАВАНИЯ УСТРОЙСТВ РЕЧЕВОГО ВВОДА.

§ 2.1. Условия проведения эксперимента

§ 2.2. Методика определения надежности распознавания для устройств ввода раздельно произнесенных

§ 2.3. Методика определения надежности распознавания для устройств ввода слитно произнесенных словосочетаний

Глава 3. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ ВАРИАНТОВ

АЛГОРШМА ДИНАМИЧЕСКОГО ПР01ТЖЛИР0ВАНИЯ ДЛЯ РАСПОЗНАВАНИЯ РАЗДЕЛЕНО И СЛИТНО ПРОИЗНОСИМЫХ СЛОВ

§ 3.1. Выбор множества вариантов алгоритма определения меры сходства образов слов для их экспериментального исследования

§ 3.2. Условия и результаты экспериментов по определению надежности распознавания раздельно произнесенных слов с использованием различных вариантов алгоритма динамического программирования

§ 3.3. Анализ различных алгоритмов распознавания слитно произнесенных слов

Глава 4. ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ ОПТИМИЗАЦИИ СТРУКТУРЫ МУЛЬТИБЛОЧНОЙ СИСТЕМЫ, ЕШОЛШНЦЕЙ ЦИКЛИЧЕСКИЙ

ВЫЧИСЛИТЕЛЬНЫЙ ПРОЦЕСС

§ 4.1. Формализованное описание исходных данных для построения мультиблочной вычислительной системы.

Критерш и ограничения

§ 4.2. Представление циклического вычислительного процесса в виде направленного графа

§ 4.3. Сведение задачи оптимизации структуры вычислительной системы к задаче целочисленного программирования . ЮЗ

§ 4.4. Оптимизация вычислительных систем с применением универсальных блоков

Глава 5. ОПТИМИЗАЦИЯ СТРУКТУРЫ СПЕЦИАЛИЗИРОВАННОЙ ВЫЧИСЛИТЕЛЬНОЙ СИСТЕМЫ ОПРЕДЕЛЕНИЯ МЕРЫ

СХОДСТВА ОБРАЗОВ СЛОВ. ИЗ

§ 5.1. Постановка задачи. Исходные данные . ИЗ

§ 5.2. Составление условий задачи целочисленного программирования

§5.3.Определение раннего и позднего Бремени выполнения операций вычислительного процесса.

§5.4.Блок-схема вычислительной системы определения меры сходства образов слов.Еытекакщая из решения оптимизационной задачи.

Введение 1983 год, диссертация по информатике, вычислительной технике и управлению, Мочалов, Владимир Андреевич

Одной из основных задач современности является повышение производительности труда на базе ускорения научно-технического прогресса.

Совершенствование человеко-машинного общения возможно за счет применения естественных для человека каналов информации, к числу которых относится речевое общение. Рядом авторов [9, 56, 13 , 79, 46 , 30 , 48] доказана принципиальная возможность решения ограниченных задач распознавания речи, таких, как ввод раздельно произнесенных слов или ввод нескольких слитно произнесенных словосочетаний.

Широко известны работы советских ученых Винцюка Т.К. [9, 8, II, 10], Загоруйко Н.Г. [23], Кншшера А.В. [26], Рамишви-ли Г.С. [44], Слуцкера Г.С. [51], Трунина-Донского В.Н. [14, 13, 42], Фролова Г.Д. [бб], Цемеля Г .И. [56 , 27] и других, посвященные вопросам распознавания речи. Значительные успехи в этом вопросе достигнуты иностранными учеными Елинеком [21], Итакурой Ф. [бб], Като Я. [25], Мартиным [30] , Редци [48], Фланаганом Дне. [54] и другими. Достаточно широкий анализ проблем и описание зарубежных разработок в области речевого ввода даны в [31].

Имеются сообщения о коммерческом выпуске систем ввода ограниченного числа устных комавд в США. [35, 61, £2, 77 , 78, 49] и Японии [50, 5з]. В 1983 году начат серийный выпуск отечественного устройства распознавания слов "ИКАР" [I]. Устройства речевого ввода находят широкое применение: для ввода инструкций при работе с графическими дисплеями [76], для ввода картографических и гидрографических данных [67], при сортировке различного рода материалов [30], для программирования станков с цифровым программным управлением [70, 82], для контроля качества с одновременным вводом информации о проверяемом изделии [30], для непосредственного ввода и коррекции программ, написанных на алгоритмических языках [30], дня ввода данных при складировании материалов [52], в военном деле [60] и в других областях.

Однако, несмотря на достигнутые успехи, на пути создания систем речевого ввода лежит немало нерешенных проблем, связанных, главным образом, с построением малогабаритных терминальных устройств распознавания речевых команд универсального назначения с достаточно высокой надежностью распознавания и временем реакции, составляющим доли секунды.

Многие авторы [9, 8, II, 10, 23, 25, 50, 79, ВН * 65", 83] для количественного сравнения образа распознаваемой команды с образами эталонных слов успешно используют процедуру динамического программирования. Несмотря на то, что многие авторы признают преимущества применения динамического программирования при количественном сравнении образов слов, между концепциями, иссле-дошшМ научных групп, занимающихся этим вопросом, имеются различные точки зрения. Различие точек зрения заключается главным образом,в том, что исследователи, исходя из теоретических предпосылок и экспериментальных данных, отдают предпочтение различным вариантам алгоритма динамического программирования, что дает повод для сравнительного анализа имеющихся вариантов.

Поскольку создание полной модели речеобразования является на современном этапе неразрешимой задачей, то окончательное решение о преимуществе одного варианта алгоритма над другими можно сделать только опираясь на результаты экспериментов по оценке надежности распознавания исследуемых вариантов. Поскольку надежность распознавания устройства речевого ввода является величиной непостоянной и зависит от множества внешних по отношению к устройству факторов, то проведение экспериментов по оценке надежности распознавания должно проводиться на строго научной основе.

Применение алгоритмов Аимм/ического программирования для сравнения образов слов требует большого объема однообразных вычислений [ю]. При создании малогабаритных терминальных устройств распознавания речевых команд целесообразно применять специализированные системы (процессоры) для реализации алгоритма динамического программирования. Выбор различных вариантов технической реализации, при которых минимизируются время вычислений и объем оборудования, является серьезной оптимизационной задачей, которую необходимо решить.

Основываясь на критическом анализе уже достигнутых результатов, с учетом специфических особенностей разработки малогабаритных терминальных устройств речевого ввода, автором были сформулированы следующие конкретные задачи:

1) создать на основании исследования физических особенностей речеобразования обобщенную модель алгоритма сравнения речевых образов, заданных последовательностью наборов речевых признаков;

2) разработать научно обоснованную методику проведения экспериментов по определению достоверной надежности распознавания устройств ввода раздельно и слитно произносимых слов;

3) синтезировать на основании результатов экспериментальных исследований алгоритмы сравнения речевых образов для терминальных устройств раздельно и слитно произносимых ело?;

4) поставить и решить задачу оптимального выбора блоков мультиблочной вычислительной системы, выполняющей циклический о вычислительным процесс, с учетом использования конкретной элементной базы;

5) на основании исследований по пункту 4 синтезировать структуру блока сравнения образов слов для терминального устройства ввода речевых команд.

Диссертационная работа состоит из введения, пяти глав и заключения, в которых изложены положения, выдвигаемые для зашиты .

Заключение диссертация на тему "Оптимизация структуры и разработка блоков сравнения речевых образов в устройствах речевого ввода для ЭВМ"

Выводы к главе У

1. Решение оптимизационной задачи, шшимизиругощей объем оборудования при заданной нижней границе быстродействия, позволяет синтезировать блок-схему и временную диаграмму вычислительной системы определения меры сходства образов слов.

2. Выбранная структура вычислительной системы определения меры сходства образов слов позволяет реализовать данную систему в объеме десяти стандартных ТЭЗов с быстродействием 1385 не, что позволяет использовать ее в малогабаритном терминальном устройстве ввода речи в ЭШ.

- 138

ЗАКЛЮЧЕНИЕ

На основании результатов научной и исследовательской работы, изложенной в данной диссертации,можно сделать следующие выводы:

1. Создана обобщенная модель алгоритма сравнения речевых образов, заданных последовательностью наборов речевых признаков,учитывающая особенности речеобразования и позволяющая ограничить 4>ы-бор вариантов алгоритма при создании конкретных усройств ввода речи.

2. Разработана научная методика проведения экспериментов, позволяющая получить достоверную надежность распознавания устройств ввода раздельно и слитно произносимых слов.

3. На основании результатов экспериментальных исследований синтезированы алгоритмы сравнения образов раздельно и слитно произносимых слов для их реализации в терминальных устройствах речевого ввода.

4. Поставлена и решена задача оптимального выбора блоков мультиблочной вычислительной системы,выполняющей циклический вычислительный процесс.Решение данной задачи позволяет выбрать набор блоков,минимизирующий материальные затраты на создание системы при соблюдении ограничения на время выполнения цикла вычислений с учетом использования конкретной элементной базы.

5. С использованием решения описанной оптимизационной задачи выбрана структура и пооведена разработка блока определения меры сходства речевых образов.Данный блок,выполненный на микросхемах серий 155, 556, 565, 589 по своим параметрам (объем оборудования, быстродействие и надежность распознавания) пригоден для использования в малогабаритном терминальном устройстве ввода раздельно произносимых слов и вошел в состав серийно выпускаемого устройся ва ИКАР.

Библиография Мочалов, Владимир Андреевич, диссертация по теме Элементы и устройства вычислительной техники и систем управления

1. Аврин С.Б., Кщенко З.И., Копейкин А.Б., Малыгина Т.М., Мочалов В.А* К вопросу организации взаимодействия устройства речевого ввода устных команд с алфавитно-цифровым дисплейным терминалом. Вопросы радиоэлектроники, сер. ЭВТ, 1982, В 2, с. 9-15.

2. Аврин С.Б., Копейкин А.Б., Москаленко Г.В., Мочалов В.А., Петров Г.М. Устройство для распознавания слитно произнесенных слов,-авторское свидетельство на изобретение932299.

3. Арапов A.B., Деев В.В., Чудина А.Ф. Система распознавания речевых образов на мини-ЭШ. Автоматическое распознавание слуховых образов. Тезисы Всесоюзной школы-семинара (APC0-II), Ереван, 1980.

4. Белман Р. Динамическое программирование. И .JI., i960.

5. Бобышев Д.Н., Нисевич Е.В. Сетевые методы в управлении. -Москва, Московский рабочий, 1973.

6. Васильев A.B., Ракшеев С.С., Кютина Т.З., Савельев В.П. Система речевого ввода информации в ЭВМ М-222. В кн.: Речевое общение в автоматизированных системах. - М.: Наука; 1971, с. 25-33.

7. Вентцель. Теория вероятностей. -М.: Наука, 1969.

8. Винцюк Т.К. Поэлементное распознавание непрерывной речи, составленной из слов заданного словаря. Кибернетика, 1971, & 2, с. 133-143.

9. Винцюк Т.К. Распознавание устной речи методами динамического программирования. Кибернетика, .'з I, 1968, с. 81-88.

10. Винцюк Т.К., Гаврилюк О.Н., Куляс А.И., Людовик Е.К., Шинкаж А.Г. Экспериментальная система пофонемного распознавания речи. Управляющие системы и машины. 1982,гё 5 (61), с. 17-22.

11. Винцюк Т.К., Гаврилюк О.Н., Куляс А.И., Шинкаж А.Г. Система реального времени для распознавания слов и слитной речи. Материалы Всесоюзной школы-семинара (APC0-I0), Тбилиси, "Мецниереба", 1978.

12. Винцюк Т.К., Куляс А.И., Людовик Е.К.Шинкаж А.Г. Кооперативная система распознавания речи. Тезисы Всесоюзной школы-семинара (APC0-II), Ереван, 1980.

13. Высоцкий Г.Я., Рудный Б.Н., Трунин-Донской В.Н. Исследование динамики шумовой составляющей согласных и автоматическое опознавание некоторых шумных звуков. В кн.: Речевое управление. - М.: ВЦ АН СССР, 1972, с. 57-93.

14. Высоцкий Г.Я., Рудный Б.Н., Трунин-Донской В.Н. Об одном подходе к распознаванию слитной речи. В кн.: Анализ и распознавание речевых сигналов на ЭШ. - М.: АЦ АН СССР, 1975, с. 133-166.

15. Высоцкий Г.Я., Рудный Б.Н., Трунин-Донской В.Н., Цемель Г.И. Опыт речевого управления вычислительной машиной. Изв. АН СССР. Техническая кибернетика, 1970, Д 2, с. 134.

16. Галунов В.И., Орлова М.И., Ягунова H.H. Использование метода динамического программирования при распознавании речевых образов. Техника средств связи, серия Техника проводной связи, выпуск 3 (2), 1981, с. 114.

17. Гольштейн Е.Г., Юдин Д.Б. Новые направления в линейном программировании. -М.: Советское радио, 1936.

18. Демнов М.Г. Экспериментальные исследования системы распознавания речи. Тезисы Всесоюзной школы-семинара (АРСО-П), Ереван, 1980.

19. Додонов А.Г., Пелехов С.П., Шишмарев В.М. Организация вычислений в параллельно-последовательных структурах. -Электронное моделирование, март-апрель 1982, с. 19-27, Киев, "Наукова думка" .

20. Доценко Г .С., Занченко Ю .А., Наразанишвили М .М., Сердюков В.Д. Эксперименты по распознаванию ограниченного набора слов в шумах. Тезисы Всесоюзной школы-семинара (АРСО-П), Ереван, 1980.

21. Елинек. Распознавание непрерывной речи статистическими методами. ТИИЭР, том 64, 4, 1976. Перевод с англ. М., "Мир".

22. Заборский П.Л., Нусенбаум Д.М. Практика сетевого планирования научно-исследовательских и опытно-конструкторских работ. М.: Экономика, 1967.

23. Загоруйко Н.Г. Методы распознавания и их применение. М.: "Советское радио", 1972.

24. Зыков Е.А., Каймин В.А., Мочалов В.А. О разрешимости задач обучения в диалоговых системах человек-машина. Межвузовский сборник статей "Автоматическое регулирование и' управление", выпуск десятый, М., 1977, с. 87-92.

25. Като Я. Система распознавания связной речи /Ас. Центральный научно-исследовательский институт //ЕС, Рекламный материал выставки ширмы Д^ЕС "Оборудование связи, ЭВМ и электроника", Москва, 1978.

26. Кншшер A.B., Махонин В.А., Сорокин В.Н., Цемель Г.И. Принципы построения систем ввода речевой информации с ЭШ. "Вопросы радиоэлектроники", сер. ЭВТ, вып. 4, 1974.

27. Кринов С.Н., Савельев В.П., Цемель Г.И. Распознавание слитно произносимых чисел. В кн.: Проблемы построения систем понимания речи. М.: Наука, 1980.

28. Маркел Дн.Д., Грей А.Х. Линейное предсказание речи., М.: Связь, 1980.

29. Мартин. Практическое применение речевого ввода в вычислительные машины. ТИИЭР, т. 64, .э 4, 1976, с. 80-95.

30. Методы автоматического распознавания речи. Под ред. У.Ли. -М.: Мир, 1983.

31. Мочалов В.А. Методические вопросы определения надежности распознавания устройств речевого ввода.-Вопросы радиоэлектроники, сер. ЭВТ, I9SE, J5 4, с. 44-50.

32. Мочалов В.А. Способ оптимальной синхронизации специализированных вычислительных систем, выполняющих циклический вычислительный процесс .-Вопросы радиоэлектроники, сер.ЭВТ, 1983, JS 2,

33. Нейман Дк., Моргенштерн 0. Теория игр и экономическое поведение. -М.: Наутса, 1970.

34. Новая ЭШ аирлы "ЭМИ трэшхоулд", распознающая речевые команды. БИНТИ ТАСС, 1976, В 23 (1747), с. 33, 34.

35. Паташос Ю.В. Распознавание фраз, составленных из изолированно произнесенных команд. Тезисы Всесоюзной школы-семинара (APC0-II), Ереван, 1980.

36. Петров Г.М., Аврин С.Б., Копейкин А.Б. Некоторые методы организации структуры и вычислительных процессов терминала речевого ввода. "Вопросы радиоэлектроники", сер.ЭВТ, вып. 2, 1979, с. 3-12.

37. Петров Г ЛЛ., Аврин С .Б., Копейкин А .Б., Малыгина Т .М., Москаленко Г.В. Система ввода речевых сигналов для ЭШ. -Тезисы Всесоюзной школы-семинара (APC0-II), Ереван, 1980.

38. Пономарев Е.П., Прохоров Ю.Н. Адаптивная линейная фильтрация при первичной обработке речевых сигналов. Автоматическое распознавание слуховых образов (APC0-I0). Тбилиси: Мецниереба, 1978.

39. Прохоров Ю.Н. Рекурентное оценивание параметров речевых сигналов. В кн.: Распознавание образов: Теория и приложение . М.: Наука, 1977.

40. Пятков В.С. Устройство выделения речевых признаков на интегральных схемах. В кн.: Дискретная обработка речевых сигналов. - М.: ВЦ АН СССР, 1978.

41. Пятков B.C., Трунин-Донской В.Н. Обнаружение слов в потоке слитной речи. В кг.: Проблемы построения систем понимания речи. - М.: Наука, 1980.

42. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. М.: Мир, 1978.

43. Рашшвили Г.С. Автоматическое опознавание говорящего по голосу. М.: Мир, 1981.

44. Рамишвили Г.С., Сердюков Б.Д., Чикопдзе Г.Б. Система распознавания фраз-команд с предварительной Верификацией оператора. Тезисы Всесоюзной школы-семинара (АРСО-П), Ереван, 1980.

45. Розенберг А. Автоматическая верификация диктора: Обзор. -ТИИЭР, 1976, т. 64, й 4.

46. Роджерс Д. Математические основы машинной графики. М.: Машиностроение, 1980.

47. Рэдди Р. Машинное распознавание речи. ТИИЭР, т. 64, ^ 4, 1976, с. 95-130.49. "Система распознавания длинных текстовых сообщений", Электроника, 1982, ^ 17, с.Ю-П.

48. Система распознавания связной речи фирмы /\/ЕС. Зарубежная радиоэлектроника, 1980, № 4.

49. Слуцкер Г.С., Беляев В.К., Кукусикин В.П. Реализация метода динамического программирования в устройстве распознавания речевых команд. Тезисы Всесоюзной школы-семинара (АРСО-П), Ереван, 1980.

50. Терминал для речевого управления компьютерами. Электроника, & 21, 1978, том 51, с. 104-105.

51. Улучшенный блок распознавания речи. Электроника, 1981,3, с. 116-117.

52. Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968.

53. Фролов Г.Д. Эксперименты по распознаванию речевых образов. Программирование, 1977, $ 2.

54. Цемель Г.И. Опознавание речевых сигналов. М.: Наука; 1971.

55. Шефер Р.В., Рабинер Л.Р. Цифровое представление речевых сигналов. ТИИЭР, 1975, т. 63, № 4.

56. Якубовский С.В. Аналоговые и цифровые интегральные схемы.- М.: Советское радио, 1979.$9. Brown М.К., Rabiner L.R. Dynamic time warping for isolated word recognition based on ordered graph searching techniques. ICASSP, 1982, vol. 2, pp.871 - 874.

57. Beek B.,Nembery E.P., Hodge D.C. An Assesement of the Technology of Automatic Speech Recognition for Military Application. IEEE, v. ASSP - 25, N 4, 1977, pp. 510 - 522.

58. Centidram to Introduce Voice Recognition System. Reriphe-rals / Data Communications, 5 / VI, 1978, pp. 98»

59. Chen I. Vocabulary Selection for High Performance Speech Recognition. ICASSP, 1983, vol. I, pp. 757 - 760.

60. Cook C.C. Word Verification in a Speech Understanding System.- IEEE, 1976, p. 555.

61. Elenius K., Blombery M. Effects of Emphasizing Transitinal or Stationary Parts of the Speech Signal in a Descrete Utterance Recognition System. IEEE, 1982, May 5-5» vol.1, pp. 555 - 558.

62. Furui S., Sigamura N., Shikano K. Isolated Word Recognition Using Phoneme- like Templates. ICASSP, 1985, vol.2,pp.725-726.

63. Itakura F. Minimum Prediction Residual Principle Applied to Speech Recognition.-IEEE, 1975, Feb., ASSP-25, pp. 67 72.

64. Goodman G., Scelsa D., Beek B. An Application of Connected Speech to the Cartography Task. IEEE, 1977, pp. 811 - 814.

65. Hages Roth F., Mostow D. Syntax and Semantics in a Distributed Speech Understanding System. 1976 IEEE International Conference on ASSPfp.42I.

66. Hages Roth P. Lesser JV. Focus of Attention in a Distri-buted-logic Speech Understanding System -1976 IEEE Intern, Conf.on ASSP,p.416.

67. Lesser V.R. ,Erman L.D. A Retrospective View of the Hear-say-II Architecture. -5th Intern.Joiht Conf.on Artificial Intelligence,1977,p»790i

68. Lummis R.C. Real-time Technique for Speaker Verification by Computer. -JASA,I97I,v.JO, N 1,106 /A/.

69. Neroth Ch.C. A Graphical Programming System with Speech Input. -Comput.and Graph.,1975,v.I, N 2-3,pp.227-231.77# New Voice Data-Entry System Compatible with IBM CPU's. -Computer,1978,v.23, N II,p.96.

70. Walker D.E. et al. Procedures for Integrating Knowledge in a Speech Understanding System. -5th Intern.Joint Conf. on Artificial Intelligence,1977,p.56.

71. Viterbi A. Error Bounds for Convolutional Codes and an Asymptotically Optimum Decoding Algorithm. -IEEE Trans. I967,v.IT-I3, N4.

72. Voice Recognition. -Datamation,May I978,p.II5.

73. White G.,Neely R. Speech Recognition Experiments with Linear Prediction,Bandpass Filtering,and Dynamic Programming. -IEEE Transaction on Acoustics,Speech,and Signal Processing,v.ASSP,p.784.

74. Wolfe 1.1.,Wood W.A. The HWIM Speech Understanding System. -1977 IEEE Intern.Conf.on ASSP,p.784^

75. Woods W, ,Bates M.,Brown G.,ELovstad I. ,Nash-Webber B. Uses of Hisher Knowledge in a Speech Understanding system: A Progress Report. -1976 IEEE Int ern. C onf .on ASSP, p.438.