автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Система поэлементарного (фонемного) распознавания речевых сигналов

кандидата физико-математических наук
Петеляк, Владимир Евстахиевич
город
Москва
год
1995
специальность ВАК РФ
05.13.17
Автореферат по информатике, вычислительной технике и управлению на тему «Система поэлементарного (фонемного) распознавания речевых сигналов»

Автореферат диссертации по теме "Система поэлементарного (фонемного) распознавания речевых сигналов"

V

од

/ 3 у,'.! ь*^

На правах рукописи

ПЕТЕЛЯК Владимир Евстахпевич

СИСТЕМА ПОЭЛЕМЕНТНОГО (ФОНЕМНОГО) РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ

Специальность 05.13.17 — теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

Москва 1995

Работа выполнена в Московском нодагогичёском государственном университете им. В. И. Ленина на кафедре информатики и дискретной математики.

Научные руководители:

доктор технических паук, профессор ФРОЛОВ Г. Д.,

кандидат физико-математических лаук, доцент ШМЕЛЕВ А. А.

Официальные оппоненты:

доктор физико-математических наук, профессор СОТНИКОВ А. Н.,

кандидат физико-математических наук С. Н. ПОЛЕЩУ'К

Ведущая организация: Институт системного программирования РАН. .

Защита состоится «../?...»..................1995 г. в ч.......мпн.

па заседании Диссертационного Совтеа К 053.01.016 щ Московском педагогическом государственном университете имени В. И. Ленина по адресу: 107140, Москва, Краснопрудная улица, д. 14, математический факультет МПГУ им. В. И. Ленина, ауд. 301.

С диссертацией можно ознакомиться в библиотеке МПГУ им. В. И. Ленина по адресу: 119435, Москва, Малая Пироговская ул., д. 1.

Автореферат разослан «,

Ж....».........К........... 1995 г.

Ученый Диссертационного Совета

'КУЗНЕЦОВ Э. И,

ОБЩАЯ ХЛРАКТЕРЙОТЖА РАБОТЫ

Актуальность теш. Современный этап развития человеческого общества характеризуется интенсификацией информационных процессов. Непрерывно увеличивается объем передаваемой и накапливаемой информации, которая ныне удваивается каждые 20 месяцев против 5е лет в сер. XVII в. В результате объем научной, экономической, статистической, военной и прочей информации столь велик, что возникла существенная диспропорция между скоростью получения информации и возможностью ее обработки. Это приьело к необходимости самого широкого использования ЭВМ для оперативной обработки и анализа информации. Однако сдерживающим фактором являются существующие способы взаимодействия компьютера и человека.

Эксперименты, в которых исследовались различные способы коммуникаций, показали, что наиболее быстрым средством передачи информации человеком является речь и, кроме того, такой способ передачи информации, по субъективной опенке испытуемых, сопровождается значительным снижением психофизиологической напряженности.

Речевой диалог имеет следующие преимущества:

- общение ведется на естественном языке;

- общение с ЭВМ по речевому каналу не ограничивает мобильность оператора ;

- речевой диалог может вестись при любой освещенности и температуре, при механической вибрации и других неблагоприятных условиях;

- речевой канал является самым быстродействующим;

- возможность защиты от несанкционированного доступа и идентификации личности оператора с помощью распознавания голоса;

- в систему "человек-компьютер" могут быть включены люди с физическими недостатками;

- легко осуществляется сопряжение с телефонными каналами и радиоканалами.

Однако при Есех своих достоинствах речевое общение имеет и недостатки, к которым откосятся подверженность шумовым помехам, трудность выделения случайных включения из больших объ-

емов информации, невозможность неограниченного ввода данных в ЭВМ в течении длительного времени.

К настоящему времени разработано множество систем автоматического распознавания, в основном, это системы распознавания изолированных слов из заданного ограниченного словаря для одного или нескольких дикторов. Однако проблема распознавания естественной речи человека без всяких ограничений еще далека от решения.

Цель работы. Целью работы является создание системы поэлементного (фонемного) распознавания речевых сигналов русского языка на базе ПЭВМ.

Для достижения поставленной цели в диссертации решаются следующие задачи:

- анализ современного состояния методов и систем автоматического распознавания речи, их характеристик-,

- исследование свойств полного и клишированного речевого сигнала;

- уточнение модели системы поэлементного распознавания изолированных СЛОВ;

- разработка алгоритма выделения периодов основного тона речевого сигнала;

- разработка методов распознавания некоторых групп фонем;

- разработка алгоритма автоматического транскрибирования словаря предметной, области;

- практическая реализация разработанных алгоритмов на компьютере;

- экспериментальная проверка распознавания слитной речи.

Методы исследований. Состоят в изучении свойств полного

и клишированного речевого сигнала с использованием средств вычислительной техники, методов математической статистики, теории распознавания речи и аудивизуальных методов исследований.

Научная новизна. Новый подход к распознаванию речевых сигналов на основе учета параметров как полного, так и клишированного речевого сигнала.Разработан метод автоматического выделения периодов основного тона полного речевого сигнала. Предложены алгоритмы распознавания "гласных" и "шипящих" фонем. Разработан метод автоматического транскрибирования лексических единиц из словаря предметной области, учитывающий особенности системы распознавания. Проведен эксперимент по рас-

познаванию сжшои речи.

Практическая ценность. Разработанная экспериментальная система распознавания изолированных слов мужской русской речи может служить основой для создания систем управления и автоматизации различного типа. Разработанные алгоритмы выделения периодов ОТ, распознавания "гласных" к "шипящих" могут использоваться при исследовании речевого сигнала.

Реализация результатов. Диссертационная работа является частью работ, проводившихся в соответствии с планом НИР сов-кссшс z ИЛИ РАН к в МПГУ имени В.И.Ленина "Распознавание и синтез речевых образов", номер государственной регистрации 0187.0005141.

Программное обеспечение реализовано на языках програмиро-взния Си и Ассемблер для персональных компьютеров типа IBM PC.

Апробация работы. Основные результаты докладывались и обсуждались иа 2 международном советско-германском семинаре по анализу изображении и распознаванию образов с г. С-Петзрбург, 1991), на международном российско-американском семинаре по новым информационным технологиям (г. Москва, 1994), на научных семинарах "Распознавание и синтез образов" в ИЛИ РАН, на методическом семинаре "Использование НИТ в учебном процессе" кафедры информатики и дискретной математики МПГУ им.В.И.Ленина (руководитель Матросов В.Д.)

Структура работы. Диссертация состоит из введения, трех глав, заключения, списка литературы, содержащего IB3 источника и приложения. Всего 187 стра*пт: р.т pwnvntmw, а т?л.тепц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении определяется значение речевого интерфейса человека и технических систем. Сформулированы условия, обеспечивающие эфектавность человеко-машинного речевого диалога как по надежности работы алгоритмов технической системы, так и по эр-гономичности условна работы человека. Определяется цель работы .

В первой главе рассматриваются основные метода анализа, распознавании и временного выравнивания речевых сигналов, проанализированы их достоинства и недостатки. Приводится сравни-

тельный обзор основных'зарубежных и отечественных систем анализа и распознавания речевых сигналов, основанных на указанных выше методах.

Во второй главе уточняется структурная модель системы распознавания речевых сигналов.

речевой сигнал

распознанное слово

Рассмотрены блоки модели:

1. Блок аналогово-цифрового преобразования (АЦП). Речевой сигнал представляет собой результирующую звуковую

волну в диапазоне 100 - 6000 Гц. Для его исследования цифровыми методами производится преобразована аналогового речевого сигнала в цифровое представление посредством дискретизации сигнала с частота дискретизации ^ = которая, согласно требованиям теоремы дискретизации {отсчетов> должна быть вдвое больше максимальной частоты речевого сигнала т.е.

Гс1 ' ^ тах'

Если это условие не выполняется, то спекгры дискретизации взаимно перекрываются и адекватно восстановить исходный аналоговый сигнал невозможно.

-> зт.

Затем производится измерение (с определенной точностью) мгновенных значений выборок сигнала - квантование (дискретизация по величине) по 28 = 256 уровням амплитуда сигнала

5Т -> Зп,

2. Блок предварительной обработки сигналов. На этом этапе производится:

- сглаживание речевого сигнала

необходимое для подавления высокочастотной составляющей речевого сигнала и выделения к периодов основного тона вт

брп -> бтк.

Периоды основного тона (ОТ) выбраны в качестве элементарной акустической единицы, которая содержит информацию о представляемом звуке (для гласных и сонорных).

- вычисление параметров

бтк -> р(5тк)3.

На выделенных периодах ОТ вычисляются параметры речевого сигнала - р: 1-ый и 3-ой максимумы амплитуды, число клишированных элементов, число пиков, отношение максимумов, гладкость, распределение клишированных элементов и некоторые другие, необходимые для дальнейшего сегментирования и распознавания.

3. Блок сегментирования и обработки сегментов.

р{бт^)3,кег (3П,БТк) -—-> Кт.

На основе параметров речевого сигнала Р(зтк)3, и кн - алгоритмов сегментирования, выделяются однородные участки речевого сигнала - сегменты к. Однородность определяется к?..

4. Блок распознавания фонем внутри широких классов фонем.

к -> г»

Каждый сегмент распознается внутри промаркированного класса на основе алгоритмов фонемного распознавания и КБ*1 - статистик соответствующих фонем, набранных на этапе обучения.

5. Блок идентификации слова из словаря.

- ор

р®->

Полученная классифицируемая фонемная цепочка рт сопоставляется с фонемной цепочкой каждой лексической единицу и из словаря методом динамического программирования пр. При этом одновременно происходит временное выравнивание цепочек.

6. Блок автоматического транскрибирования словаря.

Автоматическое транскрибирование словаря производится на предварительном этапе. Автоматическое транскрибирование производится гю фонологическим правилам те. Правила отражают коар-тикуляцию звуков речи и качество работы алгоритмов сегментирования и маркировки сегментов.

Результатом работы системы распознавания, соответствующая описанной выше модели, будет сопоставление введенного аналогового речевого сигнала s1 со словом из словаря предметной области W(DV>. Возможен также отказ от распознавания, в случае, если такого слова в словаре нет, т.е. минимальный штраф на распознавание больше некоторого, динамически вычисляемого, порога dmln.

В качестве фонологической единицы распознавания из рассмотренных фонологических элементов - фонемы, аллофона, дифо-на, слога, слова обосновывается выбор фонемы. Выбор произведен по таким параметрам как число вариантов, степень отражения лексической системы, трудность выделения точных границ, возможность применения существующих фонологических правил.

Так как целью данной системы является распознавание произнесенного слова, а не определение точного фонологического состава, а также из-за технических характеристик аппаратного обеспечения, фонемы, используемые в системе, не вполне соответствуют фонемам с точки зрения классической фонетики. В данном исследовании фонемы понимаются как совокупность измеренных параметров .

Из-за отсутствия единого взгляда на количество фонем в русском языке среди лингвистов (различают от 5 до 8 гласных фонем и от 32 до 37 согласных фонем) и особенностей аппаратного обеспечения были проведены дополнительные исследования числовых и графических моделей фонем, в результате которых выделено 27 фонем: 6 гласных - {"а", "о", "у", "и", "э", "ы"> и 21 согласных - {"м", "н","с", "ш", "з", "ж", "щ", "ф", "X", "ц", "ч", "п", "т", "к", "б", "д", "г", "в", "л", "а", "р" >. Число согласных фонем уменьшено за счет невыделения отдельно мягких фонем: частично мягкие фонемы объединены с соответствующими твердыми, частично мягкость фонем учитывается на этапе транскрибирования словаря предметной области соответствующими фонологическими правилами.

Для целей предварительной сегментации речевого сигнала выделенные фонемы разбиты на 7 фонетических классов:

1. Vow (гласные фонемы) = {"а", "о", "э", "ы", "и", "у">;

2. son (сонорные фонемы) = {"м", "н", "л"};

3. Sib (шипящие фонемы) = {"с", "ш", "з"ж", "щ", "ф",

4. upi (глухие варывные фонемы) - { "п", "т", "к">;

5. Vpi (звонкие взрьшные фонемы) = {"б", "д", "г"};

6. Nst (нестационарные фонемы) = {"в", "л", "й"з;

7. и (фонема "р") = {"р">.

Полученная классификация цроизведена по таким характеристикам речевого сигнала, как наличие паузы, характер паузы, количества пересечений нуля, периодичность, относительная амплитуда на периодах ОТ, характер высокочастотной составляющей сигнала и сглаженного сигнала. Вероятность неправильного распознавания (замены) фонем разных классов значительно меньше, чем между фонемами внутри одного класса.

Употребляемые в дальнейшем названия классов фонем используются только в рамках данной классификации для обозначения выделенных групп фонем и могут не соответствовать точным определениям с позиции классического языкознания.

Как установлено, частотная встречаемость фонем используемых словарей предметных областей несколько отличается от средней частотной встречаемости фонем русского языка, поэтому при сегментировании и распознавании учитываются частотная встречаемость и сочетаемость фонем экспериментальной классификации, вычисленные на конкретном словаре предметной области.

Периода основного тона (01) речевого сигнала выбраны в качестве элементарной акустической единицы, которая содержит информацию о представляемом звуке. Приведен разработанный автором оригинальный алгоритм выделения периодов ОТ по минимумам амплитуд сглаженного сигнала эр. Для этого речевой сигнал 5 предварительна сглаживается по ь-элементам

Сглаживание производиться посредством цифровой фильтрации с помощью КИХ-фильтра:

Ь-1

b

,п

•> SF .

Из полученного массива sf формируется массив индексов минимумов амплитуд сглаженного сигнала SFI™ ( Signal Filtered of

- 8 -

Index ) - SFI={sfi1,...,sfim}={sfli>®_1 :

Vi: 1 < i < m: ef^^ > в£в^< afeflj+1 -

Во время работы алгоритма из массива sfi формируется массив индексов минимумов амплитуд сглаженного сигнала, образующих периоды тона SFIP ( Signal Filtered of Index of Periods ) - SFIP = {sfiplt . .. ,sfipr> ={sfipi}^_1; {sfip^sfip^} - i-ЫЙ

период тона.

На основании проведенных исследований установлено, что средняя частота основного тона дяя дикторов-мужчин равна Fg = 155 Гц со о- = 31 Гц, что согласуется в основном с результатами, полученными другими исследователями. Для увеличения скорости вычислений в граничных условиях алгоритма используются не частотные значения, а значения в виде числа отсчетов.

Схема работы основной части алгоритма:

Сначала каждый элемент efik е sfi проверяется в пределах попадания в период ОТ от предыдущего sfipi_1 е sfip: sfipi_1+150 < efik < sfiPi_1+375 .

В случае выполнения этого условия и некоторых других, которые будут сообщены ниже, sfipi=sfik.

Поиск осуществляется следующим образом: если

8f < 100 и sf < 100 ,

pi-l pi-2 то делается попытка выделить следующий период по предыдущему

шриоду, т.е.среда элементов sfi найти такой sfik, который

удовлетворяет следующим условиям:

1. 8fipi_1-8fipi_2-30<sfik-sfip1_1<sfipi_1-sfipi_2+30 ;

2. ef - h < Bf .. < sf + h ,

sfip sfi sfip

Если такой элемент существует, то sfipi=sfik. В противном случае поиск sfik повторяется, но теперь при другом условии:

sfiPi_1+min < sfik < sfipi_1+hax ;

Если есть один или несколько элементов, удовлетворяющих данному условию то sfipi=sfik , так, что sfsfl является минимальным элементом, т. е.

V д : sfip^j+MIN < i < sfipi_1+MAX :Bfsfl <sfj .

Иначе : з£1р±=8£ак , ТЭК, ЧТО (sfij^-sfip^j+MAX) А (V t: t<k : sf it<sfip^+MAX).

При таком подходе иногда происходит удвоение периодов, но удается избежать неправильного их выделения в смысле определения периодичности сигнала.

р

В заключении из массива sfip={ sfiPj^ >1=1 формируется массив ST так, что

Vi: 1 =S i < р: st.= sfip1+1-sfipi.

На основе выделенных периодов ОТ производится сегментация речевого сигнала.

В третьей главе приводятся алгоритмы распознавания фонем классов Vow и Sib. По результатам проведенных исследований клиппированного и полного речевого сигнала выделены следующие параметры, пригодные для распознавания гласных фонем:

- отношения расстояния от начала периода ОТ до 1-го максимума амплитуда и расстояния мевду 1-ми 2-м максимумами амплитуда к длине периода ОТ (lf^ lp2);

- отношение амплитуда 2-го максимума периода к амплитуде 1-го максимума периода ОТ (ra);

- количество пиков на периоде ОТ (ыр);

Указанные параметры отражают форматные характеристики фонем. Сравнение значений параметров на последовательных периодах позволяет отследить динамику формант. Однако форманты фонем не являются строго дифференциальным признаком, так как полосы формантных частот имеют значительные области перекрытия. Учет дополнительных знаний об окружении фонемы в слове, в частности коартикуляционного влияния предыдущей фонемы, позволяет использовать предложенные параметры для распознавания гласных фонем. Для каждой гласной фонемы vowt создано 27 эталонов sv® (1 i з i 27).

С учетом вышеизложенного предлагается следующий алгоритм распознавания гласных фонем:

1. Пусть к1 - 1-ый классифицируемый сегмент. Проводится усреднение длины сегмента, которое не искажает качество звуча' ния и проводится для нормализации длины к±.

2. Начальный и конечный участки фонем имеют неустоявшиеся характеристики из-за перестройки речевого аппарата для произнесения следующей фонемы, поэтому из к1 выделяется 10 средних периодов ОТ 1100 - 1700 отсчетов), имеющих стабильные характеристики

3. На каждом периоде ОТ вычисляются параметры ьр/ , к к к

ьр2 , ид *>, ыр Затем полученные значения усредняются

и Ö m k. 0.1-Е LP, , _v m k, u>2= 0.1-E LP2 ,

d=n J=n

RÄk= m k. 0.1-E RA —v m ki NP - 0.1-E NP d.

4=n

Для эталонов гласных фонем бу^ шаги 1-3 производятся на предварительном этапе для компактного хранения эталонов и сок_БУ® __БУ^ _БУ®

ращения времени работы алгоритма (ы^ , 1,р2 , на , ыр ).

4. Для классифицируемого сегмента кх и каждого эталона эу® вычисляется оценка ЕУи.з) по формуле:

1 i s i 27, Ii ts6. Взшение об отнесении классифицируемого сегмента к± к конкретной фонеме vowt принимается по минимальной оценке

EV(t,s).

LabelF. = Vow, (t:EV. = min EV(t.s)). 1 * * t,s

Фонемы класса sib были разбиты на следующие группы: 31Ь1={"с'\"Ш","Щ">, Sibg-i"Ж","3">, Sibg={"ц","ч"> и 31Ь4={"ф","х"}.

Экспериментально определено, что структура фонем из груш

3ib1 и ыь2 остается практически неизменной независимо от месторасположения фонемы в слове. Фонемы из группы sibg теряют присущую им структуру при нахождении на первом месте в слове. Структура фонем из группы sib^ различна в зависимости от месторасположения в слове. Установлено, что шипящие "ж" и "з" состоят из двух фаз: начальной фазы, имеющей периодичность, которая при озвучивании воспринимается как "ж" или "з" и фазы, не имеющей периодичность, озвучиваемой как "ш" или "с" соответственно. Составные фонемы "ц" и "ч" имеют следующую структуру: ' начальная фаза, при сегментировании определяемая как участок, соответствующий взрывной фонеме "т", и фаза, озвучиваемая как "с" или "ш" соответственно.

Распознавание сегментов к^ проходит в несколько этапов:

1) используя такие параметры, как наличие начального периодического участка, паузы перед сегментом и пороговые значения устойчивости структуры, сегмент относится к одной из групп Slb^Sibg), Sib2 ИЛИ Sib4;

2) определяя корреляцию статистических моделей классифицируемого сегмента и эталонов фонем, осуществляется выбор фонемы внутри групп Sibx, sib2, sib3, sib4 класса фонем Sib по наибольшему коэффициенту корреляции с эталоном.

Для вычисления коэффициента корреляции создаются статистические модели классифицируемого сегмента и эталонов фонем. Сегмент , маркированный sib, представляется в вице массива nc - спс^ ... ,ncn> = - ^ ~ расстояние мевду пере-

сечениями через нуль (число отсчетов).

Этому массиву nc поставим в соответствие статистический массив ES^= {es^,...»esm> = еа®, где

Svm. 1

es, = -,

Sum

n

Sum = E nc,, Sum, - сумма всех элементов NC, для которых

3=1 3 1

ncj=i (1 S i < m).

Статистические массивы es создаются как дая классифицируемого сегмента - ESk, так и для эталонов фонем класса Sib -Sib,

es т причем для эталонов статистические массивы создаются на

k Sib

этапе обучения. Между статистическими массивами es и es находится коэффициент корреляции по формуле:

Е - Ы-а-Ъ

5=1

а,Ъ~

[ Еа2-ша2] [ Е^ . 1 ¿=1 •> 1 ¿ = 1

.2 г2 Ь. - т-Ь

к - -где а - это еб, ъ - еб , а, ь - средние значения соответствующих массивов, т - размерность статистических массивов, 31Ь1 - 1-я фонема класса биэ.

Классифицируемый сегмент идентифицируется с фонемой, имеющей наибольший коэффициент корреляции.

Разработанные алгоритмы имеют качество распознавания 95-98%.

После этапа распознавания фонем внутри широких классов, имеем распознанную фонемную цепочку. Однако вариативность уст-ног речи человека очень велика. Произнесение слова зависит от очень многих факторов: индивидуальных особенностей строения голосовых связок, состояния артикуляционного аппарата при ре-чеобразовании, теша речи, шла, физиологического состояния, от уровня окружающего шума. Поэтому распознанная фонемная цепочка может содержать неправильно разгаданные фонемы, лишние вставленные фонемы или могут бьггь пропущеяны нужные фонемы. Кроме учета деформаций темпа речи необходимо определить критерий близости классифицируемой фонемной цепочки и фонемной цепочки лексической единицы из словаря.

Для решения этих задач использован один из алгоритмов метода динамического программирования. В качестве метрики позволяющей определить различия классифицируемой и эталонной фонемной цепочек используются матриш переходов (для начальных, средних и конечных фонем), составленные экспериментальным путем. В качестве элементов матриц взяты штрафы, налагаемые за неправильное распознавание. Классифицируемая фонемная цепочка идентифицируется с той транскрипцией, у которой наименьший штраф, и со словом, соответствующим данной транскрипции.

В случае, если минимальный штраф, наложенный на классифицируемую фонетическую цепочку превысит некоторый минимальный уровень а 1п. то происходит отказ от распознавания и считает-

ется, что такого слова в словаре нет. а . зависит от числа

^ тш

выделенных сегментов в фонемной цепочке и вычисляется по форму.®:

где п - число выделенных сегментов.

Словарь предметной области организован в виде

"слово" "транскрипция" На этапе исследований были выработаны правила фонетического преобразования, учитывающие правила произнесения различных звуков речи в различных контекстах для данного языка, а также знания о качестве работы используемых алгоритмов сегментирования и распознавания, осуществляющих акустико-фонетичес-кий анализ речи.

Правила фонемного преобразования записаны на специально разработанном языке. Такой способ записи правил позволяет дополнять систему при получении новых знаний новыми правилами, или менять их при выборе другого уровня представления эталонов, так как язык записи правил преобразования не зависит от уровня используемых эталонов.

Все правила условно разбиты на 2 группы. В первую группу входят правила преобразования, учитывающие правила произнесения различных звуков, например оглушение звонких взрывных на конце слова:

<*б_*п>, <*г_#к>, <*д_*т>. Таких правил 14.

Во вторую группу входят правила, учитывающие знания о качестве работы алгоритмов сегментирования и распознавания, например замена "р"+согл на "р"+"э"+согл: <р(б,г,д,п,к,т,м,н)_рэ@>. Таких правил 38.

В результате работы программы автоматического транскрибирования слов из словаря предметной области мы получим транскрибированный словарь тУ^ : 2

В этой главе также приведены результаты эксперимента по распознаванию слитной речи, произносимой без пауз между словами (такое ограничение сводит на нет все удобства речевого ввода)

посредством разрайоташт системы распознавания. Как указыва-вается многими исследователями в слитной речи отсутствуют ярко выраженные границы между словами, поэтому задача распознавания слитной речи не может быть успешно решена только при помощи акустико-фонетических знаний. Необходимо привлечение лингвистических и прагматических знаний, а также введения грамматических к смысловых ограничений на последовательности слов во Фразе. В эксперименте на произносимую фразу накладывалось ограничение на количество слов во фразе: 2 слова и словарь предметной области был ограничен 125 словами.

На основе экспертных оценок каждой паре 1,5 слов заданного словаря предметной области присваивался коэффициент связности кэ^ из ограниченного набора значений: 0 - вполне вероятно, 1 - допустимо, 2 - маловероятно. В общем случае кз^кз^ 1., т.е. оценки зависят не только от сочетания слов, но и от порядка их следования. Коэффициент сбязкости - это учет знаний о сочетаемости слов в произносимой фразе. Так как Фраза состояла всего из 2-х слов, грамматика Фразы косвенным образом учитывалась через коэффициент связности и синтаксичес- . кого разбора фразы не производилось.

Исследование проводилось следующим образом. Произнесенная фраза подвергалась сегментированию и распознаванию фонетических сегментов как единое слово с помощью разработанной системы распознавания изолированных слов. Полученная классифицируемая фонемная цепочка г8 разбивается в цикле на две части: е-ъ и е'в~1*'. К гь относится начальный участок Рв (2««1б), к

остальная часть Р8 В результате получается п=в-з

пар классифицируемых фонемных цепочек }ь-2' ^ ка1Н^х

фонемных цепочек ^ и п пары вычисляется методом динамического программирования по 10 слов-кандидатов из словаря 10

б"7: Каждое слово-кандидат имеет штраф

накладываемый на ошибки распознавания. Затем для каждой пары кандидатов wp®_t вычисляется обобщенная оценка

фразы

ер1о = кл + + кзк515>

(к^к^кд - весовые коэффициенты, здесь ка=к2=1, к3=е>.85). Произнесенная фраза идентифицируется с парой 1,3 слов, шею-

щег минимальную обобщенную оценку ер^ .

В проведенном эксперименте точность распознавания фразы оказалась выше точности распознавания составляющих ее слов. Более высокая точность распознавания фразы достигнута введением коэффициента связности. Например для произнесенной фразы "три арбуза", слово "три" было 2-ым кандидатом слово "арбуза" - 5-ым кандидатом но обобщенная оценка фразы ер^ для этих слов оказалась минимальной.

Несмотря на достигнутые результаты, необходимо иметь ввиду ограничения эксперимента. Так фраза состояла из 2 слов. При увеличении числа слов во фразе необходимо будет учитывать грамматику фразы для ограничения перебора. С увеличением объема словаря предметной области будет резко возрастать время распознавания фразы. Необходимо использовать большую градацию коэффициента связности. Большое значение для распознавания слитной речи сыграло бы выявление эффективного способа нахождения вероятных границ слов в потоке речи.

По результатам исследования можно сделать вывод, что использование разработанной системы распознавания изолированных слов для распознавания слитной речи, с указанными выше ограничениями, возможно.

3 приложении приводятся таблица частоты встречаемости сочетаний фонем, пример словаря предметной области, листинг программы, реализующий алгоритм выделения периодов ОТ, предложение по речевому интерфейсу в проекте ИНГОКСЕТ.

Основные результаты:

- уточнена модель поэлементного распознавания речевого сигнала;

- разработан алгоритм выделения периодов основного тона речевого сигнала;

- разработаны алгоритмы распознавания фонем классов Vow и sib с использованием эталонов этих фонем;

- разработана система автоматического транскрибирования лексических единиц и составлены фонологические правила для данной системы, учитывающие качество работы алгоритмов сегментирования и распознавания;

- проведен эксперимент по распознаванию слитной речи в рамках данного подхода.

- разработана экспериментальная система автоматического фонемного распознавания изолированных слов из словаря 5000 слов.

- разработано предложение по использованию данной системы в блоке речевого диалога автоматизированной системы ин-информационног поддержки в рамках проекта ШТОКСЕТ

Основное содержание работа отражено в статьях:

1. Avetisyan Е.А. r Medvedev A.M., Petelyek V.M., Frolov G.D., Slime lev A.A. A PC—Based System о f Automatic Phoneme Recognition of Russian Speech. // PATTERN RECOGNITION AND IMAGE ANALYSIS Vol.2 No.1 1992 P. 32-50.

2. Петеляк B.E. Алгоритм выделения периодов основного тона речевого сигнала: Наука - вуз -школа. Тезисы докладов xxxi научной конференции/ под ред. З.М. Уметбаака. - Магнитогорск, МПГУ, 1993. - С. 263-264.

3. Петеляк В.Е., Шмелев A.A. Система речевого ввода инфор-формации в ЭВМ. - сб. научных трудов, Институт молодежи. - М. .1993. - С. 164-168.

4. Петеляк В.Е. Речевой запрос к базам данных-. Топология. Алгебра. Информатика. - М.: МПГУ, 1994. - С.26-28.