автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах

доктора технических наук
Харламов, Александр Александрович
город
Москва
год
2009
специальность ВАК РФ
05.13.01
Автореферат по информатике, вычислительной технике и управлению на тему «Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах»

Автореферат диссертации по теме "Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах"

На правах рукописи

Харламов Александр Александрович

НЕЙРОСЕТЕВОЙ ПОДХОД К ИНТЕГРИРОВАННОМУ ПРЕДСТАВЛЕНИЮ И ОБРАБОТКЕ ИНФОРМАЦИИ В ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМАХ

05.13.01 «Системный анализ, управление и обработка информации (промышленность)»

Автореферат диссертации на соискание ученой степени доктора технических наук

О 9 /-.Г.? Г/Л

Москва 2009

003466359

Работа выполнена в Институте высшей нервной деятельности и нейрофизиологии Российской академии наук.

Официальные оппоненты: доктор технических наук,

профессор Галушкин Александр Иванович

доктор технических наук Женило Валерий Романович доктор технических наук Лакаев Анатолий Семенович Ведущая организация:

ФГУП Научно-исследовательский институт микроэлектронной аппаратуры «Прогресс», г. Москва

Защита состоится 28 апреля 2009 года в 14-00 на заседании диссертационного совета Д 212.133.01 в Московском государственном институте электроники и математики по адресу: 109028, Москва, Большой Трехсвятительский пер., д. 3

С диссертацией можно ознакомиться в библиотеке института

Автореферат разослан « марта 2009г.

Ученый секретарь Диссертационного совета к.т.н., доцент

Общая характеристика работы

Актуальность темы диссертации. Теория и практика обработки больших информационных массивов имеет богатую традицию и большой арсенал успешных решений. Это относится как к области распознавания образов различной природы, так и к области извлечения ключевой информации. Не рассматривая вопросы сжатия информации для передачи по каналам связи, очертим проблему эффективного извлечения ключевой информации из источников различной природы, с целью ее компактпого представления пользователю.

Сначала сосредоточимся на вопросах извлечения ключевой информации из текстов. К наиболее актуальным направлениям извлечения знаний из текста на сегодняшний день относятся: аннотирование документов, выполнение индексирования, построение и динамический анализ семантической структуры текстов, выделение ключевых тем и информационных объектов: К ним же можно отнести поиск в текстах объектов - фактов (атрибутивный анализ) и их взаимосвязей, что позволяет исследовать связи объектов из документов, осуществлять навигацию к нужным объектам для получения и анализа документов о связях этих объектов.

Источники информации не всегда являются текстами. Это могут быть фотографии, видеозаписи, а также речевая информация. Растущий объем мультимедийной информации делает ее едва ли не самым важным объектом для обработки средствами реферирования. Соответствующие технологии должны обрабатывать информацию из источников разного типа на этапе анализа, на этапе извлечения и на этапе синтеза, когда происходит интеграция информации разного типа. Это относится к выделению ключевых слов в потоке слитной речи, что позволяет вычленять из потока речевой информации нужные фрагменты, а также осуществлять контентный анализ речевой информации. Это относится также к обработке видеоряда с выявлением фрагментов, содержащих интересные события.

Улучшить качество обработки можно за счет использования семантической и прагматической информации, которая является фильтром, позволяющим ограничить число гипотез, возникающих комбинаторно на нижних уровнях принятия решений.

Разработка методов представления информации семантического и прагматического уровней, одинаково удобных для использования как в задачах распознавания, так и в задачах выделения ключевой информации, является основным моментом и при улучшении качества, и при увеличении функциональности указанных систем, а также в переходе на следующий этап разработки интеллектуальных систем - этап создания интегрированных многомодальных систем обработки и хранения информации - интегральных роботов. Существование этих задач заставляет искать новые подходы к методам представления и обработки информации различных модальностей - речевой, зрительной, а также надмодальной (семантической, прагматической) информации.

Для решения задач данного типа необходим интегрированный подход, позволяющий объединять при решении задачи информацию различных типов, а также надмодальную - семантическую информацию, при помощи которого можно построить общую методологию решения этой проблемы на основе единой математической модели. Опа должна содержать методы: обработки и представления текстовой информации; обработки лингвистической и семантической информа-

ции; обработки изображений; математического описания обработки и представления информации различных типов; реализации выбранного типа представлений, в том числе с использованием аппарата искусственных нейронных сетей.

Составными частями такого интегрированного подхода должны стать методы: обработки текстовой информации, обработки лингвистической информации, обработки изображений, извлечения ключевой информации различной природы, аппаратной поддержки таких представлений, в том числе с использованием ассоциативной памяти, эмулирующей искусственную нейронную сеть.

Для практического подтверждения правильности выбранных методов необходимо отработать их применение на обработке реальной информации, для чего необходимо разработать программные реализации систем распознавания речи и изображений, а также анализа текстов, включающих представление семантической и прагматической информации. Реальная интеграция представления информации различных модальностей, а также надмодальной информации может быть эффективно осуществлена на основе аппаратной реализации указанных методов.

Поскольку до настоящего времени ни один из этих вопросов не решался в совокупности со всеми остальными, при наложении ограничений на качество предоставляемой пользователю ключевой информации, можно считать, что решение такой проблемы весьма актуально.

Целью диссертационной работы является выявление эффективных способов извлечения ключевой информации различных модальностей (текст, речь, изображения) из больших информационных выборок для компактного представления пользователю, а также автоматического выявления внутренней структуры многоуровневой структурированной информации различных модальностей. Указанные способы должны позволить осуществлять эффективное представление как информации различных модальностей, так и надмодальной информации, в том числе семантической и прагматической.

Выбранные способы представления и обработки информации должны позволять осуществить единое интегрированное представление многомодальной и надмодальной информации, каковая, являясь многомодальной моделью предметной области, позволит фильтровать комбинаторные гипотезы, возникающие на разных уровнях в разных модальностях, что позволит улучшить качество анализа разномодальной и надмодальной информации.

Достижение поставленной цели предполагает решение ряда задач теоретического, методического и практического характера. В том числе задач:

разработки теоретических основ и формализации процесса нейросе-тевой обработки информации;

формализации нейросетевого представления и обработки информации различных модальностей: речи, изображений, текстов, а также надмодальной информации: семантической и прагматической; разработки методов и алгоритмов для структурной нейросетевой обработки текстов, речи, изображений,;

разработки методов аппаратной реализации эффективного представления и нейросетевой обработки информации.

Для достижения поставленных задач необходимо провести следующие исследования:

рассмотреть существующие подходы к обработке и анализу информации различных модальностей, в первую очередь, текстовой информации, а также надмодальной: семантической и прагматической ипформации, и па их основе разработать единое математическое описание для представления в наиболее общей форме технологии обработки информации, описания эталонов, методов распознавания; разработать обобщеппый способ описалия объектов (эталонов), включающий способы его получения и методы, по которым он может быть идентифицирован.

Методы исследований, применяемые в работе, основываются на использовании алгоритмов обработки текстовой информации, алгоритмов распознавания речи, алгоритмов обработки изображений, теории распознавания образов, теории графов.

Достоверность результатов теоретических исследований подтверждается данными, полученными при обработке реальной информации, с применением построенных систем анализа текстов, распознавания речи и системы распознавания изображений рукописных символов.

Научная новизна работы заключается в следующем:

разработаны теоретические основы нейросетевой обработки информации с помощью одного класса искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов; разработана формализация представления и нейросетевой обработки информации различных модальностей: текстов, речи, изображений, а также надмодальной информации - семантической и прагматической;

разработаны методы и алгоритмы для структурной нейросетевой обработки текстов, речи, изображений;

разработаны методы аппаратной реализации нейронных сетей указанного класса.

Практическая пенпость диссертационной работы состоит в том, что ее результаты были использованы или могут быть использовапы в разработке:

систем анализа текстовой информации, в том числе, информационных и информационно-поисковых систем;

систем распознавания ключевых слов в штоке слитной речи для построения источников знаний верхних уровней; систем распознавания изображений для структурного анализа, включая автоматическое формирование эталонов разных уровней; блоков ассоциативной памяти, позволяющей реализовать быстрый поиск на больших массивах данных.

Реализация результатов. Результаты исследований в виде готовых программных продуктов были использованы в организациях ФСБ РФ, и на фирмах ООО «Центр Нейросетевых Технологий - Интеллектуальные Системы Безопасности», ОАО «Ангстрем-М», ООО «Юникор микросистемы», в Hague Centre for Strategic Studies, Голландия.

Апробация работы. Основные положения диссертации докладывались ва Международном симпозиуме «Нейронные сети и нейрокомпьютинг» NEURONET'9(), Прага 1990г.; на Всесоюзном семинаре «Автоматическое распо-

знавшие слуховых образов (АРСО-16)», Москва 1991г.; на Международном совещании «Нейрокомпьютеры и внимание», Москва 1991г.; на XI Международной конференции по нейрокибернетике, Ростов-на-Дону 1995г.; на Втором международном симпозиуме «Интеллектуальные системы», С.-Петербург 1996г.; на IV Всероссийской конференции «Нейрокомпьютеры и их применение (НКП-98)», Москва 1998г.; на Международной конференции «Информатизация правоохранительных систем», Москва 1998г.; на Третьем Международном симпозиуме «Интеллектуальные системы», Псков 1998г.; на IX сессии Российского акустического общества, Москва 1999г.; на Международной конференции-совещании "Новые информационные технологии из России", Берлин 2002г.; на IV Международном социальном конгрессе, Москва 2004г.; на Международной конференции-совещании "Новые информационные технологии из России", Белград 2004г.; на Международной научно-технической конференции «Интеллектуальные и многопроцессорные системы - 2005 (ИМС-2005)», Геленджик 2005г., на Международной конференции-совещании "Новые информационные технологии из России", Будапешт 2005г.; на Международной выставке «Интеллектуальные и адаптивные роботы - 2005», г. Москва 2005г., на Третьем совещании Российской секции IEEE Computation Intelligence Society «Биометрические системы», Москва 2005г., на 5-х Годичных научных чтениях факультета иностранных языков РГСУ, Москва 2006г.; на конференции «Нейрокомпьютеры и их применение» (Нейро-2007), Геленджик 2007г., на конференции «Digital libraries and technology-enhanced learning: Call 3 information days», Люксембург 2007г.; на молодежной школе «Нейрокомпьютеры 2008», Таганрог 2008г., на семинаре кафедры Искусственного интеллекта Белорусского государственного университета информатики и радиоэлектроники, Минск 2008.

Публикации. Результаты работы опубликованы в 58 печатных научных трудах общим объемом 20 печатных листов, среди которых монографии, статьи в центральных журналах, труды и тезисы конференций.

Личный вклад. Лично автором получены следующие основные результаты:

разработаны теоретические основы нейросетевой обработки информации;

формализованы нейросетевое представление и обработка информации различных модальностей: речи, изображений, текстов, а также надмодальной информации - семантической и прагматической; разработаны методы и алгоритмы для структурной нейросетевой обработки изображений, речи, текстов;

разработаны методы аппаратной реализации эффективного нейросе-тевого представления и обработки информации.

Структура и объем диссертации. Диссертация состоит из введения, шести глав, заключения и списка литературы, приложений. Работа содержит 269 страниц текста, список литературы включает 142 наименования.

Содержание работы.

Во введении дана общая характеристика работы, отмечена ее актуальность, научная новизна и практическая ценность. Приводится краткое описание работы по главам.

В первой главе изложена классификация и описание некоторых методов обработки информации различных модальностей. Рассмотрены существующие подходы к представлению и обработке текстовой информации, к представлению и распознаванию речевой информации различных уровней, распознаванию зрительной информации. А также рассмотрены вопросы представления и использования для анализа текстов, распознавания речи и изображений, семантической и прагматической информации.

Показано, что внесение знаний в искусственно-интеллектуальные системы эффективно реализуется не моделированием отдельных интеллектуальных функций, а моделированием вычислительной среды, в которой решаются интеллектуальные задачи.

Интеллектуальными системами являются системы, реализующие интеллектуальные функции в рамках познавательного поведения: восприятие, обучение (формирование модели мира), мышление (использование модели для решения текущих задач), решение задач, прогнозирование и принятие решений, языковое поведение и т.д. Следовательно, к интеллектуальным системам можно отнести информационные системы, компьютерные системы обработки естественного языка, в том числе, системы обработки текстов, системы автоматического извлечения знаний из текстов, компьютерные системы интеллектуального анализа данных, системы, основанные на нейросетевых технологиях: системы распознавания изображений, системы распознавания, анализа и синтеза речи. Некоторые из этих систем рассматриваются более подробно. В первую очередь, это системы анализа текстовой информации, распознавания речи и изображений.

Апализ существующих систем обработки текстов позволил выявить их основные функции: извлечения индекса текста, автоматического формирования множества рубрик - кластеризации множества текстов, отпесепия текста к рубрике (классификация) и сравнения текстов, создания реферата, а также - формирования гипертекстового представления со средствами навигации по гипертекстовой структуре. Важнейшая из этих функций - индексация - осуществляется в разных системах по-разному. В основном используются два подхода.

Статистический подход позволяет сформировать индекс па основе анализа частоты встречаемости слов в тексте. Семантический подход использует в этих целях заранее сформированное семантическое представление в виде глобальной семантической сети в том или ином представлении. В этом случае проекция входного текста на эту сеть и формирует индекс текста. Все остальные функции систем анализа текстовой информации являются производными от функции индексации. В зависимости от качества ее реализации стоит и качество работы остальных функций. Системы анализа текстов, в связи с этим, делятся на два класса.

К первому классу относятся простые, быстрые, не зависящие от языка и предметной области, но грубые системы, использующие статистические механизмы апализа. Второй класс - реализованный на основе использования лингвистической информации - формируют достаточно изощренные, дающие хороший результат, но сравнительно медленно работающие системы. Автоматизация извлечения знаний из текстов средствами формализмов искусственных языков представления знаний встречает ряд трудностей, связанных с разнородностью используемых методов, слабой автоматизацией процессов формирования базы знаний и необходимостью привлечения экспертов - лингвистов и инженеров по зна-

ниям - для формирования базы знаний. Поэтому существующие системы этого класса являются весьма громоздкими структурами с большими семантическими сетями. Либо качество их работы оставляет желать лучшего.

Показано, что в системах анализа текстов стоит проблема автоматического формирования источников лингвистических и экстралингвистических знаний различных уровней. В наибольшей степени это относится х формированию семантических представлений в силу большого объема используемой информации. В не меньшей степени важную роль при обработке текстов играет ассоциативность доступа к информации.

Классификация существующих систем распознавания речи позволяет разбить их на два класса: (1) одноуровневые системы, распознающие речевые события с помощью так или иначе модифицированных правил Байеса (в том числе и реализованных на нейронных сетях); (2) системы для структурной обработки, в том числе использующие эмпирические лингвистические правила.

В настоящее время под системой распознавания речи понимается программно-аппаратный комплекс, решающий одну из ниже перечисленных задач: (1) распознавание изолированных, устно произносимых команд ограниченного словаря; (2) распознавание слитной речи; (3) понимание речи.

Обычно, системы распознавания речи имеют в своем составе следующие блоки и устройства: микрофон, блок преобразования акустического сигнала в цифровую форму, блок щумоочистки, блок формирования первичного описания, блок акустико-фонетического анализа, блоки обработки верхних уровней: морфологического, лексического, синтаксического, и т.д.

Акустический речевой сигнал, после его ввода в систему, оцифровывается, очищается от шумов, нормализуется по амплитуде и освобождается от коррелированной информации. Затем начинается сравнение его фрагментов со сформированными на этапе обучения эталонами разных уровней. Причем, сформированные на самом нижнем (ахустико-фонетическом) уровне гипотезы -цепочки фонем (или любых других фонемоподобных элементов), на следующих уровнях сравниваются с эталонами поуровневых словарей. Например, с эталонами словаря корневых морфем - на нижнем уровне, на следующем уровне - с эталонами словаря слов и т.д. Влияние более высоких уровней позволяет прекратить рост числа вероятных гипотез.

В случае решения простых задач распознавания, например, команд ограниченного словаря, используются чаще всего одноуровневые статистические подходы. При решении более сложных задач, например, распознавания ключевых слов в потоке слитной речи, требуется привлечение в рамках структурного подхода лингвистической информации всех уровней, от морфологического до синтаксического. А также экстралингвистической информации - семантической и прагматической.

Показано, таким образом, что сложность реализации систем распознавания речи заключается в необходимости интеграции в единое целое большого объема информации, имеющей различную внутреннюю структуру и требующей для ее обработки различных алгоритмов. Кроме того, использование практически всех существующих решений задачи распознавания речи натыкается на психологический барьер, заключающийся в том, что от систем распознавания речи человек ожидает тех же возможностей в общении, что и в общении с человеком. Реше-

ние последней задачи предполагает воссоздание, по возможности, всей системы обработки и представления информации, каковая имеется у человека. Это значит, что помимо иитеграции лингвистических и экстралингвистических источников знаний различных уровней, в систему необходимо интегрировать подсистемы обработки информации других модальностей, в первую очередь - зрительной. Эффективная интеграция большого объема разнородной информации становится возможной в случае решения трех проблем. Во-первых, необходимо использовать одинаковые алгоритмы обработки информации, имеющей различную структуру. Во-вторых, желательно реализовать эти алгоритмы с наименьшими затратами, то есть с использованием специализированной (нацеленной именно на эти алгоритмы) аппаратуры, вместо универсальных процессорных средств. И, в-третьих - необходимо реализовать ассоциативный способ обращения к информации.

Анализ существующих систем распознавания изображений показал, что, как и в случае распознавания речи, при решении задачи распознавания изображений используются, в основном, два подхода: геометрический (одноуровневый), и структурный или лингвистический.

Также как системы распознавания речи, системы распознавания изобра-• жений, помимо модуля ввода и оцифровки сигнала, имеют два основных модуля: модуль предобработки и модуль распознавания. Модуль предобработки существенно учитывает особенности воспринимаемого двумерного пространства, или двумерного отображения трехмерного видимого мира. Состав этого модуля чем-то похож на состав аналогичного модуля в системах распознавания речи. В него также входаг блок шумоочистки, блок нормировки, блок сжатия информации, а также блок кодирования, от эффективности работы которого в большой степени зависит эффективность работы всей системы. Этот блок в наибольшей степени учитывает особенности двумерного сигнала, в отличие от одномерного: в этом блоке используется тот или иной способ позиционного кодирования, который воспроизводит особенности фовеальпого зрения человека.

Показано, что распознавание изображений имеет свои сложности, связанные с перебором больших объемов информации, сопряженным с большим объемом сопутствующих вычислений, помимо той же, что и для задач распознавания речи - сложности интеграции разнородных источников знаний. Как и в случае с распознаванием речи, эффективным решением может быть использование однородных алгоритмов обработки информации, аппаратной реализации и ассоциативного доступа.

Проведенный анализ показывает, что реализация эффективных интеллектуальных систем оказывается возможной лишь при включении в их состав семантического компонента. Существует два типа семантических представлений: процедурное представление знаний, где знания о конкретной проблемной области представляются в виде набора правил, и декларативное представление знаний, когда информация представляется в виде базы данных или базы знаний. Показано, что все семантические представления, так или иначе, сводятся к сетевому представлению.

Ограниченность искусственно-интеллектуального подхода к представлению семантической информации заключается в невозможности полного и непротиворечивого представления семантики только метаязыковыми средствами. Реше-

ние задачи интеграции в единое представление информации различных модальностей позволило бы выйти из этого порочного круга.

Во второй главе показана необходимость использования двух основополагающих принципов для эффективного решения задач обработки и представления информации, полученной от разных типов сенсоров и эффекторов (разных модальностей), а также обработки и представления надмодальной семантической и прагматической информации. Это ассоциативность обращения к информации и структурный подход к ее обработке. Ассоциативность обращения к информации позволяет быстро получить нужную информацию, независимо от объемов выборки, а структурный подход к обработке информации - автоматически восстанавливать структуру и компактно хранить полученную информацию.

Рассмотрено преобразование Р двоичной последовательности А в и -

мерное пространство В." таким образом, что каждому и -членному фрагменту последовательности соответствует точка в В." - а(1), с соответствующими п-членному фрагменту координатами, а всей последовательности А соответствует последовательность то-

чек: А = {...,(а(-л-1),а(-и),...,а(-2)),(о(-»),а(-л + 1),...,йг(-1)),

(а(-и +1), а(~п + 2),..., а(0)), (а(-п + 2), а(-п + 3),..., а(1)),(а(-/г + 3), а(-п + 4),...,а(2),...,(а(-л + ¡),а{-п +1 + 0,...,а( 1)),...) = = (...,¿(-2),¿(-1),а(0),а(1),а(2),...,а(1),...) - траектория:

А = Р(А). (1)

Здесь - обозначает отображение в сигнальное пространство. Отображение ^ является основой для осуществления структурной обработки информации.

Преобразование Г обладает свойством ассоциативности обращения к точкам траектории А ассоциацией по и -членному фрагменту последовательности А (то есть - по его содержанию): любые п символов сразу же адресуют нас к соответствующей точке траектории. В общем случае среди п -членных фрагментов информационной последовательности может встретиться уже ранее встречавшийся п -членный фрагмент, и траектория в этом случае пройдет через вершину, уже принадлежащую ей, то есть пересечется с самой собой. В этой точке возможно более одного продолжения траектории. Для двоичной последовательности продолжений может быть не более двух.

Ассоциативность преобразования Р позволяет сохранить топологию структуры преобразуемой информации. Действительно, одинаковые фрагменты последовательности преобразуются в одну и ту же траекторию, разные - в разные траектории.

Пусть есть две синхронно разворачивающиеся последовательности А и J . Траектория А несущей последовательности А в сигнальном пространстве может быть использована для запоминания в ее точках символов синхронизированной с ней информационной последовательности J . В вершинах гиперкуба Се вводится функция памяти М , ставящая в соответствие каждой вершине

о(/) е А, соответствующей I -му символу последовательности А, двоичную пе-

ременную j{t +1), являющуюся (/ +1) -м символом некоторой двоичной последовательности J.

М{а{1)Л1^)) = [а{1))КМу (2)

Таким образом, формируется траектория А, обусловленная последовательностью •/ •[*] - обозначает обусловленность.

[АЪ=М{Р(Аи]. (3)

Другими словами, последовательность J записывается в точках траектории А (в ассоциации с траекторией А).

Можно осуществить восстановление информационной последовательности J по обусловленной ею траектории и несущей последовательности А:

/ = М-'{[А1^(А)}, (4)

где в каждой точке а(() е А : Л/-1([а(г)]д/+1)><1(')) = -/(' +1) • При этом развертывание в траекторию несущей последовательности позволяет обратиться к информации, записашюй в точках траектории, то есть к информационной последовательности. Такой способ записи назовем гетерассоциативной записью, а воспроизведите - гетероассоциативпым воспроизведением.

Если в качестве обуславливающей последовательности используется та же последовательность, что и несущая, то есть в точках траектории в сигнальном пространстве записываются символы этой же последовательности, - возникает случай самообусловливания: то есть, если J е А, М{а(1),а(1 +1)} = [а(')]я(<+1):

[А)А=Щ = М{Р{А),А). (5)

Аналогично (2.4):

А = М-\{А],Р{А)}. (б)

В этом случае можно восстановить исходную последовательность, начиная с одной из точек траектории:

А = М']{[А],а{1) £ Ь'{А)}. (7)

Такая запись называется автоассоциативной записью, а воспроизведение - автоассоциативным воспроизведением.

Заменой триггера регистрации следующего символа a{t +1) последовательности А двумя счетчиками, фиксирующими число прохождений траекторией заданной точки в заданном направлении: С0 - для переходов в "О" и C¡ - для переходов в "1", возможна реализация, наряду с функцией ассоциативной записи/воспроизведения, механизм стохастической обработки информации. Введение порогового преобразования H, позволяет восстановить по значению функции H в точке многомерного сигнального пространства, определенной ее координатами ¿(i), значение наиболее вероятного перехода в следующую точку - в "0" или в "1": а(/ +1). Такой механизм памяти чувствителен к числу прохождений заданной точки в заданном направлении. Он позволяет характеризовать каждую точку траектории с точки зрения частоты появления во входной информации сочетания (à(t),a(t +1)).

Наряду с запоминанием - неуменьшением значений счетчиков С0 и С|, возможно забывание - равномерное уменьшение значений счетчиков во времени со скоростью изменения их содержимого значительно меньшей, чем при запоминании:

M{a(/),a(í+i)}=[¿(o]=cáw(o=

= ÍCoM = C0(/-l)+d„C,(/) = C{(t-\)-d2 |a(t +1) = 0;

\Co(t) = Co(t-ï)-d2,C1(t) = Cl(t-l)+di |o(/ + l) = l, где d\ » d2. Введение забывания позволяет устранить случайные точки на траектории, не подтверждающиеся в процессе дальнейшего обучения.

Механизм памяти, чувствительный к числу прохождений заданной вершины в заданном направлении (механизм статистической обработки), является инструментом для анализа входной последовательности с точки зрения повторяющихся ее частей. Как было показано выше, одинаковые фрагменты последовательности отображаются преобразованием F в одну и ту же часть траектории.

Преобразование IIM']MF при взаимодействии с классом входных последовательностей {Л} формирует словарь, характеризующий состав последовательностей входного класса в терминах их повторяющихся фрагментов в пространстве данной мерности:

{L} = HM'lMF({A}). (9)

В зависимости от величины порога h преобразования H слова словаря могут быть либо цепями, либо графами.

Сформированный словарь часто встречающихся событий может быть использован для детектирования старой информации в потоке новой. Для этого необходимо поглощение фрагментов входной последовательности А, соответствующих словам словаря, и пропускание новой, относительно словаря, информа-

цин. В результате появляется возможность реализовать структурный подход к обработке информации.

Для решения задачи детектирования преобразование модифицируется для придания ему детектирующих свойств. Преобразование /гс~1 взаимодействует с еходной последовательностью А, которая содержит, наряду со старой, некоторую новую информацию. Если на основании множества входных последовательностей А ранее был сформирован словарь [В] = 1Ш~]МР({А}) , то использование преобразования позволяет сформировать так называемую синтаксическую последовательность или последовательность аббревиатур - С, характеризующую связи слов В словаря {В} в последовательности А . Здесь {В} есть множество подпоследовательностей, соответствующих всем цепям слов В словаря {В}:

{г} = к-'({В}). (Ю)

В результате взаимодействия происходит формирование последовательности С, в которой заменяются нулями те части последовательности А, соответствующие которым части траектории А = Р(А) совпадают с частями траектории А . Другими словами, во входной последовательности А заменяются нулями символы, соответствующие которым точки траектории А совпадают с точками сформированной ранее траектории А = Р(А) :

С = (...,с(-1),с(0),с(1).....с(0,-), где:

С(/) =

5(0 15(0 #¿(0; 015(0 = 5(0.

(И)

Здесь ¿(0 е А , а 5(0 е А , или в другой записи:

С = Р-\Р(А),НМ-\{А))). (12)

Таким образом, отображение ^¡Г1 позволяет устранить из входной последовательности А некоторую информацию, содержащуюся в словаре {В}. Тем самым создастся предпосылка построения многоуровневой структуры для лингвистической (структурной) обработки входной информации. Синтаксическая последовательность С, содержащая только новую, по отношению к данному уровню, информацию, становится входной для следующего уровня. На следующем уровне, подобно описанному выше, из множества синтаксических последовательностей {С} формируется словарь {£>} и множество синтаксических после-

{Е}

л

{С} +

{А}

довательностей следующего уровня {£} . Мы имеем стандартный элемент многоуровневой иерархической структуры из ассоциативных процессов: такая обработка с выделением поуровне-вых словарей может происходить на всех уровнях. Словарь следующего уровня является в этом случае грамматикой для предыдущего уровня, так как его элементами, при соответствующем выборе размерностей пространств этих уровней, являются эле. менты связей слов / В} I Процессы в описанной многоуровневой структуре обра-

тимы. Информация может сжиматься при ее обработке в иерархии в направлении снизу-вверх, с выделением из нее на каждом уровне поуровневых словарей (освобождением проходящей наверх информации от часто встречающихся событий соответствующей частоты встречаемости). Информация может развертываться при ее обработке в иерархии в направлении сверху вниз.

Расширением понятия преобразования F является расфокусированное преобразование , преобразующее каждый п -членный фрагмент символов

последовательности не в точку - вершину гиперкуба, а во множество вершин, лежащих в окрестности указанной вершины радиуса г (по Хеммишу). Исходная последовательность А , таким образом, отображается в трубку радиуса г с осью-траекторией А:

К) = Ы*) • (13)

Использование расфокусированного преобразования Р^ позволяет

увеличить надежность воспроизведения, если при обучении была сформирована нерасфокусированная траектория. При этом, в случае ухода с траектории, в результате зашумления входной информации (например, замены части символов на

противоположные), среди С'п +1 точек г -той окрестности текущей точки траектории содержатся и точки траектории, в которых записана нужная информация. При воспроизведении на основе этой информации (информации о переходе, содержащейся в точках г -ой окрестности), а также взятой со своим весом информации о следующем символе входной последовательности, инициировавшей воспроизведение, принимается решение о следующем символе воспроизводимой последовательности.

В работе предложен механизм управления активностью процессов - механизм локального внимания. Расфокусированное преобразование реализуется с использованием механизма внимания с помощью управления порогом срабатывания ассоциативным процессом:

>•(') =

(14)

Вершина гиперкуба откликается точпо на свой адрес, если порог равен числу единиц в адресе (так называемый порог острой настройки): к

Изменение порога приводит к расфокусировке, если порог уменьшается, и к схло-пыванию зоны захвата, если порог увеличивается. Изменение порога осуществляется синапсом, расположенным на теле нейрона в области триггерной зоны.

Уменьшение порога на величину расфокусировки переводит процессы в режим генерализации. В этом случае радиусы сфер захвата всех вершин гиперкуба увеличиваются и они начинают откликаться на л-членные фрагменты, отличающиеся от их адреса на г символов. Увеличение порога переводит процессы в режим локализации.

Под распознаванием понимается процесс принятия решения о степени совпадения входной информации с ранее запомненной. Распознавание предполагает предшествовавший ему процесс обучения. В основе механизма распознавания лежит сравнение входной последовательности А и наиболее близкой ей из запомненных, последовательности А, которая начинает воспроизводиться с помощью преобразования НМ~1МР в ответ на входную последовательность А с вычислением меры близости по Хсммингу:

Вычисление йх осуществляется суммированием расстояния по Хем-мингу между соответствующими п -членными фрагментами входной и воспроизводимой последовательностей, полученных на каждом шаге:

где Т - длина траектории. Решение о совпадении с заданной степенью точности принимается сравнением с пороге,«г по распознаванию.

Отдельно рассматривается более простой механизм распознавания, реализованный на основе гетероассоциативного способа записи/воспроизведения. При обучении в качестве несущей последовательности А используется последовательность, соответствующая запоминаемому событию, а в качестве информационной последовательности J - последовательность символов кода, соответствующего этому событию. Под распознаванием в этом случае понимается воспроизведение информационной последовательности J - кода события, которое инициирует входная последовательность Л .

Показывается, что описанные процессы обработки информации: обучение, воспроизведение, формирование словаря, синтаксической последовательности, одинаково эффективны как в рамках одного ассоциативного процесса, так и в системах из ассоциативных процессов, в том числе многоуровневых. Использование всех свойств ассоциативного процесса возможно лишь при включепии его в иерархическую структуру, осуществляющую структурный анализ информации.

При обучении в иерархической структуре, работающей в режиме анализа, происходят следующие процессы. С выхода рецепторного органа на вход иерархической структуры поступает множество последовательностей {А}, характе-

II А-А\\=йх.

(15)

(16)

Г

ризующих множество реализаций множества входных ситуаций, имеющих внутреннюю структуру в смысле повторяемости отдельных ее элементов.

По мере поступления последовательностей из множества {А} сначала на первом уровне формируется словарь событий наибольшей частоты встречаемости. Размерность и, следовательно, объем сигнального пространства первого уровня выбираются такими, чтобы в словаре хватило места для всех событий В наибольшей частоты встречаемости, содержащихся в {А}, но также и чтобы размер слов словаря соответствовал реальным событиям данной частоты встречаемости.

После формирования на первом уровне иерархии словаря {Ё}, по мере дальнейшего поступления последовательностей из {А}, начинается их взаимодействие с элементами словаря в сигнальном пространстве с формированием на выходе первого уровня подмножества последовательностей аббревиатур {С} (синтаксических последовательностей), соответствующих последовательностям из {Л}.

Сформированное множество синтаксических последовательностей {С}, поступая на вход сигнального пространства второго уровня, запускает там процессы, аналогичные вышеописанным, только словарь {£>} формируется на основе множества событий £) меньшей частоты встречаемости, чем В .

Таким образом, при обучении заполняются сигнальные пространства всех уровней, на которых находятся соответствия элементам входных ситуаций того или иного уровня.

В реальных устройствах требование к объему сигнального пространства, необходимому для размещения словаря, может оказаться в противоречии с требованием к длине адресного регистра. Длина должна быть меньше длины последовательности, соответствующей слову словаря данного уровня, в противном случае слово может быть представленным в сигнальном пространстве единственной точкой. Оно может быть не представленным и единственной точкой, если длина адресного регистра оказывается больше длины слова. Поэтому, на каждом уровне иерархической струетуры сигнальное пространство разбивается на ряд подпространств, в каждом из которых при обучении формируются подсловари, в дальнейшем используемые для распознавания, синтаксической обработки или воспроизведения.

Рассматриваются особенности формирования представления о событиях, происходящих в мире, в иерархической структуре из ассоциативных процессов. В иерархической структуре из ассоциативных процессов формируются две сосуществующие системы знаний о мире: статическая (парадигматическая), потенциально хранящая всю доступную информацию об элементах и связях структур событий мира, и динамическая (синтагматичекая), в той или иной степени соответствующая конкретным ситуациям, отображаемым на иерархической структуре. Первая - есть не что иное, как семантическая сеть, вторая имеет общие черты с фреймовыми структурами.

Статические знания - модель мира данной модальности - представляют

собой многократно вложенный суперграф Мт. На верхнем (К-ом) уровне он

объединяет все графы-слова ВуК/ словаря (подсловарей) верхнего уровня, а на всех более низких уровнях - включает в себя (в соответствующие места - по ассоциативному принципу) графы-слова В)]кт словарей нижних уровней:

я,=и V

у ук<К

Здесь 11- операция объединения, К - обозначает включение на свое место в слова словаря более высокого уровня. Это включение аналогично логическому сложению последовательности, соответствующей слову словаря нижнего уровня, с синтаксической последовательностью (вложению слова словаря в соответствующую купюру синтаксической последовательности).

Объединением нескольких иерархических структур, соответствующих разным сенсорным и эффекторным модальностям со сформированными на них

модальными моделями мира Мт, получается объединенный суперграф - семантическая сеть:

V (18>

т ут ук<Кт

Структуру многомодальных семантических представлений можно продемонстрировать на примере металингвистической семантической сети, построенной на основе некоторого текста, множества текстов или даже целой предметной области. Такая семантическая сеть, так или иначе, сводится к учету сочетаемости слов. Семантическая сеть представляется как множество понятий (слов и словосочетаний), объединенных связями. Поскольку типы семантических связей в системе не определяются, такие связи представляют собой просто ассоциативные связи. В качестве критерия для определения наличия семантической связи между парой понятий в тексте может быть использована частота их совместной встречаемости в одном предложении. Превышение частотой некоторого порога позволяет говорить о наличии между понятиями ассоциативной (семантической) связи, а совместные вхождения понятий в предложения с частотой меньше порога считаются просто случайными.

Элементы семантической (ассоциативной) сети и их связи имеют числовые характеристики, отражающие их относительный вес в данном тексте - семантический вес. Для более точной оценки семантических весов понятий, они пере-считываются, при этом используются веса всех понятий, связанных с данным понятием, т.е. веса целого "семантического сгущения". В результате пересчета наибольший вес приобретают понятия, обладающие мощными связями и находящиеся как бы в центре "семантических сгущений".

В каждый момент времени, в ответ на входную ситуацию, в каждом графе-слове данной модальности может высветиться только одна цепь А . Эти цепи на вложенном суперграфе (семантической сети) составляют динамическое знание - компоненты фрейма /ш данной модальности соответствующие некоторой текущей входной ситуации (синтагмы). По аналогии с (2.23):

/т=ЛцКт V 4/Ьп. 09)

ук<К

Компоненты фрейма могут включать в себя конкатенации цепей

/

(также по ассоциативному принципу). Здесь ] - означает конкатенацию по ин-

/

дсксу /.

Каждой конкретной ситуации на семантической сети М соответствует некоторое объединение компонент фрейма отдельных модальностей - субфрейм:

5 = I!'- V 4м "ЮШ (20)

т т ' ук<К т* 1

где - имя субфрсйма - слово, например, в вербальной (первой) модальности.

Последовательность субфреймов формирует фрейм:

¿■=*5р=/1*(*Яр) = 1*(*Зр), (21)

р Р р

где I - имя фрейма (так же как в случае имени субфрейма) - слово, например (но не обязательно), в вербальной модальности.

В третьей главе показано, что для реализации задач обработки и представления различной разпомодальной информации, с ассоциативным доступом к ней, эффективно использование искусственных нейронных сетей. Анализ существующих решений показал, что нейронные сети условно можно разделить на два типа - статические и дппамические. Классические сети из нейроподобных элементов позволяют решить задачу распознавания статических (пространственных) образов. Сети, имеющие в своем составе элементы задержки, - динамические нейронные сети, могут использоваться и для распознавания динамических образов (например речевых сигналов), однако в этом случае для учета временной структуры информации прибегают к специальным приемам, например заводят па дополнительные входы сети информацию с задержками. Введение в стационарную сеть обратных связей с элементами задержки с выходов сети на ее входы делает сеть рекуррентной. При этом сеть начинает учитывать временной контекст входных сигналов. Такие сети способны автоматически формировать эталоны динамических образов.

Использование рекуррентных искусственных нейронных сетей для обработки информации, имеющей временную природу, показало хорошее качество работы таких сетей. Естественная трудность, с которой сталкиваются разработчики, заключается в рутинности ручной настройки струюуры нейронных сетей на распознаваемую информацию. Показано, что для эффективного решения этой проблемы необходимо организовать нейронную сеть, реализующую структурную многоуровневую обработку информации.

Для анализа временных последовательностей, к которым сводится представление как речевой, так и зрительной и текстовой информации, удобно исполь-

зовать искусственные нейронные сети, динамические. Предельным случаем сетей, учитывающих динамическую (временную) информацию, являются сети из так называемых динамических ассоциативных запоминающих устройств. Такие сети представляют собой множество параллельно включенных нейроподобных элементов с временной суммацией входных сигналов. Каждый из нейроподобных элементов, являясь элементом ассоциативной памяти, моделирует одну из точек сигнального пространства, в которое отображается и в котором запоминается в виде последовательности точек - траектории - входная последовательность.

Этот тип сетей получается из более общего, который, в свою очередь конструируется из статических сетей объединением двух статических нейронных сетей, где одна из них включается в прямом направлении, а другая - в обратной связи. Сначала сеть сводится к одному нейроподобному элементу, но имеющему цепочку задержек на входе. Это нейрон с синапсами, имеющими передаточную функцию без полюсов (такие синапсы можно рассматривать как обобщенные ден-дриты нейрона) и не имеющими обратной связи с выхода.

В этом случае эталонная область пространства Л" сводится к одной точке. Координатами этой точки в пространстве является п-членный анализируемый фрагмент последовательности. Для построения эталонов образа, которые строятся как объединение точек - траектория, используется набор из таких нейронов - нейронный пучок. Объединение нейронов моделирует л-мерный единичный гиперкуб в сигнальном пространстве. Такая конструкция более удобна для представления информации, поскольку, в отличие от традиционной нейронной сети, где информация об образах-эталонах упрятана в весовых коэффициентах сипапсов, в такой сети входная информация представляется в удобной и наглядной форме траектории на вершинах гиперкуба. Нейроны с различными распределениями синапсов на дендритах можно избирательно возбуждать, подавая на них последовательности с разным распределением в них импульсов и межимпульсных интервалов.

Представлены теоретические основы построения нейросетевых технологий для обработки неструктурированной информации различных модальностей. Рассматривается ассоциативная память на основе нейроподобных элементов с временной суммацией входных сигналов, в которой одним из основных свойств является ассоциативное воспроизведение с динамическим формированием адреса. Такая ассоциативная память называется динамической ассоциативной памятью, а устройства на ее основе - динамическими ассоциативными запоминающими устройствами (ДАЗУ). Динамическое ассоциативное запоминающее устройство представляет собой множество объединенных параллельно нейроподобных элементов, имеющих общий вход и общий выход, и отличающихся друг от друга последовательностью знаков синаптических связей на обобщенном дендрите - адресом. Вес связей равен ±1. ДАЗУ моделирует многомерный единичный гиперкуб, и осуществляет преобразование информационной последовательности в траекторию в многомерном сигнальном пространстве. Наличие элемента памяти в составе нейроподобного элемента позволяет запоминать в ДАЗУ информационные последовательности с сохранением в сигнальном пространстве топологии сенсорного пространства. ДАЗУ реализует частотную обработку информационных последовательностей, а также ассоциативное обращение к запомненной информации.

Объединение множества из 2" нейронов с разными адресными комбинациями в единую структуру порождает модель п -мерного сигнального про-

странства Л" (точнее единичного гиперкуба Се е /?" , если веса синапсов равпы "+1" и "-1"). В этом случае каждый отдельный нейрон моделирует одну из вершин гиперкуба. Такая структура позволяет отобразить любую последовательность А в последовательность вершин Се -траекторию^.

В четвертой главе представлен структурный подход с использованием нейросетевой технологии, который позволяет естественным образом решить задачу анализа неструктурированной информации разных модальностей: языковой (текстовой и речевой), семантической информации, а также информации других модальностей, например, изображений, и интеграции их в единую структуру.

Текстовая и речевая информация имеют общую часть, касающуюся представления источников знаний верхних уровней. Поскольку, если оставить в стороне первичную обработку, и предположить, что текстовая информация может быть с помощью системы автоматического транскрибирования переведена в последовательность фонетических значков, таких же, какие появляются на выходе акустико-фонетического уровня обработки речевого сигнала, возможно рассматривать эти два вида информации совместно, дополняя представление одного вида информации представлением другого вида информации. Для решения задачи анализа языковой (речевой и текстовой) информации, необходимо создание системы, содержащей, помимо модуля первичной обработки, источники языковых знаний различных уровней - от фонетического до синтаксического. Кроме того, она должна содержать экстралингвистические источники знаний: семантический и прагматический.

Анализ 1 речевой информации предполагает введение акустико-фонетического уровня обработки. На акустико-фонетическом уровне формируется представление первичных неделимых фрагментов последовательности первичных признаков, кодирующих звуковую волну. На вход акустико-фонетического уровня подается параметризованная звуковая волна, подвергнутая первичной обработке с целью улучшения отношения сигнал/шум, уменьшения корреляции, а также уменьшения вариативности. Дня формирования словаря акустико-фонетического уровня на его вход подается обучающая выборка из реализаций слов фонетически сбалансированного словаря. В процессе обучения в многомерном сигнальном пространстве акустико-фонетического уровня формируется представление речевой информации в виде словаря акустико-фонетических элементов - множества фрагментов траекторий, соответствующих размеченным сегментам реализаций слов фонетически сбалансированного словаря. Наличие сформированного словаря звукотипов позволяет использовать акустнко-фонетический уровень как структуру для фильтрации фонологической информации в речевом потоке.

Для формирования представления морфологического уровня на вход обученного акустико-фонетического уровня подается обучающая выборка морфологического уровня, содержащая множество произнесений произвольного множества текстов. На его выходе получается та же выборка, но уже в виде последовательности транзем с купюрами на месте отфильтрованных фонем. Из этой последовательности транзем в многомерном сигнальном пространстве морфологического уровня формируются словари корневых морфем, аффиксов и префиксов, а также флективных морфем - окончаний, соответствующих различным грамматическим формам слов. Здесь же формируется словарь предлогов. Функ-

ционально (на синтаксическом уровне) он неразрывно связан со словарем флексий.

Для формирования словаря лексического уровня на вход обученного аку-стико-фонетического уровня подается обучающая выборка лексического уровня, содержащая множество реализаций слов оперативного словаря - словаря наиболее часто встречающихся слов. При формировании словаря лексического уровня, аналогично предыдущему, после фильтрации сформированным ранее словарем аку-стико-фронетического уровня, на его выходе получим множество реализаций слов, представленных в виде последовательностей транзем с пробелами.

Подавая на вход акустико-фонетического уровня обучающую выборку, состоящую из множества предложений, после их взаимодействия со словарем фонем на акустико-фонетическом уровне и словарем основ слов на лексическом уровне, мы получим на входе синтаксического уровня множество синтаксем, состоящих из последовательностей предлогов и флективных морфем с купюрами вместо отфильтрованных корневых основ.

Семантика выходит за рамки языкового представления. Человек оперирует не языковой, а многомодальной моделью мира. Только в таком представлении удается избежать трудностей объяснения первичных смыслов — они формируются как элементы модели мира соответствующих модальностей. Однако необходимо отметить, что семантика отражается в языке, наряду с лексической и грамматической компонентами смысла, в виде сочетаемости слов, и, в конечном итоге, в виде семантической сети. Поэтому, на этих уровнях формируются словари сочетаемости слов (точнее - основ слов). Семантическая сеть легко может быть получена из словаря пар слов.

Отличие информации семантического и прагматического уровня заключается только в объеме сети. В случае представления семантической информации сеть опосредует всю модель мира. Источник знаний прагматического уровня содержит частные сети для соответствующих предметных областей (ситуаций).

Обработка зрительной информации отличается от обработки речевой информации. Основное отличие заключается в наличии двух каналов обработки зрительной информации: канала, ответственного за грубое интегральное описание поля зрения, и канала, ответственного за точное описание объектов. Наиболее наглядно особенности нейросетевого подхода выявляются на примере точной обработки информации.

Первичная обработка осуществляет улучшение, оконтуривание и сегментацию изображения. Изображение подвергается двум разным видам обработки: эквитекстурному анализу для реализации сегментирующей функции, и улучшению и яркостному анализу, с целью выделения контуров.

В точном канале реализуются следующие уровни обработки информации: уровень элементарных представлений, уровень элементов объектов, уровень объектов, и уровень сцен. Входной информацией для точного канала является оконтуренное изображение сегмента.

В зрительном анализаторе имеется две формы обработки информации: параллельная, характерная для нижних уровней анализа, и последовательная. Параллельная обработка заканчивается на этапе формирования словаря элементарных представлений на первом уровне иерархической структуры зрительного анализатора. Последовательная обработка аналогична таковой для речевого анализа.

Использование однородного нейросетевого представления информации позволяет интегрировать информацию всех уровней в процессе принятия решения. Особенностью такого представления информации является возможность автоматического формирования информационных баз источников знаний на основе соответствующих обучающих выборок при приемлемом объеме ручной работы по составлению обучающих выборок.

Семантика и прагматика выходят за рамки лингвистических представлений, хотя и содержат лингвистические эквиваленты понятий - означающие. Второй компонентой Семантических и прагматических структур являются элементы многомодальной модели мира - означаемые. В отличие от традиционного представления модели мира в виде различного типа тезаурусов, в работе предлагается использование означаемых в их естественном многомодальном представлении: в виде интегральной структуры, содержащей элементы разных модальностей, как сенсорных, так и эффекторных. В первую очередь это, естественно, зрительная модальность. Деление единого представления на семантику и прагматику осуществляется по динамическому принципу: все понятия модели мира объединяются в статическую ассоциативную сеть - модель мира. На этой ассоциативной сети конкретные ситуации высвечивают им соответствующие прагматические конфигурации - фреймовые структуры. И наоборот: частные прагматические фреймы в совокупности формируют модель мира.

Объединенное представление информации можно назвать единой семантической сетью - многомодальной моделью мира, где потенциально представлены все события и их связи, встречавшиеся на входе системы во время ее обучения. Это знание является статическим знанием.

События мира в той или иной комбинации связываются в ситуации, которые высвечивают на модели мира динамически изменяющуюся структуру из слов словарей разных уровней разных модальностей - фреймовое представление. В каждый конкретный момент в каждой модальности может высвечиваться только одно слово и объединение этих множеств слов, соответствующее некоторой ситуации, составляет динамическое знание - фрейм.

Предложенная в работе интерпретация известного разделения фреймовых структур на фреймы-прототипы и фреймы экземпляры в терминах категориальных и функциональных знаний, где флективная структура фразы (в том числе неязыковой квазифразы), описывающей ситуацию, соответствует категориальной компоненте, а лексическое наполнение фразы - функциональной, позволяет использовать подмену многомодального семантического представления текстовым представлением. Что в свою очередь дает эффективный методический прием при обработке текстовой информации.

В результате анализа в тексте выделяются пекоторые подобразы, которые в дальнейшем объединяются в более сложные образы. Можно представить несколько подобных пар отношений, формируемых на текстовом представлении. Рассмотрим одну из пар представлений, в которой отдельные слова текста, представленные на нижнем уровне пары, на следующем уровне объединяются в предложения текста. При этом элементы нижнего уровня - слова - являются носителями лексической компоненты значений текстовых единиц, а предложения с купюрами вместо корневых основ, составленные из этих слов (без конкретного наполнения значением слов) - носителями грамматической компоненты значений.

В многомодальной модели мира словам соответствуют события, а предложениям -сцены.

Для простоты анализа, вместо формирования флективной структуры предложения анализируется частота попарной встречаемости слов (корневых основ) в предложении. Считается, что слова из текста, встречающиеся с другими в рамках одного предложения, связаны с ними. При объединении обоих текстовых компонент (слов и их попарных связей) в единое представление формируется сеть, вершинами которой являются носители лексических значений корневые основы, а связи между ними являются носителями грамматических значений.

Сформированное первоначально статистическое представление текста - сеть слов с их связями - является лишь частотным портретом текста. Перенормировка сети с помощью итеративной процедуры, аналогичной алгоритму сети Хопфидда позволяет перейти от частотного портрета текста к ассоциативной сети ключевых понятий текста:

»',(' + !) = /(^ и',,-»') (0, ) = /(£ (Ои-д) (22)

М да

здесь »'.(О) = 1пг,; н1,,- = Iг^ и /(з) = <т(з) = \/(1 + е~>3), где z¡ - частота встречаемости / -го слова в тексте, — частота совместной встречаемости /' -го и ) -го слов в фрагментах текста.

В результате такой перенормировки меняются первоначальные числовые характеристики слов. Слова, которые в сети связаны со словами с большим весом, в том числе через промежуточные слова, в результате такой процедуры повышают свой вес, вес остальных слов равномерно уменьшается. Полученная числовая характеристика слов - их смысловой вес - характеризует степень их важности в тексте.

Ассоциативная сеть может быть сформирована, как для отдельного текста, так и для множества текстов. Это множество текстов может охватывать одну предметную область или соответствовать нескольким предметным областям. Ассоциативная сеть, построенная в результате такой обработки, будет содержать основные понятия предметных областей и связи между ними, ранжированные некоторыми числовыми значениями. Причем, для каждого понятия сети его ближайшие соседи являются его семантическими признаками.

Такое сетевое представление может автоматически разбиваться на подсети, относящиеся к различным предметным областям. Для этого пороговым преобразованием устраняются некоторые несущественные связи, и тогда целостная сеть разбивается на несколько подсетей, объективно содержащих понятия, характерные для соответствующих предметных областей.

Совершенно ясно, что если такая сеть соответствует некоторой предметной области, и если ассоциативная сеть некоторого текста вкладывается в ассоциативную сеть этой предметной области (пересекается с ней), можно говорить о том, что указанный текст относится к данной предметной области (пересекается с ней).

В пятой главе описываются программные приложения, реализованные на основе нейросетевой технологии. В том числе, были реализованы системы анализа текстов, распознавания речи и распознавания изображений рукописных сим-

волов. Особенностью реализаций является единый подход к обработке информации. Во всех случаях существенно различаются только способы первичной обработки информации, которые определяются типом выбранной модальности.

На основе нейросетевой технологии, разработанной автором, Научно-производственным инновационным центром «Микросистемы», г. Москва было разработано семейство программных продуктов для автоматического смыслового анализа текстовой информации TextAnalyst Система реализована как инструмент для автоматического формирования баз знаний на основе множества естественноязыковых текстов. Ядро системы выполнено как программный компонент (inproc server), соответствующий спецификации Component Object Model (СОМ) фирмы Microsoft

Ядро системы реализует следующие функции: нормализацию грамматических форм слов и вариаций словосочетаний, автоматическое выделение базовых понятий текста (слов и словосочетаний) и их взаимосвязей с вычислением их относительной значимости, формирование представления семантики текста (множества текстов) в форме семантической сети.

В состав ядра системы, помимо блока первичной обработки, входят следующие блоки: лингвистический процессор, блок выделения понятий текста, блок формирования семантической сети, блок хранения семантической сети.

Блок выделения ключевых понятий предметной области (слов и словосочетаний) создан на базе программной модели иерархических структур из ДАЗУ и реализует алгоритмы автоматического формирования частотного словаря текста. Число уровней ДАЗУ в иерархической структуре определяет априорно заданную максимально допустимую длину понятия предметной области и равняется двадцати.

Блок формирования семантической сети реализован как база данных, в которой представляются семантические связи понятий предметной области. Поскольку типы семантических связей в системе не определяются, такие связи представляют собой просто ассоциативные связи. В качестве критерия для определения наличия семантической связи между парой понятий используется частота их совместной встречаемости в одном предложении.

На основе результатов работы модуля индексации реализованы следующие функции обработки текстовой информации. Функции формирования гипертекстовой структуры, навигации по базе знаний, формирования тематического дерева, реферирования текстов, автоматической кластеризации множества текстов, сравнения текстов (автоматической классификации текстов). Наконец реализована функция формирования ответа на смысловой зарос пользователя - формирования тематического реферата.

Реализованная система анализа текстовой информации является удобным интерфейсом для представления электронных книг, а также и инструментом для их создания. Она была использована для создания электронных книг и периодических изданий.

Описана также реализованная система распознавания речевых единиц (слогов, слов), произносимых с паузами, с настройкой (обучением) на конкретного диктора, в которой для создания подсистемы представления эталонов была использована программная модель ДАЗУ. Система распознавания речи была реализована на персональной ЭВМ в веде системы диктовки для ввода информации с

голоса в текстовый редактор. Данная работа была поддержана Министерством науки и технологий РФ.

Система в составе двух программных модулей - модуля предобработки речевого сигнала и модуля эмуляции иерархии из ДАЗУ имеет два режима работы - обучение (формирование эталонов) и распознавание. Структура системы распознавания речи включает в свой состав аналого-цифровой преобразователь, блок вычисления быстрого преобразования Фурье, блок, реализующий перцептивное сглаживание спектра, блок вычисления автокорреляционной функции, блок линейного предсказания, блок вычисления кепстральных коэффициентов, общий регистр сдвига нейроподобных элементов ДАЗУ, а также блок оценки.

Для уменьшения количества коррелированной информации и вариативности описания речевого сигнала в системе использована априорная информация о процессе порождения речевого сигнала и о психоакустических особенностях восприятия речи человеком. Для получения первичного описания речевого сигнала использован метод так называемого перцептивного линейного предсказания.

Полученные в процессе первичной обработки векторы параметров далее используются при обучении для формирования фонетической базы данных. Для этого в процессе распознавания векторы параметров подвергаются процедуре автоматической классификации. Для классификации используется нейронная сеть Кохонена. Указанный метод классификации инвариантен по отношению к содержимому векторов. Точность классификации определяется количеством нейронов выходного слоя и количеством итераций, т.е. величиной обучающей выборки.

С помощью сети Кохонена происходит преобразование звуковой волны в акустический текст. При обучении сети используется фонетически сбалансированный текст, зачитанный разными дикторами. В данном случае для обучения использовался фонетически сбалансированный текст, зачитанный одним диктором. Каждое значение вектора параметров кодируется двухбуквенным сочетанием. Это удобно для нейросетевой обработки, описанной в разделе 4.1, а также для простоты визуальной интерпретации полученных результатов. Выходом этого этапа обработки является множество векторов параметров, расклассифицированное по разделам кодовой книги.

Формирование фонетической базы данных (формирование системы кластеров) происходит в полуавтоматическом режиме с помощью программы Тех-1Лпа1у5!. В этом случае Тех1Лпа1у51 реализует квази-синтаксический подуровень, который интерпретирует связи квази-слов во входном акустическом тексте в рамках его устойчивых фрагментов, а также позволяет отнести некоторый фрагмент входного сообщения к определенному классу фрагментов.

Выделение ключевых фрагментов осуществляется на базе программной модели иерархической структуры из ДАЗУ, и реализует алгоритмы автоматического формирования частотного словаря акустического текста. Число уровней ДАЗУ в иерархической структуре определяет априорно заданную максимально допустимую длину фрагментов и равняется двадцати.

После выбора классифицируемых элементов речи (фонемы, субфонемные элементы, слоги, слова и пр.) дальнейшая обработка речи носит универсальный характер.

Формирование эталонов слов для дикторозависимого режима работы системы распознавания речи подразумевает сохранение эталонных реализаций в

параметрической форме. Формирование эталонов происходит в соответствии с выбранным сценарием обучения системы. В режиме распознавания использовались алгоритм динамического программирования и алгоритм локального поиска.

Наиболее полное применение изложенной выше теории может быть проиллюстрировано на примере реализованной системы распознавания символов. Рассмотренное на примере распознавания типографских символов, это представление может быть использовано и для распознавания изолированно написанпых рукописных символов. В краткой постановке задача распознавания символов вы: глядит следующим образом. Исходной информацией для системы являются полутоновые изображения символов* введенные в компьютер со сканера, или с цифровой фотокамеры.

Система распознавания символов включает в свой состав светочувствительную матрицу, блок предварительной обработки, два блока представления информации, состоящих из ДАЗУ (в том числе двухуровневого структурного и одноуровневого ассоциативного), а также блок принятия решения.

Введенпое изображение подвергается предобработке, целью которой является получение бинарного контурного изображения набора символов. Набор программных средств на этапе предобработки стандартен — улучшение качества изображения, масштабирование, фильтрация, бинаризация, выделение контура, сглаживание.

Далее следует этап переописалия, то есть представление исходного изображения символа в виде последовательности кодов, удобных для обработки в структуре из ДАЗУ. Переописание реализуется с помощью кодирования цепным кодом Фримена (или его разновидностей). Код Фримена позволяет представить процедуру обхода контура изображения в виде последовательности кодов направлений перехода.

В системе распознавания символов зрительный образ символа описывается в виде двух представлений: образного и структурного. Соответственно, имеется два канала обработки: грубый, обрабатывающий изображение образа целиком, и точный, обрабатывающий образы фрагментов и структурные описания символов.

Цепочки кодов, описывающие сжатое изображение, в режиме обучения подаются с выхода грубого канала на гребенку ДАЗУ грубого канала, где каждому символу предназначено свое ДАЗУ (в случае вариантов изображения одного и того же символа число ДАЗУ в гребенке увеличивается). С выхода точного канала цепочки кодов изображения, представленного с большим разрешением, поступают на блок структурной обработки, состоящий из гребенок ДАЗУ двух уровней, где осуществляется структурная обработка изображения. В результате обработки на нижнем уровне формируется словарь статистически достоверных фрагментов изображений символов, каждый из которых записан в отдельном ДАЗУ. При этом выделепные фрагменты припадлежат пе какому-либо одному символу, а могут входить в описание нескольких из них. На верхнем уровне формируется словарь структурных описаний символов, характеризующих последовательность объединения фрагментов символов в их изображениях. Структурное описание каждого символа также записывается в отдельном ДАЗУ.

Таким образом, описание объекта представлено одновременно в образной форме в ДАЗУ грубого канала и в структурированной форме в блоке структурного описания.

В шестой главе описано аппаратное решение задачи хранения, упорядочения и ассоциативного поиска информации на основе иерархии из ДАЗУ. Для этого реализован аппаратно, в виде сверхбольшой интегральной схемы (СБИС), модуль ассоциативной адресации - гребенка нейроподобных элементов. Основная особенность аппаратной реализации нейронной сети заключается в том, что обработка информации в ней происходит параллельно и распределенпо. Каждый ней-роподобный элемент отдельно и независимо обрабатывает приходящую на него информацию. В отличие от существующих вычислительных средств такая аппаратная реализация является весьма простой и эффективной по управлению, поскольку ее модули являются систолическими массивами, то есть они управляются потоком информации. Управление сводится к одновременной подаче входной последовательности на общий для всех нейроподобных элементов ДАЗУ вход. Кроме того, такая вычислительная среда устойчива к повреждениям: выход из строя одного нейроподобного элемента не влияет на другие. И, наконец, - не требуется написания универсальной и специальной математики для симуляции обработки, или требуется значительно меньше.

СБИС нейрочипа была спроектирована в базисе библиотеки стандартных элементов матричного кристалла и изготовлена на базовом матричном кристалле 1592ХМ1 разработки ОАО «Ангстрем» г. Зеленоград.

На основе разработанного нейрочипа осуществлена разработка и создание модуля наращиваемой и каскадируемой ассоциативной памяти в составе блока связи с управляющим компьютером, блока ассоциативного запоминающего устройства, блока запоминающего устройства и контроллера динамического ОЗУ.

Описана также реализация ассоциативной памяти с использованием стандартных микросхем памяти, адресуемой по содержанию (Content Addressable Memory). В отличие от ассоциативной памяти, реализованной с использованием описанного выше нейрочипа, реализация на основе стандартных САМ больше похожа на прототип: каждая ячейка САМ снабжена собственным регистром адреса. Размерность моделируемого пространства соответствует длине регистра адреса. Запись в такую память осуществляется отдельными событиями, которые записываются в отдельные ячейки, как в случае записи информации в колонках коры -отдельное слово в отдельную колонку.

Описано также изменение конструкции микросхемы САМ, для того чтобы можно было их использовать для мягких вычислений (анализа зашумленной информации). Для этого необходимо ввести в микросхему САМ аппаратное вычисление числа совпадающих (или несовпадающих) разрядов. Для этого достаточно добавить в каждый разряд адресного регистра САМ компаратор, один, общий на ячейку, аддитивный сумматор, и осуществить поразрядное сравнение с суммированием результата.

В заключении кратко изложены результаты диссертационной работы.

Основные результаты и выводы.

1. Проведен анализ существующих подходов к обработке информации различных модальностей с целью извлечения ключевой информации для представления пользователю. Предложен структурный подход к обработке информа-

ции с ассоциативным доступом, базирующийся на использовании больших баз знаний как реализующий единообразное эффективное представление и обработку информации.

2. Проведен анализ современного состояния научной области, связанной с обработкой информации разных модальностей, а также семантической и прагматической информации. В результате этого анализа предложена замена моделей интеллектуальных процессов моделям интеллектуальных процессоров для обработки информации.

3. На основе анализа существующих интеллектуальных систем предложено использование структурных нейросетевых методов для интеграции представления и обработки ипформации различных модальностей, а также падмодаль-ной семантической и прагматической информации.

4. Предлагается использование одного класса искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов для представления произвольной информации в многомерном сигнальном пространстве.

5. Предлагается метод обработки информации, имеющей многоуровневую временную структуру, с помощью динамических искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов.

6. Предлагается создание системы источников знаний верхних уровней разных модальностей с использованием однородного ненросетевого представления информации, что позволяет легко интегрировать информацию всех уровней е процессе припятия решения.

7. Предлагается интерпретация информационных процессов в нейросетевых структурах в виде операций на графах.

8. Предложен формализм динамических нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов, интерпретирующий обработку и представление двоичной, внутренне структурированной, информации в сигнальном пространстве искусственной нейронной сети, в том числе, ее запоминание, стохастическую обработку (с автоматическим структурированием внутреннего представления), воспроизведение и распознавание. Топология сигнального пространства, моделируемого искусственной нейронной сетью, устойчива к разрушению представленной в нем информации. Искусственная нейронная сеть реализует гетероассоциативное запоминание - запоминание информации в ассоциации с несущей последовательностью. Если информационная и несущая последовательности тождественны, имеется автоассоциативное запоминание. Введение в искусственную нейронную сеть механизма учета статистических свойств информации наряду с нелинейным преобразованием позволяет восстанавливать с его помощью словарь элементов внутренней структуры информационной последовательности. Искусственная нейронная сеть со сформированным в ней словарем элементов позволяет фильтровать новую информацию в потоке старой, формируя, таким образом, информацию о связях слов словаря.

9. Предложен способ представления семантической и прагматической информации с помощью многоуровневой иерархии из ДАЗУ.

10. Предлагается деление единого сетевого семантического представления; на семантику и прагматику по динамическому принципу. Все понятая объединяются в ассоциативную сеть - модель мира - на которой конкретные ситуации

высвечивают им соответствующие прагматические конфигурации - фреймовые структуры.

11. Предлагается структура модели мира на основе текстового представления в виде ассоциативной сети, которая содержит основные понятия предметных областей и связи между ними, ранжированные числовыми значениями.

12. Для представления семантической информации предложена иерархия ассоциативных сетей, в которой на самом верхнем уровне представлены объекты — события и ситуации - в их взаимосвязях, уровнем ниже представлены, также в сетевом виде, модели мира отдельных объектов, которые, в свою очередь, являются двухуровневыми сетями, связанными генетивными отношениями.

13. Предлагается интерпретация состава и процесса обработки зрительной информации в зрительной системе человека.

14. Предлагается методика формирования многоуровневого представления языковых знаний системы распознавания речи.

15. Предложена ассоциативная память на основе нейроподобных элементов с временной суммацией входных сигналов, в которой одним из основных свойств является ассоциативное воспроизведение с динамическим формированием адреса (динамическое ассоциативное запоминающее устройство) - ассоциативный процессор с памятью. Динамическое ассоциативное запоминающее устройство моделирует n-мерный единичный гиперкуб.

16. Предложена многоуровневая иерархия из ДЛЗУ для структурной обработки информации. Объединение многоуровневых структур, обрабатывающих информацию разных модальностей, позволяет создать многомодальное семантическое представление.

17. Представлена реализованная автором система TextAnalyst для структурного анализа текстов с целыо извлечения ключевой информации.

18. Представлена реализованная автором система распознавания изолированно произносимых речевых команд ограниченного словаря.

19. Представлена реализованная автором система распознавания изображений символов.

20. Предложено унифицированное базовое аппаратное обеспечение нейронных сетей на базе реализованной интегральной схемы адресной части ней-роподобного элемента.

21. Предложена аппаратная реализация модуля ассоциативной памяти с использованием стандартных микросхем памяти, адресуемой по содержанию (Content Addressable Memory).

Список публикаций по теме диссертации

1. А.С. N 1179389 (СССР) Устройство для моделирования нейрона. /Харламов А.А., Усманов А.Х. Заявка N 3751440 от 29 марта 1984г. Опубликовано 15 августа 1985г. МКИ G 06 g 7/60

2. А.С. N 1305732 (СССР) Устройство для моделирования нейронных сетей. /Харламов А.А., Усманов А.Х., Воронов И.В., Богомолов Г.В. Заявка N 3999328 от 27 декабря 1985г. Опубликовано 22 декабря 1986г. МКИ G 06 g 7/60

3. Волков В Н., Жаркой P.M., Харламов А.Л. Модель ассоциативной системы машинного зрения. Приборостроение. Вестник Московского государственного технического университета, N 9-10. 1994. Стр. 31-33

4. Харламов A.A. Ассоциативный процессор на основе нейроподобных элементов для структурной обработки информации. Информационные технологии, N 8,1997. Стр. 40-44

5. Харламов A.A. Динамические рекуррентные нейронные сети для представления речевой информации. Информационные технологии, N 10, 1997. Стр. 16-22

6. Харламов А. А. Нейроподобные элементы с временной суммацией входного сигнала и блоки ассоциативной памяти на основе этих элементов. //Вопросы кибернетики. Устройства и системы. Под ред. H.H. Евтихиева. - М.: МИРЭА, 1983. Стр.57 - 68

7. Харламов A.A. Нейросетевая технология представления и обработки информации (естественное представление знаний). - М.: «Радиотехника», 2006. - 89 с.

8. Харламов A.A. Семантическая сеть для интеллектуальной системы на основе иерархической структуры из динамических нейронных сетей с опорой на зрительный и слуховой анализаторы. /"Интеллектуальные системы. Труды Второго международного симпозиума". Под ред. К.А. Пупкова. Том 2. - С.-Петербург, 1996. Стр. 201-208

9. Харламов A.A. Статические и динамические нейронные сети на примере задачи распознавания образов. Приборостроение. Интеллектуальные системы автоматического управления, N 1,1991. Стр. 58 — 66

10. Харламов АЛ. Физически реализованное многомерное сигнальное пространство — эффективная среда для структурированного хранения и ассоциативного поиска информации Искусственный интеллект, № 4, 2005. Стр. 393-402

11. Харламов A.A. TextAnalyst - оболочка для электронного учебника //Обучение в компьютерной среде. - М.: Московский государственный открытый педагогический университет им. М.А. Шолохова. Институт информатизации образования, 2002. Стр. 55-62

12. Харламов A.A., Аллахвердов С.А., Искусственная нейронная сеть для структурного анализа информации на основе микросхем памяти, адресуемой по содержанию. Информационные технологии, N 5,2007г. С. 27 -33

13. Харламов A.A., Аллахвердов С.А., Самаев Е.С. Нейрочип - нейроподоб-ный элемент с временной суммацией входных сигналов - элемент нейронной сети для структурного анализа информации. «Нейрокомпьютеры: разработка, применение», N 2,2003. С.

14. Харламов A.A., Ермаков А.Е. Динамическая нейронная сеть для распознавания речевых сигналов. Системы управления. Вестник Московского государственного технического университета, N 1.1998г. Стр. 93 -101

15. Харламов A.A., Ермаков А.Е. Распознавание речи па основе динамических нейронных сетей, управляемых механизмом внимания. Информационные технологии, N 9,1997г. Стр. 22 - 27

16. Харламов A.A., Ермаков А.Е., Кузнецов Д.М. Технология обработки текстовой информации с опорой на семантические представления на основе иерархических структур из динамических нейронных сетей, управляе-

мых механизмом внимания. Информационные технологии, N 2, 1998. Стр. 26-32

17. Харламов A.A., Ермаков А.Е., Кузнецов ДМ. TextAnalyst - комплексный нейросетевой анализатор текстовой информации. Вестник МГТУ им. Н.Э. Баумана. N 1, 1998г. Стр. 32-36

18. Харламов A.A., Ермаков А.Е., Кузнецов Д.М., Блощипский Ю.М., Колосов А.И. Система для автоматической смысловой обработки текстов на основе нейросетевой технологии "TEXTANALYST FOR LOTUS NOTES". Информационные технологии, N 10, 1999. Стр. 27-29

19. Харламов A.A., Жаркой P.M., Волков В.И., Мацаков Г.Н. Система распознавания изолированных рукописных символов на основе иерархической структуры из динамических ассоциативных запоминающих устройств. //Информационные технологии, N 5, 1998. Стр. 27 - 31

20. Харламов A.A., Кнеллер Э.Г. Распознавание ключевых слов в потоке слитной речи на основе нейросетевых технологий. Нейрокомпьютеры. Разработка и применение. № 8-9,2005г. Стр. 88 - 97

21. Харламов A.A., Кушнир Д.А. Распознавание речи в базисе многомерного сигнального пространства. Информационные технологии, N 5, 2005г. Стр. 31 -36

22. Харламов A.A., Рябов Г.Н. Использование сигмоидной функции в нейро-подобных элементах с временной суммацией входных сигналов в составе динамической нейронной сети. Информационные технологии, N 10, 1998г. Стр. 22-26

23. Харламов A.A., Самаев Е.С., Кузнецов Д.М., Джураев Э.Ш. Система обнаружения утечки информации в электронной форме. Нейрокомпьютеры. Разработка и применение, № 12,2002г., 2001г. Стр. 53 - 61

24. Харламов A.A., Самаев Е С., Джураев Э.Ш., Сухоносенхо КВ. Фильтрация текстовой информации с помощью нейросетевых алгоритмов. Информационные технологии, N 3,2003г. Стр. 9-13

25. Харламов A.A., Самаев Е.С., Рябов Г.Н. Многомодальные семантические представления на основе нейронных сетей. Информационные технологии, N4,2001г. Стр. 12-17

26. Kharlamov A.A. Attention Mechanism Ussage to Form Frame-Structure on a Semantic Net. /"Neurocomputers and Attention. Volume II: Connectionism and Neurocomputers". Eds. Arun V.Holden, Vitaly I. Kryukov. -Manchester: Manchester University Press, 1991

27. Kharlamov A.A., Raevsky V.V. Networks constructed of neuroid elements capable of temporal summation of signals. /In "Neural Information Processing: Research and Development", Jagath C. Rajapakse and Lipo Wang, Editors, Springer-Verlag, May, 2004, ISBN 3-540-21123-3. Стр. 56-76

Личный вклад автора диссертации во всех публикациях с соавторами является определяющим.

Подписано в печать:

20.03.2009

Заказ № 1787 Тираж -100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru