автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве

кандидата технических наук
Марлов, Александр Владимирович
город
Москва,Воронеж
год
2004
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве»

Автореферат диссертации по теме "Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве"

На правах рукописи

Марлов Александр Владимирович

ЛОГИКО-ЛИНГВИСТИЧЕСКИЙ ИНТЕГРАТОР РУССКОЯЗЫЧНЫХ ТЕКСТОВ для ИНФОРМАЦИОННОЙ СИСТЕМЫ В СТРОИТЕЛЬСТВЕ

Специальность 05.13.01 - системный анализ, управление и обработка информации (промышленность)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Воронеж - 2004

Работа выполнена в Московском инженерно - физическом институте (государственном университете) и муниципальном образовательном учреждении Воронежский экономике - правовой институт

Защита состоится « 13 » октября 2004 г. в Ю00 часов на заседании диссертационного совета К 212.033.01 при Воронежском государственном архитектурно-строительном университете по адресу:

394006, г. Воронеж, ул. 20-летия Октября, 84, ауд. 20, корп. 3.

С диссертацией можно ознакомиться в библиотеке Воронежского государственного архитектурно-строительного университета.

Автореферат разослан «/И» сентября 2004 г.

Научный руководитель - кандидат технических наук, доцент

Горбатов Сергей Викторович Научный консультант - кандидат технических наук

Морозов Владимир Петрович

Официальные оппоненты: доктор физико-математических наук,

профессор Головинский Павел Абрамович;

кандидат технических наук, доцент Богданов Дмитрий Александрович

Ведущая организация -

Институт точной механики и вычислительной техники им. С .В .Лебедева РАН

Ученый секретарь диссертационного совета

- ч

/ш?

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Значительный рост объёмов текстовой информации, в строительстве обуславливает повышенный интерес к разработке систем, позволяющих автоматизировать процесс её (информации) обработки и анализа. Автоматизированные системы, решающие подобные задачи относятся-к классу интеллектуальных. Их анализ позволил выявить следующие особенности:

- наработки в области проектирования подобных систем в строительстве отсутствуют;

- из-за высокой стоимости программного обеспечения и сложности требуемой лингвистической технологии, их разработка в других предметных областях носит фрагментарный характер и ограничивается простыми решениями в ущерб качеству и эффективности;

- из-за особенностей русского языка аналогичные иностранные системы, разработанные для других системных областей удовлетворительно работающие с английскими текстами (как наиболее развитые), не позволяют обеспечить требуемый уровень качества при работе с текстами на русском языке.

Таким образом, актуальность темы диссертационной работы продиктована, с одной стороны, необходимостью автоматизации процессов обработки русскоязычной текстовой информации в строительстве и, с другой стороны, отсутствием в настоящее время математического и программного обеспечения, позволяющего такую обработку реализовать в пределах заданного времени с приемлемым качеством.

Работа выполнена в рамках научно- технической программы «Разработка методов проектирования и создания новых информационно-управляющих и телекоммуникационных систем.» Министерства образования.

Цель и постановка задач исследования. Целью диссертационной

работы является разработка математического и программного обеспечения информационной системы фрагментарного логико-лингвистического интегрирования русскоязычных текстов в предметной области строительства.

Достижение указанной цели предполагает решение следующих основных задач:

- анализ существующего методического обеспечения и технических средств обработки текстовой информации в строительстве или других предметных областях с целью выбора из них наиболее эффективных по точности и оперативности для использования их в качестве базовых при проведении диссертационных исследований;

- разработка модели формализации текстовой информации в строительстве;

- разработка системы моделей и алгоритмов рубрицирования текстовой информации в строительстве;

- разработка системы моделей и алгоритмов, обеспечивающих руб-рицирование информации и извлечение дополнительных данных из семан-тическй взаимосвязанных текстов применительно к области строительства;

- разработка автоматизированного рабочего места извлечения дополнительной информации из семантически взаимосвязанных текстов в строительстве.

Методы исследования. В работе использованы методы теории математического моделирования, системного анализа и нейронных сетей, булевой алгебры, теорий распознавания образов, графов, лингвистики и многоуровневых иерархических систем, а также теории проектирования и разработки автоматизированных информационных систем.

Научная новизна. В диссертационной работе получены следующие результаты, характеризующиеся научной новизной:

- модель семантического анализа русскоязычных текстов в области строительства, отличающаяся фрагментарным представлением текста в

! • ' / I . , /

• * ,

<

виде фрейм - сценариев, позволяющая повысить оперативность обработки информации за счёт реализации параллельного способа обработки информации и оперирования, как отдельными предложениями, так и законченными в смысловом отношении, фрагментами;

- полиномиальная нейросетевая модель классификации семантически однородных фрагментов русскоязычного текста в области строительства, основанная на расширенном перечне классифицирующих признаков, учитывающих ассоциативные связи между предложениями и модифицированной технологии моделирования, обеспечивающая более компактное представление формализуемого текста и более точное определение смысла, как отдельных его фрагментов, так и в целом;

- комплекс взаимосвязанных моделей и алгоритмов рубрицирования текстов в строительстве и извлечения из них дополнительной информации, основанный на методах логико-лингвистической обработки данных, позволяющий повысить достоверность получаемых результатов (рубрицирования и извлечения дополнительной информации);

- элементы специального программного обеспечения, реализующего процедуры формализации текстовой информации и комплекс моделей и алгоритмов её обработки, обеспечивающие повышение оперативности извлечения дополнительной информации из семантически взаимосвязанных текстов применительно к области строительства.

Достоверность научных результатов. Научные положения, теоретические выводы и практические рекомендации обоснованы корректным использованием математического аппарата, подтверждены вычислительными экспериментами на ЭВМ и внедрением полученных результатов в практическую деятельность.

Практическая значимость и результаты внедрения. В рамках диссертационного исследования разработано математическое, алгоритмическое и программное обеспечение автоматизированного рабочего места анализа русскоязычных текстов, содержащее фрагментарный логико-

лингвистический интегратор, апробированное на примере предметной области строительства.

Разработанное автоматизированное рабочее место, на примерах из области строительства, показало высокую эффективность обработки текстов, что подтверждено результатами численного исследования и актами внедрения.

Результаты поведенных исследований были использованы в интересах автоматизации деятельности аналитического отдела Департамента имущества города Москвы, при выполнении плановых научно-исследовательских работ в Государственном научно-исследовательском институте проблем технической защиты информации (г. Воронеж), институте точной механики и вычислительной техники им. С.А. Лебедева РАН (г. Москва).

На защиту выносятся;

- модель семантического анализа русскоязычных текстов в строительстве с фрагментарным представлением текста в виде фрейм сценариев;

- полиномиальная нейросетевая модель классификации русскоязычных текстов в строительстве;

- комплекс взаимосвязанных моделей и алгоритмов рубрицирования русскоязычных текстов в строительстве;

- алгоритм извлечения дополнительной информации из семантически однородных фрагментов русскоязычного текста в области строительства.

Апробация работы. Материалы диссертационной работы, её основные положения и результаты доложены и обсуждены на международных и всероссийских конференциях: «Информационная безопасность» (Таганрог - 2003 г.); «Проблемы информационной безопасности в системе высшей школы» (Москва 2002-2004); «Методы и технические средства обеспечения безопасности информации» (Санкт-Петербург - 2003 г.), а также на научной сессии МИФИ (2004 г.).

Публикации. По теме диссертации 13 печатных работ, из них 2 ра-

боты выполнены самостоятельно. Личный вклад автора в работах, опубликованных в соавторстве, состоит в следующем: в [3] автором разработана модель семантического анализа русскоязычных текстов; в [4] автором предложен подход к обучению тематических рубрик; в [5] автором разработана модель классификации русскоязычных текстов, основанная на полиномиальной нейронной сети; в [6] автор разработал алгоритм фрагментарной обработки сетевого графа применительно к системе телефонной связи; в [7, 8] автором предложена система взаимосвязанных моделей и алгоритмов обработки текстовой информации применительно к сейсмическому мониторингу; в [9] автор разработал алгоритм извлечения дополнительной информации из семантически однородных фрагментов русскоязычного текста в строительстве; в [10, 11] автором описан комплекс взаимосвязанных моделей и алгоритмов рубрицирования русскоязычных текстов; в [12] автором разработана модель семантического анализа русскоязычных текстов основанная на фрейм - сценариях; в [13] автором обоснована целесообразность использования в качестве идейной основы для разработки информационно-аналитических систем категоризации лексики, впервые предложенной И.Ныотоном.

Объём и структура работы. Диссертация состоит из введения, четырёх глав, заключения, списка литературы и 7 приложений. Работа содержит 148 стр. текста, включает 39 рисунков и 8 таблиц. Список используемой литературы включает 141 наименование.

Содержание работы Во введении обосновывается актуальность темы диссертационного исследования, формулируются цель и задачи исследования, определяется научная новизна и практическая значимость.

В первой главе дан обзор и проведен анализ существующего методического обеспечения и технических средств обработки текстовой информации; выявлена необходимость использования для лингвистического

л

обеспечения интегратора русскоязычных текстов в области строительства, категоризации лексики; обоснована целесообразность проведения формализации информации в строительстве в соответствии с семантической моделью, основанной на смысловых отношениях между словами, обеспечивающую более адекватную передачу смысла текста, по сравнению с другими моделями; сформулирована математическая постановка общей научной задачи; обоснованы частные задачи исследований.

Математическая постановка основной задачи формулируется так.

Задано множество тематически разнородных текстов. Известен комплекс технических средств автоматизации Тех = Тех^ и общее программное обеспечение Рг — Рг^. Необходимо повысить точность и полноту извлечения дополнительной текстовой информации из множества семантически связанных текстов в области строительства на основе поиска приемлемых моделей представления текстовой информации Мт и построения данных М0, использования рациональных алгоритмов рубрицирования (определения семантически взаимосвязанных текстов) Аг и извлечения дополнительной информации из семантически связанных между собой текстов А,„, а также разработки и использования специального программного обеспечения Р„. При этом время решения данной задачи Тп (оперативность) не должно превышать заданное время

Начальный этап решения данной задачи предполагает разработку модели формализации текстовой информации.

Во второй главе рассматривается формализация и семантический анализ текстовой информации в строительстве. Для формализации предложения текста используется граф синтаксического подчинения (рис.1).

ке(Мт, М0,АГ,А^, Рг, РГо, Тех, Т0) -» тах

(1)

(2)

(3)

В вершинах данного графа находятся операции алгебры логики, обрабатывающие значения предметных переменных (лексемы). Семантический анализ текста преобразует граф синтаксического подчинения в семантическую сеть. Для жёсткой фиксации смысловых отношений объектов и ситуаций проблемной среды и их свойств в семантическую сеть включены фреймы. Пример фрейм-описания комнаты приведен на рис. 2.

Рис. 2. Фрейм-описание комнаты Симбиоз семантической сети и фреймов обеспечил представление

текста в виде множества упорядоченных цельных понятий - «семантических сгустков», что позволило при обработке текстовой информации в строительстве оперировать не только словами (словосочетаниями), но и отдельными блоками информации, тем самым, повысить ее (обработки) оперативность.

При проведении классификации (рубрицировании) текстов использован ассоциативный метод порождения текста. В формализованном виде модель ассоциативной семантической сети представляется следующим образом:

(4)

где р(]'\0 ~ Юу - условная вероятность появления}- го понятия в смысловой связи с /-м, а N - количество элементов сети. В результате приведенных выкладок показано, что процесс порождения текста описывается как марковский процесс первого порядка. Получаемая результирующая оценка имеет вид:

р0\0= £ р(у\С1(0)/ £ 2 ,а>/0-1]]/ £ (5)

где £2(/)-(<и,(0)- набор понятий, входящих в предложение; 1..Т - порядковый номер предложения в тексте. Выражение в знаменателе - частота встречаемости понятия в тексте, а выражение в числителе - частота совместной встречаемости понятий в предложениях текста, нормированная с учетом количества понятий по каждому из предложений. Реализация данного метода на практике потребовала исключения общеупотребимых, так называемых «стоп-слов». Для повышения устойчивости оценки (исключения множителей близких к нулю), в результирующем выражении проведена замена ряда произведений суммами с соответствующими поправочными коэффициентами.

Разработанная модель формализации текстовой информации обеспечивает получение в масштабе времени близком к реальному исходных данных для решения следующей частной задачи, связанной с рубрициро-ванием текстов в предметной области строительства и извлечением дополнительной информации в случае их семантической близости.

В третьей главе представлено описание системы моделей и алгоритмов, обеспечивающих рубрицирование текстов в строительстве по критерию семантической взаимосвязанности и извлечение из них дополнительной информации (рис. 3).

-Разработанные модели и алгоритмы---Модифицированные алгоритмы

....... Заимствованные алгоритмы

Рис. 3. Структурная схема взаимосвязанной по «входу-выходу» системы моделей и алгоритмов руорицирования текстов и извлечения из них дополнительной информации

Алгоритм графематической обработки текста представляет исходную текстовую информацию в виде множества отдельных предложений и абзацев.

Алгоритм морфологического анализа текста обеспечивает построение для каждой словоформы предложения списка триад (х, у,г), где х -лемма, у - морфологическая часть речи, а ъ - подсписок значений грамматических признаков (граммем), определяющих данную словоформу. Модификация данного алгоритма заключалась в комплексировании декларативного и процедурного методов морфологического анализа, что позволило повысить его быстродействие. В рамках данного алгоритма разработан грамматический справочник для области строительства, состоящий из 1289 правил.

Алгоритм фрагментационной обработки текста выделяет в предложениях неразрывные единства (фрагменты) которые больше или равны словосочетанию с целью повышения эффективности проведения синтаксического анализа текста.

Особенностью алгоритма синтаксического анализа, предложенного в работе, является использование двух методов объединения предложений в структуры, в частности системы составляющих и дерева зависимостей. В результате формируются структуры предложений, характеризующие не только выделенные группы слов, но и связность как слов внутри групп, так и групп между собой. Это позволило повысить достоверность и оперативность проведения синтаксического анализа и, как следствие повысить качество последующего семантического анализа.

Модель семантической обработки текста обеспечивает формирование семантической сети - совокупности взаимосвязанных слов и словосочетаний, несущих основную смысловую нагрузку и наиболее часто встречающихся в тексте. На начальном этапе проведения семантического анализа синтезируется множество возможных графов и деревьев образованных, исходя из морфологии и синтаксиса используемых слов в предложениях. После чего осуществляется их оценка (расчёт веса) по четырём группам специальных параметров, наиболее важными из которых являются: проективность - число отношений, не нашедших проверку по семантическим характеристикам; число актантов, нарушающих заданный статьёй порядок; число валентностей, заполненных значениями стандартных лексических функций; число узлов, подчиняющих оборот типа «друг-друга», не имеющих другого актанта во множественном числе и др. Величина общего веса, расчитанного аналитически, характеризует качество дерева. Чем больше вес, тем качество дерева хуже. Результирующие семантические структуры, по форме, представляют собой наборы заполненных таблиц локальной базы данных, в частности семантическая структура, построенная для предложения: «Дом Туманова стоял на бугре.» будет иметь вид:

ПРИНАДЛ (Туманов, дом) П-АКТ (дом, стоял) ЛОК (бугре, стоял)

Для представления совокупности узлов семантической сети, "жёстко" фиксирующих определённые сущности рассматриваемой предметной области в модели впервые использованы фрейм - сценарии. Их структура имеет вид:

= 2х,87 = 2г,...,Бк =2к)

»

где имя фрейма; - имя слота; 21 - значение слота. В качестве значений слотов выступают имена других фреймов. Это обеспечивает связь между фреймами. Фрейм - сценарии адекватно представляются строками таблиц (записями), а слоты - полями строк. Ссылки одних записей на другие, допустимые в качестве значений их полей, обеспечивают реализацию соответствующих связей между фрейм - сценариями и узлами, не представляемыми фрейм - сценариями («мягкие» узлы).

Алгоритм формирования терминологического портрета текста позволяет построить массив его статистических наиболее значимых параметров в виде вектора проранжированных весов информационных признаков (V,, где V, - вес /-го информационного признака /=/,....к данного документа, к - общее количество информационных признаков. Вес 1-го информационного признака определяется в соответствии с выражением:

где и, -количество терминов, соответствующих /- му признаку, встретив-

шихся в документе; Ы- общее число терминов документа. Вес информационного признака соответствует частоте встречаемости терминов, из которых он состоит.

Назначение алгоритма рубрицирования текста заключается в отнесении терминологического портрета к одной из рубрик в строительстве. Предварительно, на основе совокупности обучающих текстов, формируется терминологический портрет рубрики. При этом веса терминов рассчитываются в соответствии с выражением:

1 м

М т.

(7)

где Уьп - вес к-го термина в т-м тексте; /¡м- частота встречаемости к-го термина в т-м тексте; М - количество обучающих текстов; ть - число обучающих текстов, содержащих к-й термин. Решение о принадлежности текста к данной рубрике, принимается на основе значения косинуса угла между векторами их терминологических портретов. В качестве формализма для рубрицирования текстов использована нейронная сеть, при построении которой использован метод синтеза нейросетевых архитектур по многозадачному дереву решений. Процесс построения нейронной сети заключался в рекурсивном обходе сети и инициализации нейросетевого полинома N вдоль каждой её ветви. Значение, находящееся в узле, умножалось на полученный полином. После чего полиномы, соответствующие всем узлам сети суммировались. Обобщённая структура синтезированной нейронной сети приведена на рис. 4.

Рис. 4. Обобщённая структура синтезированной нейронной сети

Синтезированная нейронная сеть показала свою работоспособность и достаточно высокое быстродействие по сравнению с сетью Кохонена, использованной в качестве альтернативы. В случае принадлежности обрабатываемого текста заданной рубрике из него извлекались дополнительные данные с использованием соответствующего алгоритма.

Алгоритм извлечения дополнительных данных реализует сравнение содержания аннотированного текста с содержанием текущей информации и, в случае новизны, её вывод. При извлечении дополнительной информации использовались запросы, построенные в соответствии с алгеброй множеств вида:

(А„ и А|2 и ... и Аы) п (А„ и Аи и ... и А1п2) ... п (А„ и Ап и ... и иА1пт),

где Аху - информационный признак, по которому следует извлечь информацию, и - знак "или", п - знак "и". С помощью подобных запросов исключался семантически малоинформативный «мусор» и извлекалась только та информация, которая семантически связана с интересующими объектами.

Разработанная система моделей и алгоритмов обработки русскоязычных текстов в строительстве позволяет повысить достоверность рубри-цирования и извлечения дополнительных данных из семантически взаимосвязанной текстовой информации.

В четвёртой главе приведены результаты разработки автоматизированного рабочего места обработки текстовой информации в строительстве в интересах извлечения из неё новых данных (далее для сокращения - автоматизированное рабочее место), основанного на разработанной системе моделей и алгоритмов, и его апробации на конкретных примерах. Логическая структура автоматизированного рабочего места приведена на рис. 5, а экранная форма результирующего окна-меню вывода таблицы «Результаты рубрицирования» на рис. 6.

В качестве интегрированной среды разработчика для программ автоматизированного рабочего места использована система визуального объ-

Подсистема выбоо^текстов для обучения рубрики..

Подсистема аутеитж^жцации и авторизации Ч

Подсистема работы с рубриками

/ \

Подсистема \ рубрицирования4.

Подсистема формирования выходных печатных форм

Подсистема работы со словарями

~ ~ Подсистема управления доступом

Рис. 5. Логическая структура автоматизированного рабочего места

ектно-ориентированного программирования Delphi (6.0), а в качестве комплекса программ и языковых средств, предназначенных для создания и ведения баз данных - система управления базами данных Cache. Последняя позволяет реализовать как традиционную реляционную, так и объектную модели данных.

ВШШННМННШМННВВНИШШ^* -iaixii

аай» Рувримциваш» Рубрим Отчеты Словари Лимщстжстчч ___________ !

в о Ь'д"'"/" Г а~~" ~~~________|

Pwjwrw иврммрютчп} Вшуиштят раа^пычтов рубрццтоедиия ] Матрица семантических связей)

Текст/Руйрмкь 1 г I3

4.М 5 37 001 002 —I

ЛсШШ 112 014 018

Цшидг 001 0.75 0.73

Ш 315 005 005

7М 0 33 006 005

zi

Рис. 6. Экранная форма результирующего окна-меню

При апробации автоматизированного рабочего места сравнивались точность, полнота и временные затраты на проведение расчётов с учётом использования различных способов рубрицирования текстов и извлечения дополнительной информации, в частности: основанным на семантической сети; на сети Кохонена; полиномиальной нейронной сети; неавтоматизированным способом. Точность и полнота классификации множества текстов {7\} для множества рубрик строительства {5} оценивались соответствующими коэффициентами кя и рассчитываемыми в соответствии с выражениями (8) и (9), представляющими собой вероятности того, что если случайно выбранные документы были отнесены классификатором к рубрикам 5,..то решение было верным и если случайно выбранные документы релевантны рубрике 5,...5,, то классификатор отнёс их действительно к данным рубрикам

$

(8)

!>,+<«,)

-, (9)

где о,- - мощность множества документов Ц) - релевантных рубрике 5, и отнесённых к ней; а^ - мощность множества документов нерелевантных рубрике 5„ но отнесённых к ней; 5 - число используемых рубрик; Ь, -мощность множества документов {в.} релевантных рубрике 5„ но не отнесённых к ней.

Результаты апробации автоматизированного рабочего места показали следующее:

1. На рис. 7 представлены графики зависимостей точности классификации документов, от числа текстов используемых для обучения рубрики (результат представлен для рубрики "Оценка недвижимости") применительно к различным автоматизированным способам обработки текстов (1 -для семантической сети; 2 - для комбинированной сети; 3 - для сети Кохонена; 4 - для полиномиальной сети).

5 10 50 100

Рис. 7. Зависимости точности классификации документов от числа текстов, используемых для обучения рубрики

Из графиков следует, что наибольшую крутизну возрастания имеет зависимость 4 (сеть Кохонена). Высокая крутизна указывает на быстрое обучение рубрики. Зависимость 3 (полиномиальная сеть) достаточно близка к кривой 4 по крутизне возрастания, но при этом более точна (на 1015%). Наибольшая продолжительность обучения характерна для семантической сети (кривая 1).

2. Наиболее оперативный способ рубрицирования текстов основан на полиномиальной нейронной сети (на три порядка превосходит ручной способ). Вторым по быстродействию является способ рубрицирования, основанный на комбинированной семантической сети. При большом количестве обрабатываемых текстов (около 100) его быстродействие в 2 раза ниже по сравнению с полиномиальной нейронной сетью.

3. В интересах практической реализации наиболее предпочтителен способ рубрицирования текстов основанный на полиномиальной нейронной сети, поскольку он наиболее оперативный и незначительно уступает по точности сети Кохонена.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

В результате выполнения диссертационной работы получены следующие результаты:

1. Разработана модель семантического анализа русскоязычных текстов в строительстве, основанная на фрагментарном представлении текста в виде фрейм-сценариев.

2. Разработана полиномиальная нейросетевая модель классификации русскоязычных текстов в строительстве, отличающаяся расширенным перечнем классифицирующих признаков, учитывающих ассоциативные свя-

зи между словосочетаниями и предложениями.

3. Модифицирована технология формализации текстовой информации в строительстве, обеспечивающая более компактное представление формализуемого текста и точное определение смысла, как отдельных его фрагментов, так и в целом.

4. Предложен комплекс взаимосвязанных моделей и алгоритмов обработки русскоязычного текста в строительстве, позволяющий повысить достоверность дополнительно извлекаемой информации из семантически взаимосвязанной текстовой информации.

5. Разработано и апробировано на практике автоматизированное рабочее место анализа русскоязычных текстов в строительстве, реализующее полиномиальную нейросетевую модель классификации текстовых фрагментов и комплекс алгоритмов обработки данных, обеспечивающее повышение оперативности рубрицирования и извлечения дополнительной информации. Программные средства зарегистрированы в Федеральном институте промышленной собственности.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Марлов A.B. Вопросы защиты информации в системах электронного документооборота в сетях высшей школы // Проблемы информационной безопасности в системе высшей школы : Тр. IX Всерос. науч.-практ. конф./ Моск. инж.-физич. ин-т. -М., 2002. -С. 21-24.

2. Марлов A.B. Методики оценки отказоустойчивости в автоматизированных системах // Проблемы информационной безопасности в системе высшей школы : Тр. IX Всерос. науч.-практ. конф./ Моск. инж.-физич. ин-т.-М., 2003.-С. 15-18.

3. Марлов A.B., Хмелинин A.A. Методы повышения защищённости информационных ресурсов путём повторения ложных объек-тов // Информационная безопасность : Матер.У Межд. науч.-практ. конф. - Таганрог, 2003. -С. 47-51. (Лично автором выполнено 3 е.).

4. Марлов A.B., Буцкий O.E., Хмелинин A.A. Оценка объёмов текстовых документов необходимых для формирования и обучения тематических рубрик // Методы и технические средства обеспечения безопасности информации : Тр. IV Межд. науч.-практ. конф. / С-Петерб. гос. тех. ун-т.-Санкт-Петербург: Изд-во СПбГТУ, 2003. -С. 33-37. (Лично автором выполнено 2 е.).

5. Марлов A.B., Буцкий O.E. Построение математической модели угрозы семантической защищённости информационных ресурсов на основе колец секретности // Проблемы информационной безопасности в системе высшей шко-лы : Тр. XI Всерос. науч.-практ. конф./ Моск. инж.-физич. ин-т. -М., 2004. -С. 19-24. (Лично автором выполнено 4 е.).

6. Буцкий O.E., Марлов A.B., Комков A.B., Рыбин В.М. Применение задачи коммивояжера при нахождении оптимального пути обхода повреждений кабельных соединений в системе телефонной связи : Тр. VII науч. сессии / Моск. инж.-физич. ин-т. -М., 2004. -С. 56-58. (Лично автором выполнено 1 е.).

7. Марлов A.B., Трухачев A.A., Аглинцев A.A. Проблемы разработки автоматизированной информационно-аналитической системы сейсмического мониторинга // Научная сессия : Сб. науч. тр. - Т.11 / Моск. инж.-физич. ин-т. -М., 2004-С. 18-27. (Лично автором выполнено 3 е.).

8. Марлов A.B., Юдин H.H. Применение современных информационных технологий к решению задачи сейсмического мониторинга // Информационные технологии. -2004. -№ 2-3.- С. 8-13. (Лично автором выполнено 2 е.).

9. Буцкий O.E. Марлов A.B. Хмелинин A.A. Использование математической модели текста на естественном языке для решения задач классификации и кластеризации текстовых сообщений // Информационные технологии. -2004.- № 2-3,- С. 15-19. (Лично автором выполнено 3 е.).

10. Буцкий O.E., Марлов A.B., Новиков А.П., Хмелинин A.A. Автоматизированная поисково-аналитическая система «АРМ аналитика предприятия» / Зарегистр. в ФГУП ВНТИЦ 31.03.2004; Per. №.-7220040028.

11. Буцкий O.E., Марлов A.B. Сбор и семантический анализ текстовых документов в глобальных вычислительных сетях, в аспекте аналитической разведки // Безопасность информационных технологий. - 2004.- № 6.-С. 23-26. (Лично автором выполнено 2 е.).

12. Буцкий O.E., Марлов A.B., Морозов В.П., Четверов В.В. Описание автоматизированной подсистемы анализа статей (АПАС) / Зарегистр. в ФГУП ВНТИЦ 31.03.2004; Per. №. 7220040030.

13. Марлов A.B., Морозов В.П., Храмов В.Ю. Анализ лингвистических подходов к формализации языка для разработки процессоров сбора данных // Телекоммуникации. - 2004.- № 6.-С. 21-25. (Лично автором выполнено 2 е.).

Подписано в печать 10.09.2004. Формат 60x84 1/16 Уч.-изд. л. 1,0 Усл.-печ. 1,1 л. Бумага для множительных аппаратов. Тираж 100 экз. Заказ №412

Отпечатано в отделе оперативной полиграфии Воронежского государственного архитектурно-строительного университета 394006, Воронеж, ул. 20-летия Октября, 84.

г

I i

i

#185 37

РНБ Русский фонд

2005-4 14857

/

Оглавление автор диссертации — кандидата технических наук Марлов, Александр Владимирович

ВВЕДЕНИЕ.

ГЛАВА 1 АНАЛИЗ СУЩЕСТВУЮЩЕГО МЕТОДИЧЕСКОГО ОБЕСПЕЧЕНИЯ И ТЕХНИЧЕСКИХ СРЕДСТВ ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ.

1.1 Классификация автоматизированных систем обработки текстовой информации.

1.2 Анализ лингвистических подходов к формализации языка.

1.3 Анализ моделей обработки текстовой информации.

1.3.1 Классификация моделей текстовой информации.

1.4 Анализ методов автоматической обработки (классификации) текстовой информации.

1.5 Анализ существующих информационных систем автоматизированного анализа текстовой информации.

1.6 Выбор показателей эффективности извлечения дополнительной информации из множества семантически связанных текстов. Постановка научной задачи.

1.7 Общая схема решения задачи. Частные задачи исследований.

Выводы.

ГЛАВА 2 ФОРМАЛИЗАЦИЯ И СЕМАНТИЧЕСКИЙ АНАЛИЗ

ТЕКСТОВОЙ ИНФОРМАЦИИ.

2.1 Формализация текстовой информации.

2.1.1 Матрица лексических связей текста.

2.1.2 Текст как ориентированный граф.

2.1.3 Представление объектов (ситуаций) предметной области в виде семантической сети.

2.1.4 Описание объектов (ситуаций) предметной области в виде фреймов.

2.2 Семантический анализ текстовой информации.

2.2.1 Табличный метод анализа текстовой информации.

2.2.2 Методы анализа текста с семантической ориентацией.

2.2.3 Классификация текстов на основе их семантического анализа.

2.2.3.1 Ассоциативный метод порождения текста в задаче классификации.

2.2.3.2 Метод проведения тематического анализа текста с выявлением сверхфразовой структуры.

Выводы.

ГЛАВА 3 РАЗРАБОТКА СПЕЦИАЛЬНОГО МАТЕМАТИЧЕСКОГО ОБЕСПЕЧЕНИЯ ФРАГМЕНТАРНОГО ЛОГИКО-ЛИНГВИСТИЧЕСКОГО ИНТЕГРАТОРА РУССКОЯЗЫЧНЫХ ТЕКСТОВ.

3.1 Алгоритм графематической обработки текста.

3.2 Алгоритм морфологического анализа текста.

3.3 Алгоритм фрагментационной обработки текста.

3.4 Алгоритм синтаксической обработки текста.

3.5 Алгоритм объединения результатов фрагментационной и синтаксической обработки текста.

3.6 Модель семантической обработки текста.

3.7 Алгоритм формирования терминологического портрета текста.

3.8 Алгоритм рубрицирования текста.

3.9 Алгоритм извлечения дополнительных данных.

Выводы.

ГЛАВА 4 РАЗРАБОТКА АВТОМАТИЗИРОВАННОГО РАБОЧЕГО МЕСТА АНАЛИЗА РУССКОЯЗЫЧНЫХ ТЕКСТОВ В СТРОИТЕЛЬСТВЕ С ИСПОЛЬЗОВАНИЕМ ФРАГМЕНТАРНОГО ЛОГИКО-ЛИНГВИСТИЧЕСКОГО ИНТЕГРАТОРА.

4.1 Основные результаты разработки математического обеспечения автоматизированного рабочего места.

4.2 Логическая структура и особенности функционирования автоматизированного рабочего места.

4.3 Характеристика используемого общего программного обеспечения.

4.4 Порядок работы оператора на автоматизированном рабочем месте.

4.5 Алгоритм проведения исследований основных характеристик автоматизированного рабочего места.

4.6 Результаты апробации автоматизированного рабочего места.

Выводы.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Марлов, Александр Владимирович

Актуальность темы. Значительный рост объёмов текстовой информации, используемой в строительстве обуславливает повышенный интерес к разработке систем, позволяющих автоматизировать процесс её (информации) обработки и анализа. Автоматизированные системы, решающие подобные задачи относятся к классу интеллектуальных. Их анализ позволил выявить следующие особенности:

- наработки в области проектирования подобных систем в строительстве отсутствуют;

- из-за высокой стоимости программного обеспечения и сложности требуемой лингвистической технологии, их разработка в других предметных областях носит фрагментарный характер и ограничивается простыми и дешёвыми решениями в ущерб качеству и эффективности;

- из-за особенностей русского языка аналогичные иностранные системы, разработанные для других предметных областей удовлетворительно работающие с английскими текстами (как наиболее развитые), не позволяют обеспечить требуемый уровень качества при работе с текстами на русском языке.

Таким образом, актуальность темы диссертационной работы продиктована, с одной стороны, необходимостью автоматизации процессов обработки русскоязычной текстовой информации в строительстве и, с другой стороны, отсутствием в настоящее время математического и программного обеспечения, позволяющего такую обработку реализовать в пределах заданного времени с приемлемым качеством.

Диссертационная работа выполнена в рамках научно-технической программы «Разработка методов проектирования и создания новых информационно-управляющих и телекоммуникационных систем» Министерства образования.

Цель и задачи исследования. Целью диссертационной работы является разработка математического и программного обеспечения информационной системы фрагментарного логико-лингвистического интегрирования русскоязычных текстов в строительстве.

Для достижения поставленной цели необходимо решить следующие основные задачи:

1. Проанализировать существующее методическое обеспечение и технические средства обработки текстовой информации в строительстве или других предметных областях и выбрать среди них наиболее эффективные по точности и оперативности в интересах их использования в качестве базы для дальнейшего совершенствования.

2. Разработать модель формализации текстовой информации в строительстве.

3. Разработать систему моделей и алгоритмов, обеспечивающих извлечение дополнительной информации из семантически взаимосвязанных текстов в строительстве.

4. Разработать автоматизированное рабочее место извлечения дополнительной информации из семантически взаимосвязанных текстов применительно к области строительства.

Методы исследования в данной работе основаны на теории математического моделирования, системного анализа и нейронных сетей, булевой алгебре, теориях распознавания образов, графов, лингвистики и многоуровневых иерархических систем, а также теории проектирования и разработки автоматизированных информационных систем.

Научная новизна. В работе получены следующие результаты, характеризующиеся научной новизной:

- модель семантического анализа русскоязычного текста в области строительства, основанная на его (текста) фрагментарном представлении в виде фрейм - сценариев, позволяющая реализовать параллельный способ обработки информации с оперированием, как отдельными предложениями, так и законченными в смысловом отношении, фрагментами;

- полиномиальная нейросетевая модель классификации семантически однородных фрагментов русскоязычного текста в области строительства, основанная на расширенном перечне классифицирующих признаков, учитывающих ассоциативные связи между предложениями и модифицированной технологии моделирования, обеспечивающая более компактное представление формализуемого текста и более точное определение смысла, как отдельных его фрагментов, так и в целом;

- комплекс взаимосвязанных моделей и алгоритмов обработки русскоязычных текстов в строительстве, позволяющий повысить достоверность руб-рицирования и дополнительно извлекаемой информации из семантически взаимосвязанной текстовой информации;

- элементы специального программного обеспечения, реализующего процедуры формализации текстовой информации и комплекс моделей и алгоритмов её обработки, обеспечивающие повышение оперативности извлечения дополнительной информации из семантически взаимосвязанных текстов применительно к области строительства.

Практическая ценность работы. Предложенные в работе модели семантического анализа и классификации русскоязычных текстов, а также алгоритмы их обработки, могут быть включены в состав специального математического и программного обеспечения некоторых автоматизированных интеллектуальных систем обработки текстовых данных в строительстве, различающихся как степенью сложности, так и характером решаемых задач.

Разработанное автоматизированное рабочее место, на конкретных примерах, показало высокую эффективность обработки русскоязычных текстов, что подтверждено результатами численного исследования и актами внедрения.

Реализация и внедрение результатов работы. Результаты проведенных исследований были использованы в интересах автоматизации деятельности Департамента имущества города Москвы, при выполнении плановых научно-исследовательских работ в Государственном научно-исследовательском институте проблем технической защиты информации (г. Воронеж), институте точной механики и вычислительной техники им. С.А. Лебедева (г. Москва).

Апробация работы. Основные результаты исследований докладывались и обсуждались на следующих конференциях и семинарах:

IX, X, XI Всесоюзных научно-практических конференциях «Проблемы информационной безопасности в системе высшей школы» (Москва) в 2002.2004 гг.;

XI Всероссийской научно-практической конференции «Проблемы разработки автоматизированных информационно-аналитических систем мониторинга» (Москва, 2004);

V Международной научно-практической конференции «Информационная безопасность» (Таганрог, 2003);

IV Международной научно-практической конференции «Методы и технические средства обеспечения безопасности информации» (Санкт-Петербург, 2003);

VII научной сессии МИФИ (Москва, 2004).

Публикации. Основные результаты диссертации опубликованы в 13 печатных работах, из них 2 работы без соавторов. В работах, опубликованных в соавторстве, лично соискателем предложены: в [70] автором разработана модель семантического анализа русскоязычных текстов (лично автором выполнено 3 е.); в [67] автором предложен подход к обучению тематических рубрик (лично автором выполнено 2 е.); в [66] автором разработана модель классификации русскоязычных текстов, основанная на полиномиальной нейронной сети (лично автором выполнено 4 е.); в [64] автор разработал алгоритм фрагментарной обработки сетевого графа применительно к системе телефонной связи (лично автором выполнено 1 е.); в [69,71] автором предложена система взаимосвязанных моделей и алгоритмов обработки текстовой информации применительно к сейсмическому мониторингу (лично автором выполнено 3 с. и 2 с. соответственно); в [13] автор разработал алгоритм извлечения дополнительной информации из семантически однородных фрагментов русскоязычного текста в строительстве (лично автором выполнено 3 е.); в [16,14] автором описан комплекс взаимосвязанных моделей и алгоритмов рубрицирования русскоязычных текстов; в [15] автором разработана модель семантического анализа русскоязычных текстов основанная на фрейм -сценариях (лично автором выполнено 2 е.); в [68] автором обоснована целесообразность использования в качестве идейной основы для разработки информационно-аналитической системы в строительстве категоризации лексики (лично автором выполнено 2 е.).

Структура и объём работы. Диссертация состоит из введения, четырёх глав, заключения, списка литературы из 141 наименования и семи приложений. Работа изложена на 152 страницах, включая 39 рисунков и 8 таблиц.

Заключение диссертация на тему "Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве"

выводы

1. Автоматизированное рабочее место анализа русскоязычных текстов в строительстве является комплексом программно-технических средств, предназначенным для автоматизации обработки текстовой информации в интересах извлечения из неё новых данных. Оно обеспечивает решение следующей последовательности задач: построение терминологических портретов исследуемого текста и предметной области строительства (тематической рубрики); анализ степени соответствия текстов тематической рубрике (рубрицирование); извлечение дополнительной информации из группы текстов семантически связанных друг с другом.

2. Разработанное математическое обеспечение АРМ, выполненное в виде отдельных автономных блоков (модулей), связанных между собой по "входу -выходу" (выходная информация одного блока является входной для другого и т.д.) обеспечивает гибкость АРМ и позволяет оперативно проводить его модернизацию, например, из предметной области строительства в промышленность.

3. Основными характеристиками АРМ являются коэффициенты точности и полноты классификации текстов, а также оперативность функционирования АРМ - время рубрицирования и отбора дополнительной информации из семантически связанных текстов.

4. Для апробации АРМ разработан алгоритм проведения численных исследований, реализующий следующие основные функции: проведение сравнительной оценки значений коэффициентов точности и полноты классификации текстов; сравнение временных затрат на проведение расчётов при использовании различных способов рубрицирования; сравнение временных затрат на извлечение дополнительной информации при использовании различных способов обработки информации.

Полученные результаты апробации АРМ в соответствии с алгоритмом проведения системных исследований показали не только его работоспособность, но и достаточно высокую эффективность.

Предложенный в диссертационной работе способ рубрицирования, основанный на полиномиальной нейронной сети показал более высокую оперативность по сравнению традиционными (от 100% до трех порядков) и достаточно высокие точность и полноту классификации текстов (от 10% до 65%).

ЗАКЛЮЧЕНИЕ

В ходе решения задач, поставленных в диссертационной работе, проведён анализ существующего методического обеспечения и технических средств обработки текстовой информации в предметной области строительства, показавший, что для построения более адекватных моделей представления текстовой информации, по сравнению с другими подходами, целесообразно использовать категоризацию лексики, впервые предложенную И. Ньютоном, развитую в лямбда-исчислении, а затем в семантическом и нейронном подходах и получены следующие основные результаты:

1. Разработана модель семантического анализа русскоязычных текстов в строительстве, основанная на фрагментарном представлении текста в виде фрейм-сценариев.

2. Разработана полиномиальная нейросетевая модель классификации русскоязычных текстов в строительстве, отличающаяся расширенным перечнем классифицирующих признаков, учитывающих ассоциативные связи между словосочетаниями и предложениями.

3. Модифицирована технология формализации текстовой информации в строительстве, обеспечивающая более компактное представление формализуемого текста и точное определение смысла, как отдельных его фрагментов, так и в целом.

4. Предложен комплекс взаимосвязанных моделей и алгоритмов обработки русскоязычного текста в строительстве, позволяющий повысить достоверность дополнительно извлекаемой информации из семантически взаимосвязанной текстовой информации.

5. Разработано и апробировано на практике автоматизированное рабочее место анализа русскоязычных текстов в строительстве, реализующее полиномиальную нейросетевую модель классификации текстовых фрагментов и комплекс алгоритмов обработки данных, обеспечивающее повышение оперативности рубрицирования и извлечения дополнительной информации.

Программные средства зарегистрированы в Федеральном институте промышленной собственности.

Библиография Марлов, Александр Владимирович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Айвазян С.А., Бухштабер В.М., Енюков И.С. и др. Прикладная статистика. Классификация и снижение размерности. - М.: Финансы и статистика, 1989. - 270 с.

2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. - 472 с.

3. Айвазян С.А., Мхитарян B.C. Прикладная статистика и основы эконометрики: Учебник. -М.: ЮНИТИ, 1998. 390 с.

4. Аношкина Ж.Г. Морфологический процессор русского языка //Альманах "Говор", Сыктывкар, 1995, С. 17-23.

5. Апресян Ю.Д. Избранные труды, Том 1. Лексическая семантика: 2-е изд., испр. и доп. М.:Школа "Языки русской культуры" 1995.- 180 с.

6. Архангельский А .Я. Delphi версии 5-7. Приёмы программирования. -М.: Бином, 2003.-836с.

7. Архангельский А.Я. Программирование в Delphi 5. М.: Бином, 2000. -1072 с.

8. Ахутина Т.В. Порождение речи. Нейро-лингвистический анализ синтаксиса.-М.: МГУ, 1989.-215 с.

9. Бан-Ари М. Языки программирования: Практический сравнительный анализ: Учебник/ Пер. с англ. B.C. Штаркман, М.Н. Яковлева. М.: Мир, 2000.-366 с.

10. Белнап Н., Стил Т. Логика вопросов и ответов / Пер. с англ. М.: Прогресс, 1981.-288 с.

11. Брагина Н.Н., Доброхотова Т.А. Функциональные ассиметрии человека. -М.: Медицина, 1981.-287 с.

12. Бронштейн И.Н., Семендяев К.А. Справочник по математике для инженеров и учащихся вузов. М.: Наука, 1986. - 534 с.

13. Буцкий О.Е. Марлов А.В. Хмелинин А. А. Использование математической модели текста на естественном языке для решения задач классификации и кластеризации текстовых сообщений // Информационные технологии. -2004.- № 2-3.- С. 15-19.

14. Буцкий О.Е., Марлов А.В. Сбор и семантический анализ текстовых документов в глобальных вычислительных сетях, в аспекте аналитической разведки // Безопасность информационных технологий. 2004.- №6.- С. 23 - 26.

15. Буцкий О.Е., Марлов А.В., Морозов В.П., Четверов В.В. Описание АПАС. М.: ФГУП ВНТИЦ, 2004. №7220040030 от 2.04.04 г.

16. Буцкий О.Е., Марлов А.В., Новиков А.П., Хмелинин А. А. Автоматизированная поисково-аналитическая система АРМ аналитика предприятия. М.: ФГУП ВНТИЦ, 2004. № 7220040028 от 31.03.04 г.

17. Васильев В.Г. Автоматизированные интеллектуальные системы обработки текстовых данных. Аналитический обзор. М.:

18. Издательство в.ч. 33965, 2002. 116 с.

19. Васютин С.В., Гореев А.Ф., Корнеев В.В. Базы данных. Интеллектуальная обработка информации- 2-е изд-М.: Издатель Молгачёва С.В., Нолидж, 2001.-496 с.

20. Введение в Russian Context Optimizer 30. Гарант-Парк-Интернет, 2000.-30С

21. Вентцель Е.С. Теория вероятностей: Учеб. для вузов. 6-е изд. стер. -М.: Высш. шк., 1999.

22. Вирт Н. Алгоритмы и структуры данных. М.: Мир, 1989. - 360 с.

23. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем: Учеб. пособие СПб.: Питер, 2000.-384 с.

24. Галушкин А.И. Нейрокомпьютеры.-М.: ИПРЖР, 2000, 528 с.

25. Галушкин А.И. Теория нейронных сетей.-М.: ИПРЖР, 2000, 158 с.

26. Гареев А.Ф. Применение вероятностной нейронной сети для автоматического рубрицирования текстов//Сборник трудов всероссийской научно-технической конференции «Аейроинформатика-99». Часть 3. М.: МИФИ, 1999. С. 71-78.

27. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. М.,1985 г.

28. Глезерман Т.Б. Психофизиологические основы нарушений мышления при афазии.-М.: Наука, 1986.-230с.

29. Горбань А.Н. Обучение нейронных сетей.-М.: СП Параграф, 1990, 304 с.

30. Греков В.Ф., Крючков С.Е., Чешко J1.A. Пособие для занятий по русскому языку. М.: УЧПЕДГИЗ, 1962. - 224 с.

31. Дружинин В.В., Конторов Д.С. Проблемы системотологии (проблемы теории сложных систем). М.: Сов, радио, 1976. - 237 с.

32. Дубров A.M., Мхитарян B.C., Трошин Л.И. Многомерные статистические методы. М.: Статистика, 2000. -352 с.

33. Ермаков А.Е. Тематический анализ текста с выявлением сверхфазовой структуры/ТИнформационные технологии.-2000.-№ 11.

34. Ермаков А.Е., Плешко В.В. Метод визуализации информационных массивов TopSOM с применением самоорганизующихся тематических карт// Нейрокомпьютеры: разработка, применение. -2002.-№5-6.-С. 13-17.

35. Ермаков А.Е., Плешко В.В. Семантическая сеть текста в задачах аналитика. Доклад на XI Международной научной конференции "Информатизация и информационная безопасность правоохранительных органов" Москва, Академия управления МВД, 21 -22 мая 2002-го года

36. Жуков В.П. Русская фразеология. М., 1986. 310 с.

37. Завьялов Е.Е. Моделирование на ЭВМ. М.: МИФИ, 1980. - 63 с.

38. Зализняк А. А. Грамматический словарь русского языка: словоизменение. 3-е изд. Москва.:Рус.яз.,1987, 180 с.

39. И. Филлмор. Дело о падеже//В кн.: Новое в зарубежной лингвистике,вып. X. Лингвистическая семантика. -М.: Прогресс, 1981, с.369-495.

40. Ивахненко А.Г. Моделирование сложных систем: Информационный подход. Киев: Вища школа, 1987. - 63 с.

41. Инструкция пользователя системы БАГИС. ГНТЦ «ГИНТЕХ», 1999.-5с.

42. Иомдин Л.Л. Симметричные предикаты в русском языке. Проблемы структурной лингвистики 1979, М., Наука, 1981, 310 с.

43. Карпова Т.С. Базы данных: модели разработки, реализация: Учеб. пособие. СПб.: Питер, 2001.-304 с.

44. Карташева Е. Интеллектуальные поисковые системы ЕхсаНЬиг//Сети № 6, 1997 (WWW. osp.ru).

45. Клеинен Дж. Статистические методы в имитационном моделировании / Пер. с англ.; Под ред. Ю.П. Адлера, В.Н. Варыгина. -М.: Статистика, 1978. Вып. 1, 1978.-221 е.; Вып. 2, 1978.-335 с.

46. Колман И.Е. Марковские процессы. М.: Наука, 1982. - 356 с.

47. Комарцова Л.Г., Максимов А.В. Нейрокомпьютеры.-М.: МГТУ им. Баумана, 2002, 232 с.

48. Компьютерные системы и сети: учеб. пособие/ под ред. В.П. Косарева, Л.В. Ерёмина.-М.: Финансы и статистика, 2000.-464 с.

49. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. М.: Наука, 1984. - 832 с.

50. Кривенко М.П., Васильев В.Г. Технология кластерного анализа текстовых данных//Материалы 9 научно-технической конференции по криптографии, секция № 13, 2001.-4 с.

51. Лакаев А.С., Субботин М.М., Сарычев В.М. Новый класс интеллектуальных технологий структурные аналитические тexнoлoгии.//WWW. hintech. ru.

52. Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука, 1981, 157 с.

53. Лбов Г.С., Старцева Н.Г. Логические решающие функции и вопросы статистической устойчивости решений. Новосибирск: Наука, 1999, 215 с.

54. Лебедев А.Н. Память человека, её механизмы и границы//Исследование памяти: Сб;/Отв. Ред. Н.Н. Корж. М.: Наука, 1990. С. 104-118.

55. Левин Р., Д. Дранг,, Б. Эделсон. Практическое введение в технологию искусственного интеллекта и экспертных систем с иллюстрациями на Бейсике.-М.: Мир, 1980.-520с.

56. Лезин Г.В., Мамендиязова Н.С. О представлении семантики концептуальных моделей в базах знаний. Lttp//www.dialoq-21.ru/Archive/2000/Dialoque % 202000-2/235.htm.

57. Леонтьева Н.Н. «Политекст»: информационный анализ политических текстов// НТИ. Сер. 2. № 4. -1995. С. 20-24.

58. Леонтьева Н.Н. Русский общесемантический словарь (РОСС): структура, наполнение .//НТИ. Сер.2.-1997.-№ 12.-С.5-20.58.