автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем

кандидата технических наук
Бруттан, Юлия Викторовна
город
Псков
год
2008
специальность ВАК РФ
05.25.05
Диссертация по документальной информации на тему «Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем»

Автореферат диссертации по теме "Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем"

0034Б04иа

На правах рукописи

БРУТТАН Юлия Викторовна

МЕТОДЫ ПРОСТРАНСТВЕННОГО ПРЕДСТАВЛЕНИЯ И АНАЛИЗА ТЕКСТОВЫХ ОПИСАНИЙ ДЛЯ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

Специальность 05.25.05 "Информационные системы и процессы, правовые аспекты информатики"

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2008

003460409

Диссертация выполнена на кафедре «Информационные системы и технологии» Псковского государственного политехнического института

Научный руководитель:

- доктор технических наук, профессор Поляков Александр Олегович

Официальные оппоненты:

доктор технических наук, профессор Гаскаров Вагиз Деляурович кандидат технических наук Королев Олег Федорович

Ведущая организация: Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»

Защита состоится 2008 г. в час о в на заседании

диссертационного совета Д •223.009.03 в Санкт-Петербургском государственном университете водных коммуникаций (198035, Россия, г. Санкт-Петербург, ул. Двинская, д. 5/7.)

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственного университета водных коммуникаций.

Автореферат разослан г.

Ученый секретарь

диссертационного совета Д 223. 009. 03 кандидат технических наук, доцент

Барщевский Е.Г.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Представляемая работа посвящена разработке и исследованию методов и средств пространственного представления и сравнения текстовых описаний для их использования в информационно-поисковых системах (ИПС).

Актуальность темы. В настоящей работе рассматриваются проблемы ориентации и навигации в мире вербального представления научного знания, решение которых в настоящее время затруднено отсутствием ИПС, позволяющих сравнивать описания различных научных работ на уровне совпадения смысловых ситуаций, а не ключевых слов.

Так как естественный язык (ЕЯ) человека является контекстно-зависимым (КЗ), а компьютеры классической фон Неймановской архитектуры по основному принципу своего устройства могут работать только с контекстно-независимыми языками, поэтому требуется найти возможность представления в ЭВМ смыслового содержания текстовых записей на контекстно-зависимом языке пусть и с искажениями, но допустимыми для конкретных поисковых образов для решения задач классификации по требуемым параметрам.

Можно утверждать, что человечество в настоящий момент не решило глобальную задачу распознавания семантики текстов, для организации поиска и сравнения текстовых описаний. Конечно, решение такой задачи в полной мере, привело бы к подлинному научному прорыву, но даже и решение этой задачи не в полном объеме представляется весьма актуальной проблемой научного исследования.

Основы методик представления семантики текстов были заложены в публикациях Поспелова Г.С., Поспелова Д.А. (1981), Белоногова Г.Г: (1983), Апресяна Ю.Д. (1967), Минского М. (1979), Хомского Н. (1961-1962), Попова Э.В. (1982), МильчукаИ.А. (1982) и др. Результаты их развития излагались в работах Полякова А.О. (1985), Кузнецова И.П. (1986), Леонтьевой H.H. (1986), РубашкинаВШ. (1989-2005), Хорошевского В.Ф. (2002), Емельянова Г.М. (1998-2003).

Интерес к разработке систем общения с ЭВМ на ЕЯ проявляется как со стороны научных дисциплин, так и со стороны технических, связанных с разработкой и программной реализацией широкого класса информационно-поисковых систем. Алгоритмически разрешимые процедуры распознавания смысловых образов текстовых описаний на ЕЯ, а также способы представления этих образов, допускающие корректно описываемые процедуры их обработки, позволяют программно реализовать информационно-поисковые системы нового типа (интеллектуальные ИПС). Среди наиболее известных работ, посвященных интеллектуализации информационно-поисковых систем можно выделить публикации Поспелова Д.А., Финна В.К., Рубашкина В.Ш.

Однако, механизм учёта семантической составляющей в публикациях по этой тематике обычно не даёт возможности использования даже широко известных методов для сравнительного анализа текстовых описаний, поэтому предлагаемая работа, направленная на решение проблем семантического поиска, представляется актуальной.

Целью диссертационной работы является разработка и исследование методов пространственного представления и сравнительного анализа текстовых описаний с целью их использования в информационно-поисковых системах для повышения эффективности функционирования этих систем за счёт частичного сохранения семантики исходных текстовых описаний.

Достижение сформулированной цели предполагает решение следующих основных задач:

1)Исследование вопроса представления текстовых описаний с выявлением и сравнением их семантической составляющей с целью использования такого представления в информационно-поисковых системах.

2) Разработка нового варианта клеточных автоматов на основе использования языка предикатов.

3) Разработка метода пространственного представления текстовых описаний на основе предложенного варианта клеточного автомата.

4)Разработка метода распознавания семантического образа текстового описания.

5) Проведение экспериментальных исследований по распознаванию семантического образа лингвистически заданного объекта из выбранного состава предметной области.

6) Построение на основе разработанных методов когнитивной модели информационно-поисковой системы.

7) Алгоритмизация разработанных методов для их практического использования в информационно-поисковых системах.

Объектом диссертационных исследований являются текстовые описания, выбранные в научных публикациях в области геологии.

Предметом исследования является модельно-алгоритмическое обеспечение автоматизированного формирования, поиска и анализа семантических образов текстовых описаний, заданных на естественном языке.

Методы исследования. Для решения поставленных задач в работе используются методы статистического анализа, методы дискретной математики, теории формальных языков и грамматик.

Научная новизна работы заключается в следующем:

1. Разработан новый вариант клеточного автомата (КА) на основе использования языка предикатов. В отличие от классического определения КА, где правила перехода Определяют состояние клетки в следующий момент времени в зависимости от состояния её ближайших соседей (т.е. в них отражены только пространственные связи клеток), в разработанном варианте КА переход клеток в следующее состояние происходит под действием законов связи и порождения предикатов вида ARB. Таким образом, получен новый вариант описания жизни клеточного автомата в пространстве терминов и их отношений для каждого определённого раздела науки.

2. Разработан метод пространственного представления текстовых описаний на основе нового варианта клеточного автомата. Он отличается от существующих методов представления текстовых описаний тем, что дает возможность частично сохранить семантику исходных описаний, а также, что

не мало важно в современных условиях, позволяет организовать параллельную обработку текстовых описаний при их матричном представлении.

3. Разработан метод распознавания семантического образа текстового описания, отличающийся от существующих методов тем, что он позволяет проводить сравнительный анализ семантических образов объектов, заданных текстовыми описаниями.

4. Построена когнитивная модель информационно-поисковой системы, позволяющая сравнивать текстовые описания из выбранной предметной области при произвольной формулировке запроса. Она отличается от существующих моделей наличием механизма построения семантического образа текста в форме области точек предложенного варианта клеточного автомата.

5. Описан принцип функционирования предикатного парсера, который позволяет формировать предикатное представление (в форме ARB) текстового описания на естественном языке.

6. Разработаны алгоритмы, реализующие основные функции информационно-поисковой системы нового типа, построенной на основе методов, предложенных автором настоящей работы, и отличающиеся от существующих алгоритмов тем, что с их помощью предоставляется возможность находить текстовые документы не по совпадению слов поискового запроса с текстом, а по совпадению смысловых ситуаций их использования.

Праотнческая значимость полученных результатов. Областью непосредственного практического применения теоретических результатов работы является автоматизация процесса оценки знания студентов по учебным дисциплинам, организация смыслового поиска русскоязычных научных текстов, а также принципиально возможна организация классификатора научных статей (нового варианта УДК), позволяющего реализовать их семантический поиск.

Достоверность полученных результатов подтверждена теоретическими выкладками и результатами машинного эксперимента по построению «семантических образов» русскоязычных текстов, выбранных из конкретной предметной области, на основе разработанных в диссертации методов и организации поиска этих текстов при произвольной формулировке запросов.

Реализация результатов работы. Работа выполнена в рамках госбюджетной научно-исследовательской работы: «Представление научных текстов в многомерных пространствах с целью решения задач распознавания текстов, принадлежащих конкретной научной области».

Разработанные методы и методические материалы используются в учебном процессе при проведении лекционных и лабораторных работ по дисциплинам: а) "Интеллектуальные информационные системы", "Представление знаний в информационных системах" для студентов специальности 230201 в Псковском государственном политехническом институте; б) «Информационные технологии управления» и «Информационные технологии в экономике» для студентов специальностей 060800, 061000, 061100 в Псковском

государственном политехническом институте; в) «Интеллектуальные системы» для студентов специальности 230201.65 в Санкт-Петербургском государственном университете водных коммуникаций; г) «Информационные технологии в экономике» для студентов специальности 060800 в Московском государственном университете «МАМИ».

Результаты диссертационной работы использовались в 2006-2007 учебном году в Псковском государственном политехническом институте и Московском государственном университете «МАМИ» в мультимедийных обучающих системах и интегральных рейтинговых системах тестового контроля знаний студентов по специальности 060800.

Основные положения, выносимые на защиту.

Исходя из рассмотренных в предлагаемой работе новых вопросов формируются положения, выносимые на защиту.

1. Клеточный автомат на основе использования языка предикатов, предназначенный для графического представления в компьютерных системах текстовых описаний.

2. Метод пространственного представления текстовых описаний на основе нового варианта клеточного автомата, предназначенный для формализации текстовых описаний, заданных на естественном языке, с частичным сохранением семантики исходного текста.

3. Метод распознавания семантического образа текстового описания на основе нового варианта клеточного автомата, предназначенный для проведения сравнительного анализа текстовых описаний и определения принадлежности некоторого текстового описания к конкретной предметной области.

4. Когнитивная модель информационно-поисковой системы, включающая механизмы формирования, сравнительного анализа семантических образов текстовых описаний из выбранной предметной области, а также организации их поиска при произвольной формулировке запроса.

5. Алгоритмы, реализующие основные функции информационно-поисковой системы, построенной на основе использования разработанных методов представления текстовых описаний и распознавания их семантических образов и предназначенной для организации семантического поиска текстовых описаний.

Личный вклад соискателя.

Все научные и практические результаты получены соискателем самостоятельно в процессе многолетней научной работы.

Апробация работы. Затронутые в диссертации вопросы были представлены для обсуждения на 14 конференциях и симпозиуме: VII Международной научно-методической конференции «Высокие интеллектуальные технологии образования и науки», Санкт-Петербург, 2000; Международной научной конференции «Интеллектуальные системы и информационные технологии управления», Псков, 2000; VIII Международной научно-методической конференции «Высокие интеллектуальные технологии образования и науки», Санкт-Петербург, 2001; V Всероссийской конференции по проблемам науки и высшей школы "Фундаментальные исследования в технических

университетах", Санкт-Петербург, 2001; IX Международной научно-методической конференции «Высокие интеллектуальные технологии образования и науки», Санкт-Петербург, 2002; VII Всероссийской конференции по проблемам науки и высшей школы "Фундаментальные исследования в технических университетах", Санкт-Петербург, 2003; XI Международной научно-методической конференции "Высокие интеллектуальные технологии и качество образования и науки", Санкт-Петербург, 2004; X Международной конференции "Современные технологии обучения: СЮ-2004", Санкт-Петербург, 2004; XII Международной научно-методической конференции "Высокие интеллектуальные технологии и генерация знаний в образовании и науке", Санкт-Петербург, 2005; XI Международной конференции "Современные технологии обучения: СТО-2005", Санкт-Петербург, 2005; Политехнический симпозиум «Молодые учёные промышленности северозападного региона», Санкт-Петербург, 2006; XIV Международная научно-методическая конференция "Высокие интеллектуальные технологии и инновации в образовании и науке", Санкт-Петербург, 2007; XI Всероссийской конференции по проблемам науки и высшей школы "Фундаментальные исследования и инновации в технических университетах", Санкт-Петербург, 2007; Международной научной конференции "Автоматизация, энергетика, компьютерные технологии", Псков, 2007; XII Всероссийской конференции по проблемам науки и высшей школы "Фундаментальные исследования и инновации в технических университетах"", Санкт-Петербург, 2008.

По теме диссертации опубликовано 19 работ, в том числе: 2 статьи в журнале из перечня ВАК ("Научно-технические ведомости СПбГПУ"), статья в сборнике трудов СПбГПУ, 3 статьи в сборниках трудов ППИ, 15 докладов на международных и российских научных конференциях. Публикации отражают все основные результаты диссертационной работы.

Структура н объём работы. Диссертационная работа состоит из введения, четырех глав, заключения, изложенных на 145 страницах машинописного текста и библиографического списка, включающего 75 источников.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность выбранной темы; формулируется цель и содержание поставленных задач, а также объект и предмет исследования; сообщается теоретическая значимость и прикладная ценность полученных результатов.

В первой главе диссертационной работы проанапизировано современное состояние дел в рассматриваемой области, исследованы возможности существующих подходов к представлению текстовых описаний с целью их использования в информационно-поисковых системах, т.е. был проведён анализ существующих моделей представления текстовых описаний с возможным уровнем сохранения семантики для решения задач поиска и сравнения этих описаний, на примере фреймовой модели, семантической сети, предикатных построений и модели «Смысл-текст» (И.А. Мельчук).

На основе выполненного анализа сделан вывод, что существующие подходы не дают возможности решения поставленных в работе задач исследования в полном объёме.

Во второй главе разработано формализованное представление текстовых описаний («семантический образ») в многомерном модельном пространстве, показано сходство такого построения с клеточным автоматом, описан новый вариант клеточных автоматов, заданный языком предикатов. Затем предложен метод пространственного представления текстовых описаний на основе нового варианта клеточного автомата, позволяющий частично сохранить семантику исходных описаний.

Следует отметить, что в работе рассмотрена обработка только профессиональных частично уже формализованных наукой понятий и связей между ними.

Семантический образ текстового описания представляет собой область точек многомерного модельного пространства (рис. 1). Он получен в результате следующих преобразований: 1) перевод исходного описания на естественном языке в предикатную форму (т.е. в совокупность синтагм ARB); 2) представление синтагм в N-мерном модельном пространстве, оси которого обозначены Хи Х2, .... AV По осям yV-мерного пространства расположены m одинаковых терминов тезауруса. В диссертации было введено допущение: термины в позиции А откладывают на нечётных осях, а термины в позиции В -на чётных осях. На пересечении осей располагаются обозначенные цветными точками отношения между соответствующими терминами на осях многомерного пространства (каждому виду бинарного отношения соответствует свой цвет).

П-2

а 61 ..... 1 ШЯ1

>> о. 5 ■ J _ J. ♦ яг

о 4 ■ чй -Г -1" -1- Ш" 1 - 1 - ■ - ■ AR3

ф г 32 • - L -А -:- 1-1-_ j--_ м- 1 ~ 1 1 1 - • X R4 • Я5

2 о. о 1 • -*- -Ф- J - т- 1 _ ± _. «...

термины тезауруса

Рис. I. Ы-мерное модельное пространство (частный случай N=2), в котором представлен семантический образ текстового описания, принадлежащего некоторой предметной

области

В диссертации показано, что такое формализованное представление текстового описания в некоторой степени напоминает работу клеточного автомата (КА), заданного языком предикатов.

Предложенный в диссертации вариант клеточного автомата имеет оси с упорядоченными по алфавиту терминами тезауруса рассматриваемой научной области. Каждая клетка такого клеточного автомата обозначает отношение

между соответствующими терминами и может находиться более чем в двух состояниях. Каждому состоянию клетки КА поставлен в соответствие цвет спектра, представленный /?ОВ-кодированием. Начальное состояние КА определяется на основе исходных текстов характеризующих, например, конкретную науку. Поведение клеток КА (изменение цвета уже существующих клеток, исчезновение существующих клеток, появление новых) отображает состояние рассматриваемой науки (развивается или стабильна), т.е. нам предоставляется возможность работать с интегрированным представлением о науке (на уровне её публикаций) в динамике и следить за тем, что происходит а ней.

Закон разработанного автором диссертации варианта клеточного автомата -это закон развития науки за счёт появления новых работ (статей) и выявленных связей (отношений) терминов этой науки (предметной области), описанной в нашем случае на русском языке.

Функция переходов рассматриваемого клеточного автомата в следующее новое состояние задана в виде набора условий на основе формальных преобразований исходных предложений на языке предикатов и поступления новых текстов:

1) переход на основе связей бинарных отношений (предикатов): граф переходов;

2) переход за счёт учёта связей с соседними предложениями, т.е. учёт выполнения логических выводов;

3) переход за счёт поступления новых сообщений после их учёта в предикатном виде, т.е. по мере поступления новых текстов ведется проверка логических выводов, следующих из них по имеющемуся набору правил вывода.

Пример условия перехода клеточного автомата в новое состояние: Если клетка находится в состоянии 0 и одна из окрестных клеток (отображающая соседнее предложение) находится в состоянии 1, то ока переходит о состояние 2.

Таким образом, можно сделать вывод, что получена уникальная пространственная конфигурация, которая преобразуется в следующие воплощения под действием законов связи предикатов, а не под действием законов территориальной близости клеток. Это другая форма жизни клеточного автомата в определенном пространстве терминов и связей конкретного раздела науки, занимающего в пространстве терминов и их отношений вполне определенную нишу.

Рассмотрим, предлагаемый автором диссертации метод пространственного представления текстовых описаний на основе нового варианта клеточного автомата, который состоит из 7 основных этапов:

Этап 1. Морфологический анализ. Определение морфологической информации словоформ для использования на последующих этапах обработки текста.

Этап 2. Синтаксический анализ. Автоматическое построение функционального дерева фразы, т.е. нахождение взаимозависимостей между разноуровневыми элементами предложения.

Этап 3. Замена указательных местоимений соответствующими им терминами, используя данные синтаксического анализа.

Этап 4. Замена сложноподчиненных предложений несколькими простыми предложениями, используя данные синтаксического анализа.

Этап 5. Перевод простых предложений на ЕЯ в совокупность синтагм вида ARB.

Этап 6. Представление массива ARB в виде области цветных точек нового варианта клеточного автомата, построенного в jV-мерном модельном пространстве.

Этап 7. Изменение состояния клеточного автомата за счёт появления дополнительных предикатных построений (в результате выполнения формально-логических преобразований над исходными бинарными отношениями R или появления новых сообщений).

Таким образом, в результате применения метода пространственного представления текстовых описаний на основе нового варианта клеточного автомата была получена графическая модель текста, заданного на ЕЯ (область цветных точек КА), или можно определить её еще как представление текстового описания в многомерном модельном пространстве, или «семантический образ» текстового описания. Т.к. текстовое описание представляет собой изображение в модельном пространстве, то для него можно применять существующие методы обработки изображений, что позволит реализовать операции сравнения и поиска текстовых описаний на новом качественном уровне.

Применение разработанного метода в различных предметных областях возможно в случае предварительной разработки для каждой из них дескрипторных словарей и словарей предикатов. Это главная проблема, возникающая при внедрении данного метода в разные профессиональные сферы. Положительным моментом является то, что алгоритм построения формализованного представления текстовых описаний на основе разработанного автором диссертации метода остаётся неизменным для любой предметной области. Перечислим варианты применения данного метода в различных сферах деятельности: 1) при реализации тестирующей системы по учебным дисциплинам для формализации ответов студентов и «правильных ответов»; 2) при реализации нового варианта интеллектуального библиотечного классификатора для формирования семантических образов рефератов книг или запроса пользователя на поиск книги по введённому реферату; 3) для формирования семантических образов текстовых документов и запросов пользователя в информационно-поисковых системах; 4) для построения формализованного представления текстовых документов в сети Интернет с целью реализации смыслового поиска текстовых документов.

В третьей главе предложен метод распознавания семантического обрам текстового описания, представленного в форме области точек клеточного автомата. Этот метод состоит из следующих 4 основных этапов:

Этап I. Формирование семантического образа текстового описания. На данном этапе в результате применения метода пространственного

представления текстовых описаний на основе нового варианта клеточного автомата, который описан в главе 2, происходит создание семантического образа исследуемого лингвистически заданного объекта и семантических образов эталонных объектов.

а) Представим семантический образ текстового описания анализируемого объекта, состоящий изМо цветных точек, в виде матрицы признаков:

/

Хп Х12 ^ _ Хп Х22

^Хм01 Хм01

Х]ь Хп

RGB, 1 RGB,

RGB*.

где Xij - координаты точек семантического образа в N-мерном модельном пространстве (i=l, 2.....Л/0,- j=l, 2.....N),

RGBi - 1{вета точек семантического образа, заданных e виде цветовой модели RGB (i = 1, 2.....МО)

N - количество измерений модельного пространства,

Мо - количество точек семантического образа текстового описания.

Примечание. Допустим, что точки в матрице признаков семантического образа перечисляются в порядке возрастания координат точек образа, а при совпадении координат - по возрастанию значения цвета соответствующих точек.

б) Представим каждый из семантических образов эталонных объектов, матрицами признаков следующего вида:

( ' -V„ g ■■ Уш RGB:

Y,= У» % " Угн RGBl

s У s У RGBu,

где g = l,2,...,W,

у координаты точек g-го семантического образа в модельном пространстве (¡=1,2.....Mg; j=l, 2.....N),

RGB? - цвета точек g-го семантического образа, заданных в виде цветовой модели RGB (i=l, 2,...,Mg)

W — количество образов-эталонов, N - количество измерений модельного пространство,

Л/, - количество точек в g-м семантическом образе текстового описания объекта-эталона.

Совокупность всех семантических образов текстовых описаний эталонных объектов будет представлять собой множество (У/ = (У/, У2, .... Yw}-

Этап 2. Формирование плоскостей модельного пространства. Точки, которые представляют семантический образ текстового описания в многомерном модельном пространстве, отражают бинарные отношения терминов определённой предметной . области, поэтому с целью упрощения обработки и восприятия это модельное пространство можно представить в виде совокупности плоскостей, а каждая из точек семантического образа будет принадлежать одной из этих плоскостей.

Каждая плоскость будет представлена массивом размерностью ТхТ (где Т -размер тезауруса выбранной предметной области). Обозначим этот массив в виде матрицы, имеющей в качестве элементов цвета точек плоскости (в соответствии с моделью RGB) со значениями по умолчанию равными белому цвету (255, 255, 255), а индексы элементов матрицы определяют координаты точек плоскости. Таким образом, матрица плоскости (Plk), образованной осями X/ и Xk будет иметь вид :

Ik Pit it Pit '(255,255,255) (255,255,255) . . (255,255,255)"

р" = Рп Ргг Pit т.е. Р* = (255,255,255) (255,255,255) . . (255,255,255) ■ (3)

Л Рп РГГ J J255,255,255) (255,255,255) . . (255,255,255)

где Ik - индекс плоскости,"

I - нечетное число, обозначающее индекс первой оси, составляющей плоскость, к-четное число, обозначающее индекс второй оси. составляющей плоскость, Т- количество терминов тезауруса

Множество матриц плоскостей (/>'*} определяет модельное пространство, в котором будет построен семантический образ текстового описания, принадлежащего некоторой предметной области.

Этап 3. Представление семантического образа текстового описания в матрицах плоскостей модельного пространства.

а) Запишем общий вид формулы, отражающей представление семантического образа исследуемого лингвистически заданного объекта в матрицах плоскостей модельного пространства, используя формулы 1 и 3: ((255,255,255) RGB2 ... RGB4

pit _

RGB,

RGB.,

(255,255,255) RGB3

(255,255,255)

RGB,

(4)

Значения элементов каждой из матриц Р , с индексами, соответствующими координатам точек семантического образа текстового описания, будут заменены кодами цвета (в соответствии с моделью RGB) точек этого образа.

б) Запишем общий вид формулы, отражающей представление семантического образа каждого эталонного объекта в матрицах плоскостей модельного пространства, используя формулы 2 и 3:

/

(255,255,255) RGB' ... RGBl RGB' (255,255,255) ... (255,255,255)

RGBf

P>

(5)

(255,255,255) RGB! g = l-W,

KGB'

* /

VV- количество семантических образов объектов-эталонов

Этап 4. Распознавание семантического образа текстового описания.

Процедура распознавания при таком представлении лингвистически заданных объектов реализуется путём сравнения распознаваемого образа текста, заданного в виде матриц плоскостей модельного пространства с имеющимися образами-эталонами, заданными в виде матриц плоскостей того же самого модельного пространства, т.е. каждую матрицу исследуемого объекта (формула 4), сравниваем с аналогичной матрицей эталонного объекта (формулы 5). Следует отметить, что сравнение осуществляется между элементами каждой матрицы распознаваемого объекта, не равными значению по умолчанию - (255,255,255), и соответствующими элементами каждой матрицы эталонного объекта. В результате сравнения будет определено количество точек семантического образа анализируемого объекта совпадающих с точками g-го эталонного образа Sg.

Для определения класса, к которому относится исследуемый лингвистически заданный объект, введём множество параметров result, которое показывает процент совпадения анализируемого описания с имеющимися эталонными описаниями:

S

result, = —■ 100%, (g = 1 ..W). (6)

M„

где VV- количество семантических образов объектов-эталонов, Sg - количество точек распознаваемого образа совпадающих

с точками g-ro эталонного образа, Ma - количество точек в распознаваемом образе.

Таким образом, в данной постановке максимальное значение resultg означает наилучшее совпадение g-ro эталонного описания объекта, характеризующего конкретный класс объектов, с распознаваемым описанием, т.е. можно сделать вывод о принадлежности рассматриваемого объекта к конкретному классу объектов.

На основе рассмотренного метода распознавания семантического образа текстового описания разработаем алгоритм определения класса исследуемого объекта, который может использоваться в информационно-поисковых системах для определения принадлежности лингвистически заданного объекта (текстового описания) к одному из выбранных классов объектов (или из набора текстовых описаний).

Алгоритм ОПРЕДЕЛИТЬ_КЛАСС_ОБЪЕКТА Вход:

1 ) Количество плоскостей многомерного модельного пространства Q;

2)Т - тезаурус предметной области;

3) Семантический образ X анализируемого объекта, заданный в виде множества матриц плоскостей {Р}, состояний из элементов р'?* ;

4) Множество выбранных классов объектов (G)

5) Множество этаюнных семантических образов (YJ, принадлежащих выбранным классам, заданных в множестве матриц плоскостей (Р), состоящих из элементов pï

Выход:

1) Множество параметров (result);

2) максимальный процент совпадения семантического образа распознаваемого объекта с образом эталонного объекта resull„lax;

3) k„i,j - класс объектов, которому принадлежит X Начало

для g от 1 до W нц

Sg=0

для к от 1 до Q нц

для i от I до Т нц

для j от I до Т нц

если р'*> Ф (255, 255, 255) то

если pf' - pi то Sg = Ss + 1 все

■ все

КЦ

кц

КЦ

S,

result. =-£--100%, ! М0

Вывод result¡,

кц

Определение максимального значения процента совпадения оораза распознаваемого объекта с образом эталонного объекта: resullmax =МАХ(/result)) Вывод result^

Определение класса объектов, соответствующего result,,шх -Вывод класса объектов, соответствующего result,,„„ - g„i,j

Далее в третьей главе приведен пример распознавания семантического образа лингвистически заданного объекта, принадлежащего некоторой предметной области. Затем в этой главе было показана возможность использования предложенного метода в учебном процессе в части проверки усвоенного учащимися знания любой из дисциплин, а также при построении библиотечного классификатора и организации поисковых машин нового типа, которые могут осуществлять смысловой поиск документов.

В четвертой главе определены требования к информационно-поисковой системе (ИПС) нового типа, которая выполняет смысловой поиск текстовых описаний; построена её когнитивная модель. Затем на основе этой модели разработана 'структура информационно-поисковой системы, структура Хранилища данных ИПС а также алгоритмы функционирования информационно-поисковой системы нового типа.

Когнитивная модель информационно-поисковой системы Miss (формула 7) на основе предложенного подхода включает структуру подсистемы формирования семантического образа текстового описания или запроса 5/„„ структуру поисковой подсистемы Ss, множество данных {D), необходимых для работы системы и генерируемых системой, блок выбора режима работы Swch, а также блок регистрации Reg, при этом блок регистрации отвечает за регистрацию и идентификацию пользователей, разграничение прав доступа:

На основе построенной модели (формула 7) разработана информационно-поисковая система, обобщенная структура которой представлена на рис. 2.

Укрупнённый алгоритм работы информационно-поисковой системы представлен на рис.3.

Разработанный вариант информационно-поисковой системы позволяет формировать семантические образы аннотаций текстовых документов (их можно считать семантическими образами самих текстовых документов), а затем предоставляет возможность поиска этих документов даже при несовпадении слов запроса со словами текста документа или поиск текстовых описаний по заданной тематике. ИПС принимает решение об успешности поиска при совпадении смысловых ситуаций семантического образа текстового документа из Хранилища и поискового образа (т.е. семантического образа

Конец.

О)

запроса) в соответствии с предварительно заданным пользователем критерием успешного поиска.

Рис.2. Обобщенная структурная схема информащонно-поисковой системы нового типа.

Рис.3. Структурная схема алгоритма работы информационно-поисковой системы.

Рассмотренный вариант информационно-поисковой системы (при внедрении его на глобальном уровне) может достаточно успешно применяться в поисковых системах Интернета. Но для этого необходимо провести предварительную работу по разработке словарей предикатов и дескрипторов для всех встречающихся сети предметных областей.

В заключение диссертационной работы сформулированы основные научные и практические результаты, выделены перспективные направления дальнейших научных исследований.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Проведено исследование вопросов представления текстовых описаний с возможным уровнем сохранения семантики для использования существующих формализованных моделей текстов на естественном языке в информационно-поисковых системах.

2. Разработан новый вариант клеточных автоматов, заданный языком предикатов.

3. Разработан метод пространственного представления текстовых описаний на основе нового варианта клеточного автомата. А так же проанализированы варианты применения данного метода в различных сферах деятельности.

4. Разработан метод распознавания семантического образа текстового описания. Показана возможность его использования для моделирования оценки знания студентов по учебной дисциплине, при построении интеллектуального библиотечного классификатора, а также организации поисковых машин нового типа.

5. Проведены экспериментальные исследования по распознаванию семантического образа объекта, заданного текстовым описанием, принадлежащего конкретному из выбранных классов объектов.

6. Разработана когнитивная модель информационно-поисковой системы нового типа, позволяющая организовать семантический поиск текстовых описаний из выбранной предметной области, на основе разработанных методов.

7. Разработаны алгоритмы, реализующие основные функции информационно-поисковой системы, построенной на основе использования предложенных автором методов представления текстовых описаний и распознавания их семантических образов.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Бруттан Ю.В. Интеллектуализация поведения компьютеров на основе применения клеточного автомата нового вида // Научно-технические ведомости СПбГПУ. - СПб.: Политехнический университет, 2007. - №2 - С.225-229.

2. Бруттан Ю.В. Информационные проблемы создания интеллектуального библиотечного классификатора с автоматическим порождением семантической составляющей / Ю.В. Бруттан, А.О. Поляков

// Научно-технические ведомости СПбГПУ. - СПб.: Политехнический университет, 2007. - Т.1. - №4 - С. 97-104.

3. Бруттан Ю.В. Интеллектуальные технологии в управлении экономическими системами / Ю.В. Бруттан, А.Н. Скрябин // Высокие интеллектуальные технологии образования и науки: Материалы 7-й Международной научно-методической конференции. - СПб.: СПбГТУ, 2000. -С.4849.

4. Bruttan J.V. Methods of artificial intellect in simulating the economic systems/ J.V. Bruttan, A.N. Skrjabin // Intelligent Systems and Information Technologies in Control (IS&ITC-2000): Proceedings of the International Scientific Conference, Pskov. 19-23 June 2000 / Pskov State Polytechnic Institute. - St. Peterburg/Pskov, 2000. - P.268-270.

5. Бруттан Ю.В. Использование современных компьютерных технологий при подготовке инженеров специальности 220100 «ЭВМ, системы, комплексы и сети» / Ю. В. Бруттан, И.В. Антонов // Высокие интеллектуальные технологии образования и науки: Материалы 8-й Международной научно-методической конференции. - СПб.: СПбГТУ; 2001. - С.126-127.

6. Бруттан Ю.В. Применение наукоемких технологий в моделировании экономических систем // Фундаментальные исследования в технических университетах: Материалы 5-й Всероссийской конференции по проблемам науки и высшей школы. - СПб.: СПбГТУ, 2001. - С.250-251.

7. Бруттан Ю.В. Изучение современных информационных технологий при подготовке управленческих кадров // Высокие интеллектуальные технологии образования и науки: Материалы 8-й Международной научно-методической конференции. - СПб.: СПбГТУ, 2002. - С. 157.

8. Бруттан Ю.В. О содержании подготовки менеджеров в области информационных технологий управления / Ю.В. Бруттан, B.C. Белов // Электроника. Машиностроение: Труды ППИ. - СПб ./Псков: СПбГТУ, 2002. -№6 - С.214-215.

9. Бруттан Ю.В. Использование методов искусственного интеллекта при моделировании сложноорганизованных экономических систем / Ю.В. Бруттан,

B.C. Белов // Фундаментальные исследования в технических университетах: Материалы 7-й Всероссийской конференции по проблемам науки и высшей школы. - СПб.: СПбГПУ, 2003. - С. 140-142.

10. Бруттан Ю.В. Об использовании базовых принципов приобретения новых знаний в современных условиях тотальной информатизации деятельности специалистов экономического профиля / Ю.В.Бруттан, В.С.Белов //Высокие интеллектуальные технологии и качество образования и науки: Материалы 11-й Международной научно-методической конференции. - СПб.: СПбГПУ, 2004. -

C.294-296.

11. Бруттан Ю.В., Использование компьютерных технологий при организации промежуточного тестирования знаний у студентов ВУЗа / Ю.В. Бруттан, В.С.Белов //Современные технологии обучения «СТО-2004»: Материалы 10-й Международной конференции. - СПб.: СПбГЭТУ «ЛЭТИ», 2004. - Т. 1,- С. 193-195.

12. Бруттан Ю.В. Особенности подготовки дипломированных специалистов в условиях глобализации / Ю.В. Бруттан, В.С.Белов, АнтоновИ.В.//Высокие интеллектуальные технологии и генерация знаний в образовании и науке: Материалы 12-й Международной научно-методической конференции. - СПб.: Политехнический университет, 2005. -1.2. - С.93-95.

13. Бруттан Ю.В. Использование современных технологий обучения и аттестации для повышения качества высшего профессионального образования / Ю.В. Бруттан, B.C. Белов // Современные технологии обучения «СЮ-2005»: Материалы 11-й Международной конференции. - СПб.: СПбГЭТУ «ЛЭТИ», 2005. -Т.1.- С. 199-200.

14. Бруттан Ю.В. Интеллектуальная технология представления знания с использованием языкового управления клеточным автоматом // Молодые учёные промышленности северо-западного региона: Материалы конференций политехнического симпозиума. - СПб.: Политехнический университет, 2006. -С.49-50.

15. Бруттан Ю.В. Использование клеточных автоматов специального вида для оценки знания студентов // Высокие интеллектуальные технологии и инновации в образовании и науке: Материалы 14-й Международной научно-методической конференции. - СПб.: Политехнический университет, 2007. - Т.1. -С.103-104.

16. Бруттан Ю.В. Интеллектуальная технология представления сложных, динамических, лингвистически заданных объектов // Фундаментальные исследования в технических университетах: Материалы 11-й Всероссийской конференции по проблемам науки и высшей школы. - СПб.: Политехнический университет, 2007. - С. 174.

17. Бруттан Ю.В. К вопросу создания интеллектуального библиотечного классификатора с автоматическим порождением семантической составляющей / Ю.В.Бруттан, А.О.Поляков // Машиностроение: Труды СПбГТУ. - СПб.: Политехнический университет, 2007. -№54 - С. 148-158.

18. Бруттан Ю.В. О модели информационно-поисковой системы, позволяющей идентифицировать текстовые описания при произвольной формулировке запроса // Автоматизация, энергетика, компьютерные технологии: Сборник научных трудов. -Псков: ППИ, 2007. -№1 - С.40-43.

19. Бруттан Ю.В. Об организации семантического поиска документов в сети Интернет / Ю.В. Бруттан, С.М. Вертешев, А.О.Поляков // Фундаментальные исследования в технических университетах: Материалы 12-й Всероссийской конференции по проблемам науки и высшей школы. - СПб.: Политехнический университет, 2008.-С. 126-128.

Подписано в печать: 30.09.2008 г. Формат 60x90/16. Гарнитура Times New Roman. Усл. п.л. 1,3. Тираж 100 экз. Заказ № 2455

Адрес издательства: Россия, 180000, г. Псков, ул. Л.Толстого, д. 4 Издательство ППИ

Оглавление автор диссертации — кандидата технических наук Бруттан, Юлия Викторовна

Введение.

1 Исследование вопроса представления текстовых описаний с сохранением семантики для его использования в информационно-поисковых системах.

1.1 Исследование вариантов построения современных информационно-поисковых систем.

1.2 Обзор языковых средств концептуального уровня, используемых в информационно-поисковых системах.

1.3 Исследование задач и проблем, которые возникают при реализации семантической компоненты современных информационно-поисковых систем.

1.4 Исследование возможностей существующих вариантов формализованного представления естественного языка для моделирования смысла текстовых описаний.

1.5 Выводы по главе.

2 Разработка метода пространственного представления текстовых описаний на основе нового варианта клеточного автомата.

2.1 Формализованное представление текстовых записей в возможной степени сохраняющее семантику текста на естественном языке.

2.2 Разработка нового варианта клеточного автомата на основе использования языка предикатов.

2.3 Описание метода пространственного представления текстовых описаний на основе нового варианта клеточного автомата.

2.4 Практическое применение метода пространственного представления текстовых описаний.

2.5 Выводы по главе

3 Разработка метода распознавания семантического образа текстового описания.

3.1 Разработка подхода к распознаванию семантического образа текстового описания.

3.2 Пример распознавания семантического образа лингвистически заданного объекта, принадлежащего некоторой предметной области.

3.3 Практическое применение метода распознавания семантического образа текстового описания.

3.4 Выводы по главе.

4 Проектирование информационно-поисковой системы, идентифицирующей текстовые описания, используя метод пространственного представления текстовых описаний на основе нового варианта клеточного автомата и метод распознавания семантического образа текстового описания.

4.1 Определение требований к информационно-поисковой системе, которая выполняет смысловой поиск текстовых описаний из заданного набора.

4.2 Разработка когнитивной модели информационно-поисковой системы нового типа.

4.3 Основные этапы построения информационно-поисковой системы на основе разработанной модели.

4.4 Разработка алгоритмов функционирования информационно-поисковой системы.

4.5 Выводы по главе.

Введение 2008 год, диссертация по документальной информации, Бруттан, Юлия Викторовна

Представляемая работа посвящена разработке и исследованию методов и средств пространственного представления и сравнения текстовых описаний для их использования в информационно-поисковых системах (ИПС).

Актуальность темы. В настоящей работе рассматриваются проблемы ориентации и навигации в мире вербального представления научного знания, решение которых в настоящее время затруднено отсутствием информационно-поисковых систем, позволяющих сравнивать описания различных научных работ на уровне совпадения смысловых ситуаций, а не ключевых слов.

Так как естественный язык человека является контекстно-зависимым (КЗ), а компьютеры классической фон Неймановской архитектуры по основному принципу своего устройства могут работать только с контекстно-независимыми языками, поэтому требуется найти возможность представления в ЭВМ смыслового содержания текстовых записей на контекстно-зависимом языке пусть и с искажениями, но допустимыми для конкретных поисковых образов, для решения задач классификации по требуемым параметрам.

Можно утверждать, что человечество в настоящий момент не решило глобальную задачу распознавания семантики текстов, для организации качественного поиска и сравнения текстовых описаний. Конечно, решение такой задачи в полной мере, привело бы к подлинному научному прорыву, но даже и решение этой задачи не в полном объеме представляется весьма актуальной проблемой научного исследования.

Основы методик представления семантики текстов были заложены в публикациях Поспелова Г.С., Поспелова Д.А. (1981) [53, 54 и др.], Белоногова Г.Г. (1983) [5], Апресяна Ю.Д. (1967) [2-3], Минского М. (1979) [45], ХомскогоН. (1961-1962) [68, 69], Попова Э.В. (1982) [52], МильчукаИ.А. (1982) [42-44, 73]. Результаты их развития излагались в работах Полякова А.О. (1985) [1, 26, 51], Кузнецова И.П. (1986) [34], Леонтьевой Н.Н.

1986) [36-39], Рубашкина В.Ш. (1989-2005) [57-60], Хорошевского В.Ф. (2002), Емельянова Г.М. (1998-2003).

Интерес к разработке систем общения с ЭВМ на ЕЯ проявляется как со стороны научных дисциплин, так и со стороны технических, связанных с разработкой и программной реализацией широкого класса информационно-поисковых систем. Алгоритмически разрешимые процедуры распознавания смысловых образов текстовых описаний на ЕЯ, а также способы представления этих образов, допускающие корректно описываемые процедуры их обработки, позволяют программно реализовать информационно-поисковые системы нового типа (интеллектуальные ИПС). Среди наиболее известных работ, посвященных интеллектуализации информационно-поисковых систем можно выделить публикации Поспелова Д.А. [54 и др.], Финна В.К. [66], Рубашкина В.Ш. [57].

Однако, механизм учёта семантической составляющей в публикациях по этой тематике обычно не даёт возможности использования даже широко известных методов для сравнительного анализа текстовых описаний, поэтому предлагаемая работа, направленная на решение проблем семантического поиска, представляется актуальной.

Целью диссертационной работы является разработка и исследование методов пространственного представления и сравнительного анализа текстовых описаний с целью их использования в информационно-поисковых системах для повышения эффективности функционирования этих систем за счёт частичного сохранения семантики исходных текстовых описаний.

Достижение сформулированной цели предполагает решение следующих основных задач:

Заключение диссертация на тему "Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем"

Результаты работы имеют не только научную, но и практическую значимость. Предложенный в настоящей диссертации подход к построению семантических образов текстовых описаний позволяет теоретически обосновать принципиальную возможность существования алгоритмического решения для задач сравнения этих образов. Предложенный в диссертационной работе алгоритм определения класса исследуемого объекта позволяет эффективно решать задачу определения принадлежности лингвистически заданного объекта к одному из выбранных классов, т.е. сравнивать текстовые описания и определять соответствие между ними. Все это позволяет использовать разработанные подходы и алгоритмы в информационно-поисковых системах с целью повышения эффективности функционирования ИПС. Применение этих подходов в учебном процессе позволяет моделировать его в части оценки знания студентов по любым учебным дисциплинам. А использование разработанных методов при организации электронных библиотек позволяет улучшить качество работы этих библиотек.

Материалы работы основаны на публикациях [6-23, 72]. Полученные результаты апробированы в докладах на 15 международных и российских конференциях и симпозиуме.

Все научные и практические результаты получены соискателем самостоятельно.

Завершая настоящую работу, следует наметить возможные направления дальнейших исследований. Основное направление исследований связано с разработкой тезаурусов и словарей предикатов для различных предметных областей. Как показано в [19, 22], решение этих проблем позволило бы использовать разработанные в настоящей диссертации методы и средства в различных информационно-поисковых системах, в том числе и в поисковых системах Интернета, что повысило качество поиска текстовых документов, т.к. в этом случае ведется не обычный поиск по ключевым словам, а семантико-синтаксический анализ электронных документов с целью выявления тех, которые по смыслу соответствуют запросу пользователя. Внедрение на таком глобальном уровне является очень актуальной в настоящее время задачей, т.к. с увеличением числа документов и предметных областей, которые представлены в сети Интернет, снижается релевантность поиска, т.е. можно говорить о кризисе алгоритмов поиска на текущий момент времени.

Учитывая ориентацию предлагаемого в диссертации подхода на использование в поисковых системах Интернета, актуальными являются вопросы реализации предикатных парсеров для перевода не только русскоязычных текстов [22], но и для других наиболее используемых в сети языков.

Второе направление исследований вытекает из необходимости уменьшения процента потерь при формализации текстовых описаний [15] на основе предложенного автором метода, т.е. необходимости учёта более сложных отношений, чём бинарные. Это проблему можно решить, добавив дополнительные признаки семантического образа.

И, наконец, третье направление исследований связано с применением матричных процессоров для реализации параллельных вычислений при сравнении семантических образов текстовых описаний, что позволит существенно увеличить скорость обработки семантических образов текстовых описаний и, следовательно, повысить эффективность работы информационно-поисковых систем, использующих разработанные в настоящей диссертации методы.

Заключение

В заключение сформулируем положения, определяющие научные и практические результаты работы.

Основные научные и практические результаты состоят в следующем:

1. Проведено исследование вопросов представления текстовых описаний с возможным уровнем сохранения семантики для использования существующих формализованных моделей текстов на ЕЯ в информационно-поисковых системах. Сделан вывод, что наименее разработанными являются модели и методы семантического уровня.

2. Разработан новый вариант клеточных автоматов, заданный языком предикатов, т.е. в рамках второй главы реализовано первое из защищаемых положений.

3. Разработан метод пространственного представления текстовых описаний на основе нового варианта клеточного автомата, т.е. в рамках второй главы реализовано второе из защищаемых положений. А так же проанализированы варианты применения данного метода в различных сферах деятельности.

4. Разработан метод распознавания семантического образа текстового описания, т.е. в рамках третьей главы реализовано третье из защищаемых положений. Показана возможность использования предложенного в диссертации метода распознавания образа текстового описания для моделирования оценки знания студентов по учебной дисциплине, при построении интеллектуального библиотечного классификатора, а также организации поисковых машин нового типа.

5. Проведены экспериментальные исследования по распознаванию семантического образа объекта, заданного текстовым описанием, принадлежащего к одному из выбранных классов объектов.

6. Разработана когнитивная модель информационно-поисковой системы нового типа, которая осуществляет смысловой поиск текстовых документов, т.е. в рамках четвёртой главы реализовано четвёртое из защищаемых положений.

7. Разработаны алгоритмы, реализующие основные функции информационно-поисковой системы нового типа. Т.е. в рамках четвёртой главы реализовано пятое из защищаемых положений.

На основе выше изложенного можно сделать вывод, что все поставленные в диссертационной работе задачи были выполнены в полном объёме.

Библиография Бруттан, Юлия Викторовна, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

1. Александров В.В. Автоматизированная обработка информации на языке предикатов / В.В. Александров, Г.А. Булкин, А.О. Поляков. -М.: Наука, 1982. 102с.

2. Апресян Ю.Д. Избранные труды. В двух томах. Т.1. Лексическая семантика. Синонимические средства языка. — М.: Школа "Языки русской культуры", 1995. 472с.

3. Апресян Ю.Д. Формальная модель языка и представление лексикографических знаний. // Вопросы языкознания. — 1990. №6. -С. 123-139

4. Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. -М.: Наука, 1967. 251с.

5. Белоногов Г.Г. Языковые средства автоматизированных информационных систем / Г.Г. Белоногов, Б.А. Кузнецов. — М.: Наука, 1983.-317с.

6. Бруттан Ю.В. Изучение современных информационных технологий при подготовке управленческих кадров // Высокие интеллектуальные технологии образования и науки: Материалы 8-й Международной научно-методической конференции. СПб.: СПбГТУ, 2002. - С. 157

7. БруттанЮ.В. Интеллектуализация поведения компьютеров на основе применения клеточного автомата нового вида // Научно-технические ведомости СПбГПУ. СПб.: Политехнический университет, 2007. -№2 - С. 225-229

8. Бруттан Ю.В; О модели информационно-поисковой системы, позволяющей идентифицировать текстовые описания при произвольной формулировке запроса // Автоматизация, энергетика, компьютерные технологии: Сборник научных трудов. Псков: НИИ-2007.-№1 - С. 40-43

9. Бруттан Ю.В. О содержании подготовки менеджеров в областиинформационных технологий управления / Ю.В. Бруттан, B.C. Белов // Электроника. Машиностроение: Труды ППИ. СПб./Псков: СПбГТУ, 2002. - №6 - С. 214-215

10. Бруттан Ю.В. Применение наукоемких технологий в моделировании экономических систем // Фундаментальные исследования в технических университетах: Материалы 5-й Всероссийской конференции по проблемам науки и высшей школы. СПб.: СПбГТУ, 2001. - С. 250-251

11. Брябин В.М. Диалоговые системы в АСУ / В.М. Брябин, Ю.Я. Любарский, Л.И. Микулич // под ред. Поспелова Д.А. М.: Энергоатомиздат, 1983. - С. 85-120

12. Булкин Г.А. Анализ бинарных отношений в текстах описаний месторождений полезных ископаемых. М.: Наука, 1979. - 102с.

13. Вертешев С.М. От «фон Неймановского» компьютера к метамашине (от программы, хранимой в памяти, к машинам с анализом опыта своего существования). / С.М. Вертешев, А.О. Поляков Псков: ППИ, 2007.-512с.

14. Гладкий А.В. Формальные грамматики и языки. М.: Главная ред.

15. Физ.-мат.лит., 1973.-368с.

16. Гонсалес Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс.- М.: Техносфера, 2005. 1072с.

17. Горелик A.JI. Методы распознавания / A.JI. Горелик, В.А. Скрипкин.- М.: Высш. шк., 1977. 192с.

18. Грамматика русского языка. — М.: Высшая школа, 1960. — Т. 2, ч. 1-2

19. Гэри М. Вычислительные машины и труднорешаемые задачи: Пер. с англ. / М. Гэри, Д. Джонсон. М.: Мир, 1982. - 416с.

20. Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах. // Труды международного семинара Диалог'2002 «Компьютерная лингвистика и интеллектуальные технологии». Москва, 2002. - Т. 2 - С. 180-185

21. Крёнке Д. Теория и практика построения баз данных. СПб.: Питер, 2003. - 800с.

22. Кузнецов И.П. Семантические представления. М.: Наука, 1986. -295с.

23. Лахути Д.Г. Автоматизированные документальные ИПС: система «Скобки». -М.: Информэлектро, 1985. 42с.

24. Леонтьева Н.Н. Информационная модель системы автоматического перевода // НТИ. Сер. 2, 1985. - №10

25. Леонтьева Н.Н. Проблемы создания системы автоматического перевода // Машинный перевод и прикладная лингвистика: Сборник научных трудов. Вып. 271 - М.: МГПИИЯ им. М.Тореза, 1986

26. Леонтьева Н.Н. Семантика связного текста и единицы информационного анализа НТИ, сер.2, 1981. - №1 - С. 21-29

27. Леонтьева Н.Н. Семантические заготовки к пониманию целого текста / Н.Н. Леонтьева, И.М. Кудряшова, О.Б. Малевич // Машинный перевод и прикладная лингвистика: Сборник научных трудов. Вып. 271 - М.: МГПИИЯ им. М.Тореза, 1986

28. Либинзон Н.И. О тезаурусе дискрипторосочетаний / Н.И. Либинзон,

29. И.С. Добронравов, Д.Г. Лахути, С.М. Гладкова // Проблемы автоматизированной обработки научно-технической информации: Материалы 2-й Всесоюзной научно-технической конференции. М.: ВИНИТИ, 1978. - С. 72-74

30. Малиновский Б. Проблема значения в примитивных языках. // Эпистемология и философия науки. М., 2005. - №3 - С. 199-233

31. Мельчук И.А. Грамматики деревьев. I. Опыт формализации преобразований синтаксических структур естественного языка / А.В. Гладкий, И.А. Мельчук // Информационные вопросы семиотики, лингвистики и автоматического перевода. Москва, 1971. - №1 -С. 16-41

32. Мельчук И.А. Грамматики деревьев. II. К построению Д-грамматики для русского языка / А.В. Гладкий, И.А. Мельчук // Информационные вопросы семиотики, лингвистики и автоматического перевода. Москва, 1974. - №4 - С. 4-29

33. Мельчук И.А. Опыт теории лингвистических моделей «смыслОтекст». — М.: Наука, 1982. 345с.

34. Минский М. Фреймы для представления знаний. — М.: Энергия, 1979. 342с.

35. Моделирование языковой деятельности в интеллектуальных системах // под ред. Кибрика А.Е. и Нарьяни А.С. М.: Наука, 1987.

36. Нагао М. Государственный проект создания системы машинного перевода // Международный форум по информации и документации. -М., 1984.-Т. 9.-№2.-С. 11-16

37. Нейман Дж. фон. Теория самовоспроизводящихся автоматов. М.: Мир, 1971.-87с.

38. Новиков Ф.А. Дискретная математика для программистов. Учебник для ВУЗов. 2-е изд. СПб.: Питер, 2004. - 364с.

39. Одинцев Н.В. Обобщенные модели управления. Синтаксический анализатор на основе обобщенных моделей управления. //

40. Компьютерная лингвистика и интеллектуальные технологии: Труды международного семинара Диалог'2002. — Москва, 2002. — Т.2 — С. 401-406

41. Поляков А.О. Семантика условия и инструментарий глобального хранения научных текстов / А.О. Поляков, А.В.Иванов, В.М. Лачинов // Известия СПбГЭТУ «ЛЭТИ». Серия информатика, управление и компьютерная технология. Санкт-Петербург, 2005 — №2 - С. 65-68

42. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982.-360с.

43. Поспелов Г.С. Искусственный интеллект: прикладные системы / Г.С. Поспелов, Д.А. Поспелов. М.: Знание, 1985. - 48с.

44. Поспелов Д.А. Логико-лингвистические модели в управлении. М.: Энергоиздат, 1981

45. Протасов С.В. Автогенерация семантических словарей с использованием грамматики связей русского языка // Процессы и методы обработки информации. М., 2005

46. Рубашкин В.Ш. О методах анализа связного текста (к проблеме применения семантических моделей текста в документально-фактографических ИПС) // Вопр. информ. теории и практики. 1983. -№49.-С. 58-73

47. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. -М., Наука, 1989. 192с.

48. Рубашкин В.Ш. Универсальный понятийный словарь: функциональность и средства ведения // КИИ—2002: Труды 8-й национальной конференции по искусственному интеллекту с международным участием. М.: Физматлит, 2002

49. Рубашкин В.Ш. Формирование массивов данных путём диалога с классификационной системой // Вопр. информ. теории и практики. — 1982.-№47.-С. 82-89.

50. Рыбина Г.В. Система представления понятийных знаний сиспользованием фреймов / Г.В. Рыбина, Н.А. Строганова // В сб.: Вопросы кибернетики. Интеллектуальные банки данных. -М., 1979

51. Серебрянников О.Ф. Эвристические принципы и логические исчисления. — М.: Наука, 1970. — 283с.

52. Смирнов В.А. Логические методы анализа научного знания. М.: Наука, 1987.-256с.

53. Тоффоли Т. Машины клеточных автоматов / Т. Тоффоли, Н. Марголус. М.: Мир, 1991. - 325с.

54. Тузов В.А. Компьютерная семантика русского языка СПб.: СПбГУ, 2003,- 146с.

55. Файн B.C. Распознавание образов и машинное понимание естественного языка. М.: Наука, 1987

56. Финн В.К. Информационные системы и проблемы их интеллектуализации // НТИ. Сер.1. 1984. - №1. - С. 1-14

57. Фор А. Восприятие и распознавание образов. М.: Машиностроение, 1989.-272с.

58. Хомский Н. О некоторых формальных свойствах грамматик. В кн.: Кибернетический сборник. - Вып. 5 — М.: Изд-во иностр. лит., 1962

59. Хомский Н. Три модели описания языка // Кибернетический сборник. 1961.-Вып.2-С.81-92

60. Цикритзис Д. Модели данных / Д. Цикритзис, Ф. Лоховский. М.: Финанисы и статистика, 1985. - 343с.

61. Шрейдер Ю. А. Равенство, сходство, порядок. М.: Наука, 1971. -254с.

62. Mel'culc I.A. Explanatory Combinatorial Dictionary of Modern Russian.

63. Sleator D. Parsing English with a Link Grammar / D. Sleator, D. Temperley. // Third International Workshop on Parsing Technologies. -1993

64. Staab S. Handbook on Ontologies / S. Staab, R. Studer. Berlin-Heidelberg: Springer-Verlag, 2004155