автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Модели и методы семантического сравнения строк символов в коллекции документов

кандидата технических наук
Бердник, Владислав Леонидович
город
Волгоград
год
2008
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Модели и методы семантического сравнения строк символов в коллекции документов»

Автореферат диссертации по теме "Модели и методы семантического сравнения строк символов в коллекции документов"

ВОЛГ 011'ЛДСКИИ ГОСУДЛРС ШКНИЬШ Г1 ХНИЧЕСКИИ УПИШ РСИ7Ы

на правах рукописи

¿С,.

003448В18

Бердник Владислав Леонидович

Модели и методы семантического сравнения строк символов в коллекции документов

С пщпадыгость 13 01 - (. писмнын анали) управ 1сшк. 11 обработка информации (промыцпснпость)

Авюрсфсра1 диссертации на соискание ученой степени кандн ииа |с\ннческп\ наук

1 6 ОПТ 2003

Волгоград 2008

003448618

Работа выполнена в Волгоградском государственном техническом

университете

Научный руководитель - доктор технических наук, профессор

Заболеева-Зотова Алла Викторовна

Официальные оппоненты Доктор технических наук, профессор

Сергей Михайлович Ковалев

Кандидат технических наук, доцент Валерий Борисович Тарасов

Ведущая организация - Брянский государственный университет

Защита состоится «31» октября 2008 г в 15-00 часов на заседании диссертационного совета Д212 028 04 при Волгоградском государственном техническом университете по адресу 400131, г Волгоград, пр Ленина, 28 (ауд 209, Главный корпус)

С диссертацией можно ознакомиться в библиотеке Волгоградского государственного технического университета

Автореферат разослан 30 сентября 2008г

'Ч с

Ученый секретарь диссертационного совета "" Водопьянов В И

СПИСОК СОКРАЩЕНИЙ

ПИС - Предикативное Имя Сущности БД - База Данных

УКО - Условно Кодовое Обозначение

ДО - Дефиниционное Отношение

ЕЯ - Естественный Язык

ОЕЯ - Обработка Естественного Языка

ИПС - Информационно-Поисковая Система

Y

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы

Компьютерные базы данных активно используются во всех отраслях человеческой деятельности, но их существование немыслимо без эффективного способа именования объектов реального мира В реляционных базах данных, такая идентификация (референция) реализуется, или как формализованная система атрибутов (например, кортеж <марка автомобиля, цвет, гос Номер>), или как концептуально нечленимая символьная строка, ориентированная на понимание человеком (например, «Кабель питания компьютера Зм») В настоящее время не существует эффективных способов сравнивать такие имена сущностей в таблицах БД на семантическую эквивалентность1

Необходимость определения семантической эквивалентности двух и более символьных имен сущности* возникает в таких задачах, как исключение семантически дублирующих записей таблиц БД (нормализации по INF), перенос сведений между не реплицированными БД в виде электронных или печатных документов, ведомостей или прайс-листов, а также, в системах электронной коммерции (например, http //www price ru)

В данной работе исследуется подмножество символьных имен сущности с предикативным способом указания признаков - предикативное имя сущности (ПИС)

В общем случае, ПИС не язляется элементом ЕЯ не использ\ется в устной речи, на письме выделяется особым образом (кавычками, шрифтом и т д ), может содержать УКО, элементы сообщения в «телеграфном стиле», а также полностью состоять из них По этой причине, востребованная на практике задача недостаточно исследуется лингвистами В тоже время, предикативное имя сущности создается и воспринимается некоторой группой лиц, что выражается в значительной аналогии грамматики ПИС и ЕЯ Предикативное имя сущности как явление активно используется в торговле и все чаще встречается в повседневной жизни там, где существует недостаточность естественно языковых средств для выделения явления или объекта указание и название маршрутов общественного транспорта, адресов, книг и т п

Главной функцией имени сущности в БД является выделение текущей записи среди других записей в таблице, т е дистинкция3 В случае идентификации предметной области с эволюционирующей онтологией4, это достигается за счет добавления в исходное ПИС нового дифференцирующего признака - терма, или модификации условно-кодового обозначения

В данной работе ПИС рассматривается как статическая символьная система, что подразумевает влияние некоторой организации элементов с устойчивыми связями на выход системы (денотат, референт) Предикативное имя сущности семантически замкнуто, что означает автономность идентификации сущности и

' Под семантически эквивалентными будем понимать этементы однозначные по отношению к общему денотат) * Термин «имя сущности» впервые введен в работах по информационной алгебре и в настоящее время активно

используется в теории баз данных

3 Дистинкция - процедура отличения и отграничения одних (определяемых) предметов от других

4 Часто (например, в торговле) наряду с основным изделием, производятся различные его подвиды имеющие небольшие, но важные для потребителя изменения, что свидетельствует об эволюционном развитии онтологии отдельных предметных областей

у

отсутствие связи с другими системами по силе больше или равное связям внутри системы (отсутствие ссылок на другие идентификаторы, местоимения, и т п ) Наличие связей внутри ПИ С подразумевает наличие в составе более одного элемента

Во всех коммерческих системах сравнения и поиска ПИС, существующих в настоящее время (PRICE RU, «Анализ прайсов TradesMan», система «АПЛ», «Анализ прайс-листов/) компании b2b-soft и тд) используются методы информационного поиска, от простейших дескрипторных моделей, до методов, с использованием словарей синонимов и статистики встречаемости термов В тоже время, вопрос о кореферентности символьных строковых идентификаторов исследуется недостаточно В существующих системах используются модели и методы ориентированные на поиск и сравнение по критерию релевантность Адекватность использования такого критерия для рассматриваемой задачи до настоящего момента не исследовалась Следует также отметить близкие к данной задаче исследования в области поверхностно-семантического анализа (технологии Alex) Российский НИИ искусственного интеллекта под руководством Нариньяни АС по выделению на основе настраиваемых синтаксических шаблонов отдельных параметров идентифицируемых изделии

Учитывая высокую практическую востребованность такого рода компьютерных систем и фактическое отсутствие достаточных теоретических исследований и результатов, вопрос семантического сравнения строк символов на эквивалентность является открытым Так как предикативное имя сущности является сложной символьной системой, а процесс их сравнения - это определение класса сходства систем, семантическое сравнение ПИС является задачей системного анализа Таким образом, актуальность темы определяется необходимостью совершенствования средств и методов семантического сравнения предикативных имен сущности на основе системного анализа

Применение результатов исследования позволит повысить эффективность большого класса компьютерных систем от информационно-поисковых машин (ИПС) до интеграции БД систем управления ресурсами различных предприятий (ARP)

Цель диссертационной работы

Целью диссертации является исследование возможностей методов системного анализа для повышения эффективности процесса семантического сравнения предикативных имен сущности Задачи исследования

Для достижения поставленной цели необходимо решить следующие задачи

1 Провести анализ существующих методов поиска и сравнения ПИС

2 Построить модель предикативного имени сущности и провести анализ влияния составляющих параметров на выход системы

3 Разработать методы определения семантической эквивалентности предикативных имен сущности Сформировать алгоритмы автоматизации семантического сравнения ПИС

4 Разработать и реализовать программную систему - инструментарий для анализа системных свойств и определения эквивалентности предикативных имен сущности

5 Провести анализ эффективности автоматизации методов сравнения семантически эквивалентных предикативных имен сущности Методы исследования

Методы системного анализа, статистические и лингвистические методы обработки естественно-языковых текстов, методы принятия решений в условиях неопределенности Объект исследования

Процесс сравнения предикативных имен сущности Предмет исследования

Возможность автоматизации семантического сравнения ПИС методами системного анализа

Научная новизна

Впервые разработаны средства и методы семантического сравнения предикативных имен сущности

1 Разработана модель предикативного имени сущности и проведен анализ влияния термов на выход системы

2 Разработана информационная модель рода сущностей

3 Разработан метод определения семантической эквивалентности предикативных имен сущности на основе информационной модели рода сущности

4 Разработан метод ранжирования альтернативных вариантов семантически толерантных ПИС

5 Разработаны алгоритмические операции для автоматизации сравнения семантически эквивалентных предикативных имен сущности

Достоверность результатов диссертационной работы

Достоверность научных положений, выводов и рекомендаций подтверждена результатами экспериментов, а также результатами использования материалов диссертации и разработанной системы в коммерческой организации ООО «Прайм» в соответствии с актом внедрения

Основные положения, выносимые на защиту

• Модель предикативного имени сущности как статической системы

• Модель рода сущностей как эффективное средство семантического сравнения ПИС

• Метод определения семантической эквивалентности предикативных имен сущности на основе информационной модели рода сущности

• Метод ранжирования альтернативных вариантов семантически толерантных ПИС

Практическая значимость работы

Разработанные методы и алгоритмы позволяют повысить качество поиска информации о товаре в системах электронной коммерции по запросу пользователя, маркетинговых службах и снабжении предприятий, а также сократить время, затрачиваемое на перенос сведений между не

t

рсплмцированными базами данных за счет автоматизации процесса сравнения кореферативных ПИС

Реализация результатов работы

Результаты диссертации и программная система использованы при автоматизации бизнес процессов на предприятии ООО «Прайм», что подтверждается актом внедрения

Апробация работы

Основные положения и результаты диссертации докладывались, обсуждались и получили одобрение на конференциях

• «Интеллектуальные системы» (AIS'08) и «Интеллектуальные САПР» (CAD-2008), международная научно-техническая конференция, Дивноморское, 2008,

• Информационные технологии в науке, образовании, телекоммуникациях л бизнесе (IT+SE 07)-XXXIV международная конференция и дискуссия научного клуба, Ялта-Гурзуф, 2007,

• Инновационные технологии в управлении, образовании, промышленности «АСТ ИНТЕХ-2007», Астраханский государственный университет, Астрахань, 2007,

• Системные проблемы надежности, качества, математического моделирования, информационных и электронных технологий в инновационных проектах Инноватика-2007,

• Информационные технологии в образовании, технике и медицине, международная научно-техническая конференция, Волгоград, 2000

Публикация результатов работы

По теме диссертации опубликовано 12 работ, в том числе 4 статьи опубликованы в изданиях, входящих в перечень ВАК, 8 статей в сборниках трудов, 4 материалов конференций

Структура и обтам диссертации

Диссертационная работа изложена на 131 страницах машинописного текста, содержит б рисунков и 8 таблиц, состоит из введения, пяти глав, заключения, списка литературы из 165 наименований и 2 приложений на 7 страницах

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении обосновывается актуальность темы диссертации, определяются объект, предмет, цель, задачи диссертационного исследования, методы анализа, раскрываются научная новизна, теоретическая и практическая значимость работы, формулируются положения, выносимые на защиту

В первой главе вводится определение предикативного имени сущности, рассматриваются вопросы применения методов и мер информационного поиска в существующих коммерческих системах В связи очевидной аналогией естественного языка и предикативных имен сущности, рассматриваются современные научные лингвистические подходы и методы их решения, в том числе с применением ЭВМ

/

Определение I I Предикативное имя сущности (ПИС) - это символьная строка конечной (лимитированной) длины, в которой отдельные слова (термы) или группы слов задают отдельные признаки, в совокупности и во взаимодействии обеспечивающие идентификацию и выделение сущности или вида сущности среди остальных в предметной области Такая строка должна идентифицировать сущность, либо совокупность семантически близких сущностей, воспринимаемых, согласно предметной области, как атомарный идентифицируемый объем

В настоящее время существует более десяти косвенных и прямых аналогов разработанной программной системы Наиболее известная из них - PRICE RU, которая в своей основе использует методы на основе локального и глобального взвешивания термов строк прайс-листов и запросов5 Такая система электронной коммерции отличается от обычных поисковых машин Интернет (например, www yandex ru) наличием дополнительных словарей, которые позволяют транслировать различные способы написания (и сокращения) одних и тех же признаков изделий (например, «Диалог» и «Dialog») в формализованное представление

При проведении анализа других аналогов («Анализ прайсов TradesMan», система «АПЛ», «Анализ прайс-листов» компании b2b-soft и т д ) обнаруживается, что в сравнительно недорогих системах используется дескриптивная модель поиска, т е для каждой итерации поиска пользователь вынужден выделять подстроку -дескриптор В более дорогих коммерческих системах реализованы алгоритмы информационно-поисковых машин, как это сделано, например для PRICE RU 6

В рамках информационного поиска изучаются вопросы поиска документов, обработки результатов поиска, разрабатываются и исследуются критерии, метрики и меры, а также ряд смежных вопросов моделирования, классификации, кластеризации и фильтрации документов, проектирования архитектур поисковых систем и пользовательских интерфейсов, языки запросов, и т д Важнейшим критерием оценки информационно-поисковой системы является речевантностъ ее ответов, т е соответствие ответов системы информационным потребностям пользователя Строго говоря, термин речевантностъ используется для ссылки на семейство разных критериев Каркас этого семейства имеет три размерности Информационная потребность, информационные ресурсы (потенииачьная возможность) контекст использования 1шформашш(об часть интересов почьзовате чя его знаний и т д )

Сравнение предикативных имен сущности имеет ряд принципиальных отличий Единственным критерием сравнения ПИС является их кореферентность Референт является системным выходом ПИС и зависит не только от состава, но и от связей между элементами Предикативное имя сущности выполняет функции дистинкции и дефиниции Референт является значением дистинкции, а понимание ПИС человеком является значением дефиниции Таким образом, не все элементы и связи между ними влияют на идентификацию сущности (дистинкцию референта)

1 Информация поточена из E-mail переписки с разработчиками PRICE RU ' Информация порчена из документации к\ктзанным программным продуктам

J

Среди наиболее известных и влиятельных работ, посвященных формальному описанию языков, можно выделить теорию формальных грамматик H Хомского7 и модель «смысл - текст» И Мельчука8 Теория Смысл - Текст, являясь практически первой в СССР «кибернетической» теорией в области лингвистики, ставящей перед собой прикладные цели — создать двунаправленный лингвистический процессор, использовала Толково-Комбинаторный Словарь для задания морфологических, синтаксических, семантических характеристик и толкований заглавного слова Теория постулирует многоуровневую модель языка Различают следующие уровни фонологический, поверхностно-морфологический, глубинно-морфологический, поверхностно-синтаксический, глубинно-синтаксический, семантический Каждый уровень характеризуется набором собственных единиц и правил представления, а также набором правил перехода от данного уровня к соседним

Технология лексического анализа Alex (система создана в Российский НИИ Искусственного Ишеллекта, под руководством АС Нариньяни) позволяет с помощью настраиваемых лексических шаблонов решать задачи

• Поиск в текстовых массивах различной степени структуризации определенных фрагментов, извлечение знаний,

• Нормализация слабоструктурированных массивов данных как с точки зрения их структуры, так и сточки зрения качества их наполнения

Технология лексического анализа Alex позволяет транслировать слабоструктурированные символьные строки в единицы поверхностно-синтаксического уровня Для семантического сравнения ПИС требуется разработка моделей и методов идентификации сущности по признакам

Моделирование ПИС значительно упрощается, если в предметной области выделить таксонометрические единицы Предикативное имя сущности, как определяющее дефиниционного отношения содержит в своем составе классифицирующий родовой признак

В самом общем виде дефиниционное отношение представлена схемой Dfd+Dfn, в которой «Dfd» - зто дефиниендум, или определяемое, «+»- связка, . «Dfnw-дефиниенс или определяющее В классической логической дефиниции дефиниендум представляет собой видовое понятие, а дифиниенс -(ближайшее) родовое понятие и видовое отличие Структурный анализ дефиниций предполагает выделение таких отношений как тождество, включение и аддиция (дистинкция) Предикативное имя сущности можно представить как определяющее (дефиниенс) ДО Определяемое находится вне языкового представления

Таким образом, вопрос семантического сравнения предикативных имен сущности остается открытым Существующие методы информационного поиска не имеют формального аппарата для определения кореферентности ПИС, отсутствуют адекватные задаче методы, критерии и меры В настоящий момент не разработано подходов и методов для семантического анализа ПИС, поскольку при

7 Хомский Н Аспекты теории синтаксист —N1 Изд-во БГК им И Л Бод\"эт Де К>ртенэ 1999 —.

МельчукИ \ Опыт теории лин[ вистически\ моделей «Смыст Ям.г» M Наука 1974

явной аналогии ПИС и естественного языка, в общем случае, предикативное имя сущности не является естественно- языковой конструкцией

Во второй главе проведен структурно-функциональный анализ предикативного имени сущности, выполнен анализ компонента дистинкции предикативного имени сущности, описаны системные связи внутри предикативного имени сущности, и связи с надсистемой и средой

С точки зрения семиотики, предикативное имя сущности можно рассматривать как сложный по внутренней структуре искусственный символьный знак, восполняющий недостаточность естественно-языковых средств идентификации элементов описываемой предметной области (выполняющий номинативную функцию) Атомарность объема понятия ПИС инвариантна во времени и пределах информационной системы, но зависит от выбранной при проектировании СУБД концептуальной модели и предметной области, может быть единичным экземпляром, видом объектов (явлений), или совокупностью (набором, комплектом) и т д

Введем следующие обозначения

• и - универсум ПИС, в данном случае, специальный корпус текстов,

• Б - множество идентифицируемых сущностей (видов сущностей),

• С-универсум признаков

Областью наших исследований является случай, что между множествами и и Б существует сюръекция геГ и->8, где ге? - отношение идентификации сущности (референция) Это достигается тем, что во множестве Б некоторые группы семантически близких сущностей, согласно предметной области, представлены как единый элемент множества Из этого следует, что универсум и состоит из подмножеств и5 имен сущности- синонимов

Отношение геГ задано в общем виде, объективно существует, и является одной из главных целей нашего исследования Рассмотрим более подробно элементы множества 8 Проводя аналогию с конструкциями естественного языка, сущность б является денотатом соответствующих ПИС

Различные сущности должны иметь различный набор признаков Пусть б|, Бт-сущности, С|, С;-соответствующие множества признаков

¡' С->Б, где у - отношение идентификации сущности по набору признаков В отличие от лингвистического описания сущности, введем более строгие ограничения В подмножествах С зададим как наличие, так и отсутствие семантического признака Для множеств С и Б (множества признаков и сущностей), введем бинарное отношение М=5хС С помощью характеристической функции (предиката) множества это можно представить в виде

иь={и (ЗзеБ) (Х/цеУ) [з=геГ(и)]}

(2 1)

( \/5|=у(С|))(>7'52= у (С2))[ => С^С,],

(2 2)

где

цм<5,с>=

1 ее 111 э обюдает с О ест з не об падает с

(2 3)

//

Определим минимальный набор признаков СП1 для идентификации сущности

s

(3CmcC) (Vcme С J [ s= у (Ст) => у (Ст)# у (Ст\ ст)] (2 4) (VssS)(VClcC)(3CmcC)[s=y(C,) = y(Cm) => СтсС,] (2 5) Предикативное имя сущности имеет две функции Во-первых, как элемент программной системы, оно должно выделять идентифицируемую сущность среди множества других, т е выполнять функцию дистинкции Во-вторых, как средство информирования человека, оно дает определение и описывает наиболее значимые признаки сущности, выполняя функцию дефиниции

Логически верное ПИС должно идентифицировать единичный объем Свойство идентификации единичного объема (единичного объекта), позволяет утверждать, что функция дистинкции предикативного имени сущности является первичной по отношению к функции дефиниции Кроме того, не обладая необходимым качеством для использования в вычислительной среде, таким как выделение сущности среди прочих, ПИС будет нарушать детерминированную модель информационной системы (например, будут нарушаться условия нормализации БД по 1NF), и, следовательно, является ошибочным Отсутствие дефиниционного компонента в ПИС, приведет к дополнительным трудностям понимания непосвященному кругу лиц, что не исключает возможности использования такого предикативного имени сущности (пример ПИС «LG 80130N») Компонент дистинкции может быть полностью включенным, частично включенным и не включенным в компонент дефиниции

Введем множество ОсС родовых предикатов S, следующим образом

(VseS) (ЗосО) (3CS сС) [«,= y(Cs) => ое CJ (2 6)

В ПИС, используемых в маркетинге и торговле, в качестве родового признака указывается классификационный признак продукта или изделия

Множество S состоит из родов сущностей S0 по родовому признаку о

(VoeO)(3S0cS)( Vs„eSL,)( 3CscC) [s0=y(Cs) =>oeQ] (2 7) где о- родовой признак (предикат),

Cs- предикаты видовой характеристики и дистинкции Роды сущностей имеют собственные подмножества признаков

L=CxO, eL<c,o>= {1 ЗС' "С, оеС, *С,)*0 2 §)

1 0 ее ш У С, се С, оеС, /(С, ) = 0

ПИС, в случае идентификации сущности, которая в своем составе содержит иные сущности, может принимать с южносоставную и ш односоставн) ю форму

Сложносоставная форма предикативного имени сущности применяется при отсутствии установившегося классифицирующего термина-прототипа в предметной области В таком случае в качестве родовою признака сущности используются слова «набор», «комплект», «комбайн» и т п Например, «Набор для рыбалки (спиннинг, фонарь, садок)» Таким образом, многосоставная ПИС представляет собой сложную систему, и состоит из предикативных имен сущности - подсистем идентифицирующих входящие в состав сущности

Повторяемость структуры (грамматики) предикативного имени сущности также проявляется для определения понятий-признаков Например, «Черный картридж для принтера Hewlett Packatd LJ 1600» Подстрока «принтер Hewlett

¡L

Packard LJ 1600» содержит собственный родовой признак «принтер», видовую характеристику «Hewlett Packard» и компонент дистинкции «LJ1600» Однако, идентифицируемое изделие «картридж» не содержит в своем составе изделия «принтер», а, следовательно, ПИС по форме является односоставной Таким образом, предикативное имя сущности, включенное в состав основного ПИС, несет функцию (имеет цель) дефиниции понятия-признака «для принтера определенной модели» Такие предикативные имена будем называть подчиненные ПИС Подчиненное ПИС отличается от составной ПИС не только назначением, но и объемом идентифицируемого понятия (обычно, более одной сущности) и допустимыми способами дефиниций

В общем случае, предикативное имя сущности может иметь следующие формы

1 Простейшее ПИС - состоит из родового признака или компонента дистинкции

2 Простое ПИС - не содержит в своем составе подчиненных или составных ПИС

3 Составное ПИС - имя сущности входящей в состав более сложной сущности

4 Подчиненное ПИС - указание параметра (признака) через номинацию некоторого непустого множества ассоциативно связанных сущностей

5 Комплексное ПИС - предикативное имя сущности, содержащее в своем составе подчиненное ПИС

6 Многосоставное ПИС - предикативное имя сущности, содержащее составные ПИС

7 Управляющая ПИС - комплексное или многосоставное предикативное имя сущности за исключением подчиненных или составных ПИС

Компонент дистинкции ПИС реализуется, преимущественно, как условно-кодовое обозначение или имя собственное Условно-кодовое обозначение состоит из изменяемой части, но может содержать неизменяемую (постоянную) часть Постоянная часть, как правило, содержит тип идентификатора, который соотносится с областью его применения, либо иные классифицирующие признаки (например, код региона на государственных автомобильных номерах) Имя собственное позволяет восстановить через пресупозицию внелингвистическую информацию, которая в дальнейшем может быть использована для анализа ПИС

Предикативное имя сущности преимущественно используется в СУБД и, в частности, может быть обычной конкатенацией символьных атрибутов кортежа отношения БД Существует сходство между элементом теории БД - домен атрибутов и семантическим полем Содержимое домена атрибутов определяется проектировщиком БД, а также может пополняться «стихийно» Семантическое поле - более формализованное и исследованное понятие, чем домен атрибутов БД

Связи между подсистемами на уровне компоновки символьной структуры ПИС преимущественно реализуются, как инкапсуляция (внедрение) подчиненных (нижележащего уровня) подсистем в управляющие (вышележащего уровня) подсистемы Таким образом, многосоставные и комплексные ПИС, как формат представления символьных данных, являются контейнером, который содержит атрибуты управляющий ПИС и ПИС нижележащего уровня

в

Применяется, но сравнительно редко, организация ПИС с внутренними ссылками (например, местоимениями) Организация такого рода системных связей неэкономно расходует место в символьной строке Пример, «Набор (гелевая ручка, карандаш STAFF, линейка), карандаш с ластиком» Такое комплексное или многосоставное ПИС не членимо на отдельные предикативные имена сущностей, так как подсистемы нижележащего уровня семантически не замкнуты, а связаны с другими частями системы Предикативные имена сущностей с внутренними ссылками будем называть сгпьносвязанными ПИС

Разрешение многозначности символьных единиц и их конструкций предикативного имени сущности возможно только на основании внелингвистической модели В рамках родовой принадлежности возможно обобщенное моделирование подмножества идентифицируемых сущностей Учитывая сложность такого моделирования, обобщенная модель рода сущностей не может претендовать на универсальность, однако, при условии небольшого размера множества рода и достаточной точности его модели, можно разработать высокоэффективные алгоритмы сравнения предикативных имен сущности на семантическую эквивалентность

В третьей главе исследуется метод ранжирования семантически толерантных предикативных имен сущности, определяются критерии метрики и меры, разрабатывается модель родов сущностей, а также метод определение семантической эквивалентности ПИС на основе моделей родов сущности

Под документом сущности Ds будем называть совокупность информации о сущности s

Ds =< Us, Ys>, (3 1)

где

Us- множество семантически эквивалентных (кореферентных) ПИС, Ys - разнородная информация о сущности и способах сравнения на эквивалентность (рассмотрено в следующих разделах) Соответственно, кот чеканя документов К

K={D5,,Ds2, Ds„,}, (3 2)

где n-количество документов в коллекции

В предыдущей главе введены множества U, S, Us и отношение ref U->S U - множество предикативных имен сущностей

S - множество возможных значений идентификации (множество сущностей), таким образом, что существует сурьекция refU->S, где ref -идентификация s по и Множество U является объединением двух подмножеств U=(J+vjU Соответственно, U+ содержит предикативные имена сущности, для которых значение функции s=ref(u) установлено Множество U" содержит предикативные имена сущности, для которых значение функции ref(u) необходимо определить

ПИС идентифицируют только одну общую для подмножества сущность

(Vus,e Us) (Vus, e Us) => ref(us,) з ref(uSj) (3 3)

Для разбиения множества U выполняется следующее условие

U=US|UUS2U ии\так, что U5, n Us, =0 для (3 4)

Элементы множества I/ семантически эквивалентны внутри подмножества, так как указывают на одну и ту же сущность

Определим отношение (синтагму) эквивалентности Я

(Ух,уе и5, иь с11) =>(хЯу=Тгие), (3 ч)

(Ухе и\,и5,си)( Ууе и5,, и5, си ) (и5, п и5, =0) => (хЯу=Ра!зе) (3 6)

Верны и обратные утверждения

(Ух,уе и) (хЯу=Тше) =>( Эи5 си, х уе 1Г) (3 7)

(Ухе 1Р,,1Г,си)( Ууе 1Г,, си)(хЯу=Ра15е)-=> 1Г, п и5, =0 (3 8)

Из выражения (3 5), в случае тождественности х=у выводится условие рефлексивности

хЯх=Тгие (3 9)

Заменив в выражении (3 7) хЯу на уЯх, мы получаем, что также х,уе I/, и ш выражения (3 5) получаем хЯу=Тше

(\/х,уе и) (уЯх=Тгие) =>( 31/ си \,уе 1/)=>\Яу (3 10) Таким образом, соблюдается условие симметричности

уЯх => хЯу (311)

Заменив в выражении (3 5) хЯу на уЯг, мы получаем

(Ух,уе и) (\Я>=Тн1е) =>( Эи5,си, х,уе и5,), (3 12)

{\/у,ге и) (уЯг-Тгие) =>( Зи3,си, у,ге и',), (3 13)

из чего следует

(х уе и\) &(у,ге 115,)=>( и5, п 1Г, =у) (3 14)

учитывая выражение (3 4)

1)', о I/, =0 для (3 1М

получаем, что 1=)

(Ух,у,гЕ 11) (хЯу=Тше) (уЯг-Тше) =>( 31/ с11, х,у,ге 1/)=> (хЯг=Тгие) Таким образом, соблюдается условие транзитивности

хЯу&уЯг=>хЯг (3 16)

Отношение Я на множестве и является отношением эквивалентности, так как для него соблюдаются условия рефлексивности, симметричности п транзитивности

Введем вектор соответствия X' документов коллекции к и предикативного имени сущности и еи

Х'={хьх2, ,хп), (3 17)

где, учитывая, что 05' =< и,1, У5'>, 05' е К , 1=1 п, п=|К|

(Уи+е и5,) х,=Я(и ,и+) (3 18)

Коллекции К не всегда содержит искомый документ сущности анализируемого ПИС и В этом случае необходимо создание и добавление документа в коллекцию Введем в вектор X' элемент х2, который свидетельствует о необходимости пополнения коллекции К

В этом случае, X является единичным координатным вектором

Х={х,,х:, , хл, х?), (3 19)

где х,= 1-1(х,), 1=1 п, п=[К|

Таким образом, задача поиска семантически эквивалентных предикативных единиц текста в коллекции документов сводима к нахождению единичного координатного вектора X

Как упоминалось в главе 1, существующие коммерческие системы используют методы информационного поиска Эти методы основаны на эвристической оценке релевантности

• чем чаще терм встречается в документе, тем он более релевантен по отношению к документу,

• чем чаще терм встречается среди всех документов коллекции, тем хуже он отражает различие между документами,

• если некоторый терм не встречается в документах, то он указывает на неполноту коллекции

Согласно векторной модели, близость документа О к запросу оценивается как корреляция между векторами их описаний9 Эта корреляция может быть вычислена как скалярное произведение соответствующих векторов описаний

Сравнение предикативных имен сущности имеет ряд принципиальных отличий

1 Единственным критерием сравнения ПИС является н\ кореферентность

2 Референт является системным выходом ПИС и зависит не только от состава, но и от связей между элементами

3 Предикативное имя сущности выполняет функции дистинкции и дефиниции Референт является значением дистинкции, а понимание ПИС человеком является значением дефиниции Таким образом, не все элементы и связи между ними влияют на идентификацию сущности (дистинкцию референта)

Руководствуясь вышеизложенным, мы приходим к выводу, что любой документ коллекции состоит из совокупности термов Ранжируя термы по значимости для выражения предикативным именем сущности функции дистинкции следует выделить отдельные классы

1 Условно-кодовые обозначения и имена собственные наиболее значимые термы для выделения сущности среди остальных в коллекции Такие термы имеют наивысшую оценку

2 Родовые (классификационные) признаки термы - указывают на состав и структуру ПИС Они в большинстве случаев обладают высокой глобальной частотой и разделяют область поиска в коллекции документов, в том смысле, что сравниваемые ПИС должны принадлежать к одному роду Термы рода управляют взвешиванием, но сами на значение меры не влияют

3 Для термов -признаков вида следует использовать такую меру, которая позволит определять степень выражения функции дистинкции в ПИС Реализующие функцию дистинкции признаки обязательны для идентификации

' Сравнительный знтпиз различных метрически* мер близости сделан в работе Козачкоа Т С 11:гни\ I \ \ Хоменно Л И О моделировании некоторых метрических мер близости 'Со Информационным аналнз и лингвпстп кские пробпемы информационных систем К ИК \Н УССР 1975 стр 7-15

сущности, хотя соответствующие им термы могут отсутствовать, и выражаться через УКО или имя собственное Таким образом, такие термы наиболее частотны по локальным и глобальным схемам взвешивания Термы, не участвующие в реализации функции дистинкции, поясняют пользователю потребительские качества товара Так как термы дефиниции (например, рекламы и пояснения) маловероятны для появления во всех ПИС документа, локальная частота таких термов ПИС невысокая Таким образом, признаки вида необходимо сравнивать с учетом локальной частоты терма в документе, которая определяется по формуле

и]

I = ' , (3 20)

' и,

где

|и5,| - мощность множества семантически эквивалентных ПИС документа С, коллекции К,

и5,, - подмножество и5,, с1Л, документа Э5, коллекции К содержащих терм р, |и5, ,| - мощность этого подмножества

Локальная частота терма в документе является косвенным признаком участия терма в реализации функции дистинкции С другой стороны, чем больше количество видовых признаков ПИС совпадают при сравнении, тем более вероятно совпадения минимального необходимого набора видовых признаков для дистинкции Малочастотные термы, наиболее вероятно, реализуют функцию дефиниции ПИС, а следовательно не должны участвовать в анализе Таким образом, для высокочастотных термов признаков вида адекватна аддитивная мера сравнения, например, мера включения множества термов анализируемого ПИС в множество всех термов документа

Р' п Р"

О = (3 21)

Р

где

Р* - множество термов анализируемого ПИС, Р5, - множествотермов документа О5, коллекции К Модель рода сущности можно представить в виде кортежа

Е=<Я,С,Р,\У,К,М>, (3 22)

где

Я - Правила определения рода для анализируемого (неизвестного) предикативного имени сущности

б - Типовая структура ПИС (число подчиненных ПИС и связи между ними) Р - Необходимый набор видовых признаков для идентификации XV - Семантические поля термов для разрешения семантической неоднозначности (омонимии, полисемии) и метода семантических противоречий К - Значение признаков «по умолчанию»

М - Модели построения (интерпретации) компоненты дистинкции ПИС Правила определения рода анализируемого ПИС представляет собой набор шаблонов При наложении или поиске в анализируемом предикативном имени сущности можно сделать предположение о соотнесении сущности с

определенным родом Шаблоны предназначены для выделение термов -признаков рода, непосредственно указанных в ПИС, компоненты дистинкции с характерных для рода способом построения, видовых признаков, свойственных только определенному роду или характерной совокупности признаков Зарезервированные (терминальные) символы шаблонов '[' и ']' - открывающая и закрывающая скобка символьного шаблона, '{' и '}' - открывающая и закрывающая скобка шаблона, основанного на допустимости любого терма из указанного в скобках идентификатора семантического поля,

- любой символ,

'&' - оператор дизьюнкции, указывает на необходимость реализации более одного шаблона

Типовая структура предикативного имени сущности G - это дерево (граф) вершинами которого является двойка <'Родовой признак', 'Тип ПИС'> Тип ПИС может иметь одно из значений {'Составное ПИС', 'Подчиненное ПИС'} Дуги графа указывают на связи между ПИС

Необходимый набор Р видовых признаков для идентификации - это совокупность кортежей, элементами которых являются идентификаторы семантических полей применительно к каждой вершине графа

Семантические поля термов W объединяют семантически свя5анные между собой термы, и полностью описывают возможные значение признака сущности применительно к роду сущности(вершине графа)

Модели построения М компоненты дистинкции ПИС jto способ интерпретации содержимого УКО или имени собственного Компонент дистинкции в этой модели представлен как вектор (массив) Для каждого элемента или последовательности элементов вектора назначен тип поля и способ его интерпретации

Семантическое сравнение ПИС на основе модели рода сущности состоит из последовательности действий определение рода сущности ПИС, или совокупности признаков po/ia, анализ границ и выделение простых ПИС в составе сложного, определение кореферентности простых ПИС, ранжирование альтернативных (толерантных) ПИС, выбор лицом принимающим решение верного варианта

В четвертой главе описываются общие принципы построения программной системы ASTEND сравнения предикативных имен сущности, рассматриваются вопросы представления данных и интеграция с коммерческими системами

Программная система ASTEND состоит из подсистемы интеграции с корпоративной информационной системой, хранилища коллекции документов, модуля поверхностно-синтаксического анализа, словаря синонимов, модуля выделения и обработки компоненты дистинкции, таблицы пресупозиций, таблицы признаков рода, хранилища моделей родов, алгоритмов семантического сравнения предикативных имен сущности

Подсистема интеграции с корпоративной информационной системой должна реализовывать программный интерфейс (например, COM, OLh, NET) и предоставлять сервис семантического сравнения предикативных единиц текста Для наполнения системных таблиц, отладки и контроля работы алгоритмов

сравнения необходим сервисный интерфейс пользователя В качестве ochobhoi межпрограммного интерфейса была использована технология СОМ объектов описанием программных интерфейсов на языке IDL Подобный подхо универсален для большинства информационных систем, и, в частности, позволп интегрировать программу ASTEND с системой управленческого учета «К Предприятие 7 7 Торговля и склад» Для репликации таблиц - справочники товаров 1С Предприятия и коллекции документов ASTEND используется прямо! доступ к единой БД на сервере MS SQL Server 2000, но допускается боле медленная репликация через методы интерфейса СОМ сервера

Хранилище коллекции документов представляет собой таблицу БД и следующими полями

\Кпюч сушностн \тэг записи |значение записи \симвопьная строка ¡,

где

ключ сущности - идентификатор принадлежности кортежа документ сущности,

тэг записи - указывает способ интерпретации полей значение записи i символьная строка В частности, отдельное значение этого поля предназначет для репликации коллекции документов с корпоративной информационно! системой

Модуль поверхностно-синтаксического анализа с использованием словаря синонимов приводит различные способы написания и сокращения термов к единой форме Устойчивые словосочетания предметной области, такие как «коврик для мыши» воспринимаются модулем как единый терм с трансляцией в служебное кодовое обозначение На данном уровне производится морфологический анализ термов с приведением к именительному падежу единственного числа Модуль производит преобразование символов верхнего регистра в нижний Алгоритмы модуля используют упрощенную библиотеку настраиваемых пользователем шаблонов

Модуль обработки и выделения компоненты дистинкции в своей работе использует эвристические приемы (например, если терм содержит цифры, то это условно-кодовое обозначение) Учитывая неконтролируемое качество содержимого предикативного имени сущности, допускаются различные способы написания УКО (например, «А18Е4», «А-18Е4», «А 18 Е4») Анализ такого рода компонентов дистинкции основывается на предположении (модели), что информативным является начертание символов и их последовательность Знаки препинания, пробелы и прочие служебные символы УКО при сравнении можно игнорировать Такая модель показала высокую эффективность при эксплуатации программы ASTEND на протяжении 4 лет

Таблица пресупозиции позволяет восстанавливать внелингвистические признаки сущности, соответствующие имени собственному Например, «Stylus» -струйный принтер Epson

Таблица признаков рода содержит название, идентификатор рода и правила его выделения Использование таблицы признаков рода позволяет в процессе семантического сравнения ПИС индексировать поиск необходимых записей, как в коллекции документов, так и в хранилище моделей родов

Хранилище моделей родов сущностей содержит значения полей информационной модели рода сущности в соответствии с описанием в третьей главе

В программе ASTEND реализованы алгоритмы декомпозиции сложного ПИС на простые ПИС на основе определения границ, анализа подчиненных ПИС и семантического сравнения простых ПИС Анализ сильносвязанных ПИС в программе не предусмотрен Учитывая, что допускается наличие различных альтернативных вариантов анализа ПИС, необходимо их ранжирование как семантически толерантных ПИС Соответствующие методы и метрики критериев задачи принятия решения описаны в третьей главе

В соответствии с ранжированием, сравниваемые варианты предлагаются лицу принимающему решение

В пятой главе рассмотрены примеры семантического сравнения предикативных имен сущности в процессе эксплуатации программной системы Приведены данные по трудозатратам и эффективности использования программной системы при коммерческом применении

Рассмотрим следующий содержательный пример «Набор, фотобумага LOhiOND + картридж Т036140 дчя Stylus C42Phts/ C42S/ C42SX/ C42UX (черн), подарочный экзелипяр» Эта многосоставная комплексная ПИС может быть представлена в виде следующего дерева (см след страницу)

Рисунок 5 1 Иерархическая структура предикативного имени сущности

Рассмотрим документ сущности Ds =< Us, Ys> Us={

'Видеокарта AGP 256MB ASUS "AX1650Pro/HTD" (Radeon X1650 Pro, DDR2, D-Sub, DVI, TV) (ret)',

'AX 1650PRO/HTD/256 SVGA <AGP8x> Asus 256Mb ATI Radeon X1650PRC) 600MHz, DDR2 800MHz/128 bit, DVI, D-SUB',

'Видеоплата AGP 256M ATI Radeon AX1650Pro/HTD ASUS DDR2 128bit TV'} Ys ={<'yKO','axl650pr0htd'>,<'Pofl 'Видеоплата^}

Модель рода сущности E=<R,G,P,W,K,M>

Шаблоны определения рода сущности [видеокарта] и [видеоплата] Типовая структура ПИС одна вершина <Род видеоплата, Тип составная> Необходимый набор видовых признаков для

идентификации {Производитель, Объем памяти, Графический чипсет, Стандарт системного разъема, Наличие tv-out}

Семантические поля Производитель={А5и5, , Pâlit}, Объем памяти={ 128MB, 256MB, , 1024MB}, Графический чипсет= {X1650SE, ,

г/

Х3140}, Стандарт системного разьема = {AGP, PCI-E}, Способы упаковки={ОЕМ, RTL}

Значение признаков «по умолчанию» <Способ упаковки, ОЕМ> Модель компоненты дистинкции отсутствует

Анализируемое ПИС и=

'VCASEAX1650ProHTD256 Видеокарта PCI-E ASUS EAX1650Pro/HTD 256MB DDR2 <ATI Radeon X1650Pro,TV-Out, HD'

Примерная последовательность действий для семантического сравнения ПИС

1 Анализируемое ПИС идентифицирует сущность рода 'Видеокарта'

2 Анализ структуры сложного ПИС не требуется

3 Тип ПИС составная Следовательно кореферентность определяется минимальным набор ом признаков

4 Не совпадение признаков (семантическое противоречие) по семантическому полю 'Стандарт системного разьема'

5 Анализ закончен документ и анализируемое ПИС не эквивалентно

Применение программной системы ASTEND для семантического сравнения предикативных имен сущности требует наполнения данными для анализируемой предметной области Начальные затраты ручного труда включают в себя анализ предметной области и выделение родов сущностей, заполнение таблиц трансляции (словарей) сокращений термов, наполнение моделей родов сущностей, таблиц пресупозиции и компонентов дистинкции Эффективность применения программы тем выше, чем больше выше потребность в сравнении ПИС Экспериментальные данные показывают следующую зависимость

Число сравниваемых пар

Ручной труд--Информ поисковые методы — - Разработанный метод '

Рисунок 5 2 Зависимость затрат времени для решения задач различного объема

г-г

В заключении сформулированы основные выводы и результаты диссертационной работы

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Предлагаемые средства и методы семантического сравнения предикативных имен сущности на эквивалентность обладают достаточной универсальностью и могут быть использованы дня повышения эффективности большого класса систем от информационно-поисковых систем до интеграции БД систем управления ресурсами предприятий

1 На основании исследований, проведенных в диссертации, установлено, что предикативное имя сущности является сложной иерархической системой Референт является системным выходом ПИС Каждая подсистема именует определенную сущность или их совокупность Идентификация сущности в подсистемах осуществляется за счет указания не менее чем минимального набора параметров В результате исследований, разработана обобщенная информационная модель предикативного имени сущности

2 Разработана информационная модель для рода сущности как эффективное средство семантического сравнения предикативных имен сущности Такой подход сокращает объем труда оператора ЭВМ по моделированию ПИС за счет описания обобщенной структуры для рода сущностей

3 На основе модели рода сущности предложены методы выделения параметров из символьной строки и их интерпретация, методы определения семантической эквивалентности, и метод ранжирования альтернативных вариантов толерантных ПИС

4 Разработанный программный комплекс позволяет решить задачу семантического сравнения предикативных имен сущности в коллекциях документов Комплекс может использоваться как инструмент интеграции БД систем управления ресурсами предприятий

5 Предложенные методы, алгоритмы и разработанный программный комплекс использован в службе снабжения коммерческого предприятия ООО «Прайм»

Публикации по теме диссертации

1 Бердник В Л Интеллектуальные методов в системах проектирования топологии сети //Концептуальное проектирование в образовании, технике и технологии Сб науч тр /ВолгГТУ - Волгоград, 2000 -С 35-36

2 Данилов Д А , Бердник В Л Безопасные экспертные системы на нейронных сетях //Концептуальное проектирование в образовании, технике и технологии Межвуз сбор науч трудов/ВолгГТУ - Волгоград, 2001 - С 34-36

3 Бердник В Л, Борисенко С Г, Лукьянов В С Автоматизированное рабочее место проектировщика топологии древовидной сети большой размерности //Концептуальное проектирование в образовании, технике и технологии Сб науч тр /ВолгГТУ - Волгоград, 1997-С 8-11

4 Бердник В Л Сопоставление высказываний идентификации сущности фактический стандарт корпоративных решений или технология будущего II Конференция 10-ой научно-практическая конференция "Реинжиниринг

¿J

бизнес-процессов на основе современных информационных технологии Системы управления знаниями" (РБП-СУЗ-2007) 17-18 04 07/ МЭСИ -Москва, 2007

5 Бердник В Л, Заболеева-Зотова А В Система поиска и сопоставления предикативных имен сущностей идентификации сущности //Системные проблемы надежности, качества, мат моделирования, информ и электронных технологий в инновационных проектах (Инноватика-2007) матер междунар конф и Рос науч школы /Рос акад надежности [и др ] -М , 2007 - Ч 2, т 111 -С 316-320

6 Бердник В Л Задача идентификации сущности и методы ее решения //Открытое образование прилож к журн по матер XXXIV междунар конф и дискусс науч клуба, Ялта-Гурзуф, 20-30 05 07 Инф технол в науке, образ , телеком и бизнесе (IT+SE 07) - 2007 -[Б/н] -С 247-249

7 Бердник В Л , Заболеева-Зотова А В Поддержка решения задачи идентификации сущности методами информационного поиска //Инновационные технологии в управлении, образовании, промышленности "АСТИНТЕХ-2007" матер всерос науч конф, 18-20 апреля 2007 г /Астрахан гос ун-т и др - Астрахань, 2007 - Ч 2 - С 100-103

8 Бердник В Л Задача бинарного синтеза и метод ее решения на начальных этапах проектирования //Информационные технологии в образовании, технике и медицине Сб науч тр междунар и-техн конф, Волгоград, 19-2109 00 /ВолгГТУ и др - Волгоград, 2000 - Ч 2 -С 15-17

Публикации в ведущих рецензируемых научных журналах и изданиях РФ рекомендуемых ВАК по специальности 05 13 01

9 Бердник В Л, Заболеева-Зотова А В Поддержка решения задачи идентификации сущности методами информационного поиска //Программные продукты и системы приложение к междунар журналу "Проблемы теории и практики управления" - 2007 -№2 - С 32-35

10 Бердник В Л Декомпозиция задачи идентификации сущности для учета нелингвистических составляющих //Известия ВолгГТУ Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах" межвуз сб науч ст / ВолгГТУ - 2007 -Вып 3, №9 -С 39-43

11 Бердник В Л , Заболеева-Зотова А В Задача идентификации сущности заданной слабоструктурированным текстом //Изв ВолгГТУ Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах" межвуз сб науч ст / ВолгГТУ -2007 -Вып 2, №2 -С 26-28

12 Бердник ВЛ, Заболеева-Зотова А В Семантический анализ предикативных имен сущностей идентификации сущности //Известия ВолгГТУ Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах" межвуз сб науч ст / ВолгГТУ - 2007 -Вып 3, №9 -С 43-46

Подписано в печать 25 09 2008 г Формат 60\84/16 Уел печ л 2 0 Тираж 150 экз Заказ 1036 от 25 09 08 г

Типография "Стигма

400078 г Волгоград, пр ........а 67

Отпечатано с оригинал-максгов заказчика

Оглавление автор диссертации — кандидата технических наук Бердник, Владислав Леонидович

СПИСОК СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

ГЛАВА 1 Состояние вопроса и постановка задачи исследования

1.1. Семантика имен сущности в таблицах БД.

1.2. Имя, как языковая форма выражения понятия.

1.3. Определение предикативного имени сущности.

1.4 Предикативное имя сущности как составляющее дефиниционного отношения.

1.5 Обзор аналогичных систем сравнения и поиска предикативных имен сущности.

1.6 Лингвистические подходы к анализу слабоструктурированных текстов.

1.6.1 Трансформационные грамматики Н. Хомского.

1.6.2 Генеративный лексикон.

1.6.3 Модель «Смысл<->Текст» И. Мельчука.

1.6.4 Общие идеи HPSG.

1.6.5 Функциональные грамматики.

1.6.6 Автоматизация извлечения фактов и количественной информации из слабоструктурированных текстов.

Выводы по главе 1:.

ГЛАВА 2 Модель предикативного имени сущности, как статической системы.

2.1 Структурно-функциональный анализ предикативного имени сущности

2.2 Компонент дистинкции предикативного имени сущности.

2.3 Предикативное имя сущности, как элемент реляционной базы данных.

2.4 Существенные (системные) связи внутри предикативного имени сущности и связи с надсистемой и средой.

Выводы по главе 2:.

ГЛАВА 3 Методы определения семантической эквивалентности предикативных имен сущности.

3.1 Формализация задачи поиска семантически эквивалентных предикативных единиц текста в коллекции документов.

3.2 Информационная модель рода сущности.

3.2.1 Классификация анализируемого ПИС.

3.2.2 Анализ структуры ПИС.

3.2.3 Формализация основного содержания имени в модели рода сущности.

3.2.4 Анализ компоненты дистинкции ПИС.

3.3 Метод семантического сравнения на основе модели рода сущностей.

3.4 Метод ранжирования семантически толерантных предикативных имен сущности.

Выводы по главе 3.

ГЛАВА 4 Программная система автоматизации семантического сравнения предикативных имен сущности ASTEND./.'.

4.1 Особенности программной реализации автоматизации семантического сравнения символьных строк в коммерческих системах.

4.2 Структура программной системы ASTEND.

4.2.1 Подсистема интеграции с корпоративной информационной системой

4.2.2 Модуль поверхностно-синтаксического анализа.

4.2.3 Модуль обработки компоненты дистинкции.

4.2.4 Таблица списка моделей родов сущностей.

4.3 Форматы данных программной системы ASTEND.

4.4 Алгоритмы программной системы ASTEND.

Выводы по главе 4.

ГЛАВА 5 Анализ эффективности автоматизации методов сравнения семантически эквивалентных предикативных имен сущности.

5.1 Пример структуры сложного предикативного имени.

5.2 Пример семантического сравнения строк символов на основе информационной модели рода сущности.

5.3 Эффективность автоматизации применения программной системы

ASTEND.

5.4. Планирование и проведение эксперимента.

Выводы по главе 5.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Бердник, Владислав Леонидович

Анализ документов является одним из важнейших аспектов человеческой действительности. В настоящее время для этого активно используются информационные технологии обработки информации в базах данных.

При этом одной из глобальных проблем интеллектуальной обработки данных является нахождение эффективного способа именования объектов реального мира. В реляционных базах данных такая идентификация (референция) реализуется или как формализованная система атрибутов (например, кортеж <марка автомобиля, цвет, гос. номер>), или как концептуально нечленимая символьная строка, ориентированная на понимание человеком (например, «Кабель питания компьютера Зм»). Необходимость определения семантической эквивалентности1 двух и более символьных имен сущности2 возникает в таких задачах, как исключение семантически дублирующих записей таблиц БД (нормализации по 1NF), перенос сведений между нереплицированными БД в виде электронных или печатных документов, ведомостей или прайс-листов, а также, в системах электронной коммерции (например, http://www.price.ru').

В настоящее время не существует эффективных способов семантического сравнения таких имен сущностей в таблицах БД.

В данной работе исследуется подмножество символьных имен сущности с предикативным способом указания признаков — предикативное имя сущности (ПИС). В общем случае, ПИС не является элементом ЕЯ, не используется в устной речи, на письме выделяется особым образом (кавычками, шрифтом и т.д.), может содержать УКО, элементы сообщения в «телеграфном стиле», а также полностью состоять из них. По этой причине,

1 Под семантически эквивалентными будем понимать элементы, однозначные по отношению к общему денотату.

2 Термин «имя сущности» впервые введен в работах по информационной алгебре, и, в настоящее время активно используется в теории баз данных. востребованная на практике задача недостаточно исследуется лингвистами.

В системах сравнения и поиска ПИС, существующих в настоящее время (PRICE.RU, «Анализ прайсов TradesMan», система «АЛЛ», «Анализ прайс-листов» компании b2b-soft и т.д.) используются методы информационного поиска, от простейших дескрипторных моделей, до методов, с использованием словарей синонимов и статистики встречаемости термов. В тоже время, вопрос о кореферентности символьных строковых идентификаторов исследуется недостаточно.

В существующих системах используются модели и методы ориентированные на поиск и сравнение по критерию релевантность. Вопрос об адекватности использования такого критерия для рассматриваемой проблемы остается открытым.

Следует также отметить близкие к данной' задаче исследования в области поверхностно-семантического анализа (технологии Alex) Российский НИИ искусственного интеллекта под руководством Нариньяни А.С. по выделению на основе настраиваемых синтаксических шаблонов отдельных параметров идентифицируемых изделии.

В тоже время, предикативное имя-сущности создается и воспринимается некоторой группой лиц, что выражается в значительной аналогии грамматики ПИС и ЕЯ. Предикативное имя сущности как явление активно используется в торговле и все чаще встречается повседневной жизни там, где существует недостаточность естественно языковых средств для выделения явления или объекта: указание и название маршрутов общественного-транспорта, адресов, книг и т.п. Сочетание языковых и неязыковых свойств ПИС увеличивает сложность его исследования.

Решение задачи такого рода возможно активно развивающимися в последнее время методами системного анализа.

В данной работе ПИС рассматривается как статическая символьная система, что подразумевает влияние некоторой организации элементов с устойчивыми связями на выход системы (денотат, референт). Главной 7 функцией имени сущности в БД является выделение текущей записи среди других записей в таблице, т.е. дистинкция. В случае идентификации предметной области с эволюционирующей онтологией4, это достигается за счет добавления в исходное ПИС нового дифференцирующего признака — терма, или модификации условно-кодового обозначения. Предикативное имя сущности семантически замкнуто, что означает автономность идентификации сущности и отсутствие связи с другими системами по силе больше или равное связям внутри системы (отсутствие ссылок на другие идентификаторы, местоимения, и т.п.). Наличие связей внутри ПИС подразумевает наличие в составе более одного элемента.

Учитывая высокую практическую востребованность такого рода компьютерных систем и фактическое отсутствие достаточных теоретических исследований и результатов, данная задача является актуальной научной проблемой. Так как предикативное имя сущности является сложной символьной системой, а процесс их сравнения - это определение класса сходства систем, семантическое сравнение ПИС является задачей системного анализа.

Цель диссертационной работы

Целью диссертации является исследование возможностей методов системного анализа для повышения эффективности процесса семантического сравнения предикативных имен сущности. Задачи исследования

Для достижения поставленной цели необходимо решить следующие задачи:

1. Провести анализ существующих методов поиска и сравнения ПИС.

2. Построить модель предикативного имени сущности и провести анализ влияния составляющих параметров на выход системы.

3 Дистинкция - процедура отличения и отграничения одних (определяемых) предметов от других.

4 Часто, (например, в торговле) наряду с основным изделием, производятся различные его подвиды, имеющие небольшие, но важные для потребителя изменения, что свидетельствует об эволюционном развитии онтологии отдельных предметных областей.

3. Разработать методы определения семантической эквивалентности предикативных имен сущности. Сформировать алгоритмы автоматизации семантического сравнения ПИС.

4. Разработать и реализовать программную систему - инструментарий для анализа системных свойств и определения эквивалентности предикативных имен сущности.

5. Провести анализ эффективности автоматизации методов сравнения семантически эквивалентных предикативных имен сущности.

Методы исследования

Методы системного анализа, статистические и лингвистические методы обработки естественно-языковых текстов, методы принятия решений в условиях неопределенности. Объект исследования

Подмножество символьных имен сущности с предикативным способом указания признаков (ПИС). Предмет исследования Автоматизация семантического сравнения ПИС.

Научная новизна

Впервые разработаны средства и методы семантического сравнения предикативных имен сущности:

1. Разработана модель предикативного имени сущности и проведен анализ влияния термов на выход системы.

2. Разработана информационная модель рода сущностей.

3. Разработан метод определения семантической эквивалентности предикативных имен сущности на основе информационной модели рода сущности.

4. Разработан метод ранжирования альтернативных вариантов семантически толерантных ПИС.

5. Разработаны алгоритмические операции для автоматизации сравнения семантически эквивалентных предикативных имен сущности.

Достоверность результатов диссертационной работы.

Достоверность научных положений, выводов и рекомендаций подтверждена результатами экспериментов, а также результатами использования материалов диссертации и разработанной системы в коммерческой организации ООО «Прайм» в соответствии с актом внедрения.

На защиту выносятся:

• Модель предикативного имени сущности как статической системы.

• Модель рода сущностей как эффективное средство семантического сравнения ПИС.

• Метод определения семантической эквивалентности предикативных имен сущности на основе информационной модели рода сущности.

• Метод ранжирования альтернативных вариантов семантически толерантных ПИС

Практическая значимость работы

Разработанные методы и алгоритмы позволяют повысить качество поиска информации о товаре в системах электронной коммерции по запросу пользователя, маркетинговых службах и снабжении предприятий, а также сократить время, затрачиваемое на перенос сведений между нереплицированными базами данных за счет автоматизации процесса сравнения кореферативных ПИС.

Реализация результатов работы

Результаты диссертации и программная система использованы при автоматизации бизнес процессов на предприятии ООО «Прайм», что подтверждается актом внедрения.

Апробация работы

Основные положения и результаты диссертации докладывались, обсуждались и получили одобрение на конференциях:

• «Интеллектуальные системы» (AIS'08) и «Интеллектуальные САПР» (CAD-2008), международная научно-техническая конференция, Дивноморское, 200 8 ;5

• Информационные технологии в науке, образовании, телекоммуникациях и бизнесе (IT+SE"07).-XXXIV международная конференция и дискуссия научного клуба, Ялта-Гурзуф, 2007;

• Инновационные технологии в управлении, образовании, промышленности "АСТИНТЕХ-2007", Астраханский государственный университет, Астрахань, 2007;

• Системные проблемы надёжности, качества, математического моделирования, информационных и электронных технологий в инновационных проектах: Инноватика-2007;

• Информационные технологии в образовании, технике и медицине, между народная научно-техническая конференция, Волгоград, 2000

Публикация результатов работы.

По теме диссертации опубликовано 12 работ, в том числе: 4 статьи опубликованы в изданиях, входящих в перечень ВАК, из них, 8 статей в сборниках трудов; 4 материалов конференций.

Структура и объем диссертации

Диссертационная работа изложена на 131 страницах машинописного текста, содержит 6 рисунков и 8 таблиц, состоит из введения, пяти глав, заключения, списка литературы из 165 наименований и 2 приложений на 7 страницах.

Заключение диссертация на тему "Модели и методы семантического сравнения строк символов в коллекции документов"

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Предлагаемые средства и методы семантического сравнения предикативных имен сущности обладают достаточной универсальностью и могут быть использованы для повышения эффективности большого класса систем от информационно-поисковых до интеграции БД систем управления ресурсами предприятий.

1. На основании исследований, проведенных в диссертации, установлено, что предикативное имя сущности является сложной иерархической системой. Референт является системным выходом ПИС. Каждая подсистема именует определенную сущность или их совокупность. Идентификация сущности в подсистемах осуществляется за счет указания не менее чем минимального набора параметров. В результате исследований, разработана обобщенная информационная модель предикативного имени сущности. V

2. Разработана информационная модель для рода сущности как эффективное средство семантического сравнения предикативных имен сущности. Такой подход сокращает объем труда оператора ЭВМ по моделированию ПИС за счет описания обобщенной структуры рода сущностей.

3. На основе модели рода сущности предложены методы выделения параметров из символьной строки и их интерпретация, методы определения семантической эквивалентности, метод ранжирования альтернативных вариантов толерантных ПИС.

4. Разработанный программный комплекс позволяет решить задачу семантического сравнения предикативных имен сущности в коллекциях документов. Комплекс может использоваться как инструмент интеграции БД систем управления ресурсами предприятий.

5. Предложенные методы, алгоритмы и разработанный программный комплекс использован в службе снабжения коммерческого предприятия ООО «Прайм». f я

Библиография Бердник, Владислав Леонидович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Аверченков, В.И. Система формирования знаний в среде Интернет: монография/ В.И. Аверченков, А.В. Заболеева-Зотова, Ю.М. Казаков, Е.А. Леонов, С.М. Рощин. Брянск: БГТУ, 2008. - 180 с.

2. Андрейчиков А.В., Андрейчикова О.Н. Компьютерная поддержка изобретательства (методы, системы, примеры применения).-М.: Машиностроение, 1998.-476с.:ил.

3. Апресян Ю.Д. Избранные труды. В двух томах. Т.1. Лексическая семантика. Синонимические средства языка. М.: Школа "Языки русской культуры", 1995. - 472 с.

4. Ахманова, А. С. Логическое учение Аристотеля / А. С. Ахманова. М., 1960.

5. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии: Учеб. пособие.-М.:Изд-во МГТУ им. М.Э.Баумана, 2005.

6. Безрукова Е.И. Дефиниционные отношения в предложении и тексте: Дис. . канд. филол.наук:10.02.04.-М.:РГБ, 2005

7. Ю.Бердник B.JI. Интеллектуальные методов в системах проектирования топологии сети //Концептуальное проектирование в образовании, технике и технологии: Сб. науч. тр. /ВолгГТУ.- Волгоград, 2000.-С.35-36.

8. Бердник В.Л., Заболеева-Зотова А.В. Поддержка решения задачи идентификации сущности методами информационного поиска

9. Программные продукты и системы: приложение к междунар. журналу "Проблемы теории и практики управления".- 2007.-№2.- С.32-35.

10. Берков В.Ф. и др. Логика. Мн. 1997; В.А.

11. Биркгоф Г. Теория решеток.- М.: Наука, 1984 .- 566 с.

12. Биркгоф Г. Теория структур.- М.: Издательство иностранной литературы, 1952 .- 407 с.

13. Большой энциклопедический словарь /Гл.ред.А.М.Прохоров. -2-е изд. ,перераб.и доп.-М. :Болыпая Российская энциклопедия ,1998.-1433с

14. Борисов А.Н., Крумберг О.А., Федоров И.П. Принятие решений на основе нечетких моделей. Рига: "Зинатне", 1990. - 182 с.

15. Борщев В.Б. "Естественный язык наивная математика для описания наивной картины мира" Московский лингвистический альманах, вып. 1, 1996.-С. 203-225

16. Борщев В.Б. и Кнорина JI.B. Типы реалий и их языковое восприятие. В сб. "Вопросы кибернетики. Язык логики и логика языка" Под ред. Вяч.Вс.Иванова, М:, 1990.-е. 106-134.

17. Букатова И.Л. Эволюционное моделирование и его приложения. М.: Наука, 1979.

18. Булыгина Т.В. К построению типологии предикатов в русском языке // Семантические типы предикатов. М., 1982.

19. Бусленко Н. П., Калашников В.В.,. Коваленко И.Н. Лекции по теории сложных систем. М: Сов. радио, 1973, 440 с.

20. Бусленко Н. П. Моделирование сложных систем. М.: Наука, 1978, 400 с.

21. Вагин В. Н. Дедукция и обобщение в системах принятия решений. М.: Наука, 1988.-384 с.

22. Вагин В.Н., Головина Е.Ю., Загорянская А.А., Фомина М.В., Достоверный и правдоподобный вывод в интеллектуальных системах / Под.ред. В.Н. Вагина, Д.А. Поспелова. М.: ФИЗМАТЛИТ, 2004.-704 с.

23. Васильев С.А. Синтез смысла при создании и понимании текста. — Киев.: Наук. Думка, 1988. 273 с.

24. Вендров А. М. CASE-технологии. Современные методы и средства проектирования информационных систем. М.: Финансы и статистика, 1998.- 176 с.

25. Виноград Т. Программа, понимающая естественный язык: Пер. с англ.-М.Издательство "Мир", 1976.-296с.

26. Вирт Н. Систематическое программирование. Введение.-М.: Мир, 1977. 183 с.

27. Выготский Л.П. Мышление и речь М.: Лабиринт, 1999. - 416 с.

28. Гантмахер Ф.Р. Теория матриц.-5-е изд.-М.:ФИЗМАТЛИТ,2004.-560с.

29. Гинзбург С. Математическая теория контекстно-свободных языков: Пер. с англ. М.: Мир, 1970. - 326 с.

30. Горский, Д. П. Вопросы абстракции и образования понятий / Д. П. Горский. -М., 1961.

31. Горский, Д. П. Обобщение и познание / Д. П. Горский. М., 1985.

32. Горский, Д. П. Определение: логико-методические аспекты / Д. П. Горский. М., 1974.

33. ГОСТ 7.11-78 Система стандартов по информации, библиотечному и издательскому делу. Сокращение слов и словосочетаний на иностранных европейских языках в библиографическом описании

34. ГОСТ 7.12-93 Система стандартов по информации, библиотечному и издательскому делу. Библиографическая запись. Сокращение слов на русском языке. Общие требования и правила

35. ГОСТ 7.1-84 Система стандартов по информации, библиотечному и j издательскому делу. Библиографическое описание документа. Общие требования и правила составления

36. ГОСТ 7.80-2000 Система стандартов по информации, библиотечному и издательскому делу. Библиографическая запись. Заголовок. Общие требования и правота составления

37. ГОСТ 7.82-2001 Межгосударственный стандарт. Система стандартов по информации, библиотечному и издательскому делу. Библиографическая запись. Библиографическое описание электронных ресурсов.

38. Гресс М., Лантен А. Теория формальных грамматик: Пер. с франц. — М.: Наука, 1971.-294 с.

39. Гретцер Г. Общая теория решеток: Пер. с. Англ./ Под редакцией Д.М. Смирнова.-М. :Мир, 1981.

40. Громов Ю.Ю., Земской Н.А., Лагутин А.В., Иванова О.Г., Тютюнник В.М. Системный анализ в информационных технологиях: Учеб. пособие. Тамбов: Изд-во Тамб. гос. техн. ун-та, 2004.- 176 с.

41. Данилов Д.А., Бердник В.Л. Безопасные экспертные системы на нейронных сетях //Концептуальное проектирование в образовании, технике и технологии: Межвуз. сбор. науч. трудов /ВолгГТУ,-Волгоград, 2001.- С.34-36.

42. Дж. Мак-Кинси. Введение в теорию игр: Пер. с англ.-М.:1960.-420с.

43. Джеймс Р. Грофф, Пол Н. Вайнберг SQL: полное руководство: пер. с англ.-К.: Издательская группа BHV, 2000.-608с.

44. Джексон П. Введение в экспертные системы. Вильяме, 2001.

45. Древаль А.В. Интеллект XXX. Интеллектуальное чтение в жанре "научная фантазия ".-М.: Издательский дом "Торус Пресс",2004.

46. Емельянов Г. М., Корнышов А. Н., Михайлов Д. В. Концептуально-ситуационное моделирование. процесса перифразирования высказываний Естественного Языка как обучение на основе прецедентов // Искусственный интеллект, 2, 2006 г., С. 72-75.

47. Ермаков А.Е. Поиск фактов в тексте // Мир ПК, № 2, 2005

48. Заболеева-Зотова А.В. Введение в системологию: Учеб. пособие / ВолгГТУ.-Волгоград, 1999. -75с.

49. Заболеева-Зотова А.В. Естественный язык в автоматизированных системах. Семантический анализ текстов. Монография.- Волгоград: ВолгГТУ, 2002.-228с.

50. Заболеева-Зотова А.В. Лингвистические системы: модели, методы, приложения. Монография.- ВолгГТУ, 2004.- 220 с.

51. Искусственный интеллект: В 3 кн. Кн. 1. Системы общения и экспертные системы: Справочник / Под. ред. Э.В. Попова. М.: Радио и связь, 1990. -- 464 с.

52. Калянов Г.Н. CASE. Структурный системный анализ (автоматизация и применение). М.: "Лори", 1996

53. Карпов В.А. Язык как система. Изд. 2-е, испр.-М. Едиториал УРСС,2003.-304с.

54. Качанова Т.Л., Фомин Б.Ф. Информационная технология решения стратегических проблем. СПб.: Политехника, 2002.- 76 с.

55. Киров Е.Ф. Теоретические проблемы моделирования языка. Казань.: Изд-во Казан, ун-та., 1989. - 255 с.

56. Клиланд Д. и Кинг В. Системный анализ и целевое управление. Пер. с англ. М.: "Сов. Радио", 1974.-280с.

57. Кнут Д. Искусство программирования для ЭВМ. В 3-х т. -М.: Мир, 1976. -Т.1-3.

58. Кобзарь В.И. Логика: Учебное пособие для студентов гуманитарных факультетов.-Санкт Петербург: 2001

59. Кобозева И.М. Лингвистическая семантика: Учебник. Изд.3-е, стереотипное. М.:КомКнига, 2007.-352с.

60. Когаловский М. Р. Перспективные технологии информационных систем.- М.: ДМК Пресс; М.: Компания АйТи, 2003. 288 с.

61. Когаловский М.Р. Энциклопедия технологий баз данных. М.: Финансы и статистика, 2002. - 800 с.

62. Козачков Л. С., Патиоха А. А., Хоменко А. И., О моделировании некоторых метрических мер близости. /Сб. Информационный анализ и лингвистические проблемы информационных систем. К., ИК АН УССР, 1975, стр.7-15.

63. Комарцова Л.Г., Максимов А.В. Нейрокомпьютеры: Учеб. пособие для вузов.-2-е изд.,перераб. и доп.-М.:Изд-во МГТУ им. Н.Э. Баумана, 2004.-400с.

64. Корнышев А.Н. Математическое моделирование процесса анализа близости предикатов семантических отношений: Дис. . канд. техн. наук:05.13.18/А.Н.Корнышев.-Великий Новгород: 2007

65. Краткий словарь по логике/ Под ред. Горского Д.П. М.: Просвещение, 1991.-208с.

66. Кузнецова А.И. Понятие семантической системы языка и методы ее исследования. — М.: Изд-во МГУ, 1963. 59 с.

67. Кулагина О.С. О проблемах автоматической обработки текстов на естественном языке// Интеллектуальные системы. 1996. - Том 1, Вып. 1-4.-С. 109-116

68. Кун Т. Структура научных революций / Пер. с англ. И.З.Налетова. Общая ред. и послесловие С.Р.Микулинского и Л.А.Марковой. М.: Прогресс, 1975.

69. Лайонз Дж. Лингвистическая семантика: Введение / Пер. с англ. В.В.Морозова и И.Б. Шатуновского; Под общ. ред. И.Б. Шатуновского. -М.: Языки славянской культуры, 2003.

70. Лалани С., Чандэк Р. Библиотека программиста ActiveX / Пер. с англ. В.В. Рыбин; Худ. обл. М.В. Драко.- Мн.: ООО "Попурри", 2000.- 624 с.

71. Лейбниц Г. Новые опыты о человеческом разумении автора системы предустановленной гармонии// Собр. соч.: В 4-х т. М.: 1983.

72. Лозовский B.C. Сетевые модели//Искусственный интеллект. Т.2. Модели и методы.-М.: Радио и связь, 1990.-С.28-49.

73. Лорьер Ж.-Л. Системы искусственного интеллекта. М.: Мир, 1991. -395 с.

74. Люгер, Джордж Ф. Искусственный интеллект: стратегии и методы решения сложных проблем, 4-е издание.: пер. с англ.-М.:Издательский дом "Вильяме", 2003.-864с.

75. Марка Д.А., МакГоуэн К. Методология структурного анализа и проектирования. М.: "МетаТехнология", 1993

76. Маркин В.И. Основы логики. М. 1994

77. Марселус Д. Программирование экспертных систем на ТурбоПРОЛОГе:Пер. с англ.-М.:Финансы и статистика, 1994.-256с.

78. Мельчук И. А. Опыт теории лингвистических моделей "Смысл Текст". М.: Наука, 1974.

79. Минский М. Фреймы для представления знаний : пер. с англ. М.: Энергия, 1979. - 152 с.

80. Михайлов Д.В. Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности: Дис. . канд. физ.-матем. наук:05.13.18/Д.В.Михайлов.-Великий Новгород: 2003

81. Мозговой М.В. Машинный семантический анализ русского языка и его применения: Дис. . физ.-мат. техн. наук:05.13.11/М.В.Мозговой.-Санкт-Петербург: 2006

82. Моррис У. Наука об управлении:Пер. с англ. М.: Издательство "МИР", 1971.-304с.

83. Моррис Ч.У. Основания теории знаков. // Семиотика. / Под ред. Ю.С. Степанова. М.: 1983.

84. Налимов В.В., Вероятностная модель языка. М.: Наука, 1979. -303 с.

85. Нариньяни А.С. Модель или алгоритм: новая парадигма информационной технологии //Информационные Технологии, 1997, с.11-16

86. Нариньяни А.С. Кентавр по имени ТЕОН: Тезаурус + Онтология// Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. -Т.1. -Аксаково, 2001. С. 184-188

87. Никитин М. В. Основы лингвистической теории значения Учеб. пособие.-- М. Высш. шк., 1988.-- 168 с. (Б-ка филолога).

88. Новак В., Перфильева И., Мочкорж И. Математические принципы нечеткой ■ логики /Пер. с англ.; Под ред. Аверкина А.Н. -М.: ФИЗМАТ ЛИТ, 2006. 352 с.

89. Новейший философский словарь: 3-е изд., исправл. Мн.: Книжный Дом. 2003. - 1280 с. - (Мир энциклопедий).

90. Новиков А.И. Семантика текста и ее формализация. М.: Наука, 1983.-218 с

91. Норенков И.П. Основы автоматизированного проектирования.- М.: Изд-во МГТУ им. Н.Э. Баумана, 2000.

92. Одинцев Н.В. Методы улучшения качества синтаксического анализа фраз естественного языка. // «Компьютерная лингвистика и интеллектуальные технологии" Труды международного семинара Диалог'2000. Москва, 2000, т.2 с. 291-295

93. Одинцев Н.В. Обучаемый синтаксический анализатор естественного языка. // «Компьютерная лингвистика и интеллектуальные технологии" Труды международного семинара Диалог'2001. Москва, 2001, т.2 с. 306-309

94. Одинцов Б.Е., Дин В.В. Синтаксичность' моделей баз знаний интеллектуальных систем// Приборы и системы управления 1998 №1 с15

95. Ope О. Теория графов -М.: Наука, 1980.- 336 с.

96. Острейковский В.А. Теория систем.-М.:Высш. шк., 1997.-240 с.

97. Падучева Е. В. Высказывание и его соотнесенность с действительностью. М., 1985

98. Петрова С. А. Имя собственное без детерминатива в референциальном употреблении в контексте художественного произведения и межтекстовых связей: На примере французского языка: Дисс. . канд. филол. наук: 10.02.05, Москва, 2003 144 с.

99. Пинкер С. Язык как инстинкт: пер. с англ./общ. Ред. В.Д. Мазо.-М.:Едиториал УРСС, 2004.-456с.

100. Пирс Ч.С. Избранные философские произведения. М.: Логос, 2000, 412 с.

101. Попа, К. Теория определения / Корнел Попа. М. : Прогресс, 1976.

102. Попов Н. П. Определение понятий / Н. П. Попов. Л.; М., 1954.

103. Попов Э. В. Общение с ЭВМ на естественном языке. Изд. 2-е, стереотипное. -М.:Едиториал УРСС, 2004. 360с. (Науки об искусственном)

104. Поспелов Д.А. Данные и знания//Искусственный интеллект. Т.2. Модели и методы.-М.: Радио и связь, 1990.-С.7-13

105. Поспелов Д.А. Десять "горячих точек" в исследованиях по искусственному интеллекту//Интеллектуальные системы (МГУ). 1996. - Т. 1, вып. 1-4. -С.47-56.

106. Поспелов Д.А. Искусственный интеллект: фантазия или наука?.-М:радио и связь, 1986.

107. Поспелов Д.А. Моделирование рассуждений. М: "Радио и связь" 1989;

108. Романенко В.Н., Никитина Г.В. Сетевой информационный поиск: Практ. пособие/В.Н. Романенко, Г.В. Никитина; Российская академия естественных наук. Северо-Западное отделение образования и развития науки. СПб.: "Профессия" , 2005. - 288 с.

109. Рубашкин В.Ш., Чуприн Б.Ю. Распознавание количественной информации в ЕЯ-текстах// Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции "Диалог 2006".-М.:Мзд-во РГГУ,2006. с.465-459.

110. Рыков В.В. Прагматически ориентированный корпус текстов // Тверской лингвистический меридиан. Теоретический сборник. Ред. Сусов И.П. Тверь, 1999. - Вып. 3. - С. 89-96.

111. Саати Т. Принятие решений. Метод анализа иерархий. / пер. с англ.-М.: Радио и связь, 1989.-316 с.

112. Савин Г.И. Системное моделирование сложных процессов.-М.:ФАЗИС:ВЦ РАН, 2000.

113. Саймон Г. Науки об искусственном: Пер. с англ. Изд. 2-е.-М.: Едитория УРСС, 2004.-144с.

114. Свинцов В.И. Логика: Учебник для вузов/В.И. Свинцов. -М.:Высш. шк.,1987.-287с.

115. Сегалович И.В. "Как работают поисковые системы" Мир Internet. 2002, # 10 http://www.dialog-21 .ru/directionfulltext.asp?dirid=l5539

116. Семенова С.Ю. Алгоритм извлечения информации о параметрах из текстов рефератов и первичных документов // Научно-техническая информация. Сер. 2. М., 1991. № 6.

117. Сидоренко Е.А. Логика. Парадоксы. Возможные миры. (Размышления о мышлении в девяти очерках.)-М.:Эдиториал УРСС,2002.-312с.

118. Симонян С.JI. Системный анализ эквивалентности в языке/ С.Л. Симонян.-Ереван, 1986.-206с.

119. Сироткина О.Б. Лекции по синтаксису русского языка: Учебное пособие. Изд. 3-е,доп.М.: КомКнига,2006.-144с.

120. Смирнова Е.И. Моделирование структуры состояний сложной системы для задач прогнозирования. //Искусственный интеллект-2000.-Нац.акад.Украины, Институт Проблем искуст. Интеллекта.- Украина, г.Донецк, 2000.- С. 196-200.

121. Советов Б.Я., Яковлев С.А. Моделирование систем.-М.:Высшая школа, 1985.

122. Соколова В.В. Теория и алгоритмы обработки рекурсивных информационных структур: Автореф. дисс. . канд. техн. наук:05.13.01/ Соколова В.В.-Томск,2007.-24с.

123. Сорокин В.Н. Теория речеобразования. -М.: Радио и связь, 1985.312 с.

124. Степанова Н. А., Емельянов Г. М. Формирование и кластеризация понятий в задаче распознавания образов в пространстве знаний // Всеросс. конф. ММРО-13. М.: Макс Пресс, 2007 г.,С. 206-209

125. Степанова Н.А. Моделирование процесса автоматического приобретения знаний в вопросно-ответных системах:Дис. . канд. техн. наук:05.13.18/Н.А.Степанова.-Великий Новгород: 2008

126. Тарасов В.Б. От многоагентных систем к интеллектуальным организациям: философия, психология, информатика. М.: Эдиториал УРСС, 2002. 352 с.

127. Трельсен Э. Модель СОМ и применение ATL 3.0: Пер. с англ,-СПб. :БХВ-Петербург,2001 .-928с.

128. Трофимова Т.Н. Языковый вкус интернет-эпохи в России: Функционирование русского языка в Интернете: концептуально-сущностные доминанты: Монография — М.: РУДН, 2004, 380 с.

129. Тузов В.А. Компьютерная семантика русского языка. СПб.: Изд-во СПбГУ, 2004. - 400 с

130. Тузов В.А. Математическая модель языка. Л.: Изд-во Ленингр. ун-та, 1984. - 176 с.

131. Ф. де Соссюр. Труды по языкознанию. М. 1977 / Курс общей лингвистики. 1933.

132. Фогель Л., Оуэне А.,Уолш М. Искусственный интеллект и эволюционное моделирование.: Пер. с англ.:М. Издательство "МИР", 1969.-232

133. Фомичев В.А. Формализация структуры основных словарей лингвистической базы данных // Качество и ИЛИ (САЬ8)-технологии. -2005. №3. - С.30-38.

134. Фреге Г. Смысл и денотат. // Я иду на занятия. Семиотика. Хрестоматия. М.: Изд-во Ипполитова, 2005

135. Фреге Г. Логика и логическая семантика: Сборник трудов / Пер. с нем. Б.В. Бирюкова под ред. З.А. Кузичевой: Учебное пособие для студентов вузов. М.: Аспект Пресс, 2000. стр. 213 - 284.

136. Хомский Н. Аспекты теории синтаксиса. М.: Изд-во БГК им. И.А.Бодуэна Де Куртенэ, 1999. - 235 с.

137. Цаленко М.Ш. Моделирование семантики в базах данных.-М.:Наука. Гл.ред.физ-мат.лит., 1989.-288с.

138. Шаховский В.И. Категоризация эмоций в лексико-семантической системе языка. — Воронеж, 1987.

139. Челпанов, Г. И. Учебник по логике / Г. И. Челпанов. М., 1994

140. Чеповский А. Неразрешимая проблема компьютерной лингвистики// журнал "Компьютерра" №30 от 02 августа 2002 года

141. Эндрю А. Искусственый интеллект.-М. :Мир, 1985

142. Яхъяева Г.Э. Нечеткие множества и нейронные сети: Учебное пособие / Г.Э. Яхъяева.-М.:Интернет-Университет Информационных технологий; БИНОМ. Лаборатория знаний, 2006.-316 с.

143. Codd E.F. A Relation Model of Data for Large Shared Data Banks//Comm. Of ACM.-1970.-V.13 №6

144. Gabrielli S., Mizzaro S. Negotiating a multidimensional framework for relevance space. In Proc. of the MIRA'99, pp. 1-15, 1999

145. Microsoft Corporation Разработка Web-приложений на Microsoft Visual Basic .NET и Microsoft Visual C# .NET. Учебный курс MCAD/MCSD/Пер. с англ.-М.:Издательско-торговый дом "Русская Редакция",2003.-704с.

146. Trier Т. Der deutsche Wortschatz im Sinnbezirk des Verstandes. 2 Auf. Heidelberg, 1973. 347s.

147. Аналоги. Коммерческие системы.

148. В таблице приводится не полный список программных систем поиска и сравнения наименований товаров.

149. Название Адрес в сети Интернет Разработчик Краткое описание

150. Анализ прайс-листов" (конфигурация для «1С:Торговля и склад») http://www.lc-sofit.ru/products/s ofit/analizprice.-htm Внедренчески й центр "Софит". Поиск товаров в прайс-листах, анализ цены поставщиков, автоматическое формирование заказа.

151. TradesMan http ://kocheridi.ru/ Д.В. Кочериди Поиск по части наименования (дескриптору), выгрузка результатов поиска в MS Excel.

152. Система "АЛЛ" (анализ прайс-листов) http://www.tasmo. ru/rus/sap.htm ПБОЮЛ «Карев Александр Викторович» Поиск и сопоставления одинаковых и "похожих" позиций различных прайс-листов, сравнения найденных соответствий по различным параметрам.

153. ScanEx http ://www.mirsof ta. net/do wnl oad/5 369/index.html Не указано. Поиск минимальной цены на товар в разрезе поставщиков, Позволяет сравнить свои цены с конкурентами

154. Модуль полуавтоматического анализа прайс-листов поставщиков http ://www.megac om.com.ua/rus/pro ducts/soft ware/mst orage/ Не указано Анализ прайс-листов

155. Программа обработки прайс- http ://www. fastpri ce.com.ua/index.ht FastPrice Анализ и приведение различных прайсов клистов и составления заказов ml?0001 единому виду, формирование заказа поставщику в заданном формате.

156. Фармнет- Анализ http://pharmlaw.na rod.ru/afarmnet.ht m He указано Определение рейтинга контрагента по критериям: количество позиций, количество минимальных цен, количество максимальных цен, количество эксклюзивных позиций. Сравнение прайс-листов.

157. KonSi-Price Benchmarking http ://www.market ing-sofl.ru/ products/price- benchmarking.- html He указывается Анализ цен конкурентов

158. PRICE.RU www.price.ru PRICE.RU Поиск товара по наименованию и цене.

159. Утверждаю» Директор ООО «Прайм» Данилов Д.А.1. АКТ

160. О внедрении программной разработки

161. Объем внедрения: автоматизированная система семантического сравнения строк символов в коллекции документов.

162. Назначение разработки автоматизация ключевых бизнес процессов: маркетинговые исследования, управление закупками, автоматизация товарного документооборота.

163. Общество с ограниченной ответственностью «Прайм» обязуется не передавать разработку для использования в другие организации.1. Начальник IT A.JI. Якимов1. Исполнитель B.JI. Бердник

164. Экранная форма программы ASTEND. Интерфейс лица принимающего решение.шв11Ж . геп1. Сортировать

165. По пик По наименованию J По товар [ Повторения

166. Сканеры -> Canon Скснср Canon "CcnoScan LiDE SO' 2400rfB00dpi fUSB2 0)

167. Сканер CANON "LIDE 90" 2400x4800dpi. USB 2 01. Семантический анализ - i 1 П Добавить I.I Добавить синоним

168. Экранная форма программы ASTEND. Таблица родов сущностей.7гтштаю "" QЩЕ1. Наименование СтрокаЛ а' . i . ауресивер1. DVB карта dvbkapra1. DVD плеер dvdnflefiepfdd fdd

169. FM трансмиттер fmTpdHcmnTTep1. FM тюнер (пптюнер1. Gps приемник gpsnpnemHuk1. МРЗ плеер ™ieepmp3flash

170. SAT конвертер satkoHBepreptvrioHep tvrioHepusb-drive usbdrive

171. Автомагнитола aBTomarHifroflqq

172. Автопереключатель (рабочих мест) автопереключатель

173. Автосигнализация автосигнализацдд1. Аккумулятор аккутуятор

174. Анализатор поля анализаторпол1. Акгена ameHqq1. Бритва dpwTBqq1. Батарейка darapeflkqq1. Бейсболка бeйcбoлkqq1. Бинокль бинокль1. Блендер блеьщер1. Блок питания бппк

175. Бокс для дисков боксдлдисков1. Болгарка бoлrapkqq1. Брошуровщик брошюровщик1. Бумага 6ymarqq1. Бэйджик бэйджик

176. Варочная панель варочнапзнель

177. Вентилятор напольный kyлepнaпoльнqq1. Весы весы

178. Видеодвойка EKaeoflBofikqq

179. Видеокамера BHfleokamepqq1. Видеокарта Б^'^aeoплaтqq

180. Видеокассета Ei-meokacceTqq

181. Видеомагнитофон видеотагнитофон

182. Видеопроектор видеопроектор v

183. Экранная форма программы ASTEND. Промежуточный (диагностический) отчет анализа ПИС.л

184. Товар: Мат плата SockAM2 ASUS МЗА <AMD 770> 4xDDR2, U133, SATA It-RAID, PCI-E, SB, 1 ГТВит LAN, USB 2 0, ATX1. Род Мат. плата

185. Все термы li 2 0 1 (бит sata atx 770 e raid asus u133 usb m3a amd mamka 4xddr2 Ian pci sb sockam21. Комп. дистинкции m3aj

186. Атрибуты производитель asus: форм-фактор-atx :

187. Претендент MBASM3A78-EMHHDMI Материнская плата Socket-AM2 Asus M3A78-EMH HDMI «Socket AM2+, HT3 5200/4800 MHz

188. ПСС mbasm3a78 emh hdini татеринская плата socket am2 asus m3a78 emh hdmi socket462m2 ht3 5200 4800 mhz

189. Товар: Память DIMM 2048M (2x1024M6) DDR2 PC8000 Kinqston HyperX KHX8000D2K2/2G RET1. Род Модуль памяти .

190. Все термы kingston x 8000 dimmddr2 2x1024m6 ddr2 hyperx тодуль 2048m pc8000 2g 2x1024 nam яти pc2 патять 2x1 гб cl5 dimm rtl hyper к

191. Комп. дистинкции khx8000d2k22g

192. Атрибуты производите ль- kingston: упаковка, rtl ;

193. Претендент Модули памяти Kinqston Модуль памяти 2x1 ГБ DDR2 SDRAM Kingston "Hyper X" KHX8000D2K2/2G tPCSOOO, 1000МГц, CL5)

194. ПСС тодули патяти kinqston тодуль патяти 2x1 гб dimmddr2 kinqston hyper х khx8000d2l;2 2q pcBOOO 1000тпдс15

195. Товар Мат плата Sock775 Eliteqroup G31Т-М, iG31, 2xDDR2, U100, SATA II, PCI-E, D-Sub, SB, LAN, USB 2 01. Род Мат. плата '

196. Все термы usb2 0 socket775 v1 0 duo sata li 4c^31t d sb^31 Icja775 2 0 quad sock775 fsb1333mhz sub ich7 intel up 1 гбит mamka rtl elitegrou1. Комп дистинкции ЯШ;.

197. Атрибуты интерфейс процессора socket775: производитель:'^!; произвоаитель:е1Леагоир; упаковка-г11:1

198. Претендент Материнские платы / ECS / LGA 775 / Intel G31T-M7(V1.0), Intel? G31+ICH7, LGA775, FSB1333MHz, Core2 Duo/Quad, mATX, 2xD

199. ПСС татеринские платы ecs Iqa 775 intel q31t m7 v1.0 intel q31 ich7 Iqa775 fsbl 333mhz core2 duo quad matx 2xddr2 800 dual ch up tc1. Товар: Род Ноутбук

200. Все термы 40qb питани ть nam 1.46 ноутбук 5 combo винчестер блокрЗО 512 диско в од pm процессор тонитор samsuncj1. Комп. дистинкции рЗО;

201. Атрибуты производитель samsunq -L iv