автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Информационная технология комплексной обработки информации в рамках логико-аналитической системы на основе расширенных семантических сетей

кандидата технических наук
Рабинович, Борис Ильич
город
Москва
год
2008
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Информационная технология комплексной обработки информации в рамках логико-аналитической системы на основе расширенных семантических сетей»

Автореферат диссертации по теме "Информационная технология комплексной обработки информации в рамках логико-аналитической системы на основе расширенных семантических сетей"

□□344сеи

На правах рукописи

РАБИНОВИЧ БОРИС ИЛЬИЧ

ИНФОРМАЦИОННАЯ ТЕХНОЛОГИЯ КОМПЛЕКСНОЙ ОБРАБОТКИ ИНФОРМАЦИИ В РАМКАХ ЛОГИКО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ НА ОСНОВЕ РАСШИРЕННЫХ СЕМАНТИЧЕСКИХ СЕТЕЙ

Специальность 05 13 17 - Теоретические основы информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва, 2008 2 2

003446695

Работа выполнена в Институте проблем информатики Российской академии наук

Научный руководитель

Официальные оппоненты

доктор технических наук, профессор Кузнецов Игорь Петрович

доктор технических наук, профессор Шемакин Юрий Иванович

Ведущая организация-

кандидат технических наук, доцент Башлыков Александр Александрович

Московский технический университет связи и информатики

Защита диссертации состоится $ с*? ¿г>с> о_ 2008 г в часов на

заседании диссертационного Совета Д00'2 073 01 при Институте проблем информатики РАН по адресу 119333, Москва, ул Вавилова, 44, корп 2

С диссертацией можно ознакомиться в библиотеке Института проблем информатики Российской академии наук

Отзывы в одном экземпляре, с заверенной подписью, просим направлять по адресу 119333, Москва, ул Вавилова, 44, корп 2, в диссертационный Совет

Автореферат разослан « 2008 г

Ученый секретарь диссертационного совета Д002 073.01 доктор технических наук, профессор

СН Гринченко

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. В настоящее время наблюдается повсеместный лавинообразный рост потоков разнородной информации, состоящей из сложноорганизованных документов, различных отчетов, электронных писем и пр В связи с этим актуальным является разработка технологий и программных средств комплексной обработки разнородной информации В криминальной милиции примером разнородной информации могут быть тексты на естественном языке (сводки происшествий, обвинительные заключения, справки по уголовным делам), данные из различных справочников (телефоны, адреса), биллинги телефонных переговоров и др Информация может храниться в файлах, в базах данных (БД) или извлекаться из сети Интернет Ее обработка должна быть максимально автоматизирована, что зачастую предполагает решение сложных логико-аналитических задач (поиск объектов, анализ их связей и др) Перспективным является разработка технологий и систем, позволяющих осуществить на единой основе агрегацию, хранение и логико-аналитическую обработку разнородной информации достаточно унифицированными средствами

Такая система, ориентированная на обработку текстов на естественном языке (ЕЯ), разработана в Институте проблем информатики Российской академии наук в рамках проекта «Аналитик» и связанных с ним проектов «Криминал», «Дискурс» и «Поток» Созданная система «Аналитик» нашла применение в МВД и ГУВД города Москвы

Ее особенность заключается в использовании семантико-ориентированного лингвистического процессора, позволяющего отобразить тексты на ЕЯ в структуры знаний, которые образуют базу знаний (БЗ) Для представления информации в БЗ используются расширенные семантические сети (РСС) Их отличие от обычных семантических сетей состоит в использовании многоместных фрагментов, связывающих вершины, и кодов фрагментов, которые тоже являются вершинами Такие сети позволяют с достаточной точностью представлять объекты и их связи, которые выражаются в ЕЯ с помощью различных форм, в том числе с отглагольными существительными, с оборотами с инфинитивами, со сложноподчиненными предложениями Связанными могут быть не только объекты, но и сами действия, в которых эти объекты принимают участие

Обработка информации в системе «Аналитик» осуществляется с помощью языка Декл, созданного для обработки структур знаний в виде РСС На языке Декл разработано много уникальных программ семантического поиска в БЗ (поиск похожих объектов и ситуаций, поиск по связям и по приметам и др), программ аналитической обработки и экспертных оценок (семейство оболочек экспертных систем) Использование в качестве БЗ обычных семантических сетей, языков логики предикатов, фреймов приводит к существенной потере информации, содержащейся в текстах на ЕЯ, и, соответственно, к ограничению круга решаемых задач

Представляется перспективным дальнейшее развитие систем, основанных на структурах знаний в виде РСС Основными направлениями их развития должны быть обработка разнородной информации в рамках единой БЗ с использованием уже имеющихся средств, разработка средств решения новых логико-аналитических задач, обеспечение взаимодействия БЗ с внешними БД В этом случае пользователь-аналитик будет получать из одного источника полную информацию в наиболее удобном виде

Объекты исследования. Объектами исследования диссертационной работы являются системы, основанные на технологии БЗ, обеспечивающие обработку на единой основе разнородной информации (неструктурированной - текстов на ЕЯ, слабоструктурированной - биллингов, структурированной - данных из БД), существующие методы обработки различных типов данных и их структур, модели информационных структур, методики интеграции данных

Цель диссертационной работы. Целью диссертации является разработка информационной технологии комплексной обработки разнородной информации большого объема в рамках логико-аналитической системы, основанной на структурах знаний в виде РСС (далее Система)

Основные задачи исследования:

1 Анализ современных аналитических комплексов, основанных на технологии БЗ и обеспечивающих обработку на единой основе разнородной информации

2 Исследование структур биллингов телефонных переговоров и банковских счетов с целью создания унифицированного процессора для их преобразования в РСС

3 Обеспечение возможности совместного использования структур знаний в виде РСС, представляющих тексты на ЕЯ и биллинги, для решения существующих задач Системы

4 Изучение специальных задач пользователей, основанных на информации о телефонных переговорах и банковских переводах, для разработки новых средств их решения в рамках Системы

5 Разработка новых логико-аналитических режимов обработки информации, представленной в виде структур знаний, в рамках Системы

6 Исследование особенностей представления информации в БЗ и разработка методов представления структур знаний в СУБД Oracle для повышения эффективности хранилища знаний Системы

7 Исследование информационных процессов, связанных с задачей интеграции данных, и разработка технологии интеграции БЗ Системы с внешними БД для расширения пространства поиска Системы

Методы исследования. Для решения поставленных задач в диссертации использовались методы математической логики, методы обработки структур знаний, методы формальных грамматик, методы многомерного статистического анализа (кластерный, частотный и временной анализы)

Научная новизна. В работе получены следующие новые научные результаты

1 Проведено исследование и сравнительный анализ систем, основанных на технологии БЗ и обеспечивающих обработку на единой основе разнородной информации

2 Разработаны алгоритмы извлечения знаний из биллингов различных структур (телефонных переговоров, банковских переводов) и их отображения в БЗ

3 Разработана методика аналитической обработки биллингов на основе информации в БЗ (решение задачи группировки связанных объектов с учетом частоты их появления, а также их визуализация в виде временных гистограмм и графов)

4 Разработан метод анализа временных совпадений, обеспечивающий на основе информации в БЗ выявление временной связи между интересующими пользователя событиями

5 Проведено исследование специфики применения методов кластерного анализа к биллингам телефонных переговоров Выявлена комбинация метрик и алгоритмов кластерного анализа, позволяющая осуществить оптимальное разбиение телефонов на кластеры

6 Предложена методика инкапсуляции структур знаний в реляционную СУБД, позволяющая обеспечить работу Системы с большими объемами данных.

7 Разработана методика интеграции Системы, основанной на структурах знаний, с внешними БД

Достоверность научных положений, рекомендаций и выводов.

Обоснованность научных положений, рекомендаций и выводов определяется корректным использованием математических методов и моделей

Достоверность положений и выводов диссертации подтверждена результатами исследований и экспериментальными данными, полученными при внедрении Системы Предложенные определения и классификации апробированы на конференциях и в научных публикациях

Практическая значимость. В работе получены следующие практически значимые результаты

1 Разработаны программные компоненты, обеспечивающие в рамках Системы обработку новых источников информации, анализ накопленной информации и оптимизацию работы хранилища знаний

2 Разработана информационная технология комплексной обработки разнородной информации, которая может служить основой для создания новых программных систем, ориентированных на решение сложных логико-аналитических задач в различных предметных областях

Реализация результатов работы. Результаты представлены 1 В двух научно-исследовательских отчетах ИЛИ РАН - № гос регистрации 0120 0 412404, № гос регистрации 0120 0 603386 за 2005,2007 гг

2 В программе "Логико-аналитическая система «Криминал»", внедренной в ГУВД города Москвы в 2002-2004 гг в рамках договора № 61-ИУ01 (992-14-И) между Московским комитетом науки и технологии и ИЛИ РАН,

3 В программе "Логико-аналитическая система обработки документов «Аналитик»" - свидетельство РОСПАТЕНТа № 2006610239 от 10 01 2006 г

4 В учебном процессе Московского университета МВД России

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на международной научной конференции MegaIлng'2007 «Горизонты прикладной лингвистики и лингвистических технологий» (Партенит, 2007), на II Научной сессии ИЛИ РАН «Проблемы и методы информатики» (Москва, 2005), на научно-технической конференции кафедры «Системы обработки информации и управления» МГТУ им Н Э Баумана (Москва, 2002), на научно-технической конференции МТУ СИ (Москва, 2002)

Публикации. По тематике диссертационной работы имеется 12 печатных публикаций, в том числе две в рекомендованных ВАК журналах Кроме того, по теме диссертации опубликованы материалы в двух научно-технических отчетах ИЛИ РАН за 2005 и 2007 гг

Структура работы. Диссертация состоит из введения, четырех глав, заключения и двух приложений Содержание работы изложено на 194 страницах, иллюстрированных 24 таблицами и 66 рисунками Список использованных источников содержит 139 наименований

КРАТКОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ

Во введении обосновывается актуальность работы Ставятся основные цели и задачи исследования

Первая глава состоит из двух параграфов В первом параграфе для определения базового функционала Системы на примере системы «Аналитик» проводится исследование особенностей и компонентов типовой системы, основанной на технологии БЗ Анализируются основные задачи, решаемые этой системой автоматический ввод документов с их делением на части и лексическим анализом, автоматическая формализация текстовой информации с созданием собственной БЗ - имеется в виду направленное извлечение знаний с помощью лингвистического процессора (ЛП) из текстов на ЕЯ с их использованием на уровне БЗ и др

В качестве структур знаний в БЗ выступают расширенные семантические сети, зарекомендовавшие себя как эффективное средство представления знаний, позволяющее отобразить особенности ЕЯ РСС состоят из однотипных М-арных фрагментов В каждый из них введена вершина, называемая кодом фрагмента и соответствующая всей представленной в нем информации Помимо этого вводится множество "внутренних" вершин, которые порождает сама Система по мере необходимости и которые сопоставляются неименованным объектам Наличие этих вершин обеспечивает достаточную

универсальность РСС и позволяет сохранить семантические компоненты текстов на ЕЯ По этим же причинам логические возможности РСС выходят за рамки возможностей логики предикатов 1-го и 2-го порядков На основе РСС в системе «Аналитик» осуществляется вся аналитическая обработка и поиск

При использовании технологии БЗ, в отличие от БД, структуры знаний не ограничиваются какими-либо схемами Любая глагольная форма с ее обязательными и факультативными актантами навязывает свою схему, которая представляется в виде фрагмента РСС (рис 1,2)

Багдад 9 05 06 ИНТЕРФАКС/АФП 8 июня был совершен акт саботажа на нефтепроводе 1 I на севере Ирака_

Рисунок 1 Текст СМИ

РЬАСЕ_(ГОРОД,БАГДАД/1+)

ДАТА_(2006,ИЮНЬ,9/2+)

ОРГ_(ИНТЕРФАКС,АФП/3+)

СОВЕРШИТЬ( АКТ,САБОТАЖ,НА,НЕФТЕПРОВОДА)

ДАТА_(8,ИЮНЬ/5+)

Когда(4-,5-)

PLACE_(CEB ЕР,ГОС-В 0,ИРАК/6+)

Где(4-,6-)_

Рисунок 2 РСС текста СМИ

На рисунке 2 представлено, что действие "СОВЕРШИТЬ" (с кодом 4+, 4-) связано с датой происшествия "ДАТА_" (с кодом 5+, 5-) через фрагмент "Когда" и с местом происшествия "PLACE_" (с кодом 6+, 6-) через фрагмент "Где" Упомянутое действие (с кодом 4+, 4-) может быть связано с другими действиями Такие структуры формируются автоматически с помощью семантико-ориентированного ЛП, основанного на структурах знаний Он обеспечивает автоматическое построение по текстам на ЕЯ их содержательных портретов в виде РСС

Логико-аналитическая обработка осуществляется на основе РСС программами, написанными на языке Декл В результате удается решать новые задачи, связанные с семантическим поиском, экспертными оценками, принятием оперативных решений Например, в системе «Криминал», разработанной на основе системы «Аналитик», решаются следующие наукоемкие задачи

- поиск похожих происшествий,

- поиск похожих фигурантов по приметам,

- поиск информации фактографического характера по запросам на ЕЯ и др

В тоже время в системе «Аналитик» имеется ряд проблем Во-первых, для

хранения структур знаний в системе «Аналитик» используется своя внутренняя база данных, основанная на плоских файлах Учитывая объемы существующих потоков данных, возникает необходимость использовать в качестве хранилища знаний современные СУБД (например, Oracle, MSSQL), обеспечивающие работу с большими объемами информации

Во-вторых, не реализовано взаимодействие с внешними источниками данных телефонными справочниками, адресными книгами и другими данными, введенными в соответствующие БД (например, "Кронос", ГИБДД) и широко используемыми в криминальной милиции Таким образом, необходимо организовать эффективное взаимодействие внешних БД с БЗ Системы

В-третьих, одна из проблем связана с аналитической обработкой слабоструктурированной информации - биллингов телефонных переговоров и банковских переводов В зависимости от компании-автора биллинги могут иметь различную структуру Возникает задача разработки интегрированного универсального средства извлечения и представления в БЗ информации из биллингов, а также логико-аналитических режимов для ее анализа Эти проблемы решаются в рамках предлагаемой Системы Во втором параграфе проводится исследование двадцати отечественных и зарубежных аналогов системы «Аналитик» «БулБув Бетапйх», «Интегрум», «Яейчеуа^аге» и др Определяются современные перспективные методы обработки разнородной информации, которые могли бы быть реализованы в Системе Проводится выбор параметров сравнения этих систем и их обоснование Представлена таблица сравнения аналогов в разрезе выбранных параметров По результатам сравнения формируются требования и предполагаемый состав функций, которые должны быть реализованы в Системе В конце первой главы сделаны выводы, в которых предлагается разработать новую информационную технологию комплексной обработки разнородной информации на основе технологических решений системы «Аналитик» Технология должна быть основана

1) на расширении информационного пространства Системы, посредством подключения к Системе в качестве исходных данных слабоструктурированной информации (биллингов телефонных переговоров и банковских переводов) и внешних БД,

2) на расширении аналитических возможностей Системы, путем реализации новых логико-аналитических режимов обработки накопленной информации на основе структур знаний в виде РСС,

3) на применении современных технологий в области хранения информации

В первом параграфе второй главы описывается развитие аналитических возможностей Системы Для анализа неструктурированной информации (текстов на ЕЯ) разработан режим «Анализ временных совпадений» Этот автоматический режим позволяет аналитику на основе информации из БЗ выявить связанные происшествия, произошедшие в один и тот же период времени При больших объемах информации выявить подобные связи вручную человеку практически невозможно

Вся обработка в этом режиме проходит на уровне РСС В процессе поиска документов в БЗ по выделенным в исходном документе объектам используется режим «Поиск похожих», где всем полученным в результате поиска документам в зависимости от степени совпадения найденной и исходной информации присваивается тот или иной вес Результаты поиска с наибольшим

весом сравниваются с исходным документом на предмет совпадения по времени и, если временной интервал совпадает, визуализируются. Для визуализации разработан специальный модуль, отображающий результаты анализа в виде блочных структур на временной оси (рис. 3).

Рисунок 3. Визуализация событий в режиме «Анализ временных совпадений»

Страницы 5 из 8 Номер Я1М-карты:8970Ю1000000654321

Телефон номер 2234567 Сведения о разговорах:

Дата Время Номер Зона ПС Зона ВТК Услуга Длит. Стоимость 01/07/00 12:17 6624128 Телеф 32:07 0.52

01/07/00 13:57 <-0956624128 Телеф 1:59 0.52_

Рисунок 4. Фрагмент биллинга 1

Звонки с номера 0959222301 за интервал с 01.01.2002 по 06.08.2002 imsi - Амирас Азер Агалиоглы лиц. счет - 1746762 Частное лицо Mob_num Num Dur Dir Num_A Cell_Id Bts_addr 0959222301 +70951079565 01.01.02 13:30:26 168 О Неизвестно

0959222301+70951713495 01.01.02 14:55:12 3 0 Неизвестно_

Рисунок 5. Фрагмент биллинга 2

Развитие второго направления технологии - расширение информационного пространства - осуществляется за счет подключения к Системе в качестве источника слабоструктурированной информации биллингов (рис. 4, 5). Этот вид табличных данных существует в таких областях, как телекоммуникации или банковский сектор. В телекоммуникационном секторе биллинги представляют собой расшифровку всех телефонных разговоров, SMS сообщений и прочих платных услуг, сделанных с определенного телефонного номера, и обычно прикладываются к счету за услуги связи. В банковском секторе биллинг - это расшифровка всех денежных переводов, сделанных с/на определенный счет. На сегодняшний день практически у каждого городского жителя есть телефон или банковский счет (банковская карточка), по каждому из которых в компании-поставщике услуг делается ежемесячная детализация (биллинг) всех его разговоров или денежных переводов. Таким образом, речь

идет о миллионах документах Из приведенных примеров (рис 4, 5) видно, что структура биллинга телефонных переговоров в зависимости от компании-автора (МТС, Билайн, Мегафон и тд) различна (с банковскими переводами ситуация точно такая же)

После анализа 10 различных форматов биллингов телефонных переговоров была выявлена типовая структура биллинга, состоящая из заголовочной и основной части В заголовочной части были выделены 11 атрибутов, содержащих информацию об объекте детализации телефон, ФИО, адрес, период детализации, номер SIM-карты и пр В основной части биллинга находится информация, описывающая повторяющиеся во времени события звонки, SMS и MMS сообщения, GPRS пакеты и т п Здесь было выделено 25 различных атрибутов В заголовочной части Z биллинга выделены следующие основные атрибуты

Z(Nj, Dh D2, F,),

где Ni - телефонный номер детализации, £)/- дата начала детализации, D2- дата окончания периода детализации,

Fi- ФИО лица, которому принадлежит телефонный номер детализации В основной части выделяются следующие атрибуты, используемые в аналитической обработке, которые повторяются практически во всех биллингах телефонных переговоров дата соединения, время соединения, "Телефон А", "Телефон Б", длительность, стоимость

Строка S биллинга описывается следующими атрибутами

S (Numh Di, Dlit, Nap),

где Numi ~ {п/, п2, , пг) - все неповторяющиеся номера телефонов детализации, на/с которых произошло соединение с N/,r-количество неповторяющихся номеров телефонов детализации, Di - дата соединения,

Dlit ~ {dilti, dht2, , dhtf} - длительность соединения,/- количество

строк в детализации, Nap = {napi,nap2, , napj) = {исх, ex} - направление соединения (исходящее или входящее соединение) В работе предложены и апробированы методы распознавания биллингов различных структур, на основе которых разработан семантический анализатор, представляющий собой интегрированное средство извлечения и преобразования в РСС находящейся в биллингах информации Извлечение знаний осуществляется при помощи разрабатываемого в визуальной среде шаблона распознавания и применения набора контекстных правил

Для логико-аналитической обработки биллингов в Системе реализован режим «Детализация номерных объектов», который можно условно разделить на четыре подрежима «Граф телефонных переговоров», «Диаграмма длительности переговоров», «Граф финансовых потоков», «Диаграмма финансовых потоков» Режимы «Граф телефонных переговоров» и «Граф

финансовых потоков» решают задачу классификации. Они позволяют аналитику автоматически из всего массива информации (в биллинге за год может быть более десяти тысяч соединений) выявить наиболее активные телефонные номера или счета. Режимы «Диаграмма длительности переговоров» и «Диаграмма финансовых потоков» позволяют выявить пики активности в работе телефона или счета, на который сделана детализация. В криминалистике, например, это позволяет только с помощью детализации определить время подготовки преступления. В зависимости от режима анализа информация визуализируется двумя видами: графом и диаграммой (рис. 6).

Рисунок 6. Визуализация биллингов телефонных переговоров

Вся логико-аналитическая часть режимов реализована на языке Декл и происходит на уровне структур знаний в виде РСС. На основе анализа, проведенного по всей БЗ, выделяются все биллинги по выбранному номеру -объекту исследования (ОИ). Таким образом, у аналитика есть возможность анализировать активность ОИ за любые промежутки времени, за которые по нему в БЗ есть биллинги. Проводится определение особо активных телефонов, с которыми ОИ разговаривал либо чаще всего, либо дольше всего. Т.е. ведется подсчет количества входящих и исходящих звонков между ОИ и другими телефонами за выбранный промежуток времени и подсчет длительности переговоров.

Результатом работы подрежима «Граф телефонных переговоров» является применение следующих правил. Для каждой строки детализации m={l..j] и каждого телефонного номера пр из Numh где р={1..г}\ при условии, что пар,,, = исх вычисляется S/p = £, где кр - количество строк детализации, удовлетворяющих этим условиям; при условии, что пар,,, ~ вх вычисляется S2p = J]' dlitm , где /р - количество строк детализации, удовлетворяющих этому

условию. В результате получается следующий набор атрибутов результирующей агрегированной информации Itog:

Itog (.Numi, Si, S2, Ki, К2), где:

Numi = {ni, n2, .-., я,.} - множество неповторяющихся номеров телефонов;

Si = { Sa, S12, •■•, S,p } - сумма длительностей исходящих соединений;

S2~ { S2i, S22, , $2р } ~ сумма длительностей входящих соединений, Ki = {к/, к2, , кр} - количество исходящих соединений, К2 ~ {//, h, , 1р} - количество входящих соединений, р = {1 г} В каждом из режимов визуализации реализован дополнительный функционал Для графа - это различная раскраска объектов в зависимости от их активности, отображение графа в виде дерева или окружности Для диаграммы - это визуализация в различных масштабах (год, месяц, день), возможность ввода "пороговых дат" (дней, когда произошли какие-то важные события), возможность сравнения активности ОИ в течение двух различных дней (эта функция необходима для выявления необычной активности ОИ) Обработка и визуализация банковских счетов аналогична работе с биллингами телефонных переговоров, но имеет некоторые особенности в графическом отображении

Во втором параграфе описан следующий этап развития разрабатываемой технологии в направлении логико-аналитической обработки - проводится исследование моделей и алгоритмов кластерного анализа С помощью этого типа анализа решается задача классификации объектов по множеству атрибутов Результаты исследования могут использоваться в решении следующих задач выявление преступных групп лиц и связей в криминалистике, разработка новых тарифов в мобильной связи, выявление групп счетов в банковском секторе и др

Результат кластеризации зависит от ряда факторов, таких как разнородность данных, наличие выбросов, наличие взаимосвязанных объектов, предметной области, объемов обрабатываемых данных и тп Для достижения лучшего результата необходимо найти оптимальные критерии кластеризации биллингов Для определения этих критериев проводится следующий эксперимент В качестве исходных данных рассмотрен биллинг с деперсонифицированными данными за месячный период с общей продолжительностью соединений 226 часов, состоящий из 4704 строк Эти данные с помощью последовательности группировок "вручную" разбиваются на оптимальное с точки зрения аналитика число кластеров После этого данные перемешиваются между собой так, чтобы максимально усложнить задачу автоматической кластеризации К этим данным применяются различные комбинации метрик и алгоритмов кластеризации Оптимальной для автоматической кластеризации биллингов является та комбинация, результатом работы которой является разбиение, максимально похожее на разбиение "вручную"

Исходный биллинг с помощью последовательности группировок был разбит на 10 групп телефонов - экземпляров Itog (табл 1) После расчета средней длительности входящих и исходящих вызовов по формулам d„=S2/K1 и </„„ =SjKt выделены 4 группы-кластера телефонов Num\

1) я, = {111 (121, 1200,5,112), 555 (154, 978, 8, 88), 888 (113,1144, 1,70)},

2) л2 = {222 (878, 200, 99,4), 444 (500, 300, 60,12), 777 (1400,400,130, 20)},

3) лз = {666 (2500,232, 2314,29), 999 (2134, 122,1700, 18)},

4) тг4= {333 (21,600,1, 10), 900(11,578,7,16)}

Таблица 1

Исходные данные кластеризации

Номер Длительность Длительность Количество Количество

телефона исходящих входящих исходящих входящих

(Num/) соединений (Si) соединений (Sj) соединений (К/) соединений (К;)

111 121 1200 5 112

222 878 200 99 4

333 21 600 1 10

444 500 300 60 12

555 154 978 8 88

666 2500 232 2314 29

777 1400 400 130 20

888 113 1144 1 70

999 2134 122 1700 18

900 11 578 7 16

Правильность такого разбиения подтверждается при подсчете усредненных показателей групп - средних длительностей исходящих и входящих соединений, средних количеств исходящих и входящих соединений по формулам

Л IX I S2l и п X'.

1=1 Л , Ь - '=1 riucx — к - 1=1 Квх - , где п - количество

1=1 п ' п

элементов в группе, г - номер элемента в группе Усредненные показатели кластеров представлены в таблице 2

Таблица 2

Усредненные показатели групп

Номер Средняя Средняя Среднее Среднее

группы длительность длительность количество количество

исходящих ПО входящих по ИСХОДЯЩИХ (кисх ) входящих (квх)

группе (duc*) группе (da)

1 52,15 12,7 4,7 90

2 27,96 31,7 96,3 12

3 1,17 7,4 2007 23,5

4 11,25 48 4 13

Для оценки результатов кластеризации используется целевая функция -сумма квадратов отклонений (СКО) СКО рассчитывается по формуле

л _ п 1 "

W= Y, " = Z— (Хх<)2 Для разбиения "вручную" W=721475 3 i=i i=i п i=i

Для более точного определения оптимальных параметров разбиения

автоматическая кластеризация осуществляется с помощью различных

комбинаций метрик и методов кластеризации в различных программных

комплексах SPSS, Statgraphics (STAT) и Attestat (табл 3)

Таблица 3

Номер \группы Номер телефона \ 1 г 3 4 5 6 7 8 9

Ш 1 1 1 1 1 1 1 1 1

222 2 2 2 2 4 4 2 2 2

333 3 3 3 3 1 1 3 1 1

444 2 2 2 2 4 4 2 2 2

555 1 1 1 1 1 1 1 1 1

666 4 4 4 4 2 3 4 3 3

777 2 2 2 2 4 3 3 2 2

888 1 1 1 I 1 1 1 1 1

999 4 4 4 4 3 3 4 4 4

900 3 3 3 3 1 1 3 1 1

Метод Уорд Уорд Уорд k-средних k-средних k-средних k-средних медианы средней связи

Метрика сити-блок, минковского Махаланобис, эвклидова, сити-блок сити-блок, эвклидова сити-блок эвклидова эвклидова эвклидова ближнего соседа, дальнего соседа, центроидный, сити-блок сити-блок

Программа SPSS Attestat STAT STAT SPSS Attestat STAT SPSS Attestat, SPSS

СКО 721476 721476 721476 721476 804821 3655103 1679066 804820 6 804821

В первых десяти строках таблицы 3 представлены объекты и результаты кластеризации - номера кластеров, в которые был помещен тот или иной телефонный номер Курсивом выделены результаты, совпадающие с результатами разбиения "вручную" В нижней части таблицы представлены методы кластеризации (использовались как иерархические методы, так и неиерархические), метрики и программы кластеризации В качестве исходных данных задавалось количество кластеров т=4, на которое разбивалось множество объектов кластеризации

На основании полученного СКО можно сделать следующий вывод более точные результат дает сочетание частных случаев метрики Минковского (сити-блок, эвклидова метрика) и алгоритмов иерархической кластеризации (метод Уорда), что позволяет рекомендовать их использование при кластеризации детализаций телефонных переговоров

Docs - Документы

id_doc Ключ документа

text Текст

sem_set Семантическая сеть

beg Заголовок

Doc_list Список документов

id_spis Ключ

id_word Код слова

id_doc Код документа

Words • Слова

id_word Ключ слова

word Слово

freq Частота

Рисунок 7 Фрагмент схемы БД в СУБД Oracle

В первом параграфе третьей главы решается задача оптимизации работы хранилища знаний В системе «Аналитик» БЗ хранится в БД на плоских файлах Такой способ хранения обладает рядом недостатков медленная обработка при больших объемах данных, высокая трудоемкость удаления, сложность поиска и др Помимо этого возникают проблемы защиты данных и управления В то же время в современных СУБД, таких как Oracle, MSSQL, MySQL эти проблемы уже решены Проводится анализ требований к СУБД, на основе которой разрабатывается хранилище знаний Системы В качестве СУБД, удовлетворяющей всем предъявленным требованиям, выбирается Oracle Предлагается метод, обеспечивающий хранение структур знаний Системы в этой СУБД Проектируется новая схема БД в Oracle, позволяющая хранить РСС (рис 7), что решает вышеперечисленные проблемы в рамках предлагаемой Системы Приводятся примеры реализации удаления/изменения документов, поиска и способов обеспечения безопасности при использовании новой схемы хранения знаний

Во втором параграфе описана методика подключения к БЗ внешних источников данных - еще один этап развития технологии в направлении

расширения информационного пространства Системы В качестве внешних источников данных предлагается использовать специализированные базы данных, например, базы МГТС или ГИБДД Проводится анализ современных методов интеграции данных промышленных средств интеграции данных (ПСИД), сервисных шин, интеграции с помощью "ротМо-ропй" интерфейсов и адаптеров ПСИД и сервисные шины являются очень дорогим решением Разработка "ротМо-ротГ интерфейсов требует участия специалистов по программированию в области баз данных в процессе эксплуатации Системы Адаптеры в качестве канонической модели данных используют язык Синтез, а не РСС В результате предлагается новая методика интеграции внешних баз данных с БЗ Системы на основе редактора шаблонов соединений, не требующая от пользователя каких-либо специальных навыков В работе представлен пример взаимодействия Системы с базой МГТС при помощи предложенной методики Найденная во внешней базе данных информация может пополнять собственную БЗ Системы

БД документы, индексы БЗ расширенные семантические сети

Документы, билпинги

Модуль загрузки данных

Загрузка данных

Данные в исходном виде

Внешние БД Биллинга

Редактор шаблонов соединений с внешними БД Конвертор форматов

| Расширенные семантические сети

Каталоги документов

Аналитические режимы

Визуальные интерфейсы

Настройки Системы

Внешние БД

Визуализация результатов

Работа с БЗ

Аналитические режимы

Диалог с пользователем

Работа с БЗ

Работа с внешними БД

Декл, Delphi

Работа с внешними компонентами

Рисунок 8 Структурная схема Системы

В результате в рамках диссертационной работы разработана интегрированная информационная технология комплексной обработки информации на основе структур знаний в виде РСС Технология включает в себя этапы автоматической обработки потоков разнородной информации, существующей в электронном виде, методы загрузки этой информации в хранилище знаний, методы и алгоритмы логико-аналитической обработки накопленной информации, средства визуализации результатов обработки, методы поиска и извлечения информации из внешних баз данных

В четвертой главе описывается программная реализация интегрированной информационной технологии Представлены структурная схема Системы (рис 8), модульная структура программы, состоящая из 24 разработанных в рамках диссертационной работы модулей, граф диалога пользователя, модули распознавания биллингов телефонных переговоров и банковских переводов, модули ручного ввода в Систему и их преобразования в РСС биллингов телефонных переговоров и записных книжек с контактами абонентов Описаны процедуры создания схемы БД в Oracle, процедуры обращения к СУБД из Системы, интерфейс взаимодействия пользователя с Системой

В заключении приводятся основные выводы, полученные в работе В приложения вынесены поясняющие и вспомогательные материалы

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ.

1 Разработана новая информационная технология комплексной обработки разнородной информации большого объема в рамках Системы, основанной на структурах знаний в виде расширенных семантических сетей

2 По итогам проведенного исследования систем, основанных на технологии баз знаний, в качестве единого средства представления разнородной информации (текстов на естественном языке, биллингов, данных из внешних баз) предложено использовать расширенные семантические сети

3 На основе исследования структур биллингов разработан семантический анализатор - интегрированное средство извлечения данных из биллингов и их представления в виде расширенных семантических сетей

4 Разработаны методика и алгоритмы решения задачи детализации номерных объектов, позволяющие группировать связанные объекты (телефонные номера, банковские счета) на основе информации из базы знаний

5 Впервые проведено исследование специфики применения кластерного анализа к биллингам телефонных переговоров Выявлена комбинация метрики и алгоритма кластерного анализа, позволяющая осуществить оптимальную с точки зрения целевой функции кластеризацию

6 Разработан режим «Анализ временных совпадений», позволяющий аналитику увидеть временную связь между интересующими его событиями

7 Предложена методика инкапсуляции структур знаний в реляционную СУБД, что позволяет обеспечить работу Системы с большими объемами данных

8 Для расширения пространства поиска разработана методика интеграции базы знаний Системы с внешними базами данных на основе редактора шаблонов соединений

9 Разработана программная реализация предложенной технологии

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИОННОЙ РАБОТЫ.

1 Рабинович Б И Редактор шаблонов соединений как средство интеграции базы знаний системы «Аналитик» с внешними источниками данных // Вестник МГТУ им Н Э Баумана Серия «Приборостроение» №2 - М МГТУим НЭ Баумана, 2008 - С 113-121

2 Рабинович Б И Обзор информационных систем анализа текстов на естественном языке // Известия высших учебных заведений Проблемы полиграфии и издательского дела №2 -М МГУП, 2008 - С 83-88

3 Рабинович Б И Электронное хранилище разнородной информации на основе структур знаний // Информатизация и связь Специальный выпуск'2008 -М «Информатизация и связь», 2008 - С 84-88

4 Кузнецов ИП Рабинович Б И Модель базы знаний с возможностью интеграции внешних источников информации в системе «Аналитик» // Системы и средства информатики Ин-тпробл информатики РАН Вып 17 /Отв ред И А Соколов - М . Наука, 2007 -С 254-272

5 Рабинович Б И Кластерный анализ детализаций телефонных переговоров // Системы и средства информатики Ин-т пробл информатики РАН Вып 17/Отв ред И А Соколов -М Наука, 2007 - С 52-78

6 Рабинович Б И Система обработки потоков данных // MegaLmg'2007 Горизонты прикладной лингвистики и лингвистических технологий Доклады международной научной конференции 24-28 сентября 2007, Украина,Крым,Партенит - Симферополь «ДиАйПи»,2007 -С 331-332

7 Рабинович Б И Организация баз знаний в современных СУБД // Проблемы и методы информатики II Научная сессия ИЛИ РАН Москва, 18-22 апреля 2005 г Тезисы докладов -М ИПИРАН,2005 - С 165-168

8 Рабинович Б И Система сбора и обработки разнородной информации «Аналитик» // Интеллектуальные технологии и системы Сборник учебно-методических работ и статей аспирантов и студентов Выпуск 7 - М «Эликс+», 2005 - С 211-230

9 Рабинович Б И Хранение БЗ в современных СУБД Интеллектуальные технологии и системы // Сборник учебно-методических работ и статей аспирантов и студентов Выпуск 6 -М «Эликс+», 2004 - С 173-186

10 Рабинович Б И. Аналитическая система обработки и управления структурированной информацией // Интеллектуальные технологии и системы Сборник учебно-методических работ и статей аспирантов и студентов Выпуск5 -М «Эликс+»,2003 -С 284-296

11 Кузнецов И П, Мацкевич А Г, Рабинович Б И., Гнидо Е И Временной анализ потоков событий в Логико-Аналитической системе «Аналитик» // Тезисы докладов НТК МТУ СИ 29-31 января 2002 г - М Инсвязьиздат, 2002 - С 409-410

12 Кузнецов ИП, Мацкевич АГ, Рабинович БИ, Гнидо ЕИ Частотный анализ биллингов телефонных переговоров в Логико-Аналитической системе «Аналитик» // Тезисы докладов НТК МТУ СИ 29-31 января 2002 г -М Инсвязьиздат, 2002 - С 409

Подписано в печать 04 09 2008 г

Печать трафаретная

Заказ №688 Тираж 100 экз

Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш , 36 (499) 788-78-56 www autoreferat ru

Оглавление автор диссертации — кандидата технических наук Рабинович, Борис Ильич

СОДЕРЖАНИЕ.

СПИСОК СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

ГЛАВА I. Особенности систем, основанных на технологии БЗ.

1. Основные сущности предметной области.

2. Анализ возможностей существующих систем.

ВЫВОДЫ К ГЛАВЕ I.

ГЛАВА II. Логико-аналитическая обработка разнородной информации.

1. Режимы анализа текстов на естественном языке и детализаций.

2. Кластерный анализ детализаций телефонных переговоров.

ВЫВОДЫ К ГЛАВЕ II.

ГЛАВА III. Оптимизация информационной компоненты Системы.:.

1. Перенос хранилища знаний из плоских файлов в СУБД Oracle.

2. Интеграция Системы с внешними базами данных.

ВЫВОДЫ К ГЛАВЕ III.

ГЛАВА IV. Программная реализация разработанной технологии.

1. Основные компоненты Системы.:.

2. Интерфейс взаимодействия пользователя с Системой.

ВЫВОДЫ К ГЛАВЕ IV.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Рабинович, Борис Ильич

Актуальность работы. В настоящее время наблюдается повсеместный лавинообразный рост потоков разнородной информации, состоящей из сложноорганизованных документов, различных отчетов, электронных писем и пр. [3]. В связи с этим актуальным является разработка технологий и программных средств комплексной обработки разнородной информации. Например, в криминальной милиции примером разнородной'информации могут быть тексты на естественном языке (сводки происшествий, обвинительные заключения, справки по уголовным делам), данные из различных справочников (телефоны, адреса), биллинги телефонных переговоров и др. Информация может храниться в файлах, в Базах Данных (БД) или извлекаться из сети Интернет. Её обработка должна быть максимально автоматизирована, что зачастую предполагает решение сложных логико-аналитических задач (поиск объектов, анализ их связей и др.). Перспективным является разработка технологии и систем, позволяющих осуществить на единой основе агрегацию, хранение и логико-аналитическую обработку разнородной информации достаточно унифицированными средствами [91].

Такая система, ориентированная на обработку текстов естественного языка (ЕЯ), разработана в Институте Проблем Информатики Российской Академии Наук в рамках проекта «Аналитик» и связанных с ним проектов «Криминал», «Икс», «Поток». Созданная система «Аналитик» нашла применение в ГУВД, МВД, в области управления персоналом и анализа СМИ.

Ее особенность заключается в использовании семантико-ориентированного лингвистического процессора, позволяющего отобразить тексты на ЕЯ на структуры знаний, которые образуют Базу Знаний (БЗ). Для представления информации в БЗ используются расширенные семантические сети (РСС). Их отличие от обычных семантических сетей состоит в использовании многоместных фрагментов, связывающих вершины, и кодов фрагментов, которые тоже являются вершинами. Такие сети позволяют с достаточной точностью представлять объекты и их связи, которые выражаются в ЕЯ с помощью различных форм, в том числе форм с отглагольными существительными, оборотами с инфинитивами, сложноподчиненными предложениями. Связанными могут быть не только объекты, но и сами действия, в которых эти объекты принимают участие.

Обработка информации в системе «Аналитик» осуществляется с помощью* специального языка манипуляции знаниями Декл, созданного для обработки структур знаний (РСС). На языке Декл разработано много уникальных программ семантического поиска в БЗ (поиск похожих объектов и ситуаций, поиск по связям и по приметам), программ аналитической обработки и экспертных оценок (семейство оболочек экспертных систем). Использование в качестве БЗ обычных семантических сетей, языков логики предикатов, фреймов приводит к существенной потере информации, содержащейся в текстах на ЕЯ, и соответственно, к ограничению круга решаемых задач.

Представляется перспективным дальнейшее развитие систем, основанных на структурах знаний в виде РСС. Основными направлениями их развития должны быть:

- обработка разнородной информации в рамках, единой БЗ с использованием уже имеющихся средств;

- разработка средств решения новых логико-аналитических задач;

- обеспечение взаимодействия таких систем с внешними БД.

В этом случае пользователь-аналитик будет получать из одного источника полную информацию в наиболее удобном виде.

В тоже время в системе «Аналитик» имеется ряд проблем. Во-первых, для хранения структур знаний используется своя внутренняя БД, основанная на плоских файлах. Структуры знаний подкачиваются по мере необходимости, образуя активную часть БЗ, в которой осуществляется обработка. Т.е. БД играет роль хранилища знаний. Учитывая объемы существующих потоков данных, возникает необходимость использовать в качестве хранилища знаний современные СУБД, обеспечивающие работу с большими объемами информации (например, Oracle, MSSQL).

Во-вторых, не реализовано взаимодействие с внешними источниками данных: телефонными справочниками, адресными книгами и другими данными, введенными в соответствующие БД ("Кронос", "МГТС", "ГИБДД") и широко используемыми в криминальной милиции. В этом случае, используя внешние БД, следователь-аналитик сможет получить наиболее полную информацию об интересующем его объекте. В тоже время перекачать всю эту информацию в БЗ не представляется возможным из-за ее большого объема, ограниченного доступа и др. Отсюда необходимость организации эффективного взаимодействия внешних БД с БЗ системы.

В-третьих, не реализована аналитическая обработка слабоструктурированной информации, а именно биллингов телефонных переговоров и банковских переводов. В органах внутренних дел есть потребность в разработке автоматизированных средств аналитической обработки этой информации. Биллинги предоставляются, соответственно, операторами сотовой связи или банками. В зависимости от оператора биллинг может иметь различную структуру. Возникает задача - разработки интегрированного универсального средства извлечения и представления в БЗ информации из биллингов, а также логико-аналитических режимов для ее анализа.

Для решения перечисленных задач необходимо развитие существующей технологии в направлениях комплексной и логико-аналитической обработки. Эти задачи решаются в рамках данной диссертационной работы.

Целью диссертации является разработка информационной технологии комплексной обработки разнородной информации большого объема в рамках системы, основанной на структурах знаний в виде РСС (далее Система).

Основными задачами исследования являются:

1. Анализ современных аналитических комплексов, основанных на технологии БЗ и обеспечивающих обработку на единой основе разнородной информации (Глава I).

2. Анализ существующих методов обработки разнородной информации, которые возможно реализовать в Системе (Глава I).

3. Исследование структур биллингов телефонных переговоров и банковских счетов с целью создания унифицированного процессора для их преобразования в единую форму на уровне структур знаний - РСС (Глава II).

4. Обеспечение возможности совместного использования структур знаний, представляющих тексты на ЕЯ, биллинги телефонных переговоров и банковских переводов для решения существующих задач Системы (Глава II).

5. Изучение специальных задач пользователей, основанных на информации о телефонных переговорах и банковских переводах, для разработки новых средств для их решения в рамках Системы (Глава II).

6. Разработка новых логико-аналитических режимов обработки информации, представленной в виде структур знаний, в рамках Системы (Глава II).

7. Исследование особенностей представления информации в БЗ и разработка методов представления структур знаний в СУБД Oracle, для повышения эффективности хранилища знаний Системы (Глава III).

8. Исследование информационных процессов, связанных с задачей интеграции данных, и разработка технологии интеграции БЗ Системы с внешними БД, для расширения пространства поиска Системы (Глава III).

Программная реализация компонент информационной технологии комплексной обработки разнородной информации представлена в Главе IV.

Заключение диссертация на тему "Информационная технология комплексной обработки информации в рамках логико-аналитической системы на основе расширенных семантических сетей"

Основные выводы по работе следующие:

1. Разработана новая информационная технология комплексной обработки разнородной информации большого объема в рамках Системы, основанной на структурах знаний в виде расширенных семантических сетей.

2. По итогам проведенного исследования систем, основанных на технологии баз знаний, в качестве единого средства представления разнородной информации (текстов на естественном языке, биллингов, данных из внешних баз) предложено использовать расширенные семантические сети.

3. На основе исследования структур биллингов разработан семантический анализатор — интегрированное средство извлечения данных из биллингов и их представления в виде расширенных семантических сетей, что позволило разработать режимы аналитической обработки слабоструктурированной информации в рамках Системы, основанной на структурах знаний.

4. Разработаны методика и алгоритмы решения задачи детализации номерных объектов, позволяющие группировать связанные объекты (телефонные номера, банковские счета) на основе информации из базы знаний.

5. Впервые проведено исследование специфики применения кластерного анализа к биллингам телефонных переговоров. Выявлена комбинация метрики и алгоритма кластерного анализа, позволяющая осуществить оптимальную с точки зрения целевой функции кластеризацию.

6. Разработан режим «Анализ временных совпадений», позволяющий аналитику увидеть временную связь между интересующими его событиями, информация о которых содержится в базе знаний.

7. Предложена методика инкапсуляции структур знаний в реляционную СУБД, что позволяет обеспечить работу Системы с большими объемами данных.

8. Для расширения пространства поиска разработана методика интеграции базы знаний Системы с внешними базами данных на основе редактора шаблонов соединений.

9. Разработана программная реализация предложенной технологии.

ЗАКЛЮЧЕНИЕ

В диссертационной работе предложена новая интегрированная информационная технология комплексной обработки разнородной информации в рамках логико-аналитической Системы, основанной на структурах знаний в виде РСС включающая в себя:

- этапы автоматической обработки потоков разнородной информации, существующей в электронном виде;

- методы загрузки информации в хранилище знаний;

- методику и алгоритмы логико-аналитической обработки информации;

- средства визуализации результатов обработки;

- модель хранилища знаний в современной СУБД;

- методику поиска и извлечения информации из внешних БД.

На основе этой технологии могут быть разработаны новые программные комплексы [66], электронные хранилища [69], ориентированные на обработку разнородной информации в различных предметных областях.

Библиография Рабинович, Борис Ильич, диссертация по теме Теоретические основы информатики

1. Айвазян С. А., Степанов В. С. Инструменты статистического анализа данных. // Мир ПК, №08 - М.: Открытые системы, 1997.

2. Айвазян С. А., Мхитарян B.C. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. - 1022 с.

3. Аносов А. Критерии выбора СУБД при создании информационных систем. Центр Информационных Технологий — Электронный ресурс./ Статья. 2001. Режим доступа: http://citforum.utmn.ru/database/articles/criteria; свободный - Загл. с экрана. — Яз. рус., англ.

4. Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. -М.: Мир, 1979. 536 с.

5. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии. Учебное пособие. — М.: МГТУ им. Н.Э.Баумана, 2005. — С. 6769.

6. Блэкфорд Д., Стрехлоу К. К базам данных завтрашнего дня. Электронный ресурс.- Режим доступа: http://koaP.narod.ru/tehlit/base/bd/06db.htm; свободный. — Загл. с экрана. —Яз. рус., англ.

7. Боровиков В. Statistical искусство анализа данных на компьютере (с CD-ROM), 2 издание. СпБ.: Питер, 2003.

8. Вежбицкая А. Понимание культур через посредство ключевых слов / Пер. с англ. А.Д. Шмелева. М.: «Языки славянской культуры», 2001. - 288 с.

9. Гаврилова Т.А., Хорошевский В.Ф. Базы Знаний интеллектуальных систем Спб.: Питер, 2001. - 384 с.

10. Гайдышев И.П. Анализ и обработка данных. Специальный справочник. -СПб.: Издательство «Питер», 2001. — 752 с.

11. Гайдышев И.П. Решение научных и инженерных задач средствами Excel, VBA и С++ (+ CD). СПб.: Издательство «БХВ-Петербург», 2004 г. - 512 с.

12. Головко В.А., Нейронные сети: обучение, организация, применение. М.: Радиотехника; 2001. - 256 с.

13. Григорьев С.Г., Левандовский В.В., Перфилов A.M., Юнкеров А.И. Пакет прикладных программ Statgraphics на персональном компьютере. Практическое пособие по обработке результатов медико-биологических исследований. СПб., 1992. - 104 с.

14. Григорьев Ю.А., Ревунков Г.И., Банки данных: Учеб. для вузов. — М.: МГТУ им. Н.Э. Баумана, 2002. 320 с.

15. Губин А.В., Краюшкин Д.В., Кузьмин В.В. Выбор технологии построения системы управления знаниями. // Системы и средства информатики. Ин-т пробл. информатики. Вып. 14. М.: Наука, 2004. - С. 145-146.

16. Дьяконов В.П. Maple 8 в математике, физике и образовании М.: COJIOH-Пресс, 2003.-656 с.

17. Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1977. - 128 с.

18. Енюков И.С. Методы, алгоритмы, программы многомерного статистического анализа: пакет ППСА. — М.: Финансы и статистика, 1986. 232 с.

19. Ермаков А.Е. Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2007. М.: Наука, 2007.

20. Ермаков А.Е. Этапы лингвистического анализа текста в программных продуктах RCO // Русский язык: исторические судьбы и современность. II Международный конгресс исследователей русского языка. Труды и материалы. М.: МГУ, 2004.

21. Ермаков А.Е., Киселев C.JI. Лингвистическая модель-для компьютерного анализа тональности публикаций СМИ // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2005. М.: Наука, 2005.

22. Жамбю М. Иерархический кластер-анализ и соответствия / М. Жамбю; Перевод с фр. Б. Г. Миркина; Предисл. С. А. Айвазяна, Б. Г. Миркина М.: Финансы и статистика. 1988. — 342 с.

23. Загоруйко Н.Г., Елкина В.Н., Лбов Г.С. Алгоритмы обнаружения эмпирических закономерностей. Новосибирск: Наука, 1985. - 110 с.

24. Зацман И. М., Курчавова О. А. Лингво-семиотический подход к анализу диаграмм. // Системы и средства информатики. Ин-т пробл. информатики. Вып. 14.-М.: Наука, 2004.-С. 170-185.

25. Калиниченко Л. А. СИНТЕЗ: язык определения, проектирования и программирования интероперабельных сред неоднородных информационных ресурсов (вторая редакция) М.: ИПИРАН, 1993. - 121 с.

26. Калиниченко Л.А. Методы и средства интеграции неоднородных баз данных. -М.: Наука, 1983. С. 351-411.

27. Кандрашева Е.Ю., Литвинцева Л.В., Поспелов Д.А. Представление знаний о времени и пространстве в интеллектуальных системах / Под ред. Д.А. Поспелова. М.: Наука, 1989. - 328 с.

28. Киселев С.Л., Ермаков А.Е., Плешко В.В. Поиск фактов в тексте естественного языка на основе сетевых описаний // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2004. М.: Наука, 2004. - С. 282-285.

29. Кластерный анализ Электронный ресурс./ StatSoft Режим доступа: http://www.statsoft.ru/home/textbook/modules/stcluan.html#general - Загл. с экрана. - Яз. рус., англ.

30. Кластерный анализ: основы метода и его применение в биомедицине Электронный ресурс./ Статья. Леонов В.П. Режим доступа: http://www.biometrica.tomsk.ru/cluster.htm - Загл. с экрана. - Яз. рус., англ.

31. Корнеев В.В., Гареев А.Ф., Васютин С.В. и др. Базы данных. Интеллектуальная обработка информации. М.: Нолидж, 2000. - С. 41-61

32. Крищенко В.А., Программное обеспечение для метопоиска информации в гипертекстовой среде. Дис. . канд. тех. наук. : 05.13.11 Москва, 2002 С. 46-50.

33. Кузнецов И.П. Методы обработки сводок с выделением особенностей фигурантов и происшествий. Труды международного семинара Диалог-1999 по компьютерной лингвистики и ее приложениям. Том 2. Тарусса. М: Наука, 1999.

34. Кузнецов И.П. Продукционный язык программирования ДЕКЛ. Система обработки декларативных структур знаний Деклар-2. — М.: ИПИРАН, 1988 г.

35. Кузнецов И.П., Мацкевич А.Г. Особенности организации базы предметных и лингвистических знаний в системе Аналитик. // Труды международной конференции Диалог'2003 М.: Наука, 2003.

36. Кузнецов И.П., Мацкевич А.Г. Семантико-ориентированные системы на основе баз знаний. М.: Инсвязьиздат, 2007. - 173 с.

37. Кузнецов И.П., Мацкевич А.Г., Рабинович Б.И., Гнидо Е.И. Частотный анализ биллингов телефонных переговоров в Логико-Аналитической системе «Аналитик». Тезисы докладов НТК МТУ СИ. 29-31 января 2002 г. М.: Инсвязьиздат, 2002. - 409 с.

38. Кузнецов И.П., Мацкевич А.Г., Рабинович Б.И., Гнидо Е.И. Временной анализ потоков событий в Логико-Аналитической системе «Аналитик». // Тезисы докладов НТК МТУ СИ, 29-31 января 2002 г. М.: Инсвязьиздат,2002.-С. 409-410.

39. Кузнецов И.П., Семантические представления. Отв. ред. Е. В. Золотов; АН СССР, Дальневост. науч. центр, ВЦ. М.: Наука, 1986. — 293 с.

40. Кулаичев А.П. Методы и средства анализа данных в среде Windows. STADIA 6.0. М.: Информатика и компьютеры, 1998. - 270 с.

41. Леонтьева Н.Н. Автоматическое понимание текста: системы, модели, ресурсы: учеб. пособие для студ. лингв, фак. вузов. — М.: «Академия», 2006. С. 87-92.

42. Леонтьева Н.Н., Кудряшова И.М., Малевич О.Б. Семантические заготовки к пониманию целого текста.- МГПИИЯ им. М. Тореза. Сборник научных трудов., Вып. 271., М.: МГПИИЯ им. М. Тореза,1986. С. 81-110.

43. Леонтьева Н.Н., Никогосов С.Л. Система ФРАП и проблема оценки качества автоматического перевода. МГПИИЯ им. М. Тореза. Сборник научных трудов., Вып. 20., М.: МГПИИЯ им. М. Тореза, 1980. - С. 57-78.

44. Лисовский К.Ю., Марков А.С. Базы данных. Введение в теорию и методологию. — М.: Финансы и статистика, 2004. — 512 с.

45. Любарский Ю.Я. Интеллектуальные информационные системы. М.: Наука, 1980.-С. 112-142.

46. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. — 176с.

47. Мацкевич А.Г. Особенности тонкого клиента в сетевой модели ЛАС «Аналитик». // Тезисы докладов НТК МТУСИ. М.: Инсвязьиздат, 2002 г. - С. 406-408.

48. Налимов В.В. Вероятностная модель языка. О соотношении естественных и искусственных языков. — М.: Наука, 1979. — 303 с.

49. Патрик Э. Основы теории распознавания образов: Пер с англ./ Под ред. Б.Р.Левина. М.: Сов. Радио, 1980. - 408 с.

50. Платформа SAP Net Weaver: надежный фундамент для поддержки изменений бизнеса и управления ими. Электронный ресурс.- Режим доступа: http://www.sap.com/cis/platform/index.epx; свободный. — Загл. с экрана. —Яз. рус., англ.

51. Попов Э.В. Общение с ЭВМ на естественном языке. М: Наука, 1982. — 360 с.

52. Попов Ю. Как выбрать самый подходящий способ хранения деревьев в моем проекте? Электронный ресурс.- Режим доступа: http://phpclub.ni/faq/Tree/FaqSelect?v=ses; свободный. — Загл. с экрана. — Яз. рус., англ.

53. Рабинович Б.И. Кластерный анализ детализаций телефонных переговоров. // Системы и средства информатики. Ин-т пробл. информатики РАН. Вып. 17 / Отв. ред. И.А. Соколов. М.: Наука, 2007. - С. 52-78.

54. Рабинович Б.И. Обзор информационных систем анализа текстов на естественном языке. // Известия высших учебных заведений. Проблемы полиграфии и издательского дела. №2. М.: МГУП, 2008. - С. 83-88.

55. Рабинович Б.И. Организация баз знаний в современных СУБД. // Проблемы и методы информатики. II Научная сессия ИПИРАН. Москва, 18-22 апреля 2005 г. Тезисы докладов. -М.: Наука, 2005. С. 165-168.

56. Рабинович Б.И. Редактор шаблонов соединений как средство интеграции базы знаний системы «Аналитик» с внешними источниками данных. // Вестник МГТУ им. Н.Э. Баумана. Серия Приборостроение. М.: «МГТУ им. Н.Э. Баумана», 2008.-С. 113-121.

57. Рабинович Б.И. Хранение БЗ в современных СУБД. Интеллектуальные технологии и системы. // Сборник учебно-методических работ и статей аспирантов и студентов. Выпуск 6 / Сост. и ред. Ю.Н. Филиппович. — М.: «Эликс+», 2004.-С. 173-186.

58. Рабинович Б.И. Электронное хранилище разнородной информации на основе структур знаний. // Информатизация и связь. Специальный выпуск'2008. -М.: «Информатизация и связь», 2008. С. 84-88.

59. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ Statistica. М.: МедиаСфера, 2003. — 312 с.

60. Родионов П.Е., Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей. Дис. . канд. тех. наук. : 05.13.17 Москва, 2003 С. 29-37.

61. Симанков B.C., Луценко Е.В. Адаптивное управление сложными системами на основе теории распознавания образов. Монография (научное издание). Краснодар: ТУ КубГТУ, 1999. - 318 с.

62. Смирнов Н.В. Оценка расхождения между эмпирическими кривыми распределениями в двух независимых выборках. Бюлл. МГУ, т. II, вып. 7, 1939.

63. Советский энциклопедический словарь — М.: «Советская энциклопедия», 1980.- 1600 с. Силл.

64. Статистические и математические системы. // Каталог «Тысячи программных продуктов». — 1995. — №2. М

65. Статистический словарь / гл.ред. М.А. Королёв.-М.: Финансы и статистика, 1989 г.- 623 с.

66. Тей А., Грибомон П., Луи Ж. Логический подход к искусственному интеллекту: от классической логики к логическому программированию: Пер с франц./Тей А., Грибомон П., Луи Ж. И др. М.: Мир, 1990. - С. 333411.

67. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. М: Финансы и статистика, 1995. - 384 с.

68. Фаронов В.В. Turbo Pascal 7.0. Практика программирования. М.: Нолидж, 1999.-416 с.

69. Хвостиченко Б., Исследование эффективности алгоритмов выполнения алгебраических операций к XML-данным в распределенных запроса. // Интернет-математика 2005. Автоматическая обработка веб-данных. Москва. 2005. С. 235-250.

70. Хомоненко А.Д., Гофман В.Э., Мещеряков Е.В. и др. Delphi 7/Под общ. Ред. А.Д. Хомоненко. СПб.: БХВ-Петербург, 2004 г. - 488 с.

71. Чертовской В.Д. Базы и банки данных: Учебное пособие СПб: МГУП, 2001.-220 с.

72. Чубинидзе К.А. Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов. Дис. . канд. тех. наук. : 05.25.06 Москва, 2006 С. 22-25.

73. Шарнин М.М, Кузнецов И.П. Продукционный язык программирования Декл. В сб. «Система обработки декларативных структур знаний Деклар-2». ИПИАНУСССР М.: Наука, 1988. - С. 134-152.

74. Шемакин Ю.И. Семантика самоорганизующихся систем. — М.: Академический проспект, 2003. С. 98-114.

75. Шемакин Ю.И., Романов А.А. Компьютерная семантика. М.: НОЦ Школа Китайгородской, 1995. - С. 136-142.

76. Эфрон Б. Нетрадиционные методы многомерного статистического анализа: Сб. статей: Пер. с англ./ Предисловие Ю.П.Адлера, Ю.В.Кошевника. — М.: Финансы и статистика, 1988. -263 с.

77. Appelt D. E., Hobbs J. R., Bear J., Israel D., Kameyama M., Tyson M., 1993a. "The SRI MUC-5 JY-FASTUS In-formation Extraction System", Proceedings, Fifth Message Understanding Conference (MUC-5), Baltimore, Maryland, August 1993.

78. Ball G.H., Data-analysis in the social sciences: What about the details? // Proceedings of the Fall Joint Computer Conference, 27, 1966. P. 533-559.

79. Blackwell A.F. Introduction: Thinking with Diagrams // Artificial Intelligence Review. V. 15. 2001,- P. 1-3.

80. Blostein D., Lang E., Zanibbi R. Treatment of Diagrams in Document Image Analysis. Anderson M., P. Cheng, and V. Haarslev (Eds.): Diagrams'2000, LNAI 1889. Berlin: Springer, 2000. P. 330-344.

81. Cole A.J., Numerical Taxonomy, Academic Press, New York. 1969.

82. Convera: корпоративная система поиска и анализа данных Электронный:-ресурс. — Режим доступа: http://www.convera.ru/ru/products/rware8.php; свободный Загл. с экрана. — Яз. рус., англ.

83. Cormack R.M., A review of classification / Journal of the Royal Statistical Society//Series A, 134, 1971.-P. 321-353.

84. Couchman J., Schwinn U., Oracle 8i Certified Professional DBA M.: Издательство «Лори», 2002 г.

85. Cramer H. On the composition of elementry errors, Skand. Aktuarietids, Vol. 11. 1928.-P. 13-74

86. Crouch D., A clustering algorithm for large and dynamic document collections, Ph.D. Thesis, Southern Methodist University. Dallas. 1972.

87. Dorofeyuk A.A., Automatic Classification Algorithms (Review) // Automation and Remote Control, 32,1971. P. 1928-1958.

88. FASTUS:a Cascaded Finite-State Trasducerfor Extracting Information from Natural-Language Text. AIC, SRI International. Menlo Park. California, 1996.

89. Frame Logic. How to Write F-Logic Programs. A tutorial for the Ontoprise's F-logic based'deductive engine, which underlies their semantic Web products. —

90. Электронный ресурс./ 2004. Режим доступа:http://flora.sourceforge.net/aboutFlogic.php; свободный Загл. с экрана. — Яз. англ.

91. Fritzche М., Automatic clustering techniques in information retrieval // Diplomarbeit, Institut fur Informatik der Universitat Stuttgart. 1973.

92. Good, I.J., 'Categorization of classification1 In Mathematics and Computer Science in Biology and Medicine, London: HMSO,1965. P. 115-125.

93. Guizhen Yang, Michael Kifer. Well-Founded Optimism: Inheritance in Frame-Based Knowledge Bases. Intl. Conference on Ontologies, DataBases, and Applications of Semantics for Large Scale Information Systems (ODBASE), October, 2002.

94. Hartigan, J.A. Clustering Algorithms, NY: Wiley, 1975.

95. Hegarty M., Meyer В., Narayann N.H. (Eds.) Diagrammatic Representation and. Inference // Proceedings of the Second International Conference, Diagrams 2002, LNAI 2317 (Gallaway Gardens, Georgia, USA, April 18-20, 2002). Berlin: Springer, 2002.

96. Hobbs J. R., Appelt D. E., Bear J., Israel D., Kameyama J., Tyson M. // FASTUS: A System for Extracting Information from Text / Proceedings, Human Language Technology, Princeton, New Jersey, March 1993. P. 133-137.

97. Hunt B.E. Artificial Intelligence. NY.: Academic press, 1975. - 550 p.

98. Jeffreys H. An invariant for the prior probability in estimation problems, Proc. Roy. Soc, A., Vol. 186, 1946. P. 454-461.

99. Kalinichenko L.A., Briukhov D.O., Skvortsov N.A., Zakharov V.N. Infrastructure of the subject mediating environment aiming at semantic interoperability of heterogeneous digital library collections. / Seconnd Russian

100. Conference DIGITAL LIBRARIES: Advanced Methods and Technologies, Digital Collections, September 26-28, 2000, Protvino. P. 78-90.

101. Kifer M., Lausen G., Wu J. Logical Foundations of Object Oriented and Frame Based Languages // Journal of ACM 1995, vol. 42. P. 741-843.

102. Kuznetsov I., Matskevich A. System for Extracting Semantic Information from Natural Language Text. // Труды международного семинара Диалог-2002 по компьютерной лингвистике и ее приложениям. Том 2. Протвино. М.: Наука, 2002.

103. Litofsky В., Utility of automatic classification systems for information storage and retrieval, Ph.D. Thesis, University of Pennsylvania. Philadelphia. 1969.

104. Mahalanobis P.C. Analysis of race mixture in Bengal, J. Asiat. Soc. (India), Vol. 23, 1925. P. 301-310.

105. Mahalanobis P.C. On the generalized distance in statistics, Proc.Natl. Inst. Sci. (India), Vol. 12, 1936. P. 49-55.

106. Matusita K. On the theory of statistical decision functions, Ann. Instit. Statist. Math. (Tokyo), Vol. 3, 1951. P. 17-35

107. McAllister J. Artificial Intelligence and Prolog on Microcomputers. — M.: Издательство «Машиностроение», 1990.

108. Murtagh F., Multidimensional clustering algorithms, Compstat Lectures, Heidelberg: Physica-Verlag, 1985.

109. PowerCenter. Любые данные. Любая система. В любое время. Электронный ресурс.- Режим доступа: http://www.data-integration.ru/powercenter.html; свободный. — Загл. с экрана. — Яз. рус., англ.

110. Prywes N.S., Smith D.P., Organization of Information, Annual Review of Information Science and Technology, 7, 1972. P. 103-15 8.

111. Punj G., Stewart D.W. Кластерный анализ в маркетинговых исследованиях: обзор и предпосылки применения. Journal of Marketing Research, Vol. XX, May 1983. -P.134-148.

112. Sneath, P.H.A. and Sokal, R.R., Numerical Taxonomy: The Principles and Practice of Numerical Classification, W.H. Freeman and Company, San Francisco. 1973.

113. Sytech.ru Разработка и внедрение информационных систем Электронный ресурс.- Режим доступа: http://www.sytech.ru; свободный. — Загл. с экрана. — Яз. рус., англ.

114. TIBCO ActiveMatrix Business Works. Электронный ресурс.— Режим доступа:http://www.tibco.com/software/applicationintegration/businessworks/default.js р; свободный. — Загл. с экрана. — Яз. англ.

115. TIBCO DataExchange. Электронный ресурс.— Режим доступа: http://www.tibco.com/software/dataintegration/dataexchange/default.jsp; свободный. — Загл. с экрана. — Яз. англ.

116. Tryon R.C. Cluster Analysis // Ann. Arb., Edw. Brathers. 1939.

117. Tryon R.C. Cluster Analysis. New York: McGraw-Hill. 1939.

118. Vadim Tropashko. Nested intervals tree encoding in SQL. SIGMOD Record 34(2). 2005.-P. 47-52.

119. Vadim Tropashko. Nested Intervals with Farey Fractions CoRR cs.DB/0401014. 2004.

120. Wacker A.G., Langrebe D.A. The minimum distance approech to classification, The laboratory for applications of remote sensing information note 100771, Purdue University, Lafayette, Indiana. 1971.

121. WebLogic Integration. Электронный ресурс.- Режим доступа: http://commerce.bea.com/products/weblogicplatform/weblogicprodfam.jsp; свободный. — Загл. с экрана. — Яз. англ.

122. Websphere Software. Электронный ресурс.— Режим доступа: http://www-306.ibm.com/software/ru/websphere/; свободный. — Загл. с экрана. — Яз. рус., англ.

123. Weirzbicka A. Semantic primitives and lexical universals. Quaderni di semantica 10.1; 1989.-P. 103-321.

124. Wishart D., "Exploiting the graphical user interface in statistical software: the next generation". Interface '98. Computing Science and Statistics, 30, 1998. P. 257-263.

125. Wishart D., Estimation of Missing Values and Diagnosis Using Hierarchical Classifications, Computational Statistics Quarterly, 2(1), 1986. P. 125-134.