автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия

кандидата технических наук
Бородащенко, Антон Юрьевич
город
Орел
год
2010
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия»

Автореферат диссертации по теме "Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия"

На правах рукописи

БОРОДАЩЕНКО Антон Юрьевич

004604425

МОДЕЛИ И АЛГОРИТМЫ СЕМАНТИЧЕСКОЙ ФИЛЬТРАЦИИ ТЕКСТОВОЙ ИНФОРМАЦИИ В ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМАХ ПРЕДПРИЯТИЯ

Специальность 05.13.01 — Системный анализ, управление и обработка информации (промышленность)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

I1 7 ЙЮН 2010

Санкт-Петербург 2010

004604425

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования "Академии Федеральной службы охраны Российской Федерации" (Академии ФСО России)

Научный руководитель: доктор технических наук, профессор

Бочков Максим Вадимович

Официальные оппоненты:

доктор технических наук, профессор Викторов Валерий Кирович

кандидат технических наук Кузнецова Галина Викторовна

Ведущая организация: Северо-Западный Государственный заочный технический университет

Защита диссертации состоится "01" июля 2010 года в 14 час 00 мин, ауд. Q{ на заседании совета по защите докторских и кандидатских диссертаций Д 212.230.03 при Государственном образовательном учреждении высшего профессионального образования "Санкт-Петербургском Государственном технологическом институте (техническом университете)".

С диссертацией можно ознакомиться в библиотеке института.

Отзывы на автореферат в одном экземпляре, заверенные печатью, просим направлять по адресу: 190013, г. Санкт-Петербург, Московский пр., д. 26, СПбГТИ(ТУ), Ученый совет. Телефон: 494-93-75, факс 712-77-91, e-mail: dissovet@lti-gti.ru.

Автореферат разослан " R-" АсоА 2010 г.

Ученый секретарь »

диссертационного совета,

д.т.н., профессор . >'ТгВ. И. Халимон

I. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Использование передовых информационных технологий в условиях интенсивного развития рыночных отношений становится одним из наиболее важных, а часто и решающих факторов, определяющих эффективность управления предприятием. организациях все чаще внедряются современные информационные системы, чтобы обрабатывать внешние и внутренние потоки информации, осуществлять анализ, прогнозирование и принятие управленческих решений. Практика использования указанных систем стала нормой для современного предприятия.

Мировой опыт показывает, что системообразующим элементом управления предприятием является информационно-аналитическая деятельность, осуществляемая информационно-аналитическими подразделениями (ИАП). Начиная производство, нужно провести информационно-аналитическое маркетинговое исследование сектора рынка и региона выбранного бизнеса, ответить на вопросы о необходимых трудовых ресурсах соответствующей квалификации, соотношении спроса и предложения на планируемую к выпуску продукцию, сложившемся на рынке ценообразовании, требованиях к качеству продукта, законодательной базе, регламентирующей данный вид деятельности, будущих конкурентах, возможных партнерах и многом другом.

Анализ указанной информации предполагает поиск источников данных, наиболее полно и объективно отражающих реальные рыночные процессы. Основными видами такой информации являются статистические, коммерческие, биржевые, финансовые, профессиональные и научно-технические данные. Для перечисленных категорий текстовая информация является преобладающим видом, требующим применения соответствующих технологий обработки. Наиболее полным, доступным и актуальным источником такой информации являются потоки профессиональной информации, циркулирующей на предприятии (отчеты, аналитические записки, сопроводительные документы и т. д.), публикации СМИ, обзоры и подборки, распространяемые по подписке, а также в сети Интернет. Значительные объемы информационных потоков делают невозможным непосредственное ознакомление человека с каждым текстом и тем более глубокое осмысление его содержания. Отбор релевантной информации сопряжен со значительными затратами временных и трудовых ресурсов. Эти обстоятельства затрудняют принятие обоснованных и своевременных решений, в основу которых должно быть положено изучение всего массива информации, отражающей ситуацию в аспекте поставленной руководством задачи. В связи с этим разработка и внедрение на предприятии информационно-аналитических систем и технологий, ориентированных на автоматизированную обработку текстовой информации на основе методов интеллектуального анализа данных (ИАД), являются актуальной задачей.

В существующих информационно-поисковых (ИПС) и информационно-аналитических системах (ИАС) обработки текстовой информации в достаточно полной мере реализованы следующие функции: аннотирование, выделение объектов, понятий, кластеризация, классификация, ответ на запросы, тематическое индексирование, поиск по ключевым словам и практически не реализована функция семантической фильтрации. Задача фильтрации массива исходной информации в целях предоставления пользователю ограниченного объема документов в настоящее время требует значительных трудозатрат высококвалифицированных специа-

з

листов. Перечисленные аргументы и определяют актуальность темы и научной задачи диссертационного исследования, заключающейся в разработке комплекса моделей и алгоритмов семантической фильтрации текстовой информации, обеспечивающих повышение алгоритмической релевантности (точности и полноты) результатов выполнения поисковых запросов в информационно-аналитических системах обработки текстовой информации ИАП предприятия.

Объектом исследования являются информационно-аналитические системы обработки текстовой информации ИАП предприятия, в качестве предмета исследования выступают модели, методы и алгоритмы интеллектуального анализа текстовых документов, обеспечивающие их поиск и ранжирование в соответствии со степенью семантического подобия к эталонному тексту.

Цель диссертационной работы - разработка моделей и алгоритмов семантической фильтрации текстовой информации, обеспечивающих повышение эффективности информационного поиска за счет увеличения точности и полноты, а также сокращения времени отбора полезной информации за счет автоматизации рутинных функций.

Для достижения поставленной цели решены следующие задачи:

1. Выбор и обоснование методов семантического анализа текстовой информации в информационно-аналитических системах.

2. Моделирование процесса семантической фильтрации текстовой информации.

3. Разработка и исследование структурных решений и управляющих алгоритмов, обеспечивающих выполнение семантической фильтрации текстовой информации заданной тематики.

4. Разработка структурной схемы и реализация прототипа автоматизированной системы семантической фильтрации текстовой ииформации в информационно-аналитических системах ИАП предприятия.

Методы и средства исследования. При проведении исследований использовался математический аппарат теории вероятностей, математической статистики, марковских случайных процессов, распознавания образов, подобия, компьютерной лингвистики, теории систем и системного анализа, планирования экспериментов и исследования операций.

Достоверность научных положений, результатов, выводов и рекомендаций, приведенных в диссертационной работе, обеспечивается за счет сочетания формальных и неформальных методов исследования; непротиворечивости и воспроизводимости результатов, полученных теоретическим путем; применения апробированного математического аппарата; использованием методов, адекватных природе изученных явлений; верификации отдельных результатов в рамках известных теоретических, конструкций, широко используемых в теории сложных технических и информационных систем; проведения оценки адекватности разработанной модели.

Научная новизна диссертационного исследования состоит в том, что:

1. Предложен комплекс моделей семантической фильтрации текстовой информации, отличающийся применением многоаспектной процедуры, учитывающей структурное, контекстное и внеконтекстное подобие, и сокращающий время выделения полезной информации.

2. Разработан комплекс алгоритмов расчета величины подобия текстов, отличающийся использованием нового критерия оценки структурного подобия в виде

линейной свертки коэффициентов, отражающих смысловую близость и структурную удаленность текстов, а также применением аппарата марковских процессов и специальной меры расстояния для решения задачи сравнения текстов.

3. Синтезирована оригинальная структура информационно-аналитической системы обработки текстовой информации с функцией семантической фильтрации, функционирующей в рамках единого алгоритма процедуры многоаспектного анализа текстовой информации, параметры которой определяются лингвистически-статистическими характеристиками текстов заданной тематики.

Основные положения, выносимые на защиту:

1. Комплекс моделей семантической фильтрации текстовой информации, позволяющий определять степень сходства анализируемых документов с эталонным текстом.

2. Комплекс алгоритмов семантической фильтрации текстовой информации, предназначенный для внедрения в информационно-аналитическую систему предприятия.

3. Структурная схема информационно-аналитической системы обработки текстовой информации с функцией семантической фильтрации, обеспечивающая существенное ускорение решения задач по обработке текстовых документов на предприятии.

Практическая значимость работы обусловлена доведением разработанных алгоритмов до реализации в виде программных модулей с возможностью их практического использования в составе информационно-поисковых и информационно-аналитических систем обработки текстовой информации заданной тематики.

Реализация результатов работы. Результаты исследований реализованы, внедрены и используются в виде комплекса моделей и алгоритмов семантической фильтрации текстовой информации в НИЦ ФСО России и Орловском государственном техническом университете, что подтверждено соответствующими актами.

Получено свидетельство о государственной регистрации программ для ЭВМ "Лексический анализатор предложений "WordParser" (№ 2004610984 от 21.04.2004 г.), "Программа семантической фильтрации текстов" (№ 2009612007 от 20.04.2009 г.) и "Система контент-анализа новостного потока RSS «RSS_reader»" (№ 2010610833 от 26.01.2010 г.).

Апробация работы. Основные результаты работы докладывались, одобрены и опубликованы на 6-й Всероссийской научно-технической конференции студентов, молодых ученых и специалистов, 3-й Всероссийской научной конференции "Проблемы создания и развития информационно-телекоммуникационной системы специального назначения" (г. Орел, 2003 г.), III Международной научно-технической конференция "Информационные технологии в науке, образовании и производстве" (г. Орел, 2008 г.), отраженных в списке публикаций.

Публикации. По теме диссертации опубликовано 9 работ, в том числе 3 статьи в рецензируемых журналах, входящих в перечень ВАК Минобрнауки России, тезисы 2 докладов и выступлений на научно-технических конференциях и семинарах, 4 свидетельства о государственной регистрации программ для ЭВМ.

Структура и объем работы. Диссертационная работа состоит из введения, четырех разделов, заключения, списка использованных источников из 130 наименований и четырех приложений. Диссертация изложена на 190 страницах машинописного текста, содержит 45 рисунков, 33 таблицы.

II. КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении изложены основные положения диссертационной работы, обоснован выбор темы, показаны ее новизна и актуальность, сформулированы цель и научная задача работы. Дана краткая аннотация содержания диссертации, представлены данные об апробации работы и публикациях, приведены ее структура и объем.

В первой главе на основе структурных и функциональных особенностей построения ИПС и ИАС проведен анализ используемой в настоящее время технологии обработки текстовой информации, который позволил обосновать необходимость введения процедуры семантической фильтрации в состав существующих систем и выполнить постановку научной задачи.

На рисунке 1 представлена обобщенная технология обработки текстовой информации, применяемая сотрудниками ИАП предприятия для решения информационно-аналитических задач.

Рисунок 1 - Технология обработки текстовой информации

Как видно из рисунка, одной из наиболее существенных операций предварительного набора является семантическая фильтрация (СФ).

Под семантической фильтрацией понимается процесс отбора из массива текстовых публикаций таких документов, содержание которых подобно относительно выбранного критерия некоторому эталону текста. Под содержанием понимается семантическая категория, непосредственно выраженная автором словарными значениями составляющих текст единиц. Содержание, следовательно, составляет материальную основу сообщаемого. Смысл текста формируется в результате рефлексивной деятельности читателя над содержанием. Любой текст может порождать более чем один смысл, так как смысл текста - это вызываемая им в читателе реакция. В связи с субъективной характеристикой категории "смысл текста" в работе понятие "семантика" применяется как синоним категории "содержание текста".

В диссертационном исследовании проведен подробный обзор существующих систем обработки текстовой информации, выделены их основные недостатки:

- семантическая фильтрация не реализована в большинстве систем либо реализована простым способом на основе запросов по ключевым словам, что не удовлетворяет потребностям пользователя;

- рассмотрение текста осуществляется в изоляции от его информационного окружения, в качестве которого выступают другие текстовые документы информационного массива, формируемого традиционными средствами поиска;

- используются ключевые слова или отдельные словосочетания для оценки семантической близости текстовых документов вместо рассмотрения отдельного текста как взаимосвязанной последовательности всех его слов, порожденной источником с определенными статистическими свойствами, существенно зависящими от тематической направленности.

Первые два недостатка существующих ИАС обуславливают высокий уровень неопределенности относительно статистических образов анализируемых текстов и приводят к недостаточной чувствительности используемых критериев семантического сходства при сравнении текстов, относящихся к одной тематической рубрике.

Для преодоления указанных недостатков в работе предлагается новое решение на основе многоаспектного рассмотрения текстов, представленное на рисунках 2 и 3, в рамках:

- множества ключевых слов, словосочетаний и связей между ними;

- учета отношений между словами текста;

- учета связей между документами.

Отношения между элементами

I В связи с необходимостью экономии I электроэнергии и сокращения | выброса углекислого газа в I атмосферу во многих странах введен

| или планируется ввод запрета на I производство, закупку и импорт 1 ламп накаливания (умы.lamps.ru), [ с целью стимулирования' ¡амекы их I на энергосберегающие л ампы.

Связи между текстами

Ключевые слова (темы)

123 ноября 2009 года вступил в действие закон "Об ¡Р) I энергосбережении и повышении энергетической „^^эффективности ...". Согласно документу, с 1 января 2011 года к обороту на территории страны не

| допускается продажа электрических ламп 1 накаливания (www.lampa.ru) мощностью 100 Вт I и более; с 1 января 2013 * ада - электроламп мощностью 75 Вт и более, ламп мощностью 25 Вт I

а с 1 января 2014 года -более.

Элементы текста

Связи между текстами

Рисунок 2 - Семантическая фильтрация на основе многоаспектного рассмотрения текстов

На рисунке 2 присутствуют три вида связей между документами: структурная (Р|), контекстная и внеконтекстная (/*з). В работе под структурным подобием понимается степень совпадение ключевых тем двух документов при наличии связей между ними. При контекстном подобии рассматриваются связи между цепочками слов внутри документов. Внеконтекстное подобие отражает ссылочные связи между текстами внутри массива.

информация

9 / ° • / / ®

а в

Структурное подобие

Внедрение семантической фильтрации в ИПС и ИАС позволит в значительной мере сократить трудозатраты квалифицированных специалистов, а также повысить полноту и точность результатов выполнения запросов на обработку текстовой информации.

Реализация СФ может быть основана на методах интеллектуального анализа (ИА) текстовой информации (ТИ), к которым относятся аннотирование, выделение объектов, понятий, кластеризация, классификация, ответ на запросы, тематическое индексирование и поиск по ключевым словам. Также в некоторых случаях набор дополняют средствами поддержки и создания таксономии и тезаурусов. На рисунке 4 представлены методы анализа текстовой информации и их математическая основа. Жирным шрифтом выделены методы, примененные в исследовании.

Рисунок 3 - Аспекты семантической фильтрации текстовой информации

Аннотирование

Выделение понятий

Средства поддержки и создания тезаурусов

Средства поддержки и создания таксономии (визуальных карт)

ИА ТИ

Индексирование

Поиск по ключевым словам

Ответы на запросы

Кластеризация

Классификация

Лингвистические методы

Математические методы

Достоинства:

специально разработаны для изучеиия

естественного языка.

Недостатки;

как правило реализации частных методов применимы только к конкретным естественным языкам.

Индукция и дедукция

Эвристические методы

Описательные методы

Метод реконструкции

Достоинства:

наличие хорошо изученного математического аппарата;

наличие опыта применения в различных системах. Недостатки:

сложность задания пороговых величин; необходимость предварительного обучения.

Сравнения средних, сравнения 'дисперсий, регрессионный анализ, дисперсионный анализ, кластерный

Графы, факторный анализ

семантические Модели Маркова,

модели временных рядов

сети.

семантические карты, фреймы

Нечеткая логика, нейронные сети

Методы статистического анализа данных

Теория вероятностей и случайных процессов

Теория подобия

Методы искусственного _интеллекта _

Рисунок 4 - Методы интеллектуального анализа текстовой информации ■■ и их математическая основа

В соответствии с выбранными методами осуществлена постановка научной задачи диссертационного исследования. На содержательном уровне она состоит в разработке алгоритма семантической фильтрации текстовой информации, позволяющего выполнять многоаспектное ранжирование сравниваемых документов. В отличие от существующих систем формализация текстов осуществляется на основе их структурных (ключевые темы и связи между ними), контекстных (связи между цепочками слов) и внеконтекстных (связи между документами) элементов. Исходными данными являются массивы текстовых документов, один из которых требуется обработать, а другой состоит из семантических эталонов, отражающих требуемые пользователем результаты информационного поиска. Каждый массив должен состоять минимум из одного документа.

Формальная постановка задачи диссертациаииого исследования имеет следующий вид.

Заданы:

1) массив документов У = {yJ }, которые требуется обработать;

2) массив эталонных документов X = }, представляющих собой набор файлов по тематике заданной предметной области и отражающих семантику требуемых результатов интеллектуального анализа текстовой информации;

3) словарь слов русского языка в канонической форме С = }, поставляемый в составе существующих ИГ1С и ИАС;

4) специализированный словарь предметной области пользователя Е - {<?,, |, поставляемый в составе существующих ИПС и ИЛС;

5) множество пороговых значений частных показателей алгоритмической релевантности поисковых запросов:

^^^кЛ7", Р>Р^},

где 7\ — — — полпота; а - число верно выделенных системой документов; с -с

число всех документов, релевантных запросу пользователя;

Р = — - точность; а - число верно выделенных системой документов; Ъ -Ь

число всех формально выделенных системой документов;

Ятр, />тр - задаются заказчиком информационно-аналитической системы.

Требуется разработать:

1) процедуру формализации документов в пространстве признаков 5 = отражающих структурные, контекстные и внеконтекстные связи между текстами;

2) критерии оценки значений показателя, характеризующие семантическое сходство в аспекте структурного контекстного (Р2) и внеконтекстного подобия (7*3);

3) функцию многоаспектного ранжирования результатов семантической фильтрации 2{У)-,

4) комплекс алгоритмов семантической фильтрации текстовой информации с учетом различных аспектов семантического сходства.

Допущения и ограничения:

1) массив эталонных документов должен быть выбран с учетом требований к статистически репрезентативному представлению соответствующих аспектов семантического подобия;

2) эксперт обладает знаниями, обеспечивающими получение максимальных значений полноты и точности семантической фильтрации.

3) типовой размер одной информационной единицы (документов в массиве, слов в документе) ограничен объемом памяти ЭВМ.

Обобщенная схема семантической фильтрации текстовой информации, поясняющая постановку задачи диссертационного исследования, представлена на рисунке 5.

Рисунок 5 - Обобщенная схема семантической фильтрации

Содержанием второй главы является анализ особенностей автоматической обработки текстовой информации на естественном языке, с учетом которых был разработан комплекс моделей многоаспектной семантической фильтрации текстовой информации на основе оценки структурного, контекстного и внеконтекст-ного подобия.

Для оценки структурного подобия предложена графовая модель, контекстного подобия - марковская модель, внеконтекстного подобия - гипертекстовая модель.

Графовая модель семантической фильтрации

В аспекте структурного подобия семантическая фильтрация текстовой информации выполняется на основе аппарата теории графов. Сравнение двух текстов осуществляется посредством сравнения их семантических сетей. Семантическая сеть является образом текста, она представляет собой набор взвешенных ключевых слов (тем) и взвешенных связей между ними.

Каждой теме семантической сети присваивается тематический вес. Максимальное значение тематического веса (равное 100) соответствует ключевой (важнейшей) теме документа. Близкое к нулю значение веса темы показывает, что она лишь вскользь упомянута в тексте, и в нем мало сведений, относящихся к данной теме.

Связи между парами тем, в свою очередь, также имеют характеристики - веса связей (от 0 до 100). Большое значение веса связи от одной темы к другой, близкое к 100, указывает на то, что подавляющая часть информации в тексте, касающаяся первой, касается в то же время и второй темы - первая тема почти всегда излагается в контексте второй. Малое значение веса отражает тот факт, что первая тема слабо связана со второй (излагается независимо от нее). Связь между парой тем сети всегда двусторонняя, однако связь от первой темы ко второй не всегда имеет тот же самый вес, что и обратная - от второй к первой. Такое различие в весах может указывать на то, что одна тема является подтемой другой.

Таким образом, семантическая сеть текста может быть представлена взвешенным графом, узлы которого - ключевые слова, а дуги - связи между ними. Можно считать, что такой граф будет полносвязным, при этом веса некоторых дуг будут нулевыми.

Разработанная модель существенно отличается от существующих, так как в ней используются не только ключевые темы, как в аналогах, а также связи между ними.

На вход модуля "Формализация текстов" (рис. 5) подается текст с предварительно заданными параметрами анализа. На выходе модуля "Формализация текстов" получается массив ключевых слов этого текста массив их весов И'* и матрица весов связей между любыми двумя ключевыми словами Л/'*, где / - индекс текста. Все веса нормированы от 1 до 100. Кроме того, возможно визуальное представление текста в виде семантической сети.

Формальная постановка задачи семантической фильтрации в аспекте структурного подобия имеет следующий вид.

Заданы: массив эталонных документов X, массив произвольных документов V.

Требуется: формализовать документ Yj относительно Х1 в аспекте структурног о подобия.

Необходимо найти:

¡/') - массив ключевых тем (слов и словосочетаний) текста г,

И'1 - массив весов ключевых тем,

Л/;) - матрица весов связей между двумя ключевыми темами,

где / - индекс текста,

множество оценок показателя семантического сходства Р1(УГХ1) для каждой пары текстов Х^, являющихся по существу решающим правилом их сопоставления:

/¡=0,996- 0,082 • А2 - 0,047 • к}, (1)

где ' = 'оо^

к т/Е-.Х^'М-^'ЕЛ)2 .

3 100г

х - количество ключевых слов в тексте Хс, у - количество ключевых слов в тексте У/, 2 - количество общих ключевых слов в текстах Х1 и У}; И''[х] - вес соответствующего ключевого слова ¿/''[х].

Марковская модель семантической фильтрации

Известны примеры применения марковских процессов для распознавания речи, определения авторства текстов, моделирования текста и музыки. В отличие от них в исследовании цепи А. А. Маркова применены для поиска подобных документов.

В аспекте контекстного подобия семантическая фильтрация текстовой информации осуществляется в два этапа:

- обработка входных текстовых данных;

- сравнение матриц марковских связей двух текстов с целью определение сте-. пени подобия этих документов.

На этапе обработки входных данных происходит создание матрицы марковских связей для каждого документа и текста-эталона. Названия колонок и строк являются словами из текста. Для каждого текста получается собственная матрица, содержащая информацию о количестве повторений последовательности пар слов, в

и

которой первое слово - имя строки, второе - имя колонки. В ходе обработки при появлении нового слова в тексте происходит добавление колонки и строки в матрице. Для исключения лишних словосочетаний в данной части обработки необходимо использовать фильтры, с помощью которых отбрасываются малозначащие слова, выполняется морфологический анализ, обеспечивающий приведение слов и словосочетаний к каноническому виду.

Далее происходит перестроение полученных матриц марковских связей в матрицы вероятностей марковских связей, в которых значение ячейки показывает вероятность, с которой слово, являющееся именем колонки, может появиться за словом, являющимся именем строки. Имена строк и колонок при перестроении не изменяются.

Для выполнения этапа сравнения необходимо привести матрицы вероятностей документов и эталона к одному основанию. Для этого в матрицу каждого документа нужно добавить строки и столбцы, имена которых есть в матрице эталона, но нет в матрице документа и наоборот. Полученное множество ячеек заполняется нулями и на результат сравнения не влияет.

Формальная постановка задачи семантической фильтрации в аспекте контекстного подобия имеет следующий вид.

Заданы: массив произвольных документов У, массив эталонных документов X.

Требуется: формализовать документ относительно Х( в аспекте контекстного подобия.

Необходимо найти:

Г - число состояний модели текста,

Ри - распределение вероятностей переходов между состояниями, где к, I - соответствующие слова текста,

множество оценок показателя семантического сходства для каждой

пары текстов (!}, ^являющихся по существу решающим правилом их сопоставления:

^ = 1-0/^), (2)

где П<,{Лг,Ах) =

ЩЯу,Лх) + Р(ЛхЛу)

1°Ва Р

- последовательность наблюдений, порожденных моделью Ху, т. е. последовательность пар слов, из которых состоит текст У.

Гипертекстовая модель семантической фильтрации

В аспекте внеконтекстного подобия семантическая фильтрация текстовой информации выполняется путем анализа гиперссылок, входящих в состав исходных текстовых документов. В целом такая модель может быть обобщена на другие типы документов, включающие, например, вместо гиперссылок списки библиографических источников.

В ИПС анализ гиперссылок используется для ранжирования результатов информационного поиска, при котором результаты выстраиваются по наибольшему

соответствию конкретному запросу на основе расчета литературного индекса цитирования. В отличие от этого в диссертации анализ гиперссылок применен для поиска подобных эталону текстовых документов.

Формальная постановка задачи семантической фильтрации в аспекте внекон-текстного подобия имеет следующий вид.

Заданы: массив произвольных документов У, массив эталонных документов X. Требуется: формализовать документ У,- относительно X,- в аспекте внеконтекст-ного подобия.

Необходимо найти:

А',,- - количество гипертекстовых переходов от Х< до К,, А/у - количество гиперссылок на одинаковые тексты, где /, у - индексы текста,

множество оценок показателя семантического сходства Fз(J/),Xl) для каждой пары текстов У,, X,:

^=/(пип^,;тахА/„). (3)

Рассматриваемую модель предлагается использовать для разбиения исходного массива документов по классам относительно эталонного документа. На рисунке 6 приведен пример разбиения на 3 класса:

И'з),

где и', - сильное подобие: г < г„, Рисунок 6 - Пример разбиения массива

\\?2 - среднее подобие: ги> г < ги, документов но трем классам

и-з - слабое подобие: г > гв. (относительно документа "4")

Для решения задачи формирования процедуры классификации применен метод кластерного анализа ¿-средних.

В третьей главе предложен комплекс алгоритмов семантической фильтрации текстовой информации, включающий в себя алгоритмы семантической фильтрации на основе аппарата теории графов, скрытых марковских цепей и гипертекста.

Алгоритм семантической фильтрации текстовой информации на основе аппарата теории графов (рис. 7) включает в себя следующие этапы.

В 1-м блоке происходит ввод исходных данных в программу (загрузка текстов: эталонного и произвольного). Во 2-м блоке устанавливаются параметры формализации текстов. Особенностью данной процедуры является дифференцированное назначение весов ключевым словам в соответствии с семантикой конкретной предметной области пользователя. При этом на основе специализированного словаря, содержащего ограниченное число ключевых тем с высокими значениями весов, осуществляется адаптация алгоритма к конкретным прикладным задачам. Формализация текстов, заключающаяся в построении семантической сети и формировании матриц У10 и А/'1 (г - индекс текста), происходит в 3-м блоке. В 4-м блоке для пары семантических сетей двух текстов осуществляется поиск общих тем с учетом синонимических связей. В 5-м, 6-м и 7-м блоках рассчитываются ко-

эффициенты к\, кг к ¿з соответственно, отражающие смысловую близость (коэффициент к\) и структурную удаленность {къ &з) двух текстов. Расчет множества пороговых оценок семантического сходства для каждой пары текстов ()у, X,) происходит в 8-м блоке. В 9-м блоке осуществляется визуализация результатов анализа.

г з —--1

Формали-

зация

текстов

X

Поиск общих тем для пары текстов

Расчет коэф. общих тем

Расчет коэф. удаленности векторов весов общих тем

X

Расчет козф. удаленности матриц связи обихих "тем

Расчет

ИТОГОВОГО

коэф. близости текстов

9 "Вывод\ ' информации \ . о степени I Хсходсгва у

X

Конец

3

Зафузка двух текстов для анализа (эталонного А7 и произвольного У/

1. Минимальный вес темы.

2. Минимальная частота встречаемости связи в тексте.

3. Максимальное допустимое число главных тем документа.

4. Максимальное допустимое число слоз в названии темы.

5. Допустимые ссмантичсскис типы для тем документа.

1. Построение семантических сетей дня загруженных текстов.

2. Формирование массива ключевых тем текста 1!{'\ массива их весов и матрицы весов связей между любыми двумя ключевыми темами М(е\ где I - индекс текста.

Для пары семантических сетей текстов осуществляется поиск общих тем (с учетом синонимических связей)

=

100^

к,

ЮОг

Р, = 0,996- А, -0,082- Л2 -0,047

Рисунок 7 - Блок-схемы алгоритма семантической фильтрации на основе аппарата теории графов

На рисунке 8 представлены блок-схемы алгоритма семантической фильтрации текстовой информации на основе аппарата марковских случайных процессов.

В 1-м блоке осуществляется загрузка текстов в программу. Установка параметров предварительного анализа текстов происходит во 2-м блоке. В 3-м блоке выполняются процедуры предварительного анализа: удаление малозначащих слов, морфологический анализ слов текста, приведение слов и словосочетаний к каноническому виду. Построение матриц вероятностей марковских связей каждого из

текстов реализуется в 4-м блоке. В 5-м блоке осуществляется приведение матриц вероятностей выбранной пары текстов к общему основанию. В 6-м блоке рассчитываются расстояния между марковскими моделями пары текстов (текста У и текста X, текста Хи текста У). Симметричное расстояние между парой текстов определяется в 7-м блоке. Данное расстояние определяет степень удаленности текстов. В 8-м блоке рассчитывается коэффициент близости текстов. В 9-м блоке осуществляется визуализация результатов анализа.

Установка параметров предварительного анализа

Построение

матрицы вероятностей марковских связей

Приведение

матриц

вероятностей

к обтек

основе

и Расчет

расстояний

между

марковскими

моделям»

' Расчет

симметрич-

но« о расстоя-

ния между

текстами

0 Расчет

коэффи-

циента

близости

текстов

Конец

3

]Загрузка двух текстов для анализа (А7 и ))')

I. Использование словаря запрещенных слов (да, нет). - 2. Выполнение морфологического анализа (да, нет). 3. Использование словаря синонимов (да, нет).

• 3—1-1

Выполнение

предвари-

тельною

анализа

1. Удаление малозначащих слов.

2. Выполнение морфологического анализа.

3. Приведение слов и словосочетаний к каноническому виду.

Формирование матрицы вероятностей марковских связей Ры пар слов А/ каждого текста

Добавление в матрицу вероятностей Ри1 текста 2 строк и столбцов, имена которых есть в матрице вероятностей /V1 текста 1 и наоборот. Заполнение множества ячеек незначащими нулями.

т т

^ =1 -Д^Д,.)

Рисунок 8 - Блок-схемы алгоритма семантической фильтрации на основе аппарата марковских случайных процессов

На рисунке 9 представлены блок-схемы алгоритма семантической фильтрации текстовой информации на основе гипертекста. Алгоритм включает в себя следующие этапы.

" Выделение гиперссылок из каждой страницы

Ш

Определение гипертекстовых переходов

Определение общих гиперссылок

Загрузка массива страниц для анализа

Нахождение количества гипертекстовых переходов между всеми загруженными документами (/V)

Нахождение количества общих гиперссылок для всех загруженных документов (Л/)

Г 5

Выбор документа-эталона

Г 6

Осуществление кластерного анализа

X

7 Вывод Л ' информации . остепени Хсходст па /

Л1

Коней

Кластерный анализ исходных документов методом ¿-средних относительно документа-эталона. Параметры анализа (М, /V). Расчет расстояния от каждого документа до центров сформированных кластеров

Рисунок 9 - Блок-схемы алгоритма семантической фильтрации на основе гипертекста

В 1-м блоке осуществляется загрузка угеЬ-страниц для анализа. Выделение гиперссылок из каждого документа реализуется во 2-м блоке. В 3-м блоке попарно определяется количество гипертекстовых переходов между всеми загруженными документами. В 4-м блоке реализован попарный подсчет общих гиперссылок для всех загруженных документов. Выбор документа-эталона из массива загруженных страниц реализован в 5-м блоке. В 6-м блоке осуществляется кластерный анализ исходного массива загруженных страниц относительно выбранного эталона, в 7-м - визуализация результатов анализа.

В целях эффективного использования разработанных алгоритмов семантической фильтрации текстовой информации в работе предлагается комплексный алгоритм, включающий блок "Определение свойств текстов", обеспечивающий эффективное применение описанного выше комплекса алгоритмов, и процедуру "Многоаспектное ранжирование", предназначенную для формирования ранжированного списка документов по отношению к документу-эталону.

В четвертой главе представлена структурная схема перспективной ИАС с функцией семантической фильтрации текстовой информации. Кроме того, осуществлена оценка эффективности применения комплекса алгоритмов путем экспериментальных испытаний.

Разработанный комплекс моделей и алгоритмов семантической фильтрации позволяет составить функциональную схему подсистемы семантической фильтрации в составе ИАС обработки текстовой информации ИАП предприятия, представленную на рисунке 10.

При этом включение или исключение из работы алгоритмов на основе аппарата теории графов (структурная модель), марковских случайных процессов (контекстная модель) и гипертекста (внеконтекстная модель) осуществляется путем определения свойств анализируемых документов. Функция пользователя заключается в корректном отборе из исходного массива релевантных текстов. В дальнейшем они будут считаться эталонами по требуемой тематике.

Рисунок 10 - Функциональная схема подсистемы семантической фильтрации

Приведены технические решения по реализации системы семантической фильтрации текстовой информации в составе типового лингвистического процессора и НАС обработки текстовой информации. На примере реализации процедуры автоматического рубрицирования и контент-анализа в диссертации показана возможность решения других различных задач интеллектуального анализа текстовой информации с использованием разработанных моделей и алгоритмов семантической фильтрации.

Программные средства НАС обработки текстовых документов предприятия на основе сервера знаний

Поисковый сервер

Модуль Поисковый Менеджер Считыватель

индексирования модуль таблиц данных

Файлы индексов

Таблицы ВД

Файлы|докумен гов База данных (на компьютерах и (внутренние и в ЛВС предприятия) внешние ресурсы)

Рисунок 11 - Вариант перспективной модульной подсистемы аналитической обработки текстовой информации с функцией семантической фильтрации

Вариант перспективной модульной подсистемы аналитической обработки текстовой информации с функцией семантической фильтрации представлен на рисунке 11.

Значения частных показателей качества (среднее значение полноты й и среднее значение точности Р), полученные в ходе проведения экспериментов (табл.1), дают право говорить о том, что разработанные модели и алгоритмы соответствуют предъявляемым требованиям по полноте и точности семантической фильтрации и па 7-8 % эффективней систем-аналогов.

Таблица 1 - Результаты расчета частных показателей качества

Показатель Значение величины

Разработанная система "СофтИнформ" "Аналитический курьер"

Л 0,955 0,764 0,892

Р 0,936 0,857 0,636

Адекватность полученного комплекса моделей семантической фильтрации обеспечивалась корректным применением математического аппарата, испытанием используемых методов на программных макетах, проведением машинного эксперимента более чем на 1 500 текстах, сравнением результатов фильтрации с работой систем-аналогов, а также проверкой на непротиворечивость реальным данным.

В заключении сформулированы основные выводы диссертационного исследования.

ВЫВОДЫ

На основании анализа современных методов обработки текстов в диссертации показано, что функция отбора информации, соответствующей потребностям пользователя, на базе использования семантических эталонов практически не реализована на практике, что требует значительных затрат времени при осуществлении информационного поиска. В исследовании решена актуальная научная задача, заключающаяся в разработке комплекса моделей и алгоритмов семантической фильтрации текстовой информации, обеспечивающих повышение алгоритмической релевантности (точности и полноты) результатов выполнения поисковых запросов в ИАС обработки текстовой информации ИАП предприятия, а также существенное сокращение времени отбора полезной информации.

Из проделанной работы можно сделать следующие выводы:

1. Предложен комплекс моделей семантической фильтрации текстовой информации, обеспечивающий повышение эффективности поиска информации за счет отбора и ранжирования результатов по степени сходства с выбранным пользователем эталоном.

2. В зависимости от тематики документов, требуемых пользователем, необходимо осуществлять корректное задание текстов-эталонов, что обеспечивает выполнение семантической фильтрации с высоким качеством.

3. Использование критериев, отражающих в различных аспектах семантическое сходство сравниваемых текстов, позволяет существенно снизить неопределенность относительно их статистических образов и повысить на основе этого чувствительность процедуры ранжирования.

4. Сформированные модели и математических выражения, отражающие структурное, контекстное и внеконтекстное подобие двух текстов, позволили разработать алгоритмы семантической фильтрации па основе аппарата теории графов, марковских случайных процессов и гипертекста, отличающиеся от аналогов многоаспектным рассмотрением текстовых документов, и позволяющие повысить полноту и точность поиска информации, релевантной потребностям пользователя.

5. Для комплексного использования разработанных алгоритмов предложен обобщенный алгоритм семантической фильтрации текстовой информации, имеющий в своем составе блок определения свойств анализируемых текстов, на основании которого осуществляется включение в работу того или иного алгоритма семантической фильтрации. Алгоритм обеспечивает выделение из массива текстов полезной информации в несколько раз быстрее, чем в существующих методах.

6. На основе комплекса моделей и алгоритмов приведены технические решения по реализации системы семантической фильтрации текстовой информации в составе типового лингвистического процессора, применяемого при построении ИПС. Сформирована структурная схема перспективной модульной подсистемы аналитической обработки текстовой информации предприятия с функцией семантической фильтрации. Результаты исследования внедрены в Научно-исследовательском центре ФСО России и Орловском государственном техническом университете.

7. На примере реализации процедуры автоматического рубрицирования и контент-анализа показана возможность решения других различных задач интеллектуального анализа текстовой информации с использованием разработанных моделей и алгоритмов семантической фильтрации.

СПИСОК ОСНОВНЫХ РАБОТ, ОПУБЛИКОВАННЫХ ПО ДИССЕРТАЦИИ

1. Бородащенко, А. Ю. Синтакгико-семантическая модель в приложении к решению задачи рубрицирования текстов [Текст] / А. Ю. Бородащенко, А. А. Овсянников, Е. Ю. Чебанов // Новые информационные технологии в научных исследованиях и образовании (НИТ-2001): Материалы 6-й всероссийской научно-технической конференции студентов, молодых ученых и специалистов. - Рязань: РГРТА, 2001. - с. 143-144.

2. Бородащенко, А. Ю. Алгоритм ускоряющего теста для механизма доступа к знаниям лингвистического процессора подсистемы обработки текстовой информации [Текст] / А. Ю. Бородащенко, А. А. Овсянников, Е. 10. Чебанов // Проблемы создания и развития информационно-телекоммуникационной системы специального назначения: Сборник докладов и тезисов 3-й Всероссийской научной конференции Ч. 2; под общ. ред. д.т.н., проф. В. В. Гусева. - Орел: Академия ФАПСИ, 2003. - 174 е., с. 44-46.

3. Бородащенко, А. Ю. Лексический анализатор предложений "^/огсШагзег" [Текст]: Свидетельство об официальной регистрации программы для ЭВМ № 2004610984 от 21.04.04 / А. 10. Бородащенко, А. А. Кукушкин, А. А. Овсянников. - М.: ФГУ ФИПС, 2004.

4. Бородащенко, А. Ю. Формирователь нестандартного библиографического описания информационно-аналитических материалов "СинтагмаИАМ" [Текст]: Свидетельство об официальной регистрации программы для ЭВМ № 2007610512 от 31.01.07 / А. Ю. Бородащенко, А. А. Кукушкин. - М.: ФГУ ФИПС, 2007.

5. Бородащенко, А. Ю. Анализ текстов на семантическое сходство на основе аппарата теории графов [Текст] // Известия ОрелГТУ. - Орел, 2008. - № 269(544). - 247 е., с. 46-52.

6. Бородащенко, А. Ю. Алгоритм оценки массива текстов на семантическое сходство с эталоном [Текст] / А. Ю. Бородащенко, М. В. Бочков, А. Л. Салбиев // Информационные технологии. - М.: Издательство "Новые технологии", 2008. № 12. - 80 е., с. 8-11.

7. Бородащенко, А. Ю. Алгоритм оценки ангажированности публикаций СМИ на основе комплексного использования методов интеллектуального анализа данных [Текст] / А. Ю. Бородащенко, М. В. Бочков, А. В. Потёмкин // Вестник компьютерных и информационных технологий: Науч.-техн. и производственный журнал. - М.; Издательство "Машиностроение", 2009. №1.-56 е., с. 36-40.

8. Бородащенко, А. Ю. Программа семантической фильтрации текстов [Текст]: Свидетельство о государственной регистрации программы для ЭВМ № 2009612007 от 20.04.2009 г. / А. Ю. Бородащенко, М. В. Бочков, А. Л. Салбиев. - М.: ФГУ ФИПС, 2009.

9. Бородащенко, А. Ю. Система контент-анализа новостного потока ЯБЭ «К8Э_геа-<1ег» [Текст]: Свидетельство о государственной регистрации программы для ЭВМ № 2010610833 ох 26.01.2010 г. / А. Ю. Бородащенко, Д. В. Глотов. -М.: ФГУ ФИПС, 2010.

В работе пронумеровано 20 страниц

2010 г. Объем 1 печ. л. Зак.

Оглавление автор диссертации — кандидата технических наук Бородащенко, Антон Юрьевич

ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ, СИМВОЛОВ,

ЕДИНИЦ И ТЕРМИНОВ

ВВЕДЕНИЕ

1 СЕМАНТИЧЕСКАЯ ФИЛЬТРАЦИЯ ТЕКСТОВОЙ ИНФО- 12 МАЦИИ КАК НАПРАВЛЕНИЕ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМ ПРЕДПРИЯТИЯ

1.1 Особенности организации информационно-аналитической 12 деятельности на предприятии и роль семантической фильтрации при решении информационно-аналитических задач

1.2 Место семантической фильтрации в современных техноло- 20 гиях обработки текстовой информации

1.3 Постановка задачи диссертационного исследования

1.4 Анализ методов решения задачи семантической фильтра

Выводы по главе

2 КОМПЛЕКС МОДЕЛЕЙ СЕМАНТИЧЕСКОЙ ФИЛЬТРА- 42 ЦИИ ТЕКСТОВОЙ ИНФОРМАЦИИ

2.1 Особенности автоматической обработки текстовой инфор- 42 мации на естественном языке

2.2 Графовая (структурная) модель семантической фильтрации 53 текстовой информации

2.3 Марковская (контекстная) модель семантической фильтра- 58 ции текстовой информации

2.4 Гипертекстовая (внеконтекстная) модель семантической 61 фильтрации текстовой информации

Выводы по главе

3 КОМПЛЕКС АЛГОРИТМОВ СЕМАНТИЧЕСКОЙ ФИЛЬТРАЦИИ ТЕКСТОВОЙ ИНФОРМАЦИИ

3.1 Алгоритм семантической фильтрации текстовой информации на основе аппарата теории графов

3.2 Алгоритм семантической фильтрации текстовой информации на основе аппарата марковских случайных процессов

3.3 Алгоритм семантической фильтрации текстовой информации на основе гипертекста

3.4 Комплексный алгоритм семантической фильтрации текстовой информации

Выводы по главе

4 СТРУКТУРНАЯ СХЕМА ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ С ФУНКЦИЕЙ СЕМАНТИЧЕСКОЙ ФИЛЬТРАЦИИ И ОЦЕНКА ЭФФЕКТИВНОСТИ ПРИМЕНЕНИЯ КОМПЛЕКСА АЛГОРИТМОВ

4.1 Функциональная и структурная схема перспективной информационно-аналитической системы с функцией семантической фильтрации

4.2 Сравнение результатов тестирования макета программы семантической фильтрации с существующими аналогами

4.3 Экспертная оценка эффективности применения макета программы семантической фильтрации текстовой информации

4.3.1 Методика оценивания эффективности макета программы семантической фильтрации текстовой информации

4.3.2 Результат оценивания эффективности макета программы семантической фильтрации текстовой информации

Выводы по главе

ВЫВОДЫ

СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Бородащенко, Антон Юрьевич

Использование передовых информационных технологий в условиях интенсивного развития рыночных отношений становится одним из наиболее важных, а часто и решающих факторов, определяющих эффективность управления предприятием. В организациях все чаще внедряют современные информационные системы, чтобы обрабатывать внешние и внутренние потоки информации, осуществлять анализ, прогнозирование и принятие управленческих решений. Практика использования указанных систем стала нормой для современного предприятия. Известен "рецепт для хорошего решения: 90 % информации и 10 % вдохновения" [1]. Однако сами по себе информационные системы и технологии не могут быть основным инструментом в достижении производственных целей. Только те предприятия, которые четко определили корпоративную и конкурентную стратегию, имеют представление о собственных информационных потребностях, могут добиться успеха.

Мировой опыт показывает, что системообразующим элементом управления предприятием является информационно-аналитическая деятельность, осуществляемая информационно-аналитическими подразделениями (ИАП) предприятия [2]. Начиная производство, нужно провести информационно-аналитическое маркетинговое исследование сектора рынка и региона выбранного бизнеса, ответить на вопросы о необходимых трудовых ресурсах соответствующей квалификации, соотношении спроса и предложения на планируемую к выпуску продукцию, сложившемся на рынке ценообразовании, требованиях к качеству продукта, законодательной базе, регламентирующей данный вид деятельности, будущих конкурентах и возможных партнерах и многом другом.

Анализ указанной информации предполагает поиск источников данных, наиболее полно и объективно отражающих реальные рыночные процессы. Основными видами такой информации являются статистические, коммерческие, биржевые, финансовые, профессиональные и научно-технические 6 данные. Для перечисленных категорий текстовая информация является преобладающим видом, требующим применения соответствующих технологий обработки. Наиболее полным, доступным и актуальным источником такой информации являются потоки профессиональной информации, циркулирующей на предприятии (отчеты, аналитические записки, сопроводительные документы и т. д.), публикации СМИ, обзоры и подборки, распространяемые по подписке, а также в сети Интернет. Значительные объемы информационных потоков делают невозможным непосредственное ознакомление человека с каждым текстом и тем более глубокое осмысление его содержания. Отбор релевантной информации сопряжен со значительными затратами временных и трудовых ресурсов. Эти обстоятельства затрудняют принятие обоснованных и своевременных решений, в основу которых должно быть положено изучение всего массива информации, отражающей ситуацию в аспекте поставленной руководством задачи. В связи с этим разработка и внедрение на предприятии информационно-аналитических систем и технологий, ориентированных на автоматизированную обработку текстовой информации на основе методов интеллектуального анализа данных (ИАД), являются актуальной задачей.

В существующих информационно-поисковых (ИПС) и информационно-аналитических системах (ИАС) обработки текстовой информации в достаточно полной мере реализованы следующие функции: аннотирование, выделение объектов, понятий, кластеризация, классификация, ответ на запросы, тематическое индексирование, поиск по ключевым словам и практически не реализована функция семантической фильтрации. Задача фильтрации массива исходной информации в целях предоставления пользователю ограниченного объема документов в настоящее время требует значительных трудозатрат высококвалифицированных специалистов. Перечисленные аргументы и определяют актуальность темы и научной задачи диссертационного исследования, заключающейся в разработке комплекса моделей и алгоритмов семантической фильтрации текстовой информации, обеспечивающих повышение алгоритмической релевантности (точности и полноты) результатов выполнения поисковых запросов в информационно-аналитических системах обработки текстовой информации ИАП предприятия.

В области проблем автоматической обработки текстовой информации известны работы [3, 4, 11, 14, 42, 63, 101 и др.]. Перечисленными авторами разработаны основные теоретические и прикладные вопросы анализа текстов на естественном языке. Однако несмотря на это поиск информации в настоящее время выполняется как правило лишь с помощью примитивных запросов на основе ключевых слов.

Целью диссертационной работы является разработка моделей и алгоритмов семантической фильтрации текстовой информации, обеспечивающих повышение эффективности информационного поиска за счет увеличения точности и полноты, а также сокращения времени отбора полезной информации за счет автоматизации рутинных функций.

Для достижения поставленной цели решены следующие задачи:

1. Выбор и обоснование методов семантического анализа текстовой информации в информационно-аналитических системах.

2. Моделирование процесса семантической фильтрации текстовой информации.

3. Разработка и исследование структурных решений и управляющих алгоритмов, обеспечивающих выполнение семантической фильтрации текстовой информации заданной тематики.

4. Разработка структурной схемы и реализация прототипа автоматизированной системы семантической фильтрации текстовой информации в информационно-аналитических системах ИАП предприятия.

Объект исследования - информационно-аналитические системы обработки текстовой информации ИАП предприятия, в качестве предмета исследования выступают модели, методы и алгоритмы интеллектуального анализа текстовых документов, обеспечивающие их поиск и ранжирование в соответствии со степенью семантического подобия к эталонному тексту.

При проведении исследований использовался математический аппарат теории вероятностей, математической статистики, марковских случайных процессов, распознавания образов, подобия, компьютерной лингвистики, теории систем и системного анализа, планирования экспериментов и исследования операций.

Результаты диссертационного исследования изложены в четырех главах, заключении и четырех приложениях.

В первой главе диссертации рассмотрены структурные и функциональные особенностей построения ИПС и ИАС, проведен анализ используемой в настоящее время технологии обработки текстовой информации, который позволил обосновать необходимость введения процедуры семантической фильтрации в состав существующих систем. Сделан вывод о том, что в современных ИАС в достаточно полной мере реализованы основные функции технологии обработки текстовой информации и практически не реализована функция семантической фильтрации информации. Однако значительные объемы информационных потоков делают невозможным непосредственное ознакомление человека с каждым текстом и тем более глубокое осмысление его содержания. Отбор релевантной информации сопряжен со значительными затратами временных и трудовых ресурсов, что определяет исключительная актуальность разработки информационных технологий, практически не требующих участия специалиста на этапах интеллектуального поиска необходимой информации и ее смысловой классификации. На основании этого сформулирована проблема диссертационного исследования и выполнена общая постановка научной задачи, обоснованы методы ее решения.

Содержание второй главы составляет разработка математических моделей семантической фильтрации текстовой информации. Осуществлен анализ особенностей автоматической обработки текстов на естественном языке, с учетом которых был разработан комплекс моделей многоаспектной семантической фильтрации на основе оценки структурного (графовая модель), контекстного (марковская модель) и внеконтекстного (гипертекстовая модель) подобия. В отличие от существующих аналогов в предлагаемых моделях используются множества ключевых слов, словосочетаний и связей между ними, учитываются отношения между словами текста, а также связи между документами.

В третьей главе предложен комплекс алгоритмов семантической фильтрации текстовой информации, включающий в себя алгоритмы семантической фильтрации на основе аппарата теории графов, марковских случайных процессов и гипертекста. Приведены примеры их работы. В целях эффективного использования разработанных алгоритмов предлагается комплексный алгоритм семантической фильтрации, имеющий в своем составе блок определения свойств анализируемых текстов, на основании которого осуществляется включение в работу того или иного алгоритма семантической фильтрации. После этого осуществляется процедура многоаспектного ранжирования текстов, в качестве которой использован кластерный анализ ^-средних, позволяющий осуществить разбиение исходного массива текстов на необходимое пользователю количество классов.

В четвертой главе приведен вариант структурной схемы перспективной ИАС предприятия с функцией семантической фильтрации текстовой информации. Показана возможность решения других различных задач интеллектуального анализа текстовой информации с применением разработанных моделей и алгоритмов семантической фильтрации на примере реализации процедуры автоматического рубрицирования и контент-анализа. Кроме того, осуществлена оценка эффективности применения комплекса алгоритмов в информационно-аналитических системах путем сравнения результатов тестирования макета программы с существующими аналогами и проведения экспериментальных испытаний.

Основными положениями, выносимыми на защиту, являются: ,

1. Комплекс моделей семантической фильтрации текстовой информации, позволяющий определять степень сходства анализируемых документов с эталонным текстом.

2. Комплекс алгоритмов семантической фильтрации текстовой информации, предназначенный для внедрения в информационно-аналитическую систему предприятия.

3. Структурная схема информационно-аналитической системы обработки текстовой информации с функцией семантической фильтрации, обеспечивающая существенное ускорение решения задач по обработке текстовых документов на предприятии.

Результаты исследований реализованы, внедрены и используются в виде комплекса моделей и алгоритмов семантической фильтрации текстовой информации в НИЦ ФСО России и Орловском государственном техническом университете, что подтверждено соответствующими актами.

Получено свидетельство о государственной регистрации программ для ЭВМ "Лексический анализатор предложений "WordParser" (№ 2004610984 от 21.04.2004 г.), "Формирователь нестандартного библиографического описания информационно-аналитических материалов "СинтагмаИАМ" (№2007610512 от 31.01.2007 г.), "Программа семантической фильтрации текстов" (№ 2009612007 от 20.04.2009 г.) и "Система контент-анализа новостного потока RSS "RSSreader" (№ 2010610833 от 26.01.2010 г.).

Основные результаты работы докладывались, одобрены и опубликованы на 6-й Всероссийской научно-технической конференции студентов, молодых ученых и специалистов, 3-й Всероссийской научной конференции "Проблемы создания и развития информационно-телекоммуникационной системы специального назначения" (г. Орел, 2003 г.), III Международной научно-технической конференция "Информационные технологии в науке, образовании и производстве" (г. Орел, 2008 г.), отраженных в списке публикаций.

По теме диссертации опубликовано 9 работ, в том числе 3 статьи в рецензируемых журналах, входящих в перечень ВАК Минобрнауки России, тезисы 2 докладов и выступлений на научно-технических конференциях и семинарах, 4 свидетельства о государственной регистрации программ для ЭВМ.

Заключение диссертация на тему "Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия"

выводы

На основании анализа современных методов обработки текстов в диссертации показано, что функция отбора информации, соответствующей потребностям пользователя, на базе использования семантических эталонов практически не реализована на практике, что требует значительных затрат времени при осуществлении информационного поиска. В исследовании решена актуальная научная задача, заключающаяся в разработке комплекса моделей и алгоритмов семантической фильтрации текстовой информации, обеспечивающих повышение алгоритмической релевантности (точности и полноты) результатов выполнения поисковых запросов в ИАС обработки текстовой информации ИАП предприятия, а также существенное сокращение времени отбора полезной информации.

Из проделанной работы можно сделать следующие выводы:

1. Предложен комплекс моделей семантической фильтрации текстовой информации, обеспечивающий повышение эффективности поиска информации за счет отбора и ранжирования результатов по степени сходства с выбранным пользователем эталоном.

2. В зависимости от тематики документов, требуемых пользователем, необходимо осуществлять корректное задание текстов-эталонов, что обеспечивает выполнение семантической фильтрации с высоким качеством.

3. Использование критериев, отражающих в различных аспектах семантическое сходство сравниваемых текстов, позволяет существенно снизить неопределенность относительно их статистических образов и повысить на основе этого чувствительность процедуры ранжирования.

4. Сформированные модели и математических выражения, отражающие структурное, контекстное и внеконтекстное подобие двух текстов, позволили разработать алгоритмы семантической фильтрации на основе аппарата теории графов, марковских случайных процессов и гипертекста, отличающиеся от аналогов многоаспектным рассмотрением текстовых документов, и позволяющие повысить полноту и точность поиска информации, релевантной потребностям пользователя.

5. Для комплексного использования разработанных алгоритмов предложен обобщенный алгоритм семантической фильтрации текстовой информации, имеющий в своем составе блок определения свойств анализируемых текстов, на основании которого осуществляется включение в работу того или иного алгоритма семантической фильтрации. Алгоритм обеспечивает выделение из массива текстов полезной информации в несколько раз быстрее, чем в существующих методах.

6. На основе комплекса моделей и алгоритмов приведены технические решения по реализации системы семантической фильтрации текстовой информации в составе типового лингвистического процессора, применяемого при построении ИПС. Сформирована структурная схема перспективной модульной подсистемы аналитической обработки текстовой информации предприятия с функцией семантической фильтрации. Результаты исследования внедрены в Научно-исследовательском центре ФСО России и Орловском государственном техническом университете.

7. На примере реализации процедуры автоматического рубрицирования и контент-анализа показана возможность решения других различных задач интеллектуального анализа текстовой информации с использованием разработанных моделей и алгоритмов семантической фильтрации.

Библиография Бородащенко, Антон Юрьевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Баззел Р. Д., Кокс Д. Ф., Браун Р. В. Информация и риск в маркетинге. М.: Финстатинформ. - 1993. - 95 с.

2. Технологии разведки для бизнеса Электронный ресурс. / Минаев С. Информационно-аналитическая поддержка бизнеса. — М.: ООО "Р-Техно", 2009. Режим доступа к ресурсу: http://www.it2b.ru/it2b2.view3.page71.html, свободный. Яз. рус.

3. Белоногов Г. Г., Богатырев В. И. Автоматизированные информационные системы // под ред. К. В. Тараканова. М.: Сов. Радио, 1973. — 328 с.

4. Белоногов Г. Г., Кузнецов Б. А. Языковые средства автоматизированных информационных систем. — М.: Наука, 1983. 288 с.

5. Савина О. А. Управление промышленным предприятием с использованием систем поддержки решений. — М.: Издательство МАИ, 2000. 256 с.

6. Административно-управленческий портал Электронный ресурс. / Непомнящий Е. Г. Экономика и управление предприятием: конспект лекций. Таганрог: Изд-во ТРТУ, 1997. Режим доступа к ресурсу: http://www.aup.ru/books/m83/14.htm, свободный. - Яз. рус.

7. Ромачев Р. В., Нежданов И. Ю. Конкурентная разведка. Практический курс. М.: Ось-89,2007. - 272 с.

8. Доронин А. И. Бизнес-разведка. М.: Ось-89, 2007. — 528 с.

9. Меркулов Ф. Г. Энциклопедия деловой разведки и контрразведки. -М.: Русь-Олимп, 2007. 428 с.

10. Чубукова И. A. Data Mining: учеб. пособие / Основы информационных технологий. М.: БИНОМ. Лаборатория знаний. Интернет-университет информационных технологий. 2006. 382 с.

11. Добыча знаний Электронный ресурс. / Ланде Д. В. Глубинный анализ текстов. Технология эффективного анализа текстовых данных. М.: Персональный сайт Дмитрия Ландэ, 2009. Режим доступа к ресурсу: http://dwl.kiev.ua/art/dz/index.html, свободный. - Яз. рус.

12. Энциклопедия "Кругосвет" Электронный ресурс. / Методология лингвистики. М.: Яндекс, 2008. Режим доступа к ресурсу: http://slovari.yandex.rii/dict/krugosvet/article/f/fb/1012983.htm, свободный. - Яз. рус.

13. Энциклопедия "Кругосвет" Электронный ресурс. / Экономико-математический словарь. М.: Яндекс, 2008. Режим доступа к ресурсу: http://slovari.yandex.ru/dict/lopatnikov/article/lop/lop-1752.htm, свободный. -Яз. рус.

14. Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М.: Высшая школа, 1977. - 384 с.

15. Computerworld Россия Электронный ресурс. / Коржов В. Data mining по-русски. M.: Издательство "Открытые системы", 2008. Режим доступа к ресурсу: http://www.osp.ru/cw/2000/34/6742/, свободный. - Яз. рус.

16. Ландэ Д. В. Поиск знаний в Internet. Профессиональная работа.: Пер. с англ. М.: Издательский дом "Вильяме", 2005. - 272 с.

17. IBM Software Электронный ресурс. / DB2 Intelligent Miner. New York: International Business Machines Corp., 2008. Режим доступа к ресурсу: http://www-01.ibm.com/software/data/iminer/fortext, свободный. - Яз. англ.

18. Открытые системы Электронный ресурс. / Удо Хан, Индерджиет Мани. Системы автоматического реферирования. М.: Издательство "Открытые системы", 2008. Режим доступа к ресурсу: http://www.osp.ru/os/2000/12/178370, свободный. - Яз. рус.

19. Data Mining Community's Top Resource Электронный ресурс. / Data Mining and Analytics Resources. — Boston: KDnuggets, 2009. Режим доступа к ресурсу: http://www.kdnuggets.com, свободный. — Яз. англ.

20. Электронное периодическое издание it2b Электронный ресурс. / Технологии разведки для бизнеса. М.: ООО "Р-Техно", 2009. Режим доступа к ресурсу: www.it2b.ru, свободный. - Яз. рус.

21. Электронное периодическое издание it2b-pro Электронный ресурс. / Разведка для профессионалов. М.: ООО "Р-Техно", 2009. Режим доступа к ресурсу: www.it2b-pro.ru, свободный. - Яз. рус.

22. Р-техно Электронный ресурс. / Экономическая разведка. М.:000 "Р-Техно", 2009. Режим доступа к ресурсу: www.r-techno.com, свободный. Яз. рус.

23. CNews Электронный ресурс. / Издание о высоких технологиях. -М.: Холдинг РБК, 2009. Режим доступа к ресурсу: www.cnews.ru, свободный. Яз. рус.

24. Беляев К. В., Босов А. В., Краюшкин Д. В. Обзор и сравнительный анализ информационно-аналитических систем. М.: ИЛИ РАН, 2008. - 136 с.

25. СУБД Oracle8i Электронный ресурс. / Система InterMedia Text. -М.: Oracle Россия, 2008. Режим доступа к ресурсу: http://www.oracle.com/ global/ru/index.html, свободный. Яз. рус.

26. Официальный сайт RCO Электронный ресурс. / Технологии анализа и поиска текстовой информации. Электрон, дан. - М.: Russian Context Optimizer, 2008. Режим доступа: www.rco.ru, свободный. — Яз. рус.

27. ЮМ Software Электронный ресурс. / IBM DB2 Intelligent Miner. М.: International Business Machines Corp., 2008. Режим доступа к ресурсу: http://www01 .ibm.com/software/m/data/db2bi/minerintelligent.html, свободный. Яз. рус.

28. PC WEEK/RE Электронный ресурс. / Средства поиска корпорации Semio. — М.: ЗАО "СК Пресс", 2008. Режим доступа к ресурсу: http://www.pcweek.ru/themes/detail.php?ID=40393, свободный. Яз. рус.

29. Autonomy The Leader in Meaning-Based Computing & Enterprise Search Электронный ресурс. / Autonomy Knowledge Server. — NY: Autonomy Corp, 2008. Режим доступа к ресурсу: http://www.autonomy.com, свободный.- Яз. англ.

30. Галактика ZOOM Электронный ресурс. / Уникальные возможности поиска и аналитических исследований. М.: Корпорация "Галактика", 2006. Режим доступа к ресурсу: http://www.galaktika-zoom.ru/product/, свободный.1. Яз. рус.

31. Cognitive Technologies Электронный ресурс. / Информационно-аналитическая система Астарта. М.: Cognitive Technologies, 2009. Режим доступа к ресурсу: http://www.cognitive.ru/products/astarta.htm, свободный. -Яз. рус.

32. Компания "Ай-теко". ИТ-консалтинг и системная интеграция Электронный ресурс. / Управление знаниями. М.: Ай-теко, 2009. Режим доступа к ресурсу http://www.i-teco.ru/pidatamanagement.html, свободный. -Яз. рус.

33. ИВК СОНЕТ Электронный ресурс. / Информационно-аналитическая Система Обработки Неформализованных Естественных Текстов. М.: ЗАО ИВК, 2009. Режим доступа к ресурсу: http://www.ivk.ru/index.php?module=product&objid=16, свободный. — Яз. рус.

34. Синергетические системы Электронный ресурс. / Логико-аналитический комплекс SEMANTIX. М.: Компания "Синергетические системы", 2009. Режим доступа к ресурсу: http://www.synsys.ru/semantix/ru/, свободный. — Яз. рус.

35. Киселев С. JT. Системы "Аналитический курьер" и X-Files — основа технологии извлечения знаний текстов из произвольных источников. // Бизнес и безопасность в России, 2007. -№ 48, с, 102-106.

36. Searchlnform Server. Функциональная спецификация. М.: Компания "СофтИнформ", 2008. - 26 с.

37. Википедия свободная энциклопедия Электронный ресурс. / Контекст. - M.: MediaWiki, 2009. Режим доступа к ресурсу: http://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BD%D1 %82%D0%B5%D 0%В A%D 1 %81 %D 1 %82, свободный. - Яз. рус.

38. Тулдава Ю. Проблемы и методы квантитативно-системного исследования лексики. Таллин: Валгус, 1987. - 204 с.

39. Фабиан Б. Книги, библиотеки и гуманитарные исследования // отв. ред. В. П. Леонов. СПб., 1996. - 258 с.

40. Захаров В. П. Лингвистические средства информационного поиска в Интернете. // Библиосфера, 2005. № 1, с. 63-71.

41. Parsaye К. A Characterization of Data Mining Technologies and Processes. // The Journal of Data Warehousing, 1998. № 1, p. 43-55.

42. Гухман А. А. Введение в теорию подобия. М.: Высшая школа, 1973.-296 с.

43. Седов Л. И. Методы подобия и размерности в механике. М.: Наука, 1977.-440 с.

44. Баренблатт Г. И. Подобие, автомодельность, промежуточная асимптотика. Теория и приложения к геофизической гидродинамике. М.: Наука, 1982.-256 с.

45. Ту Дж., Гонсалес Р. Принципы распознавания образов: Пер. с англ. М.: Мир, 1978. - 413 с.

46. Фу К. Структурные методы в распознавании образов: Пер. с англ. -М.: Мир, 1977.-319 с.

47. Колере П.А., Ден М.Е. Распознавание образов. Исследование живых и автоматических распознающих систем: Пер. с англ. — М.: Мир, 1970. -287 с.

48. Информационные системы: учебное пособие для студентов ВУЗов по специальности 071900 "Информационные системы в экономике" / Под ред. В. Н. Волковой, Б. И. Кузина. - СПб.: Изд-во СПбГТУ, 1998. - 213 с.

49. ХиМиКги — Химическая энциклопедия Электронный ресурс. / Подобия теория М.: XuMuK.ru, 2009. Режим доступа к ресурсу: http://wvvw.xumuk.rU/encyklopedia/2/3429.html, свободный. - Яз. рус.

50. Салдин Е. Л., Шнейдмиллер Е. А., Юрков М. В. Методы подобия в теории ЛСЭ-усилителя. // Физика элементарных частиц и атомного ядра, том 23, вып. 1, 1992.-56 с.

51. P. Mitra and G. Wiederhold. Resolving terminological heterogeneity in ontologies. In Proceedings of the ECAI'02 workshop on Ontologies and Semantic Interopera-bility, Lyon, 2002, p. 45-50.

52. S. Melnik, H. Garcia-Molina, E. Rahm. Similarity Flooding: A Versatile Graph Matching Algorithm and its Application to Schema Matching. In Proc. 18th ICDE, San Jose, CA, 2002, p. 117-128.

53. S. Zghal, S. Ben Yahia, E. Mephu Nguifo, Y. Slimani. SODA: an OWL-DL based ontology matching system. In Proceedings of the first French Conference on Ontology (JFO 2007), Sousse, 2007. http://ceur-ws.org/Vol-304/paper24.pdf

54. Тузовский А. Ф. Онтолого-семантические модели в корпоративных системах управления знаниями. // Автореферат диссертации на соискание ученой степени доктора технических наук. Томск: ТПУ, 2007. - 40 с.

55. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: Издательство института математики, 1999. — 270 с.

56. Вентцель Е. С., Овчаров Л. А. Теория случайных процессов и ее инженерные приложения / учеб. Пособие для втузов. М.: Высшая школа, 2000. 383 с.

57. Фомин Я. А., Тарловский Г. Р. Статистическая теория распознавания образов. М.: Радио и связь, 1986. 264 с.

58. Проблемы текстуальной лингвистики / Под ред. В. А. Бухбиндера. -Киев: Вища школа, 1983. 175 с.

59. Гальперин И. Р. Текст как объект лингвистического исследования. -М.: КомКнига, 2007. 144 с.

60. Дымарский М. Я. Проблемы текстообразования и художественный текст (на материале русской прозы Х1Х-ХХ веков). — СПб.: Издательство С.-Петербургского университета, 1999. 284 с.

61. Лотман Ю. М. Внутри мыслящих миров. Человек текст - семи-осфера - история. - М.: "Языки русской культуры", 1999. - 464 с.

62. Толковый словарь русского языка / Под ред. Д. В. Дмитриева. М.: Астрель, 2003 г. - 1584 с.

63. Алексеев П. М. Частотные словари: Учебное пособие. — СПб.: Изд-во С.-Петерб. ун-та, 2001. — 156 с.

64. Солодилова И. А. Смысл художественного текста. Словесный образ как актуализатор смысла. Учебное пособие для студентов III курса. — Оренбург: ГОУ ОГУ, 2004. 153 с.

65. Московский центр НЛП Электронный ресурс. / Алхутов С. Опыт о смысле. М.: МЦ НЛП, 2008. Режим доступа к ресурсу: http://www.mcnlp.ru/index.php?section=articles&id=1003, свободный. - Яз. рус.

66. Корытная М. Л. Роль заголовка и ключевых слов в понимании художественного текста: Автореферат диссертации на соискание ученой степени кандидата филологических наук. Тверь, 1996. — 18 с.

67. Роднянский В. Л. О роли ключевых слов в понимании текста // Психолингвистические проблемы семантики и понимания текста. Калинин, 1986, с. 106-113.

68. Сахарный Л. В., Штерн А. С. Набор ключевых слов как тип текста // Лексические аспекты в системе профессионально-ориентированного обучения иноязычной речевой деятельности. Пермь: Пермский политехнический ун-т, 1988, с. 34-51.

69. Сахарный Л. В. Расположение ключевых слов в структуре развернутого текста (к изучению деривационных механизмов компрессии текста) // Деривация в речевой деятельности (Общие вопросы. Текст. Семантика). Пермь, 1988, с. 27-29.

70. Сиротко-Сибирский С. А. Смысловое содержание текста и его отражение в ключевых словах (на материале русских текстов публицистического стиля): Автореферат диссертации на соискание ученой степени кандидата филологических наук. Л., 1988. 18 с.

71. Селезнев К. Обработка текстов на естественном языке. // Открытые системы. СУБД, № 12, 2003, с. 48-53.

72. Горбачевич К. С. Русский синонимический словарь. СПб: ИЛИ РАН, 1996.-510 с.

73. Меркурьева Н. М. Словарь антонимов русского языка: Сложные слова. Около 1800 антонимических пар. -М.: Издательство "Газета "Правда", 1999.-480 с.

74. МЕТИС Электронный ресурс. / Технологии анализа и поиска информации. М.: ООО "Гарант-Парк-Интернет", 2009. Режим доступа к ресурсу: http://www.metric.ш/services.asp?obno=29, свободный. - Яз. рус.

75. Мальковский М. Г., Грацианова Т. Ю., Полякова И. Н. Прикладное программное обеспечение: системы автоматической обработки текстов. Учебное пособие. М.: МГУ, 2000. - 52 с.

76. В^есЬ: разработка и внедрение информационных систем Электронный ресурс. / ИАС "АРИОН". Анализ текстов на естественном языке. — М.: ЗуТесЬ, 2009. Режим доступа к ресурсу: http://www.sytech.ru/about.php? 1с1=149, свободный. Яз. рус.

77. Апресян Ю. Д., Богуславский И. М., Иомдин JI. JI. Лингвистический процессор для сложных информационных систем. — М.: Наука, 1992. 256 с.

78. Волкова И.А. Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров : учеб. пособие / И.А. Волкова; Моск. гос. ун-т им. М.В. Ломоносова, Фак. вычисл. мат. и кибернетики. М.: МГУ, 2006. - 43 с.

79. Ермаков А. Компьютерная лингвистика и анализ текста // Мир ПК, № 9, 2002. С. 86-88.

80. Ландэ Д. В., Снарский А. А., Безсуднов И. В. Интернетика. Навигация в сложных сетях: модели и алгоритмы. — М.: Книжный дом "Либроком", 2009. 264 с.

81. Baeza-Yates R., Ribeiro-Neto В. Modern Information Retrieval. ACM Press Series / Addison Wesley, New York, 1999. -513 p.

82. Кристофидес Н. Теория графов. Алгоритмический подход: Пер. с англ. М.: Мир, 1978. - 432 с.

83. Татт У. Теория графов: Пер. с англ. М.: Мир, 1988. - 424 с.

84. Руководство разработчика RCO Semantic Network: библиотека построения семантических сетей. М.: Гарант-Парк-Интернет, 2002. - 36 с.

85. Научные статьи и отчеты Компания Яндекс Электронный ресурс. / Сегалович И. Как работают поисковые системы. — М.: "Яндекс", 2009. Режим доступа к ресурсу http://download.yandex.ru/company/iworld-3.pdf, свободный. - Яз. рус.

86. Кремер Н. Ш. Теория вероятностей и математическая статистика:учеб. для студентов вузов, обучающихся по экономическим специальностям /

87. Н. Ш. Кремер. М.: Юнити-Дана, 2007. - 551 с.

88. Айвазян С. А., Мхитарян В. С. Прикладная статистика. Основы \ эконометрики: учеб. для вузов: в 2 т. — Т.1: / С. А. Айвазян, В. С. Мхитарян.

89. Теория вероятностей и прикладная статистика. — М.: Юнити-Дана, 2001. — 656 с.

90. Айвазян С. А. Прикладная статистика. Основы эконометрики: учеб. для вузов: в 2 т. Т.2: С. А. Айвазян. Основы эконометрики. - М.: Юнити-Дана, 2001. - 432 с.

91. Deller J.R., Jr., Proakis J.G., Hansen J.H.L. Discrete-Time Processing of Speech Signals. N.J., Prentice Hall, 1993. - 800 p.

92. Мартынович П. А., Свириденко В. А. Система верификации диктора для его надежного распознавания через телефонную сеть // Тезисы докладов международной конференции "Информатизация правоохранительных систем". М., 2001, с. 211-216.

93. Хмелёв Д. В. Распознавание автора текста с использованием цепей А. А. Маркова. // Вестник МГУ, сер. 9: Филология, 2000. № 2, с. 115-126.

94. Кукушкина О. В., Поликарпов А. А., Хмелей в Д. В. Определение авторства текста с использованием буквенной и грамматической информации. // Проблемы передачи информации, 2001. № 37(2), с. 96-109.

95. Джонс М. Т. Программирование искусственного интеллекта в приложениях / пер. с англ. Осипов А.И. М.: ДМК Пресс, 2004. - 312 с.

96. Рабинер Л. Р. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор. // ТИИЭР, т. 77, № 2, 1989, с. 86-120.

97. Kleinberg J. M. Authoritative sources in a hyperlink environment // In Processing of ACM-SIAM Symposium on Discrete Algorithms, 1998. № 46(5). -604-632 p.

98. Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. WWW7, 1998, p. 107-117.

99. Ландэ Д. В. Основы интеграции информационных потоков: Моно- ' графия. К.: Инжиниринг, 2006. - 240 с.

100. Программа семантической фильтрации текстов Текст.: Свидетельство о государственной регистрации программы для ЭВМ № 2009612007 от 20.04.2009 г. / А. Ю. Бородащенко, М. В. Бочков, A. JI. Салбиев. М.: ФГУ ФИПС, 2009.

101. Курс лекций "Алгоритмы для интернета" Электронный ресурс. / Лившиц Ю. Метод опорных векторов. Электрон, дан. - М.: СПбГУ ИТМО, 2006. Режим доступа: http://logic.pdmi.ras.ni/~yura/inteniet/07ia.pdf, свободный. - Яз. рус.

102. Официальный сайт RCO Электронный ресурс. / Продукты RCO. -Электрон, дан. М.: Russian Context Optimizer, 2008. Режим доступа: http://www.rco.ru/product.asp#pd9, свободный. - Яз. рус.

103. Шалак В. И. Современный контент-анализ. Приложение в области: политологии, психологии, социологии, культурологии. — М.: Омега-Л, 2004. 272 с.

104. Акимов А. И., Матвеев Л. Л. Способ поиска хранимых на устройствах хранения данных электронных документов и их фрагментов // Евразийский патент № 002016 от 22.10.2001 г., класс G 06F 17/30. М.: Евразийское патентное ведомство, 2001. — 28 с.

105. Орлов А. И. Экспертные оценки. Учебное пособие. М.: 2002. —31 с.

106. Орлов А. И. Экспертные оценки. // Заводская лаборатория, 1996. № 1, с. 54-60.

107. Гохман О. Г. Экспертное оценивание. — Воронеж: ВГУ, 1991.152 с.

108. Бабич П. Н., Чубенко А. В., Лапач С. Н. Статистика в науке и бизнесе. Комплекс прикладных программ для Microsoft Excel. Киев: Морион, 2002. - 640 с.

109. Большев Л. Н., Смирнов Н. В. Таблицы математической статистики. -М.: Наука, 1983.-416 с.

110. Блохин В. Г. Современный эксперимент: подготовка, проведение, анализ результатов. — М.: Радио и связь, 1997. — 230 с.

111. Монтгомери Д. К. Планирование эксперимента и анализ данных: пер. с англ. Л: Судостроение, 1980. - 384 с.

112. Гмурман В. Е. Теория вероятностей и математическая статистика : учеб. пособие. М.: Высшее образование, 2008. - 479 с.