автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети интернет
Автореферат диссертации по теме "Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети интернет"
На правах рукописи
Толкачев Демид Максимович
ИССЛЕДОВАНИЕ И РАЗРАБОТКА ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ ПОЛУЧЕНИЯ РЕЛЕВАНТНЫХ ДАННЫХ И ЗНАНИЙ В СЕТИ ИНТЕРНЕТ
Специальность 05.13.01 - Системный анализ, управление и обработка информации (информационные и технические системы)
Автореферат
диссертации на соискание ученой степени кандидата технических наук
~ гсЕнт
Краснодар - 2015
005561876
005561876
Работа выполнена в ФГБОУ ВПО «Кубанский государственный технологический университет»
Научный руководитель: доктор технических наук, профессор
Симанков Владимир Сергеевич
Официальные оппоненты: Королев Игорь Дмитриевич
доктор технических наук, профессор, профессор кафедры защиты информации в автоматизированных системах филиала Военной академии связи имени Маршала Советского Союза С.М. Буденного (г. Краснодар)
Бсгман Юлия Викторовна
кандидат технических наук, доцент, главный специалист отдела систем автоматизированного проектирования Краснодарского РПУ Филиала ООО «РН-Информ»
Ведущая организация: ФГБОУ ВПО «Кубанский государственный
университет»
Защита диссертации состоится «30» сентября 2015 года в 14:00 часов на заседании диссертационного совета Д212.100.04 в ФГБОУ ВПО «Кубанский государственный технологический университет» по адресу: 350072, г. Краснодар, ул. Московская, 2, корпус «Г», аудитория Г-248
С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Кубанский государственный технологический университет» Автореферат диссертации разослан «24» августа 2015 г.
Ученый секретарь диссертационного совета кандидат технических наук, доцент
А.В. Власенко
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы.
Для эффективного принятия любых управленческих решений необходимо наличие достаточного объёма данных и знаний, касающихся решаемой проблемы. Лицо, принимающее решения (ЛПР), может не обладать всеми необходимыми сведениями, поэтому в качестве одного из источников актуальной информации часто используют сеть Интернет, чья роль в современном обществе неуклонно возрастает.
Успехи в теории веб-поиска привели к появлению и стремительному развитию ряда поисковых систем. Современные поисковые системы способны находить миллионы документов по запросу пользователя и ранжировать их в соответствии с их релевантностью по отношению к запросу.
Однако зачастую пользователю необходимо получить не документы или сайты, а конкретный ответ на вопрос. Несмотря на имеющиеся успехи, существующие поисковые и специализированные вопросно-ответные системы ещё не могут вести полноценный диалог с пользователем и не всегда находят именно те сведения, которые ему необходимы. И если классический всб-поиск, предполагающий выдачу ссылок на источники с информацией, развит очень глубоко, то в области интеллектуального веб-поиска, осуществляющего анализ информации и выдающего ту её часть, которая наиболее полно соответствует ожиданиям пользователя, остался ряд нерешённых проблем.
Таким образом, получение прямых и точных ответов на вопросы с использованием сети Интернет является актуальным направлением развития информационных технологий.
Объектом исследования является информационно-аналитическая система получения релевантных данных и знаний в сети Интернет.
Предметом исследования выступают методические положения и алгоритмы получения релевантных данных и знаний в сети Интернет.
Целью исследования является разработка методов и алгоритмов извлечения релевантных данных и знаний для практической реализации вопросно-ответной системы в сети Интернет.
Задачи исследования:
1. Исследование методов извлечения информации из сети Интернет и методов автоматического составления краткого изложения текста (автореферата).
2. Совершенствование методов выделения основных сведений по вопросу, т.е. составления авторефератов источников с учётом вопроса, ответ на который требуется найти.
3. Обеспечение смысловой связности генерируемых авторефератов.
4. Разработка методики выявления дублирующих друг друга по смыслу положений в тексте.
5. Изучение и развитие методов синтеза общего (интегрированного) автореферата по нескольким источникам.
6. Формализация вопроса и автоматическое определение краткого ответа или ответов на него с учётом его неоднозначности.
Методы исследования.
В качестве методов исследования использовались системный анализ, теория информации, теория алгоритмов, алгебра логики, теория множеств, сравнительный анализ, методы интеллектуального анализа данных и методы разработки программного обеспечения и баз данных.
Научная новизна работы. В результате проведенного в работе системного исследования достигнуты следующие новые научные результаты:
1. Разработаны теоретические положения проблемно-ориентированного автореферирования всб-страниц с использованием интеллектуального анализа данных для усовершенствования выделения основных сведений по вопросу.
2. Созданы методика и алгоритм поиска семантических связей между предложениями при автореферировании на основе шаблонов в виде регулярных выражений с целью обеспечения увеличения смысловой связности генерируемых авторефератов.
3. Разработана методика автоматической оценки смыслового подобия текстов на основе критериев семантической близости с целыо увеличения точности выявления дублирующих друг друга по смыслу положений в тексте.
4. Разработано алгоритмическое обеспечение методов составления интегрированных авторефератов из нескольких источников с помощью методики оценки смыслового подобия.
5. Разработан с использованием механизма тернарных выражений и адаптирован для русского языка алгоритм поиска ответов на вопрос в сети Интернет, повышающий точность и полноту автоматического получения ответов.
Практическая значимость
Практическая ценность работы заключается в разработке новой технологии автоматического поиска ответов на вопрос и её реализации в виде программного комплекса. Его использование позволит упростить и ускорить процесс поиска правильных ответов на вопросы в сети Интернет по сравнению с применением традиционных поисковых систем. Также создаваемый в рамках работы программный комплекс может быть использован в системах поддержки принятия решений, в том числе в составе ситуационных центров различного уровня.
Реализация и внедрение работы.
Результаты работы используются в функционировании Центра коллективного пользования Кубанского государственного технологического университета (КубГТУ) «Исследовательский центр компьютерных технологий, систем управления и комплексной безопасности» и внедрены в учебный процесс кафедры компьютерных технологий и информационной безопасности КубГТУ, о чём свидетельствуют два акта о внедрении.
Апробация работы. Основные положения диссертации докладывались и обсуждались на конференциях:
1. XIV Международная научно-практическая конференция «Паука вчера, сегодня, завтра», г. Новосибирск.
2. XXVII Международная заочная научно-практическая конференция «Научная дискуссия: инновации в современном мире», г. Москва.
3. XXXVII Международная научно-практическая конференция «Технические науки - от теории к практике», г. Новосибирск.
4. XXXVI Международная научно-практическая конференция «Инновации в науке», г. Новосибирск.
Публикации. По теме диссертации опубликовано 9 печатных работ, в том числе 3 в изданиях, рекомендованных ВАК РФ для публикации основных результатов диссертационных исследований. Получены свидетельства о государственной регистрации 5 программ для ЭВМ.
Структура и объем диссертации. Диссертационная работа состоит из введения, четырёх глав, выводов по каждой главе, основных результатов, списка используемой литературы и приложений. Общий объём работы составляет 149 страниц машинописного текста. Основная часть диссертации изложена на 132 листах, содержит 28 рисунков. Список используемой литературы содержит 126 наименований.
КРАТКОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ
Во введении обосновывается актуальность выбранной темы, формулируется цель работы, указываются применяемые методы исследований, определяется научная новизна и практическая ценность работы, описывается ее структура, и формулируются основные положения, выносимые и а защиту.
В первой главе рассмотрены основные понятия и произведён системный анализ подходов к поиску релевантной информации в сети Интернет, включающий в себя: анализ современного состояния вопросов информационного поиска, виды и особенности автоматического анализа неструктурированной информации, анализ направления Web Content Mining и анализ проблем информационного поиска и автоматического получения ответов на вопрос.
В работе рассматривается понятие автореферирования - процесса составления кратких изложений материалов, т.е. извлечение наиболее важных сведений из одного или нескольких документов и генерация на их основе информационно ёмких отчётов (авторефератов). Изложена классификация методов автореферирования и основные принципы создания авторефератов текстов.
В результате анализа методов смыслового сжатия текста установлено, различные методы имеют свои преимущества и недостатки, поэтому целесообразно учитывать их сильные и слабые стороны для разработки наиболее эффективного средства получения данных и знаний.
В процессе создания качественных авторефератов важным вопросом является обеспечение смысловой связности входящих в них предложений. Построена классификация семантических связей между ними (рисунок 1).
Повторы
лексический повтор
синонимия
гипопимия
гиперопимия
Параллелизмы
синтаксическим параллелизм
противопоставление
соположенность предложений
Зависимости
местоименная анафора
организация логических связей
вводные слова
анафора
эпифора
Рисунок 1 - Классификация семантических связей между предложениями
Установлено, что в настоящее время не разработано достаточно эффективной методики определения семантических связей между предложениями.
Зачастую может возникнуть необходимость составить один автореферат по нескольким источникам. Такой автореферат можно назвать интегрированным авторефератом. Рассмотрены принципы построения интегрированного автореферата и установлено, что важным является вопрос определения смыслового подобия исходных авторефератов и отдельных положений в них для исключения дублирующих друг друга фраз. При этом существующие методики определения смыслового подобия не ориентированы на использование при автореферировании и не касаются проблемы определения смыслового противоречия.
Установлено, что в области Web Content Mining именно метод Авторефери-ровапия является наиболее эффективным, поскольку позволяет работать с любыми сайтами вне зависимости от их структуры и не требует от эксперта каких-либо действий по настройке процесса извлечения данных и знаний.
Рассмотрена классификация проблем в области автоматического получения ответов и разработки вопросно-ответных систем. Выявлены следующие проблемы, требующие решения в рамках диссертационного исследования:
1. Недостаточное развитие методов выделения основных сведений по вопросу, т.е. составления кратких смысловых изложений (авторефератов) источников с учётом вопроса, ответ на который требуется найти.
2. Отсутствие достаточно эффективной методики обеспечения смысловой связности генерируемых авторефератов. Они должны читаться, как связный текст, а не как набор не связанных друг с другом фраз.
3. Не очень высокая эффективность методов выявления дублирующих друг друга по смыслу положений в тексте. Два предложения считаются дублирующими, если в них говорится об одном и том же, пусть и разными словами.
4. Недостаточное развитие методов построения интегрированного автореферата но нескольким источникам. Такой автореферат должен содержать наиболее важную информацию из всех проанализированных источников.
5. Недостаточная разработка средств автомагического определения краткого ответа на вопрос на русском языке. Такой ответ должен обладать балансом краткости и полноты, быть информативным и точным.
На основании выявленных проблем уточнены задачи диссертационного исследования.
Во второй главе рассмотрены теоретические основы и методы получения данных и знаний из текста.
Автореферирование позволяет получить масштабируемое краткое смысловое изложение текста, а сниппсты и ассоциативный поиск нацелены на выделение некоторых сведений по конкретному вопросу. Было предложено использовать достоинстпа обозначенных методов для создания достаточно универсального средства получения данных по вопросу и ответов на него из сети Интернет - проблемно-ориентированного автореферирования.
Проблемно-ориентированное автореферирование (ПОЛ) - разновидность автоматического реферирования текстовой информации, главной особенностью которой является смысловое сжатие исходного текста в соответствии с некоторым пользовательским вопросом.
В ПОА применяется механизм индикаторного метода квазиреферирования. В плане использования сниппетов учитывается характерная для них фильтрация информационного шума. От ассоциативного поиска заимствован учёт слов, связанных с ключевыми. Также учитывается важность самих ключевых слов, что является общим свойством для сниппетов и ассоциативного поиска.
В качестве входного текста при ПОА выступает Ыш1-код веб-страницы. Он подвергается сегментированию - обработке, в результате которой разбивается на абзацы, они очищаются от Ыт1-тзгов и разбиваются на предложения.
Набор индикаторов в ПОЛ зависит от вопроса и, на основании проведённого анализа, включает следующие основные группы:
- слова (за исключением союзов, предлогов, частиц и междометий) из пользовательского вопроса (ПВ) и их морфологические формы;
- синонимы слов из пользовательского вопроса и их формы (СПВ); для этого необходимо наличие словаря синонимов;
- слова и словосочетания из универсального словаря «действий» (УСД);
- слова из тематического словаря (ТС), т.е. словаря, составленного специально для определённой области знаний и содержащего наиболее важные слова и термины, характерные для данной области.
Пользовательский вопрос подвергается обработке - из него удаляются все специальные символы, проводится процедура графематического анализа для выделения множества слов вопроса, удаляются незначащие слова и выполняется морфологический анализ, в результате которого из множества слов вопроса выделяются их основы. Они составляют группу индикаторов Г1В.
В соответствии с принципами ассоциативного поиска, в качестве индикаторов следует использовать также множество ассоциированных с ПВ слов. Ассоциированными словами, в первую очередь, выступают синонимы, по возможно использование гипонимов и гиперонимов, а также слов, наиболее часто встречающиеся в тексте вместе со словами из вопроса.
УСД должен содержать слова и их формы, которые с существенной долей вероятности указывают на то, что в предложении говорится о каких-либо действиях, путях решения проблемы или выводах.
Для составления ТС необходимо предварительно сформировать тематические словари для различных тем и определить, к какой теме относится ПВ.
На основе сформированного набора индикаторов и с использованием гра-фематического и морфологического анализа каждое предложение получает вес. Он характеризует важность предложения для ПОА. Формализация веса основывается на двух положениях: 1) чем больше слов из групп индикаторов встречается в предложении, тем выше его вес; 2) если предложение лишено смысла, вне зависимости от наличия индикаторов в нём его вес равен нулю.
В общем случае вес предложения вычисляется по формуле: [ О, СИ = О
™ = и-, • п + • о + ■ £ (Л,) + и-г ■ £ (т,), СП = Г (')
где — вес предложения; vvд и \\'| - веса 11В, СИВ, УСД и ТС со-
ответственно; п, о, П1 и р - число индикаторов в ПВ, СИВ, УСД и ТС соответственно; А| - вес ¡-01 о индикатора в УСД; Т; - веского индикатора в ТС; СН -логическая функция проверки адекватности предложения.
Таблица 1 - Информация для определения весов
Все Группа ппдикаторов Характеристика предложении, отбираемых к ПОЛ
\у0 Слова из пользовательского вопроса (ПВ) Предложение содержит ответ или информацию по вопросу
Синонимы слов из пользовательского вопроса (СИВ) Предложение содержит перефразированный ответ или информацию по вопросу, выраженную другими словами. С большей вероятностью, чем при может содержать информацию по другому вопросу
Слова и словосочетания из универсального словаря «дейетпий» (УСД) Предложение содержит информацию о каких-либо действиях, путях решения проблемы пли выводах (без привязки к конкретному вопросу). Предложение более информативно, чем прочие. В случае вопроса, предполагающего получение определения, предложение с более высокой вероятностью содержит определение какою-либо понятия.
Слова из тематического словаря (ТС) Предложение содержит информацию но области знаний вопроса
Веса \у0, шл5, \ул и \ут определяются экспертно, основываясь на знаниях, опыте анализа текстов и понимании значимости групп индикаторов (таблица 1).
Перед поиском числа появлений индикаторов в предложениях выполняется проверка логической функции СН. Она предназначается для выявления и исключения предложений, которые не могут служить ответом на какой-либо вопрос. Это слишком короткие предложения, а также предложения, полученные из элементов меню веб-страницы. На основе анализа синтаксиса построения веб -сайтов были сформулированы и проверены экспериментально аксиоматические ограничения, на которых строится работа функции СН. Если данные ограничения выполняются, СН = 1, иначе СН = 0.
Если > > \уЛ > \ут, то механизм взвешивания предложений изменяется. Все ¡-ые предложения с С^ = 0 исключаются из рассмотрения. По каждой группе индикаторов вычисляется свой вес: \vsQj = Юд ■ п, \vsAS, = + ■ о ,
\vsAj \vsAS; м ^
, = + "V ■ (2)
у=1 м
где: \vsQj, wsAS(, \vsAj и wsTi - веса ¡-ого предложения по ПВ, СПВ, УСД и ТС соответственно.
Предложения сортируются по значениям Если предложения I и к попадают на соседние позиции в отсортированном списке, и \vsQj - \vsQr > Д0, где До - предельно допустимая разность близости предложений пользовательскому вопросу, то ¡-ое и все остальные предложения с уувО > \vsQj исключаются из дальнейшего рассмотрения и автоматически попадают в ГЮА. Если этих предложений больше, чем нужно в ПОЛ, то из дальнейшего рассмотрения исключаются все прочие предложения, а предложения с шбС} > \vsQj подвергаются дальнейшему взвешиванию, которое протекает подобным образом, т.е. вычисляются веса \vsAS, сортируются, проверяется, превышена ли ДЛд и т.д. Последним вычисляется и^Т. Предельно допустимая разность здесь не используется.
При автореферировании важно добиться того, чтобы предложения автореферата не выглядели вырванными из контекста, следует обеспечить их связность или смысловую самодостаточность. С учётом сути различных семантических связей и опыта их определения в текстах на естественном языке составлена краткая характеристика каждого их вида с точки зрения необходимости его учёта при автореферировании. Исходя из полученных данных, можно утвер-
ждать, что требуется определять семантические связи, входящие в группу «зависимостей»: местоименную анафору, организацию логических связей и вводные слова. Они ищутся с помощью набора построенных с учётом синтаксиса и семантики русского языка правил в виде перл совместимых регулярных выражений - шаблонов, состоящих из символов и метасимволов и задающих правила поиска. Это позволяет использовать общий подход для выявления всех требуемых видов семантических связей и значительно повысить быстродействие по сравнению с применением глубокого синтаксического анализа.
Сформирован общий подход к построению регулярных выражений для выявления семантических связей, входящих в группу «зависимостей», заключающийся в последовательном преобразовании правил синтаксиса и семантики русского языка в перл совместимые регулярные выражения.
На основе признаков смыслового сходства были выделены критерии смыслового подобия текстов. Существующие методики учитывают их не в полной мере, поэтому была предложена усовершенствованная методика расчёта смыслового подобия предложений, точнее учитывающая падение логического ударения на слова в рамках ПОЛ и выявляющая противоречия.
В общем случае определение смыслового подобия предложений осуществляется с помощью вычисления двух пар мер вхождения Кмт. Базовые формулы для расчёта первой пары без выявления противоречий выглядят так:
пг\ пел
Х^ х^
К — К —
"■л™С1.''2) пП ' Л.«'т(/'2./Ч) пгг ' (3)
XН'. X"-
1=1 /=1
где: К5|Ш(р| Р2) - мера вхождения предложения Р1 в Р2; К5(т(р2,р|) - мера вхождения предложения Р2 в Р1; пП - число общих для предложений слов; пР1 и пР2 - число слов в предложениях Р1 и Р2 соответственно; ул - вес ¡-ого слова, определяемый по формуле (4):
= • а + и^. • /15,. + пл ■ А, + \\'г ■ Т,, (4)
где: \уЛз, \уд, wт - веса значимости групп индикаторов ПВ, СПВ, УСД и ТС соответственно; (},, АЗ^ А1, Т| - степени вхождения ¡-ого слова в группы индикаторов ПВ, СПВ, УСД и ТС соответственно.
Кроме (3) вычисляются меры вхождения К^р^ и К5|т(р2,р1), которые определяют схожесть предложений по словам, чей вес равен нулю:
V' - ПП "П
Л. simin.Pl) —-г, Л simW2.Pl) =-Г,
пР\ пР2
где пП - число общих для предложений слов, чей вес = 0; пР1 и пР2 -число слов, чей вес - 0, в предложениях Р1 и Р2 соответственно.
Предложение Р1 считается входящим в предложение Р2, если Кмт(р|,р2) > К^т(Р2,Р1) и К Х|ш(Р1.Р2) > К 5ш,(Р2,р1), и Кк|т(Р| Р2) и К5(т(р| р2) больше установленного порогового значения.
Если \у<) > wлs > \ул > то вычисляется пять пар мер вхождения К5|„, по аналогии с парой мер вхождений по словам из ПВ (6):
К =-!=!_ К _
■•¡1гн(Р1.Р2)() „Р10 > у\т,,</>2./>|)() ~ ,1Р2,, '
1>е-а -а
/-1 1=1
где: пП0, - число общих для предложений слов, входящих в ПВ; пР10, пР20, - число слов, входящих в ПВ, в предложениях Р1 и Р2 соответственно.
Вторая-пятая пары мер вхождения вычисляются для оставшихся групп индикаторов и слов с нулевым весом по аналогии с (6) и (5).
Предложение Р1 считается входящим в предложение Р2, если для каждой ¡-ой пары мер вхождения выполняется неравенство Кх1т(Р|.Р2)| > К,|т(Р2 Р1Я и каждая К-нт(Р1.Р2)1 больше установленного порогового значения меры вхождения.
Был рассмотрен вопрос выявления противоречий и введена логическая функция ЫОТО), которая принимает значение 1, если ьое общее слово не служит источником противоречия, и значение 0 - если служит. При этом, если предложения противоречат друг другу, меры вхождения равняются -1.
С учётом определения функции ШТО) была получена формула расчёта меры вхождения с выявлением противоречий:
/а |
У IV
1>, • (7)
-1, Э/е [1,/7П]:М?Г(/) = 0 Кят(р2,рп вычисляется по аналогии с (7). На рассмотрение в функцию ЫОТ(0 попадают только те слова, которые учитываются в данной мере вхождения. Функция N01(0 была формализована. Для этого введён коэффициент отрица-
ния (koef). Он принимает значения для каждого слова, при этом koefj = 1, если пред i-ым словом нет отрицательной частицы, и koef; = -1, если пред i-ым словом есть отрицательная частица. Применяется следующая формула:
NOT{i) = [{koejP\, = tee/P2,. )л {-,3k e [1 ,«n] :(* = / +1) л (ANT(i,k) = 1))], (8)
где: koefPlj и koefP2j - коэффициенты отрицания i-oro слова в предложении PI и Р2 соответственно; ANT(i,k) - функция, принимающая значение 1, если между i-ым и k-ым общими словами существует одно и только одно слово, являющееся антонимами в предложениях Р1 и Р2, иначе - значение 0.
Для получения общих сведений по вопросу производится агрегация информации из разных источников, т.е. создаётся интегрированный автореферат.
Интегрированный автореферат (ИА) - автоматически составленное обобщённое краткое изложение смысла нескольких источников. При его составлении методы автореферирования одного документа распространяются на массив из большого количества документов.
При создании ИА важным является вопрос определения смыслового подобия исходных авторефератов и отдельных положений в них. Это позволяет исключить дублирующие друг друга фразы, а также выявить противоречивые положения. Для осуществления этого используется описанная выше методика.
Проанализирована классификация вопросительных предложений и существующие методы решения проблем получения прямых ответов на вопросы. Особенное внимание уделено проблеме выделения ответа из текста. Предложено решение этой проблемы в виде адаптации для русского языка метода на основе выделения и сравнения так называемых тернарных выражений, использованного в англоязычной вопросно-ответной системе START.
Тернарные выражения (Т) - выражения вида <объект отношение субъект>. Можно выделить следующие основные особенности предложенного подхода, касающиеся построения и дальнейшего использования тернарных выражений:
1. Построение тернарных выражений основывается на правилах согласования, созданных в соответствии с морфологией и семантикой русского языка, в отличие от правил извлечения и правил отношений, используемых в START и адаптированных для английского языка.
2. Тип вопроса влияет на построение Т и дальнейший поиск ответа.
3. Осуществляется выделение главного тернарного выражения Tmai„, содержащего подлежащее и сказуемое.
4. Т не хранятся в Базе знаний, вместо этого строятся Т для предложений авторефератов и осуществляется их сравнение с Т вопроса.
5. Сравнение предложения с вопросом происходит на основе вычисления коэффициента степени соответствия предложения вопросу Ка. Он вычисляется как отношение числа общих 'Г предложения и вопроса к числу Т вопроса.
В качестве ответа выбирается то предложение или предложения, у которых Ка = 1. Если таких предложений не найдено, выбирается предложение или предложения с максимальным значением Ка и вводится критерий необходимого соответствия К„: ответом на вопрос может быть только то предложение, Ттат которого совпадает с Тта|„ вопроса. В этом случае Кп = 1, иначе К„ = 0.
В результате анализа вопросительных предложений выделено 5 типов вопросов по их влиянию на построение Т:
1. Вопрос 1-ого типа задаётся к подлежащему, в Тта|„ вместо него помещается фокус вопроса, соответствующий определённым вопросительным словам. Характерные вопросительные слова: Нужно ли (и пр.), Кто.
2. Вопрос 2-ого типа задаётся к дополнению, т.е. в Ттат вместо дополнения будет присутствовать фокус вопроса. Характерные вопросительные слова: Что, Где, Куда, Откуда, Когда, Зачем, Отчего, Почему, Как, Сколько.
3. Вопрос 3-сго типа задаётся к качественной характеристике подлежащего, следовательно, в одном из дополнительных Т будет находиться фокус вопроса. Характерные вопросительные слова: Какой, Каков, Который, Чей.
4. Вопрос 4-ого типа не содержит вопросительных слов.
5. Вопрос 5-ого типа предполагает получение определения какого-либо понятия. На месте объекта Т,™,, будет стоять слово, требующее определения, на месте отношения - маркер семантического тэга определения, а на месте субъекта - маркер семантического тэга, предполагающего наличие существительного.
Если вопрос относится к 5-ому типу, формирование ПОА изменяется: в УСД помещаются слова, указывающие на наличие определения, а вес \У() для предложений, имеющих знак тире, окружённый пробелами, увеличивается.
В третьей главе приводятся алгоритмы проблемно-ориентированного автореферирования, обеспечения семантической связности текста, автоматической оценки смыслового подобия текстов, построения интегрированного автореферата и поиска ответов на вопросы.
Был сформирован общий алгоритм получения релевантных данных и знаний в сети Интернет (рисунок 2).
Рисунок 2 - Общий алгоритм поиска данных и знаний в Ин тернет
Общий алгоритм ПОА изображён на рисунке 3.
Рисунок 3-Алгоритм проблемно-ориентироваппого автореферирования
Количество предложений в ПОА задастся либо числом, либо процентом от общего числа предложений в исходном коде веб-страниц.
Для определения семантической связности предложений каждое предложение автореферата проверяется с помощью набора регулярных выражений, разбитого на три группы: местоименные анафоры, организация логических связей, вводные слова. Пели структура анализируемого предложения совпадает с одним из регулярных выражений, проверяется, присутствует ли предложение из исходного текста, идущее перед анализируемым, в ПОА. Если не присутствует, то добавляется в него и анализируется с помощью регулярных выражений, иначе - проверке подвергается следующее предложение из автореферата.
Генерация интегрированного автореферата происходит в три этапа.
На первом этапе выполняется корректировка весов предложений, полученных при создании ПОА. Для этого осуществляется попарное вычисление мер вхождения между предложениями и определяется общий коэффициент сходства. Если предложение одного из исходных авторефератов получило высокий коэффициент сходства с другим предложением другого автореферата, то вес такого предложения увеличивается, и оно в первую очередь попадает в ИА.
На втором этапе происходит исключение дублирующих друг друга по смыслу предложений из дальнейшего рассмотрения. Если общий коэффициент сходства двух предложений выше некоторого порогового значения, то предложение с меньшим весом исключается из рассмотрения. Если веса предложений одинаковы, исключается то из них, которое, в соответствии с мерами вхождения, входит в другое. Если шд > > > \ут, то используется только правило вхождения одного предложения в другое с учётом противоречий, и входящее предложение исключается. Это обеспечивает отсутствие дублирующих друг друга по смыслу фраз в интегрированном автореферате.
На третьем этапе осуществляется выбор настраиваемого числа предложений из проблемно-ориентированных авторефератов с максимальными весами. Из этих предложений с учетом семантических связей и составляется интегрированный автореферат.
Алгоритм поиска ответов на вопрос приведён на рисунке 4.
Получение морфологических характеристик слов
Интегрированный автореферат
^ Вопрос 1- ^Нет
\ого типа ^ ^ 1
+ Поиск под-
\jlcr
Рисунок 4 - Алгоритм поиска ответов на вопрос
Тернарные выражения формируются в соответствии с правилами согласования и с учётом типа вопроса. Из них генерируется шаблон - набор тернарных выражений, расширенный за счёт абстрактных Б-правил (правил, устанавливающих между группами тернарных выражений отношения эквивалентное™) и словаря синонимов и гипонимов. Тернарные выражения из шаблона ищутся в предложениях интегрированного автореферата с учетом семантических тэгов ответа. Окончательный ответ или несколько альтернативных ответов формируются по принципу максимизации коэффициента степени соответствия предложения вопросу.
В четвёртой главе рассматриваются вопросы практической реализации информационно-аналитической системы получения релевантных данных и знаний в сети Интернет и оценки её эффективности.
В рамках практической реализации теоретических положений исследования был разработан прототип информационно-аналитической системы получения релевантных данных и знаний в сети Интернет - программный комплекс «In-tellST», написанный на языке PHP.
Наиболее близкими аналогами ИАС «IntellST» являются отечественная русскоязычная система AskNet и зарубежная англоязычная система START.
Для оценки эффективности ИАС «IntellST» был проведён сравнительный анализ поиска ответов по 25 вопросам (по 5 вопросов каждого типа) и вычислены следующие показатели:
- Точность (Р) - отношение числа релевантных ответов к общему числу данных ответов.
- Полнота (R) - отношение числа вопросов, на которых был дан правильный и прямой ответ, к общему числу вопросов.
- Избыточность - отношение числа релевантных ответов, которые можно исключить без существенной потери смыла, к общему числу релевантных ответов.
- Сбалансированная F-мера (F) - гармоническое среднее точности Р и иол-ноты R.
Результаты сравнительного анализа представлены в таблице 2.
Таблица 2 - Результаты поиска ответов различными системами
Критерий AskNet START IntellST
Общее число релевантных ответов 15 5 36
Общее число данных ответов 26 6 53
Число вопросов, на которых был дан правильный и прямой ответ 8 5 23
Число релевантных ответов, допускающих исключение 6 0 9
Точность 57,69% 83,33% 67,92%
Полнота 32,00% 20,00% 92,00%
Избыточность 40,00% 0,00% 25,00%
Сбалансированная Р-мсра 41,17% 32,26% 78,15%
Как видно из результатов, представленных в таблице 2, программный комплекс IntellST показал более высокую полноту на данном наборе вопросов, однако, в то же время, несколько уступил в точности системе START. Тем не менее, сбалансированная F-мера оказалась самой высокой именно у разработанной в рамках диссертационного исследования программы. Основное преимущество IntellST над системой START заключалось в полноценном использова-
нии сети Интернет, тогда как START применяет лишь собственную базу знаний и фиксированный набор сайтов. Кроме того, START не различает типы вопросов, что также снижает эффективность поиска ответов. Основное отличие от AskNet состояло в механизме формирования ответа — данная система всегда сводит ответ к слову или словосочетанию, что приводит к дополнительным ошибкам анализа и потере многих смысловых нюансов, тогда как IntellST в качестве ответа выдаёт предложение. В целом, подобные результаты свидетельствуют о практической эффективности разработанного программного комплекса.
Установлено, что получение данных и знаний из Интернета может использоваться в системах поддержки принятия решений (СППР) на всех этапах работы после анализа проблемы. Когда в СППР происходит определение и формулирование проблемы, появляется возможность составлять вопросы, ответы на которые позволят снять информационную неопределённость и определить цели, критерии их достижения, альтернативные варианты решения проблемы и методы оценки их эффективности.
Все группы специалистов, работающих с СПГ1Р, в том числе и ЛПР, нуждаются в средствах поиска ответов на вопросы. Такие средства оказывают информационную поддержку в процессе принятия решений. Поэтому применение программного комплекса IntellST в рамках СППР целесообразно.
На рисунке 5 с использованием результатов, полученных в ФГБОУ ВПО «КубГТУ», представлена функциональная схема СППР с получением данных и знаний из сети Интернет. Блок поиска данных и знаний выделен в левом нижнем углу схемы.
Взаимодействие подсистем в составе СППР с IntellST будет осуществляться в рамках единого интерфейса, что повысит эффективность функционирования системы. Также это обеспечит возможность использования IntellST в составе ситуационных центров различного уровня.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ И ВЫВОДЫ
Диссертантом в работе получены следующие основные научные и практические результаты:
1. Па основании аналитического обзора текущего состояния информационного поиска и автоматического анализа неструктурированной информации установлено, что в области интеллектуального веб-ноиска, предполагающего формирование ответов на пользовательские вопросы, остаются нерешённые проблемы. Определено, что существующие средства автоматического реферирования текстов нуждаются в совершенствовании.
2. В результате сравнительного анализа методов Web Content Mining определено, что для извлечения данных и знаний по произвольной проблеме из вебстраниц с целью их последующего использования в системах поддержки принятия решений актуально применение метода Автореферирования.
3. Для получения данных по проблеме и ответов на вопрос из сети Интернет целесообразно использовать комбинацию классического автореферирования, ассоциативного поиска и сниппетов - проблемно-ориентированное авторсфс-рировапие. Па основе индикаторных методов квазиреферирования с использованием графсматического, морфологического и семантического анализов, а также механизмов ассоциативного поиска и сниппетов разработан общий алгоритм проблемно-ориентированного автореферирования.
4. На основе сравнительного анализа установлено, что при автореферировании любого типа требуется определять как минимум три вида семантической связи между предложениями, относящиеся к группе «зависимостей»: местоименную анафору, организацию логических связей и вводные слова. Разработан подход и методические положения по составлению регулярных выражений для реализации правил обнаружения семантических связей, входящих в обозначенную группу, а также алгоритм поиска семантических связей между предложениями при автореферировании.
5. С учётом необходимости выявления противоречий и определения сходства отдельных предложений и абзацев при проблемно-ориентированном автореферировании разработана методика автоматической оценки смыслового подобия текстов, учитывающая все выделенные критерии смыслового подобия.
6. На основании анализа существующих подходов к агрегации информации и с использованием методики автоматической оценки смыслового подобия текстов разработаны методы и алгоритм составления интегрированных авторефе-
ратов из нескольких источников, позволяющие одновременно агрегировать и сжимать информацию.
7. С использованием и адаптацией принципов, заложенных в англоязычную систему START, разработаны методические положения автоматического поиска ответов на вопросы на русском языке. Они предполагают использование тернарных выражений, абстрактных S-правил и сравнения предложений с шаблоном для учёта различных аспектов и особенностей русского языка. На их основе разработан алгоритм поиска ответов на вопрос в сети Интернет.
8. На основе предложенных методических положений и алгоритмов разработан прототип информационно-аналитической системы получения релевантных данных и знаний в сети Интернет, обладающий более высокой полнотой выдачи ответов в сравнении с системами AskNet и START, и установлена возможность его использования в рамках систем поддержки принятия решений.
СПИСОК ПУБЛИКАЦИЙ
Публикации в журналах, входящих в список рецензируемых изданий ВАК при Минобрнауки России
1. Симанков B.C. Методологические аспекты работы со знаниями в системах поддержки принятия решений / B.C. Симанков, Д.М. Толкачев // Глобальный научный потенциал, №7 (40), Санкт-Петербург, 2014. - с. 42-47.
2. Симанков B.C. Выявление семантических связей между предложениями при автореферировании / B.C. Симанков, Д.М. Толкачев // Наука и бизнес: пути развития, №7 (37), М„ 2014.-е. 54-60.
3. Симанков B.C. Методические положения автоматического поиска ответов на вопросы / B.C. Симанков, Д.М. Толкачев // Перспективы науки, №9 (60), Тамбов, 2014. - с. 80-85.
Свидетельства о государственной регистрации программ для ЭВМ
4. Интеллектуально-аналитическая система получения релевантных данных и знаний в сети Интернет. Модуль «Генерация проблемно-ориентированных авторефератов» / B.C. Симанков, Д.М. Толкачев; - № 2015610030; заявка № 2014661102 от 05.11.2014; зарегистрировано в реестре программ для ЭВМ 12.01.2015.
5. Интеллектуально-аналитическая система получения релевантных данных и знаний в сети Интернет. Модуль «Выявление семантических связей между предложениями» / B.C. Симанков, Д.М. Толкачев; - № 2015610023; заявка № 2014661104 от 05.11.2014; зарегистрировано в реестре программ для ЭВМ 12.01.2015.
6. Интеллектуально-аналитическая система получения релевантных данных и знаний в сети Интернет. Модуль «Синтез интегрированного автореферата на основе анализа частных проблемно-ориентированных авторефератов» / B.C.
Симанков, Д.М. Толкачев; - № 2015610022; заявка № 2014661103 от 05.11.2014; зарегистрировано в реестре программ для ЭВМ 12.01.2015.
7. Интеллектуально-аналитическая система получения релевантных данных и знаний в сети Интернет. Модуль «Выявление ответов на вопрос» / B.C. Симанков, Д.М. Толкачев; - № 2015610361; заявка № 2014661180 от 05.11.2014; зарегистрировано в реестре программ для ЭВМ 12.01.2015.
8. Интеллектуально-аналитическая система получения релевантных данных и знаний в сети Интернет / B.C. Симанков, Д.М. Толкачев; - № 2015610359; заявка № 2014661181 от 05.11.2014; зарегистрировано в реестре программ для ЭВМ 12.01.2015.
Статьи в научных журналах и материалы конференций
9. Симанков B.C. Анализ методов извлечения данных и знаний из Интернета для целей поддержки принятия решений / B.C. Симанков, Д.М. Толкачев // Наука Кубани, № 1. Краснодар: Изд. ООО «Просвещение-Юг», 2014. - с. 68-72.
10. Симанков B.C. Проблемно-ориентированное автореферирование как инструмент поиска данных и знаний / B.C. Симанков, Д.М. Толкачев // Наука вчера, сегодня, завтра / Сб. ст. по материалам XIV междунар. науч.-практ. конф. № 7 (14). Новосибирск: Изд. «СибАК», 2014. -с. 31-35.
11. Симанков B.C. Обеспечение смысловой связности текста автореферата / B.C. Симанков, Д.М. Толкачев // Научная дискуссия: инновации в современном мире. № 7 (27): сборник статей по материалам XXVII международной заочной научно-практической конференции. - М., Изд. «Международный центр науки и образования», 2014. - с. 12-16.
12. Симанков B.C. Автоматическая оценка смыслового подобия текстов /
B.C. Симанков, Д.М. Толкачев // Технические науки - от теории к практике / Сб. ст. по материалам XXXVII междунар. науч.-практ. конф. № 8 (33). Новосибирск: Изд. «СибАК», 2014. - с. 26-33.
13. Симанков B.C. Поиск ответов на вопросы в сети Интернет / B.C. Симанков, Д.М. Толкачев // Инновации в науке / Сб. ст. по материалам XXXVI меж-днар. науч.-практ. конф. № 8 (33). Новосибирск: Изд. «СибАК», 2014.-е. 28-35.
14. Симанков B.C. Разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет / B.C. Симанков, Д.М. Толкачев // Программные системы и вычислительные методы. - 2014. - № 3. -
C. 298-311. DOI: 10.7256/2305-6061.2014.3.13396.
Подписано в печать 29.07.2015. Печать трафаретная. Формат 60x84 Усл. печ. л. 1,35. Тираж 100 зкз. Заказ № 1419. Отпечатано в ООО «Издательский Дом-Юг» 350072, г. Краснодар, ул. Московская 2, корп. «В», оф. В-120, тел. +7(918) 41-50-571
e-mail: olfomenko@yandex.ru Сайт: http://id-yng.com
-
Похожие работы
- Автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет
- Формирование информационных полей в условиях неформализуемой системы рисков
- Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке
- Исследование и разработка методов и моделей поиска адекватной информации в полнотекстовых базах данных
- Информационно-поисковая система с ранжированием на основе нейронных сетей с бинарной функцией выхода
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность