автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Диалоговые алгоритмы поиска и навигации в автоматизированной системе текстового документооборота металлургического предприятия
Автореферат диссертации по теме "Диалоговые алгоритмы поиска и навигации в автоматизированной системе текстового документооборота металлургического предприятия"
На правах рукописи
ДИАЛОГОВЫЕ АЛГОРИТМЫ ПОИСКА И НАВИГАЦИИ В АВТОМАТИЗИРОВАННОЙ СИСТЕМЕ ТЕКСТОВОГО ДОКУМЕНТООБОРОТА МЕТАЛЛУРГИЧЕСКОГО ПРЕДПРИЯТИЯ
Специальность 05.13 01 Системный анализ, управление и обработка информации (металлургия)
Автореферат
диссертации на соискание ученой степени кандидата технических наук
0031594ВВ
Москва—2007
003159466
Работа выполнена на кафедре АСУ в Государственном технологическом университете «Московский институт стали и сплавов»
Научный руководитель
кандидат технических наук, доцент Поляков Владимир Николаевич
Официальные оппоненты-
доктор технических наук, профессор Попов Игорь Иванович кандидат технических наук, доцент Филиппович Андрей Юрьевич
Ведущая организация
Государственное образовательное учреждение высшего профессионального образования «Казанский государственный университет им В И Ульянова-Ленина»
Защита состоится « 3( » /¿нЛ 2007 г. в часов на заседании
Диссертационного Совета Д212 13207 1гри Государственном технологическом университете «Московский институт стали и сплавов» по адресу 119049, Москва, Ленинский проспект, д 4, ауд /7~,ЗОб>
С диссертацией можно ознакомиться в библиотеке Государственного технологического университета «Московский институт стали и сплавов»
Автореферат разослан сентября 2007 г
Ученый секретарь диссертационного Совета
X ^н , профессор Калашников Е А
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
В настоящий момент большая часть документов на современном металлургическом предприятии, а также в других областях деятельности хранится в электронном виде
Сейчас на металлургических предприятиях активно внедряются системы автоматизации документооборота, однако в них в первую очередь поддерживается поиск по значениям полей регистрационных карточек, а также по отдельным словам и словосочетаниям, использованным в тексте документа Использование поиска по полям регистрационных карточек, требует от пользователей высокой дисциплины в заполнении этих полей, что на практике бывает достаточно редко
Помимо корпоративной системы документооборота, на любом крупном предприятии имеется достаточное количество текстовой информации за ее пределами электронная почта, базы нормативно-справочной информации, файловые архивы, другие системы (например, внутренние доски объявлений)
Отсутствие современных информационно-поисковых систем для предприятий металлургического комплекса приводит к снижению эффективности работы с документами, т к поиск должен производиться в нескольких источниках, а грубый поиск по вхождению слов приводит к большому информационному шуму или ненахождению необходимых документов из-за неправильной подборки ключевых слов
Проблема усугубляется высокой степенью многозначности для слов металлургической тематики, которые зачастую пересекаются как со словами общей лексики, так и с другими специальными значениями
Очень остро стоит вопрос поиска по полнотекстовой конструкторско-технологической документации в проектных организациях металлургической отрасли, например, таких как ОАО «Гипромез» Переход на новую систему стандартизации в связи со вступлением в ВТО, ставит вопрос о кросс-лингвистическом поиске и создании двуязычной терминологических системы, обладающей современными средствами поиска и навигации
Еще одной областью применения полнотекстовых поисковых машин является патентный поиск Сейчас в Интернет доступен поиск по крупнейшим базам данных патентов России, США, Европы Однако современные системы предоставляют поиск только по ключевым словам, то есть для того, чтобы убедиться в новизне своей идеи автор вынужден перебирать различные варианты описания патента, самостоятельно подбирая синонимы, комбинируя ключевые слова Это нелегко проделать даже для родного языка, поиск же на других языках становится еще более затруднительным
Согласно многочисленным исследованиям, более 50 процентов пользователей заканчивают сеанс работы с поисковой системой, просматривая первые 10-20 ссылок При этом, как правило, лишь 2-3 ссылки содержат действительно полезную для пользователя информацию По различным оценкам 50-70% навигационного трафика в Интернет приходится на просмотр ошибочно найденных
страниц
Итак, в настоящий момент для поисковых машин очевидны следующие области применения поиск в Интернету поиск в системах документооборота предприятий, патентный поиск, поиск в хранилищах текстовой информации (новости, научные ресурсы) Рост объема информации, происходящий одновременно с ростом информационных потребностей пользователей, ставит проблему эффективного информационного поиска остро как никогда ранее
Таким образом, актуальность работы обуславливается огромным количеством доступной информации и отсутствием адекватных инструментов ее структурирования, поиска и навигации К настоящему момешу накоплен достаточный объем знаний в области компьютерной лингвистики, поисковых технологий, разработки поисковых машин, построения пользовательских интерфейсов, кроме того, производительность современной вычислительной техники многократно превосходит ту, которая была в момент начала разработки большинства имеющихся поисковых систем, что позволяет решать задачу поиска качественно новыми способами
Цель работы заключается в исследовании различных диалоговых (интерфейсных) механизмов поиска, основанных на изменении поисковых запросов, разработка и апробация диалоговых моделей фокусировки и расширения поиска в системах документооборота металлургических предприятий, а также исследование возможностей применения частотных зависимостей для помощи пользователям в формулировании запросов при патентном поиске
Для достижения поставленных целей были решены следующие задачи
- проанализированы имеющиеся подходы к организации интерфейса поисковых систем, выявлены их узкие места и направления развития,
- предложены диалоговые решения для повышения эффективности поиска, основанные на методах фокусировки, расширения и переформулирования запроса,
- предложены диалоговые решения для повышения эффективности поиска, основанные на частотных моделях,
- предложена формальная постановка задач расширения и фокусировки поиска, создано программное обеспечение для их решения,
- проведена оценка эффективности предложенных методов разрешения многозначности, фокусировки поиска, навигации по онтологиям при использовании в системах документооборота металлургических предприятий, патентного поиска, сети Интернет
Научная новизна работы заключается в
- формальной постановке задачи расширения и фокусировки поиска в интерфейсном модуле поисковой машины, основанной на использовании лексического значения,
- интерфейсной модели поисковой машины, основанной на технологиях разрешения многозначности,
- подтверждении возможности и эффективности применения частотных показателей при работе с лексическими онтолошями,
- математическом описании различных частотных факторов для исполь-
зования в пользовательском интерфейсе
Практическая ценность работы заключается в следующем
— выполнена формальная постановка задачи построения пользовательского интерфейса, основанного на технологиях разрешения многозначности, и разработке диалогового алгоритма фокусировки и расширения запроса,
- создана математическая модель частотных факторов при навигации по онтологической системе, которая позволяет строить пользовательские интерфейсы для различных сфер применения,
- использование результатов исследования при построении информационно-поисковой составляющей систем полнотекстового документооборота промышленного предприятия в металлургическом комплексе, должно привести к сокращению потерь и экономии оборотных средств,
- разработаны новые интерфейсных принципы с использованием лексических онтологии, которые позволяют строить более эффективные системы патентного поиска
— использование новых интерфейсных моделей при создании информационно-поисковых систем в Интернет, имеет потенциал сокращения общего объема передаваемой информации на 10%,
— использование разрешения многозначности может повысить отдачу от рекламы при размещении платных ссылок в результатах поиска в сети Интернет в 2-3 раза за счет лучшей фокусировки
Методы исследования
При выполнении работы использовались методы
— алгоритмического моделирования,
— структурного программирования,
— реляционная модель построения баз данных,
- метод частотного анализа текстов,
— метод частотного анализа запросов к поисковым системам,
- методы семантического анализа текстов, основанные на разрешении лексической многозначности,
- методы системного анализа и принятия решений
Результаты работы были практически реализованы в виде программных прототипов пользовательских интерфейсов Методы организации интерфейса к лексической онтологии на частотных принципах приняты к внедрению в учебном процессе МИСиС для обучения по курсу «Лингвистические основы информатики»
На защиту выносятся следующие основные научные результаты
- математическая модель пользовательского интерфейса к поисковой системе, основанной на технологиях разрешения многозначности,
— диалоговый алгоритм решения задачи информационного поиска, основанный на технологиях разрешения многозначности,
- математические модели использования частотных факторов при навигации в лексических онтологиях
Работа производилась по следующим направлениям специальности 05 13 01
- теоретико-множественный и теоретико-информационный анализ сложных систем,
- методы и алгоритмы интеллектуальной поддержки при принятии управленческих решений,
- визуализация, трансформация и анализ информации на основе компьютерных методов обработки информации
Публикации и апробация работы По материалам исследований опубликовано 6 печатных работ, в том числе одна работа [6] в издании, входящем в Перечень ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертации на соискание ученой степени доктора и кандидата наук (редакция июль 2007 года), утвержденный Высшей аттестационной комиссией Министерства образования и науки Российской Федерации
Результаты работы докладывались на следующих научных конференциях
- Международный семинар Диалог'2002, Протвино, 6-11 июня 2002 г,
- Когнитивное моделирование в лингвистике'2002, п Дивноморское, сентябрь 2002 г,
- International Workshop Speech and Computer (SPECOM'2003), Москва, 27-29 октября 2003 г,
- Международный семинар Диалог'2003, Протвино, 11-16 июня 2003 г
Работа выполнялась при частичной поддержке Российского Фонда Фундаментальных Исследований (грант РФФИ № 05-07-90939, «Система онтологического типа для поиска и обработки текстовой информации»)
Структура диссертации Работа состоит из введения, четырех глав, заключения, списка литературы, изложенных на 130 страницах машинописного текста, содержит 19 рисунков, 9 таблиц, список литературы из 81 наименования
СОДЕРЖАНИЕ РАБОТЫ
В первой главе дается анализ проблем в области полнотекстового документооборота на промышленном предприятии металлургического комплекса Формулируется проблематика поиска и навигации в массиве документов
Производится анализ современного состояния ИПС В главе освещаются основные критерии оценки качества поисковых машин, освещаются последние исследования в этой области
Дается краткое введение в проблематику информационно поиска Проводится грань между информационным поиском и поиском по базам данных Излагается основная терминология в области информационного поиска Далее описываются основные принципы работы классических информационно-поисковых систем
В первой главе также указываются основные общепринятые критерии оценки качества информационного поиска, и указывается разница между двумя ключевыми показателями качества — релевантностью и пертинентностью на-
ходимых поисковой машиной документов
Релевантность определяется как формальный признак соответствия документу поисковому запросу, а пертинентность — как соответствие документа информационной потребности пользователя Следует отметить, что современные поисковые системы достаточно далеко продвинулись в поиске релевантных документов, однако, добиться повышения пертинентности можно, только помогая пользователю в более качественной формулировке запроса
В главе описаны основные проблемы, которые встают перед разработчиками поисковых систем, в том числе и для металлургии, основной из которых является проблема многозначности
После этого произведен анализ основных направлений и путей развития современных информационно-поисковых систем и исследованы различные перспективные подходы к информационному поиску
Также в гааве дано краткое введение в проблему патентного поиска и рассмотрены традиционные методы поиска патентной информации, а также ее поиск в сети Интернет
Анализ состояния дел в сфере текстового документооборота показывает, что на металлургических предприятиях хранится и обрабатьюается значительное число документов нескольких категорий При этом зачастую отсутствуют современные единые информационно-поисковые системы, а имеются только средства поиска по ключевым словам, что приводит к невозможности эффективно получить относящиеся к решаемой задаче документы, и в свою очередь приводит к снижению эффективности работы управляющего персонала и принятию неверных решений
Анализ проблемы патентного поиска показывает, что в настоящий момент, благодаря доступности баз данных патентных ведомств в сети Интернет, патентный поиск с одной стороны становится доступен большему числу исследователей, но с другой из-за сложности имеющихся механизмов остается уделом специалистов, особенно для поиска на иностранных языках
Решение поставленных проблем находится на пересечении компьютерной лингвистики, психологии, информатики
Произведенный анализ литературы позволяет сделать следующие выводы
В основе большинства популярных ныне поисковых машин лежат несколько усовершенствованные, но в целом хорошо известные и описанные, алгоритмы и результаты достаточно старых исследований Однако в последнее время появляется все больше и больше оригинальных поисковых инструментов, причем как коммерческих, так и свободно распространяемых
Ни в одной из известных систем нынешнего поколения в достаточной мере не используются механизмы обратной связи или модели пользователей, хотя как показывают исследования с участием автора, применение методов интерактивной фокусировки и уточнения запросов способно существенно сократить число непертинентных документов и весьма сильно сузить область поиска Итак, в результате анализа имеющихся исследований и эксплуатирующихся информационно поисковых систем можно сделать следующие выводы
— практически все широко применяемые в настоящее время поисковые машины являются развитием традиционных подходов к поиску;
— многочисленные исследования показывают, что предел качества результатов традиционных подходов к информационному поиску практически достигнут и при этом не дает желаемой эффективности поиска,
— многочисленные исследования подтверждают, что можно добиться повышения качества поиска путем изменения способа взаимодействия с пользователями.
В последние годы были достигнуты значительные успехи в следующих областях, связанных с созданием информационно-поисковых механизмов
— вычислительная мощность современной компьютерной техники позволяет производить более сложный анализ текстов и интерактивно взаимодействовать с пользователями;
— компьютерная лингвистика достиша значительных успехов в области морфоанализа, синтаксического и семантического анализа текстов
Все эти факторы позволяют перейти к созданию поисковых систем, выполняющих более точный анализ текстов и осуществляющих интерактивное взаимодействие с пользователем с целью уточнения его информационных потребностей
Во второй главе описан предлагаемый подход к интерактивным методам фокусировки и расширения поиска в системах документооборота на металлургических предприятиях
В главе описаны предлагаемые методы фокусировки и расширения поиска среди которых
— фокусировка на основе тематических и коммуникативных кластеров,
— фокусировка по устойчивым словосочетаниям,
— расширение на основании списка словообразований,
— расширение по аббревиатурам,
— переформулирование запросов,
— навигация по онтологиям,
Пример:
Для слова прибыль формируется следующий список устойчивых словосочетаний бухгалтерская прибыль, прибыль изложницы, прибыль компании, прибыль на капитал, прибыль населения, прибыль от сделок _
Пример:
Для слова прибыль в БД ИПС в системе документооборота металлургического предприятия было обнаружено три предметные области металлургия, экономика, бухгалтерия_____
Пример:
Для одного из значений слова прибыль можно предложить такой список слов кластера металлургия изложница, металл, отливка_
Содержательное описание методов на естественном языке позволяет сделать формальную постановку задачи поиска с использованием механизмов фокусировки/дефокусировки запроса
Будем использовать следующие множества
- множество документов О = ,с1п],
- множество лексем £ = {/), /2, ,/„},
- множество значений I = {г^,;^, ,гт1, ,гтк}
Между этими множествами возможны следующие отношения
- пословный индекс— отношение ^(Д¿) (/ Д)е Л,(ДХ)о лексема /; содержится в документе 4,
- толковый словарь— отношение Я2{1,Ь) (гу/Л2(/,X) <=> значение
относится к лексеме /,,
- индекс по значениям— отношение Я3(Д,/) (г/,, ) е (Д /) <=> лексема /, содержится в документе 4 в значении г,;
Задачу поиска можно сформулировать следующим образом Поисковый запрос можно представить в виде множества 2 = {г,, г2, , г„} с: £, где гх — ключевая лексема
Тогда выполнение И-запроса можно описать как
1 Построение сечения 2?^)= {г1г}с I на отношении Я2(1,Ь), т е множества лексических значений ядерной лексемы
2 Построение сечения каждого элемента множества Шг{) — множества ) = {¿^} с £> на отношении ЯЪ(1,Ь), т е построение для каждого из возможных значений ядерной лексемы множества документов, куда оно входит
3 Построение множества документов, в которые входят слова из поиско-
V
вого запроса М{та} та = Я(г 1г)п Р|й(г„)аП, где Я(ги) с В — сечение
и=2
отношения ^ (0,Ь) по ги
4 Выбор пользователем одного из элементов множества М, обозначенного далее Мр ей, где р— номер значения из подмножества
В зависимости от мощности множества Мр возможны следующие сценарии
- если |Мр | > 10, то фокусировка запроса,
- если \м р\ <10,то расширение полноты поиска
Для фокусировки запроса используются следующие множества
- множество тематических кластеров К{кк),
- множество словосочетаний Е{ее},
- множество вопросов <2^},
- множество коммуникативных кластеров С{сс}
И отношения
- индекс по тематическим кластерам-— отношение Кк{К,В) (кк, с1,) е КК (К, £>) о кластер кк содержится в документе <4
- индекс по словосочетаниям— отношение ЯЕ(ЕъО)-(ее,с11) е (£,£)) словосочетание ее содержится в документе йь
- значения в словосочетании — отношение Кш (/, Е) , ,ее)е Яш (/,£)<=> значение содержится в словосочетании ее,
- индекс по вопросам — отношение вопрос д относится к документу
- индекс по коммуникативным кластерам— отношение Яс (С,0) (сс, (¿г) € Лс (С, 1>) кластер с (или еш часть) содержится в документе с?„
- онтологическая связь—отношение Л0(1,1) ,г ^ )еЯ0(/,/)о значение I ^ состоит в онтологической связи со значением г^
Если обозначить в отношениях фокусировки первое множество как Х{хх}„ второе — как У{уу}, а отношение между ними как 11(Х, У), то задачу расширения полноты можно сформулировать в общем виде как построение сечения М(хх) (хх,уу) е Я(Х,У),К{хх)с У множества У по хх и последующее построение его пересечения с множеством М, те построение множества М2 -М1Г\ К{хх), М,сВ
Для расширения полноты поиска строятся отношения
- словообразовательная парадигма— отношение
лексема 1} является морфологическим дериватом
лексемы со значением г,/,
- синонимический ряд— отношение Я3(/,1) (г;]/|, г^) е И3 (/,/)<=> значение ¡нк является синонимом значения ,
-аббревиатура— отношение 11 л (Ь, Е) (¡/,ее)е В. А {Ь, Е) лексема является аббревиатурой словосочетания ее,
- онтологическая связь— отношение
>1М )е Ко(1>1)<^ значение ¡м состоит в онтологической связи со
значением г/Л
Если обозначить в отношениях расширения полноты поиска первое множество какХ{хх}, второе — как ¥{уу}, а отношение между ними как Ц(Х, У), то задачу расширения полноты можно сформулировать в общем виде как построение сечения К(хх) (хх,уу) е Я(Х,У),ф^с/ множества У по хх В результате получается подмножество элементов множества ¥, которое можно использовать для новой итерации процесса поиска, т е для построения нового поискового запроса или объединения его с множеством Я{гх)
Интерактивную поисковую систему можно рассматривать как систему управления, т к она обладает всеми необходимыми признаками такой системы
В процессе взаимодействия с поисковой системой пользователь является
и лицом, принимающим решения (ЛПР) и потребителем информации, полученной в результате перевода поисковой системы в оптимальное состояние
Результатом работы поисковой системы является список найденных документов При этом результат поиска, как правило, оценивается, по крайней мере, по критериям суммарной пертинентности найденных документов (не сумма пертинентностей отдельных документов, а пертинентность квазидокумента, являющегося объединением множества документов) и количества найденных документов
Теоретически, показателем результативности поиска является только первый критерий — удовлетворение информационной потребности пользователя множеством найденных документов Однако, в силу того, что пользователь физически может ознакомиться только с ограниченным числом документов, одного этого критерия недостаточно Тем не менее, критерий пертинентности можно считать главным
Исходя их этого, задачу информационного поиска можно сформулировать следующим образом
Найти такой поисковый запрос/ (составленный с помощью множеств, описанных выше), который обеспечит выполнение следующих критериев
mstKP(M(s)),msK(-\M(s)\ls = {s S eQ,P(M(s))>0,\M(s)\>0} (1)
sœS saS
где P(X) — суммарная пертинентность множества найденных документов,
M(s) —множество результатов (найденных документов), S— множество результативных запросов, Q — множество всех запросов
Важно отметить, что сформулированная таким образом задача может не иметь решения, если в общем множестве документов D нет ни одного удовлетворяющего информационную потребность пользователя хоть в какой-то степени
Так как, единственной известной характеристикой поискового запроса на первом этапе поиска является совокупность ключевых слов, целесообразно рассматривать задачу поиска, как задачу со следующими ограничениями, формируемыми пользователем в диалоговом режиме в процессе решения
Е'{ее} (zu,e.) с RIE(I,E),(ee,dm) с Re(E,D) Q'{%) {qq,dm)cRQ{Q,D) K'{kk} (kk,dm)<=RK(K,D) C'icJ (cç,dm)^Rc(C,D) где d,„ — элемент множества M(s),
E'— множество включенных в запрос словосочетаний,
Q'—множество включенных в запрос вопросов,
К' — множество включенных в запрос тематических кластеров,
С— множество включенных в запрос коммуникативных кластеров
Задача информационного поиска по своей природе является нечеткой, что подтверждается достаточным количеством исследований, т к главный критерий оценки качества информационного поиска — пертинентность — является плохо формализуемой качественной характеристикой
Для описания пертинентности введем следующую лингвистическую переменную
{ПЕРТИНЕНТНОСТЬ, Т(1), [0,1], G, М), (3)
где T(L) = {непертинентно, среднепертинентно, пертинентно} — терм-множество,
G— процедура образования новых термов с помощью связок и модификаторов типа «очень», «слегка», «совсем», «не» и др Например «малопертинентно»,
М— процедура задания на множестве [0, 1] нечетких подмножеств, выполняемая пользователем в процессе работы с поисковой системой
Хотя мощность множества результатов вполне можно оценить количественно, точное значение пользователя не интересует, поэтому для его характеристики также можно ввести лингвистическую переменную
(ЧИСЛО РЕЗУЛЬТАТОВ,T(L),[0,\E\lG,M), (4)
где T(L) = {мало, много} — терм-множество,
G— процедура образования новых термов с помощью связок и модификаторов типа «очень», «слегка», «совсем», «не» и др Например «слишком много», ¡D| — мощность множества всех документов,
М— процедура задания на множестве [0,]£>|] нечетких подмножеств, выполняемая пользователем в процессе работы с поисковой системой
Полученную многокритериальную задачу (1) можно свести к однокрите-риальной путем выбора идеальной точки Очевидно, что такой точкой будет единственный документ, полностью удовлетворяющий информационную потребность пользователя Изменяя параметры запроса (ограничения (2)), пользователь приближается к этой идеальной точке, т е в процессе работы с поисковой системой он в интерактивном (диалоговом) режиме путем формулирования запроса включением в него или исключением из него слов, словосочетаний, кластеров и т д влияет на результат работы системы с целью получения значения «пертинентно» для лингвистической переменной ПЕРТИНЕНТНОСТЬ (3), на основе полученного значения и динамики его изменения, он принимает решения о целесообразности дальнейшего переформулирования запроса и спосо-
ба переформулирования
Формулирование поискового запроса и получение результатов поиска происходит в диалоге с пользователем по следующему алгоритму
1 Разбор поискового запроса, т е построение множества 2 = , г2, ,гг}сЬ, где — ключевая лексема
2 Построение множества лексических значений ядерной лексемы, т е сечения Е(г1) = ( гх х } с: I на отношении Л2 (/, Ь)
3 Построение для каждого из возможных значений ядерной лексемы множества документов, куда оно входит, т е построение сечения каждого элемента множества — множества ) = а ] с В на отношении Е3 (/, Ь)
В результате получается г множеств документов М'{т'а} т'л = 2 )аВ
4 Построение множества документов, куда входят остальные слова по-
V
исиэвош запроса, т е множества Вг = В, где Я(гиВ — сечение
и=2
отношения Л] (В,£) по ги
5 Для каждого множества, полученного на шаге Ошибка! Источник ссылки не найден., строим его пересечение с множеством П7 , те М{та } тл = т^ г\ В2 с: В
6 Выбор пользователем одного из элементов множества М, обозначенного далее Мр с В, где р— номер значения из подмножества
Г1 = {г I, ,1„, ,гг], Г' с!, соответствующее лексическое значение обозначено
К£1К 1р
I Если \мр\ > 10, то переход к шагу 8, если < 10, то переход к шагу 17
8 Построение множества устойчивых словосочетаний, в которые входит значение гр, т е _ {ее} (гп,ее)еЛт(/, Е) — сечение отношения II!Е(/,Е) по гр
9 Построение множества устойчивых словосочетаний, входящих в документы множества Мр, те Ем {ее } (ее, ) е ЯЕ (Е, М,) — сечение отношения
Ле(Е,В)
10 Построение множества словосочетаний для использования в запросе, т е множества Ех = Е^ п
II Построение множества вопросов, на которые отвечают документы множества Мр, т е (дч,с11)еЯд{0,М1,)—сечение отношения Кв((), О)
12 Построение множества тематических кластеров, в которые входят документы множества Мр, те I, {кк } (кк, <11) е ЯК (К, Мр )— сечение отношения
13 Построение множества коммуникативных кластеров, в которые входят документы множества Мр, т е С^ {Сс}-(сс, с11) е Яс [с, Мр)— сечение отношения кс{с,в)
14 Построение множества гипонимов значения гр, т е множества
15 Если пользователь удовлетворен результатами поиска, то переход к 17, если нет, то к 16
16 Выбор пользователем одного из элементов множеств Еъ <2ь Кь С\ или Ох. Если пользователь выбирает один из элементов Еь <2ь Съ то строится множество М'л {¿!} <з?( е Мр,(х^1)е Ях(Х,0), где х— выбранный элемент, X— соответствующее множество. Если пользователь выбирает элемент множества О и то строится сечение множества ) = } <= £> на отношении К,(1,ь) и множество М'л = .й(г;;)пЦ,, выбранный элемент обозначается как гр Множество М'^ обозначается как Мр и осуществляется переход к шагу 7
17 Построение словообразовательной парадигмы для гр, т е
18 Построение синонимического ряда для гр, т е
19 Построение списка словосочетаний, расшифровывающих аббревиатуру^, те 4{ее} (г^еЯ^Е)
20 Построение множества когипонимов и гиперонимов значения гр, т е множества О^ {г)(} (г/г,г1Д ) е Я0 (/,/)
21 Выбор пользователем одного из элементов множеств Аг или Построение сечения М'Р1 а £> по выбранному элементу с помощью отношений Ль Лз, ЛБ и Л3
22 Построение нового множества М' — М'р и Мр
23 Обозначение М' как Мр и переход к шаг}' 7
24 Завершение поиска
В главе показано, на основе каких законов сделаны выводы об эффективности предлагаемых методов
Считается, что человек способен эффективно обрабатывать одновременно от 5 до 9 объектов в зависимости от индивидуальных особенностей и некоторых других факторов
Также экспериментально установленная зависимость времени реакции выбора от числа альтернативных сигналов, известная как Закон Хика, аппроксимируется логарифмической функцией следующего вида
Г = Ыоё2(и+1), (5)
где Т— время реакции,
Ь — эмпирически устанавливаемая константа, получаемая аппроксимацией измерений, п — число объектов
Этими закономерностями часто руководствуются при промышленном дизайне, в том числе и при построении пользовательских интерфейсов, стараясь помещать объекты в небольшие группы по 5-7 объектов, однако в традацион-
ных поисковых системах в ответ на поисковый запрос пользователю возвращается не менее 10 результатов на страницу^ что превышает указанный порог эффективного восприятия. Снижение числа результатов, отображаемых на странице только увеличивает сложность восприятия, т к разбиение не имеет какого-либо логического обоснования
Для запроса по слову «стан» традиционная ПМ в сети Интернет формирует страницу результатов поиска, на которой перечислены подряд все найденные страницы без учета смыслового значения слова В результате в проведенном эксперименте из первых десяти результатов только два имели отношение к металлургии
ИПС в системе документооборота металлургического предприятия на том же входном множестве сформирует список результатов, сгруппированный по значениям, как показано на рис 1
_Фрагмент страницы с результатами поиска ИПС__
МНШПНШВНННШННВМ
Большая машина или система машин служащие для изготовления крупных металлических изделий
Ш
1 СП "Сттн-коьюлерт Промышленное оборудование ведущие российская ь ¡т&аьнскш? ООО "СП "СТАН КОМПЛЕКТ" лыамсяофжцшьжмг^едстмытотемгедухц^
летний опыт работы, как на внутреннем рынке такина рынках стран СНГ http//stîrokoirLCom
2 Компания СТАН. ХЗЬоФьлььуе трубы
Компания СТАН основан»в 1995году 2006 * CopyrightООО 'СТАН" http //www stai-prru
Место временного расположения; лагерь
01
1 Белый стаи
http //betyi- stifunaio d.ru
2 Ниа'невартовьк / Хобби i став рыбака Югорского "спи рыб«а Югорского" это гсрстайлюд«йпк>6хщая этот грай, Овсехрм&аамхимест4*мыр&ссх«ь18а№ГК4«йге "ста*рм&аг«Югоргхого" http //do 6.346.ruf 1 15о9-92/16340/
Имена собственные
Ш
1 УНИЕСМА - й Фасадные материалы Координаты фнриы - маис продаж "Теплый стш" "ТЕПЛЫЙ СТАН" офис продев схлад hUpi/wwunibma.ni/coBqïôny/4dr4ss_ts shtml
■ ■ ■
б Дриа "Гнутый лобзик" Учредитель - >,тпь. http .//yacht.atmoknet/Lotizik'
Рис 1
Очевидно, что при таком разбиении, объем информации, которую должен проанализировать пользователь системы, эффективно понижается вместо 10 неструктурированных информационных единиц, ЛПР получает три группы не более, чем по 4 единицы информации Помимо снижения количества информации, происходит ее качественное изменение информация делится на четко очерченные смысловые группы, внутри которых информация однородна Это приводит к уменьшению константы Ъ в законе Хика
В ходе дальнейшего диалога с ИПС пользователь с помощью предлагаемых средств фокусировки постепенно уменьшает количество предлагаемой к анализу информации, одновременно повышая ее качество, оставляя результаты, только относящиеся к выбранной пользователем области
На основе предложенного алгоритма разработан следующий обобщен-
ный алгоритм работы пользователя с интерфейсным (диалоговым) блоком ИПС в системе документооборота металлургического предприятия, представленный на рисунке 2
Алгоритм сценария поиска
Алгоритм обработки поискового запроса на первом этапе поиска (сортировка по значению ядерной лексемы) представлен на рисунке 3.
Алгоритм обработки запроса
Рис 3
ИПС в системе документооборота металлургического предприятия включает несколько программных компонентов, схема взаимодействия которых представлена на рисунке 4
Объектом данной работы являются интерфейсный блок и база данных ИПС в системе документооборота металлургического предприятия
Программно-технический комплекс «Интерфейсный блок» (в дальнейшем ИБ) предназначен для использования в качестве составной части интеллектуальной поисковой системы и отвечает за выполнение следующих функций
- ввод поискового образа запроса пользователем с экрана,
- предварительный анализ запроса, включая когнитивный морфологический анализ, выявление типа запроса, генерация сценария обработки запроса, формирование запросов к БД;
- расчет рейтинга значений слов и ссылок для каждого значения,
- настройку на профиль пользователя и выбор оптимальных режимов отображения,
- синтез страницы результатов выполнения запроса,
- активный диалог с пользователем по выбору лексических и коммуникативных значений, навигации в результатах выполнения запроса, переформулирование запроса к БД,
- сервисные функции
Схема взаимодействия программных блоков ИПС в системе документооборота металлургического предприятия
%
Инженер по знаниям, лексикограф
| Блок инструментальных средств
настройки и сопровождения [ лингвистического обеспечения
Поисковый блок
Интерфейсный блок
Блок диспетчера запросов
Бпок сбора е аяализа
Блок диагностики сбоев
Администратор БД
Пользователь
Администратор системы
Рис 4
В рамках работы был изготовлен прототип, который можно рассматривать как ядро промышленной версии, которая будет содержать ряд функциональных дополнений и технических решений, обеспечивающих распространение на рынке поисковых технологий.
Так как проект носит исследовательский характер в ИПС в системе документооборота металлургического предприятия позволено менять большинство настроек Это сделано для того, чтобы иметь возможность исследовать разные режимы поиска, с одной стороны, и, чтобы удовлетворить самым разнообразным вкусам пользователя, с другой стороны
В третьей главе описана Навигация в пределах лексической онтологии с учетом частотных факторов в задачах патентного поиска
Обычная методика организации лексической информации по алфавитному принципу группирует слова, которые сходны по написанию, но распыляет по всему списку слова со сходными или связанными значениями К сожалению этому нет доступной альтернативы, которая позволяла бы с такой же легкостью пользователям находить слова, а лексикографам работать Однако поиск по ал-фавитно-организованному словарю, как правило, достаточно скучен и отнимает
много времени
Проект ^эгсй^ предлагает более эффективную комбинацию традиционных лексикографических механизмов и возможностей современной техники ЧУопй'йй — БД лексических (семантических) связей, созданная в соответствии с теорией человеческой лексической памяти Английские слова в ней организованы в синонимические ряды, представляющие некоторое понятие, а они, в свою очередь, связаны различными семантическими связями
Предложенные интерфейсы для навигации по онтологиям не являются до конца интуитивными и легкими в использовании Особенно большие затруднения могут возникать при использовании онтологической сети пользователями, имеющими ограниченный словарный запас Это в первую очередь подростки, люди без специального образования Связано это со спецификой организации онтологической сети
Онтологические сети можно использовать для навигации в системах информационного поиска (в том числе в системах документооборота металлургических предприятий) и в системах патентного поиска
В работе для целей навигации предложено использовать три частотных фактора частотная функция встречаемости слова-узла, вес поддерева, число подчиненных узлов (лексических термов) Предложено несколько моделей учета частотных факторов при организации интерфейса Результаты работы планируется использовать в рамках проекта Интеллектуальная поисковая машина
Базовая посылка настоящего исследования заключается в том, что в силу частотных закономерностей большинство пользователей поисковых систем интересует частотная лексика Можно выделить следующие четыре подхода к маркированию лексики, позволяющие организовать частотно-зависимый онтологический интерфейс для различных категорий и информационных потребностей пользователей
1. Маркирование лексики с максимальной частотой использования (для пользователей которых не интересует специфическая, а вполне удовлетворяет общеупотребительная в рамках данного онтологического класса лексика)
2 Маркирование лексики с минимальной частотой использования (для пользователей со специфическими интересами)
3 Маркирование лексики, наиболее часто встречающейся в запросах других пользователей к поисковой системе
4 Маркирование часто используемых путей в лексической онтологии
В зависимости от конечной цели построения частотного интерфейса можно сконструировать различные частотные функции, которые должны обладать следующим основным свойством
х>=у^>Р(х)>=Р(у) (6)
и дополнительными свойствами (при их отсутствии требуется дополнительная нормировка значений частотных функций)
х е [0,1] Е(х) е [0,1]
(7)
F(0) = 0,.F(1) = 1 (8)
В эксперименте были использованы описанные ниже частотные функции
Линейная шкала
Pt=fu (9)
где Ft — частотная функция узла, используемая для индикации, f{ — нормированная частота узла.
Квадратичная «усиливающая» шкала
F,=f,2 (Ю)
Корневая «сглаживающая» шкала
(н)
На рисунке 5 проиллюстрировано усиливающее и сглаживающее действие степенных шкал по сравнению с линейной Интерфейс отображает значения линейной шкалы, средняя кривая— аппроксимацию рассчитанных значений линейной частотной функции гиперболической функцией, нижняя— квадратичной функции, верхняя — корневой функции
Влияние вида частотной функции на интерфейс
Wad ¡Sense__' jF /"j
Й Ьоф an >dividual3 dimensional obiect that has г 0,1037
the bode of mortals (as contrasted with he< 01160 fsence of life ot state of being dead, "10,11S5 |state, "he came lo a bad end" "the i 0,1165 pnded spatial location of something '01341 *i of a natural object "they analysed 0,1341 ict collection of numbers or 8!*тЬо1< 0,1345 jphe) a patt of a person is used to n 0,1455 1 compact mass "the head of a cc 0,1615 \illogical feeling of desire or aver- 01633 ¡get of existing "a point of view 0,1778 ^"his heroism saved a life" 0,2117 t/'potteiji was his life" 0,2117 gtion^bis place "where do fr 0,2261 CpfursljaribaautWpbtiQheiriBS(menи r man the generic ofeof ¡¡^«цтЬц^ег to any h 0,48® ' there a location othennltobfjy^sjfc^^^ou 0,6834 Shave a person who pos$essesgre3nri35i?W^^Bb 1 0000
Рис 5
Под весом поддерева подразумевается величина, зависящая от частотных факторов входящих в него дочерних узлов (гипонимов) Подобно частотным функциям, можно сконструировать множество методов вычисления весов Единственным жестким требование к этим методам, является прямая (а не об-
ратная) зависимость от частот входящих узлов
Далее приводятся несколько вариантов методов Усредненный
п
(12)
где — вес поддерева,
п — число дочерних узлов, ^ — частотная функция дочернего узла г
Основной недостаток этого метода заключается в «размывании» результата за счет служебных (технических) уровней и слабочастотных слов Усредненный с отсечением
п
где Ра — заданный уровень отсечения
Данный метод избавлен от недостатка предыдущего за счет исключения низкочастотных узлов, однако может искажать результат
Эти методы (усредненный и усредненный с отсечением) можно легко модифицировать для получения методов второго типа, добавив в расчет корневой узел Учитывая тривиальность изменений, формула здесь не приводится Максимальный из подчиненных
(П)
Данный метод не вполне точно характеризует вес поддерева, т к не учитывает число узлов, однако в этом случае частотная функция высокочастотного узла служит своего рода маяком при навигации
Максимальный из подчиненных уровнем ниже
WJ = тах (/?,), (14)
где / — уровень узла (расстояние от узла до вершины поддерева)
Метод позволяет экономить ресурсы, ограничивая количество просматриваемых узлов, однако к недостатку предыдущего метода добавляет опасность получить неоправданно низкий вес поддерева в случае большого числа низкочастотных или технических узлов на следующем уровне Комбинированный.
ТГ*!=Рг+ТГ1, (15)
где ^ — вес узла, порождающего поддерево,
IV, — вес поддерева, рассчитанный одним из предыдущих методов
В отличие от предыдущих методов, где нормирование желательно для получения более наглядных индикаторов, для последнего метода нормирование обязательно, т к существует вероятность получения значения, не лежащего в диапазоне [0,1]
Вычисление показателей веса поддерева и предоставление этой информации пользователю позволяет оценивать перспективность направлений навигации по онтологической сети без углубления на каждом из узлов, что также сокращает время переформулирования запроса
Число подчиненных частотных узлов Ы, показывает число «перспективных» узлов в поддереве
(16)
-ЛА определяется как мощность множества Ь лексических термов онтологии, для которых вес поддерева Щ превышает пороговое значение Щ
Аналогичный частотный фактор можно сконструировать на базе частотной функции узла
Этот метод не учитывает общего количества узлов или величину отклонения от порогового значения
Пороговую частоту веса узла можно использовать как частоту отсечения малочастотных узлов в случае принятия гипотезы о том, что пользователей интересует более употребительная лексика
Выбор способов визуализации частотных факторов опирался на следующие соображения
- метод должен быть интуитивно-понятным и не требующим дополнительных разъяснений,
- необходимо компактное и в тоже время полное отображение информации,
- необходимо органичное сочетание способов визуализации с характером информации, представленной в лексических онтологиях и между собой
В итоге были рассмотрены и опробованы на практике различные средства визуализации частотных факторов В результате экспериментирования был сделан вывод, что оптимальным сочетанием визуальных факторов будет следующее
- для отображения частотного фактора лучше всего подходит линейный индикатор (длина индикатора отображает относительную частоту узла, насы-
щенность тона — вес поддерева);
- для отображения порога отсечения лучше подходит сочетание насыщенности и размера шрифта;
— для отображения числа узлов выше уровня отсечения лучше всего подходит цифровой индикатор.
Апробация предложенной интерфейсной когнитивной модели проводилось в приложении Ог^оВго'А'зег, Общий вид приложения представлен на рисунке 6. В левом окне отображается онтологическое дерево с визуализаций частотного фактора, в правом — частотные узды (с частотой выше частоты отссче-ния) выбранного поддерева и их количество.
' (IntoBrowser
□ОДЬду I Setv*> ! S Mich:
Общий вид приложения Ontoßrowser
Mfe
Word
Sense
03
the generic use of the wwd to relet ta an/ human seinç 0.4B53—1
Ipke-jlJ .any g/CA if- ct hufiian being. of women or 0 24b5
9 dead people who ate no longer living; "they buried the dead' sialn people who have been slain Jas in beitle) blood people viewed as members of a group; "we need more free people who are free; "the home of Ihe free and (he bra-living people who ere still fcvincj; "save your pky fbt Hie Irving" business customers collectively; "they have an upper class clien Ei- class people having Ihe same social or economic status; "thi wema women as a class; "it's an insult to American womanfcoi
■ center poirtisalii moderate petss*ns, centrists
El marksthe eustefriert for a p*r!icLjflr product or service; "befor
■ bl£ people who engage in (licit trade - labor a soriidfl class coniptising dnose who do manual ifitjoir ot lat she source at uairted people fiam which wo fagis can
■ cralt people who perform a particularkind Ol skilled work; "h ■ar/rcuthe class of people engaged in growing iocKJ
0.0943 0.0123 0,0809 0,0599 0П48Ё 0.0481 0,0423 0,1103 ÜS225. 0.017S 0.0000
0.01 OS O.OOOQ 0.0101 o.oo7Djj
Word
dead
blcod
free
Irvmg
business
class
populaticr
enemy
sick
blind
brave
community
damped
defeated
deaf
rvonrrjid--.
Total 24
^lOJ XJ
IT
D.094;
o.oaof
0.Ü59I 0,043! 0,5431 0.042Î 0.03® 0.Ш 0Л2К 0,01л 0,013;'
Оли-0.00s;
0,004t
оде; ft
ZJ
Рис. 6
В четвертой главе делается оценка эффективности предложенных диалоговых методов.
Хотя разрабатываемые в рамках проекта ИТТМ технологии могут достаточно эффективно применяться в различных средах, в том числе и в сети Интерне?; наибольшая регулы ж и внос ть ожидается при их применении в рамках систем, ориентированных на специфические группы пользователей, такие как сотрудники предприятий или участники образовательного процесса. Обусловлено это несколькими основными причинами.
Использование технологий разрешения многозначности дает наилучшие результаты, если пользователи хорошо знакомы с терминологией предметной области и имеют четкие информационные потребности. Тем не менее, это не означает неэффективности применения технологий, основанных на использовании лексических значений, для пользователей не вполне хорошо знакомых с предметной областью.
Для эффективной работы с ИПС, построенной на предложенных принципах, пользователи должны быть нацелены на нахождение всех документов, отвечающих их информационной потребности Однако для поисковых систем в сети Интернет большинству пользователей достаточно получить только какую-то часть документов, соответствующих их запросу
Стоимость неэффективного поиска в системах документооборота, патентных системах и т п гораздо выше, чем при поиске в Интернет Как правило, на основании только поиска в публичных сетях не принимается важных для деятельности предприятия решений, однако такие решения могут приниматься по результатам поиска в корпоративных информационных системах или базах данных патентных ведомств
Использование новых поисковых технологий предполагает некоторое изменение стиля работы пользователей с поисковой системой по сравнению с традиционным, на что многие пользователи пойдут неохотно, если их информационные потребности недостаточно важны для них самих
И, наконец, внедрение сложных поисковых технологий дороже, чем использование поисковых систем, основанных исключительно на поиске ключевых слов Это вызвано более высокими требованиями к вычислительной мощности (из-за большего числа индексируемых признаков), а также необходимостью привлечения лингвистов на этапе построения семантических связей, формирования кластеров и т д
Экономический эффект от внедрения системы электронного документооборота определяется различными составляющими для различных категорий работников. Было бы заблуждением считать, что эффект определяется главным образом экономией на заработной плате за счет экономии времени на рутинных операциях Автоматизация документооборота несет организации следующие выгоды
- уменьшение количества претензий, не обработанных в срок, приводящих к выплате неустоек контрагентам или штрафов государству,
- сокращение сроков вывода новой продукции на рынок,
- сокращение времени на рутинную работу с документами сотрудников подразделений, формирующих доход организации, что высвобождает время лиц, принимающих решения, для работы над выработкой решений,
- повышение исполнительской дисциплины — своевременная реализация распоряжений руководителей, как следствие, сокращение времени выпуска новой продукции на рынок
Можно утверждать, что положительный эффект от системы электронного документооборота можно оценить по следующей формуле (носящей иллюстративный характер и не претендующей на точный учет всех факторов)
Я = Р Кр+С-Ы Е + Р КР, (18)
где Я — ожидаемая отдача от внедрения системы электронного документооборота в год,
Р — сумма штрафов и неустоек, выплачиваемая до внедрения системы документооборота в год,
Кг — ожидаемое снижение суммы штрафов и неустоек, в долях, С — средние затраты (зарплата, налоги, накладные расходы) на одного сотрудника в год, N — количество сотрудников,
Е — ожидаемая экономия времени на обработку документов, в долях,
Р — прибыль от выпуска новой продукции в год,
КР — ожидаемое повышение прибыли за счет уменьшения срока
выпуска новой продукции, в долях
Таким образом, для того, чтобы система электронного документооборота окупилась в первый год, общая стоимость владения системой в первый год не должна превышать К
Основной негативный эффект для крупных предприятий (как металлургических, так и других) от недостаточно тщательного патентного поиска, в том числе и в патентных ведомствах иностранных государств заключается в непреднамеренном использовании защищаемых патентом технологий Следствием этого являются длительные судебные разбирательства, по результатам которых выплачиваются крупные штрафы
Второй составляющей выгоды от проведения эффективного патентного поиска может являться прибыль от вывода на рынок инновационного продукта В том случае, если патентный поиск перед началом разработки и производства нового продукта производится недостаточно тщательно, к моменту выхода на рынок может оказаться, что продукт с похожими характеристиками уже предложен конкурентом, что приводит к снижению прибыли и может сделать продукт убыточным
При внедрении механизма разрешения лексической многозначности в ИПС можно рассматривать два фактора влияния на рекламные технологии и экономические характеристики функционирования '^еЬ-ресурсов
1 Повышение таргетинга (попадания к целевой группе) рекламы
2 Повышение эффективности поиска и, как следствие, снижение трафика (объема загружаемой информации) на сайте и во всей сети
Для оценки изменения пертинентности можно принять следующие положения
— первая страница результатов поиска -— некая стандартная пертинент-
ность,
- вторая и последующие страницы — пертинентность увеличивается за счет разрешения многозначности на коэффициент к (со второй страницы начинают работать механизмы фокусировки)
Среднее повышение пертинентности можно вычислить по следующей формуле
Кр^рг Р + ия Р к)1Р, (19)
где Кг — коэффициент повышения пертинентности за счет разреше-
ния многозначности,
Ui — доля пользователей, просматривающих только первую страницу результатов поиска, Р —исходная пертинентность,
UN — доля пользователей, просматривающих не только первую страницу результатов поиска
Тогда с учетом собранной статистики1
КР={0,58 Р + 0,42 Р А)/Р = 0,58+ 0,42 5,53«2,9
Известно, что средняя эффективность рекламы (оцененная как число пользователей перешедших по ссылке по отношению к общему числу) составляет для традиционной поисковой системы 1% За счет улучшения таргетинга рекламы среднее число заинтересованных пользователей увеличится пропорционально повышению пертинентности и составит
CTR' = КР 1% = 2,9%
То есть, с внедрением механизма разрешения лексической многозначности ключевых слов в ИПС, эффективность баннерной рекламы в среднем возрастет в 2,9 раз
Коэффициент сокращения обращений поисковых систем равен 2,9 (равен среднему повышению пертинентности).
Можно рассчитать общий эффект сокращения трафика в пределах всей
сети
^сокр = Кнав Кпс Кзапр - Ктв Кпс Кэаг1р I Кр, (20)
где Ксокр — общий эффект сокращения трафика,
Кнт — доля навигационных сервисов в общем трафике, Кпс — доля поисковых систем в трафике навигационных сервисов, Ктпр — доля многозначных запросов по одному слову среди общего числа запросов к поисковым системам
Таким образом, с учетом имеющейся статистики по данным показателям, в результате применения технологий разрешения многозначности в крупнейших поисковых системах общее сокращение трафика в пределах всей сети
1 Следует отметить, что многозначность рассчитывалась по именам существительным, вошедшим в данную выборку, и учитывала, в том числе, оттенки значений Реальная многозначность всех слов языка может оказаться ниже (особенно, если в расчет принимать не только имена существительные)
Интернет может составить
Ксокр = 0,40 0,80 0,42-0,40 0,80 0,42/2,9 = 0,0881 = 8,81%
ЗАКЛЮЧЕНИЕ
В настоящей работе произведено исследование методов повышения качества поисковой составляющей в системах документооборота в металлургии и в системах патентного поиска
В ходе выполнения работы выяснилось, что большинство опубликованных исследований ориентировано на развитие традиционных подходов к созданию ИПС, в то же время исследования, направленные на использование механизмов разрешения многозначности или построения интерактивных поисковых систем практически отсутствуют
Данная работа, в свою очередь, была направлена на исследование различных диалоговых методов повышения качества поиска, основанных на интерактивном изменении и уточнении поисковых запросов, а также проведена апробация диалоговых моделей фокусировки, расширения поиска и моделей частотного интерфейса формулирования запросов с использованием онтологий
Созданные в результате работы модели позволили убедиться в правильности сделанных предположений о применимости интерактивного взаимодействия с пользователями для повышения качества поиска в системах документооборота металлургических предприятий Созданное приложение-прототип продемонстрировало применимость онтологий в совокупности с частотными оценками для формулирования поисковых запросов при патентном поиске
Проделанная работа привела к следующим результатам и выводам
1 Выполнена формальная постановка задачи повышения качества поиска путем переформулирования запросов Формализация охватывает следующие способы фокусировки запроса тематические кластеры, словосочетания, вопросы, коммуникативные кластеры, и следующие способы расширения полноты поиска тематические кластеры, словосочетания, вопросы, коммуникативные кластеры, и следующие способы расширения полноты поиска словообразовательная парадигма, синонимы, аббревиатуры и онтологии Введены формальные критерии качества поиска на основе понятий пертинентности и мощности множества результатов
2 На основе выполненной формальной постановки задачи поиска предложен алгоритм построения диалоговой поисковой системы, использующей технологии разрешения многозначности
3 Разработана реляционная модель данных, позволяющая описывать структуру текстов с целью улучшения возможности поиска, и прототип поисковой системы, в пользовательском интерфейсе которой были использованы механизмы разрешения многозначности
4 Разработаны общие требования к частотным функциям, используемым в частотном интерфейсе Разработано несколько частотных функций, проанализированы отношения между ними Разработан метод оценки перспективности навигации по древовидной структуре на основе веса поддерева Введены не-
сколько вариантов таких методов и проанализированы их относительные преимущества и недостатки
5 Проведено исследование возможностей использования частотных факторов в организации диалога информационной системы с пользователем для облегчения использования сложных механизмов поиска Сформулированы подходы, позволяющие организовать частотно-зависимый онтологический интерфейс для различных категорий и информационных потребностей пользователей Разработано специализированное приложение-прототип для оценки возможностей применения различных частотных факторов и способов их визуализации
6 Сделан вывод о наибольшей эффективности предлагаемых механизмов при применении их в информационных системах промышленных предприятий (в том числе металлургических), а также в системах патентного поиска, т е при использовании специалистами в предметной области (хорошо владеющих специальной лексикой)
7 Результаты исследований применяются в проекте Интеллектуальной поисковой машины, в учебном процессе МИСиС по курсу «Лингвистические основы информатики», могут быть применены в системах документооборота металлургического предприятия, в системах патентного поиска, а также других информационных системах
По теме диссертации опубликованы следующие работы:
1 Поляков В Н, Бодров Д А, Точин А В Интерактивные методы фокусировки и Расширения поиска в интеллектуальной поисковой машине // Компьютерная лингвистика и интеллектуальные технологии Тр Международного семинара Диалог'2002 (Протвино, 6-11 июня 2002 г) В 2 т. / Под ред А С Нариньяни —М Наука, 2002 Т 2 Прикладные проблемы Стр 438-449
2 Бодров Д А, Поляков В Н Проблемы создания эффективных поисковых машин (обзорная статья) // Обработка текста и когнитивные технологии Сборник (Вып 7)/Под ред Соловьева В Д —Казань 2002 Стр 8-55
3 Поляков В Н, Бодров Д А Навигация в пределах лексической онтологии с учетом частотных факторов // Компьютерная лингвистика и интеллектуальные технологии Тр Международного семинара Диалог'2003 (Протвино, 11-16 июня 2003 г) / Под ред И М Кобозевой, Н И Лауфер, В П Селегея — М Наука, 2003 Стр 554-568.
4 Bodrov D А, Polyakov V N Frequency Factors For Navigation through Lexical Ontology // Proceedings of the International Workshop Speech and Computer (SPECOM'2003), Moscow, Russia, October 2003 — M 2003 Стр 77-87
5 Бодров Д А,КожитовС Л, Поляков В Н Автоматизация текстового оборота на металлургическом предприятии и новые поисковые технологии // Перспективные технологии и оборудование для материаловедения и наноэлек-троники Материалы семинара / Под ред проф Л. В Кожитова, проф В К Карпасюка — М МГИУ, 2006 — 741 с
6 Бодров Д А, Кожитов С Л, Поляков В Н Задачи интерактивной обработки поисковых запросов в теоретико-множественной постановке // Известия Саратовского университета Новая серия Серия «Математика Механика Информатика» — Саратов 2007 Том 7 Выпуск 1 Стр 78-83
Подписано в печать 24 09 2007 Формат 60x90/16 Бумага офсетная П л 1,0 Тираж 100 экз Заказ № 1802
агавшдаисконского ГОСУДАРСТВЕННОГО ГОРНОГО УНИВЕРСИТЕТА
Лицензия па издательскую деятельность ЛР № 062809 Код издательства 5X7(03)
Отпечатано в типографии Издательства Московского государственного горного университета
119991 Москва, ГСП-1, Ленинский проспект, 6; Издательство МГГУ; тел (495) 236-97-80; факс (495) 956-90-40
Оглавление автор диссертации — кандидата технических наук Бодров, Даниил Александрович
ВВЕДЕНИЕ.
ГЛАВА 1. ПОЛНОТЕКСТОВЫЙ ДОКУМЕНТООБОРОТ НА ПРОМЫШЛЕННОМ ПРЕДПРИЯТИИ МЕТАЛЛУРГИЧЕСКОГО КОМПЛЕКСА И ПРОБЛЕМЫ СОЗДАНИЯ ЭФФЕКТИВНЫХ ПОИСКОВЫХ МАШИН.
1.1. Характеристика полнотекстового документооборота на металлургическом предприятии.
1.2. Архитектура систем документооборота и роль поисковой составляющей.
1.3. Основные принципы работы поисковых систем.
1.3.1. Поисковые системы и базы данных.
1.3.2. Поиск информации и поиск данных.
1.3.3. Классические информационно-поисковые системы.
1.3.4. Критерии релевантности и пертинентности.
1.3.5. Оценка эффективности поиска.
1.4. Проблемы и пути развития ИПС.
1.4.1. Лингвистические проблемы организации ИПС.
1.4.2. Направления развития ИПС.
1.5. Методы преобразования запросов.
1.5.1. Расширение запросов (добавление ключевых слов).
1.5.2. Обратная связь как средство повышения релевантности.
1.6. Поведение пользователей.
1.7. Представление результатов поиска.
1.8. Сортировка результатов поиска.
1.8.1. Определение релевантности по рейтингу.
1.8.2. Другие подходы к сортировке.
1.8.3. Группировка по лексическому значению.
1.9. Интерактивные методы преобразования запросов.
1.9.1. Фокусировка запроса.
1.9.2. Расширение полноты поиска.
1.9.3. Лексические онтологии.
1.10. Поиск по контексту.
1.11. Интерфейсные (визуальные) модели взаимодействия пользователей с ИПС. 51 1.11.1. Тематические сети TopNet.
1.11.2. Самоорганизующиеся тематические карты TopSOM.
1.12. Патентный поиск.
1.12.1. Традиционный поиск патентной информации.
1.12.2. Поиск патентной информации в сети Интернет.
1.13. Выводы.
ГЛАВА 2. ДИАЛОГОВЫЕ МЕТОДЫ ФОКУСИРОВКИ И РАСШИРЕНИЯ ПОИСКА В СИСТЕМАХ ДОКУМЕНТООБОРОТА НА ПРЕДПРИЯТИИ МЕТАЛЛУРГИЧЕСКОГО КОМПЛЕКСА.
2.1. Лингвистические технологии, основанные на лексическом значении.
2.2. Сортировка результатов поиска.
2.3. Интерактивные методы преобразования запросов.
2.3.1. Фокусировка запроса.
2.3.2. Расширение.
2.3.3. Переформулирование.
2.3.4. Лексические онтологии.
2.4. Формальная постановка задачи.
2.4.1. Задача поиска в терминах множеств.
2.4.2. Задача поиска как задача принятия решений.
2.4.3. Диалоговый алгоритм решения задачи поиска.
2.5. Реализация ИПС в системе документооборота металлургического предприятия
2.5.1. Преимущества над традиционными поисковыми системами.
2.5.2. Алгоритмы работы с интерфейсным (диалоговым) блоком.
2.5.3. Структура программного обеспечения.
2.5.4. Настройки ИПС.
2.6. Выводы.
ГЛАВА 3. НАВИГАЦИЯ В ПРЕДЕЛАХ ЛЕКСИЧЕСКОЙ ОНТОЛОГИИ С УЧЕТОМ ЧАСТОТНЫХ ФАКТОРОВ В ЗАДАЧАХ ПАТЕНТНОГО ПОИСКА.
3.1. Проект WordNet.
3.2. Использование онтологий для переформулирования и вербализации запросов в поисковых системах.
3.3. Частотные факторы.
3.3.1. Частотная функция узла.
3.3.2. Вес поддерева.
3.3.3. Число подчиненных частотных узлов.
3.4. Способы визуализации частотных факторов.
3.5. Обсуждение результатов.
3.6. Выводы.
ГЛАВА 4. ОЦЕНКА ЭФФЕКТИВНОСТИ ПРЕДЛОЖЕННЫХ ПОДХОДОВ.
4.1. Целесообразность применения новых поисковых технологий в системах документооборота.
4.2. Эффективность систем документооборота.
4.3. Эффект от повышения качества патентного поиска.
4.4. Влияние новых возможностей поиска на рекламу в сети Интернет.
4.5. Выводы.
Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Бодров, Даниил Александрович
Последнее десятилетие ознаменовано феноменальным прогрессом в области телекоммуникаций, информатики, вычислительной техники, что в свою очередь вызвало бурный рост объемов информации, хранящейся в электронном виде. При этом, если крупные массивы структурированных данных накапливаются уже десятилетия, то только сейчас объем текстовых электронных документов многократно превзошел объемы данных.
В настоящий момент большая часть документов на современном металлургическом предприятии, а также в других областях деятельности хранится именно в электронном виде. На предприятиях наиболее широко распространены следующие типы электронных документов: договора, письма, предложения, приказы, конструкторская документация, различные технологические инструкции, бухгалтерские документы.
Месячный оборот текстовых документов крупного металлургического предприятия может составлять десятки тысяч документов. Основные категории документов, это:
- нормативно-правовая база;
- организационно-распорядительные документы;
- внутренний документооборот;
- взаимодействие с контрагентами.
Документы хранятся в электронном виде как в различных информационных системах (справочные системы, системы автоматизации документооборота и проектирования), так и в виде отдельных файлов. При этом следует отметить, что, как и в информационных системах, так и в средствах поиска файлов, как правило, присутствует только поиск по ключевым словам, зачастую даже без учета морфологии.
Очень остро стоит вопрос поиска по полнотекстовой ганструкторско-технологической документации в проектных организациях металлургической отрасли, например, таких как ОАО «Гипромез». Переход на новую систему стандартизации в связи со вступлением в ВТО ставит вопрос о кросс-лингвистическом поиске и создании двуязычной терминологической системы, обладающей современными средствами поиска и навигации.
Прогресс в области телекоммуникаций, снижение стоимости передачи и хранения данных вызвали бурный рост сети Интернет и объемов информации в ней, а также сделали возможным организацию удаленного доступа к различным библиотечным ресурсам, таким как собственно электронные библиотеки, различные подборки статей, базы знаний и т. д.
Такой рост объема информации, происходящий одновременно с ростом информационных потребностей пользователей и общей тенденцией к понижению требований к их квалификации в области организации поискового процесса, ставит старую проблему эффективного информационного поиска остро как никогда ранее.
Еще одной областью применения полнотекстовых поисковых машин является патентный поиск. Сейчас в Интернет доступен поиск по крупнейшим базам данных патентов России, США, Европы. Однако современные системы предоставляют поиск только по ключевым словам, то есть для того, чтобы убедиться в новизне своей идеи автор вынужден перебирать различные варианты описания патента, самостоятельно подбирая синонимы, комбинируя ключевые слова. Это нелегко проделать даже для родного языка, поиск же на других языках становится еще более затруднительным.
Необходимо отметить, что, несмотря на непрерывно идущие исследования в области совершенствования поисковых технологий (о чем косвенно может свидетельствовать постоянное появление новых поисковых машин (ПМ) в сети Интернет), нельзя сказать, что поставленная проблема близка к своему решению.
Согласно многочисленным исследованиям, более 50 процентов пользователей заканчивают сеанс работы с поисковой системой на первой же странице, просматривая обычно 10-20 ссылок. При этом, как правило, лишь 2-3 ссылки содержат действительно полезную для пользователя информацию. Можно предположить, что значительная доля этих пользователей уходят с сайта неудовлетворенными результатами поиска. Неэффективный поиск в Интернет приводит к огромным расходам на лишний трафик, который несут как пользователи (в лице предприятий, которые оплачивают использование Интернет в рабочих целях), так и владельцы сайтов, на оборудование которых создается непроизводительная нагрузка такими пользователями. По различным оценкам 50-70% навигационного трафика в Интернет приходится на просмотр ошибочно найденных страниц.
Эта проблема порождает другую. Доход многих информационных ресурсов зависит от эффективности демонстрируемой на их страницах рекламы, таким образом, реклама, продемонстрированная не тому пользователю, означает убытки или дополнительные расходы рекламодателя.
Одной из причин, не позволяющих изменить эту ситуацию, является то, что большинство исследований и способов совершенствования ПМ сфокусировано на развитии традиционных (разработанных еще до современного уровня развития вычислительной техники и проникновения ее во все сферы деятельности) способов индексации текстов и ранжирования результатов поиска.
Итак, в настоящий момент для поисковых машин очевидны следующие области применения:
- поиск в Интернет;
- поиск в системах документооборота предприятий;
- патентный поиск;
- поиск в хранилищах текстовой информации (новости, научные ресурсы).
Таким образом, актуальность работы обуславливается огромным количеством доступной информации и отсутствием адекватных инструментов ее структурирования, поиска и навигации. К настоящему моменту накоплен достаточный объем знаний в области компьютерной лингвистики, поисковых технологий, разработки поисковых машин, построения пользовательских интерфейсов, кроме того, производительность современной вычислительной техники многократно превосходит ту, которая была в момент начала разработки большинства имеющихся поисковых систем. Это позволяет приступить к созданию поисковых систем, основанных на качественно новых принципах, в частности на интерактивном взаимодействии с пользователями через удобные интерфейсы.
Цель работы заключается в исследовании различных диалоговых (интерфейсных) механизмов поиска, основанных на изменении поисковых запросов, разработка и апробация диалоговых моделей фокусировки и расширения поиска в системах документооборота металлургических предприятий, а также исследование возможностей применения частотных зависимостей для помощи пользователям в формулировании запросов при патентном поиске.
Для достижения поставленных целей были решены следующие задачи:
- проанализированы имеющиеся подходы к организации интерфейса поисковых систем, выявлены их узкие места и направления развития;
- предложены диалоговые решения для повышения эффективности поиска, основанные на методах фокусировки, расширения и переформулирования запроса;
- предложены диалоговые решения для повышения эффективности поиска, основанные на частотных моделях;
- предложена формальная постановка задач расширения и фокусировки поиска, создано программное обеспечение для их решения;
- проведена оценка эффективности предложенных методов разрешения многозначности, фокусировки поиска, навигации по онтологиям при использовании в системах документооборота металлургических предприятий, патентного поиска, сети Интернет.
Научная новизна работы заключается в:
- формальной постановке задачи расширения и фокусировки поиска в интерфейсном модуле поисковой машины, основанной на использовании лексического значения;
- интерфейсной модели поисковой машины, основанной на технологиях разрешения многозначности;
- подтверждении возможности и эффективности применения частотных показателей при работе с лексическими онтологиями;
- математическом описании различных частотных факторов для использования в пользовательском интерфейсе.
Практическая ценность работы заключается в следующем:
- выполнена формальная постановка задачи построения пользовательского интерфейса, основанного на технологиях разрешения многозначности, и разработке диалогового алгоритма фокусировки и расширения запроса;
- создана математическая модель частотных факторов при навигации по онтологической системе, которая позволяет строить пользовательские интерфейсы для различных сфер применения;
- использование результатов исследования при построении информационно-поисковой составляющей систем полнотекстового документооборота промышленного предприятия в металлургическом комплексе, должно привести к сокращению потерь и экономии оборотных средств;
- разработаны новые интерфейсных принципы с использованием лексических онтологии, которые позволяют строить более эффективные системы патентного поиска
- использование новых интерфейсных моделей при создании информационно-поисковых систем в Интернет, имеет потенциал сокращения общего объема передаваемой информации на 10%;
- использование разрешения многозначности может повысить отдачу от рекламы при размещении платных ссылок в результатах поиска в сети Интернет в 2-3 раза за счет лучшей фокусировки.
Методы исследования.
При выполнении работы использовались методы:
- алгоритмического моделирования;
- структурного программирования;
- реляционная модель построения баз данных;
- метод частотного анализа текстов;
- метод частотного анализа запросов к поисковым системам;
- методы семантического анализа текстов, основанные на разрешении лексической многозначности;
- методы системного анализа и принятия решений.
Результаты работы были практически реализованы в виде программных прототипов пользовательских интерфейсов. Методы организации интерфейса к лексической онтологии на частотных принципах приняты к внедрению в учебном процессе МИСиС для обучения по курсу «Лингвистические основы информатики».
Работа производилась по следующим направлениям специальности 05.13.01:
- теоретико-множественный и теоретико-информационный анализ сложных систем;
- методы и алгоритмы интеллектуальной поддержки при принятии управленческих решений;
- визуализация, трансформация и анализ информации на основе компьютерных методов обработки информации.
Апробация работы. Результаты работы докладывались на следующих научных конференциях:
- Международный семинар Диалог'2002, Протвино, 6-11 июня 2002 г.;
- Когнитивное моделирование в лингвистике'2002, п. Дивноморское, сентябрь
2002 г.;
- International Workshop Speech and Computer (SPECOM'2003), Москва, 27-29 октября 2003 г.;
- Международный семинар Диалог'2003, Протвино, 11-16 июня 2003 г.
Работа выполнялась при частичной поддержке Российского Фонда Фундаментальных Исследований (грант РФФИ № 05-07-90939, «Система онтологического типа для поиска и обработки текстовой информации»).
Результаты работы приняты к внедрению и использованию при создании информационно-аналитических систем разработки ЗАО «Сфера».
Теоретические вопросы диссертации освещаются в следующих научных публикациях:
Поляков В.Н., Бодров Д. А., Точин А. В. Интерактивные методы фокусировки и Расширения поиска в интеллектуальной поисковой машине // Компьютерная лингвистика и интеллектуальные технологии: Тр. Международного семинара Диалог'2002. (Протвино, 6-11 июня 2002 г.): В 2 т. / Под ред. А. С. Нариньяни.— М.: Наука, 2002. Т. 2: Прикладные проблемы. Стр. 438-449.
Бодров Д. А., Поляков В.Н. Проблемы создания эффективных поисковых машин (обзорная статья) // Обработка текста и когнитивные технологии: Сборник (Вып. 7) / Под ред. Соловьева В. Д. — Казань: 2002. Стр. 8-55.
Поляков В. Н., Бодров Д. А. Навигация в пределах лексической онтологии с учетом частотных факторов // Компьютерная лингвистика и интеллектуальные технологии: Тр. Международного семинара Диалог'2003. (Протвино, 11-16 июня 2003 г.) / Под ред. И. М. Кобозевой, Н. И. Лауфер, В. П. Селегея. — М.: Наука, 2003. Стр. 554-568.
Bodrov D. A., Polyakov V. N. Frequency Factors For Navigation through Lexical Ontology// Proceedings of the International Workshop Speech and Computer (SPECOM'2003), Moscow,
Russia, October 2003. — M: 2003. Стр. 77-87.
Бодров Д. А., Кожитов С. J1., Поляков В. Н. Автоматизация текстового оборота на металлургическом предприятии и новые поисковые технологии // Перспективные технологии и оборудование для материаловедения и наноэлектроники: Материалы семинара / Под ред. проф. Л. В. Кожитова, проф. В. К. Карпасюка. — М.: МГИУ, 2006 — 741 с.
Бодров Д. А., Кожитов С. Л., Поляков В. Н. Задачи интерактивной обработки поисковых запросов в теоретико-множественной постановке. // Известия Саратовского университета. Новая серия. Серия «Математика. Механика. Информатика» — Саратов: 2007. Том 7. Выпуск 1. Стр. 78-83.
Структура диссертации. Работа состоит из введения, четырех глав, заключения, списка литературы.
Заключение диссертация на тему "Диалоговые алгоритмы поиска и навигации в автоматизированной системе текстового документооборота металлургического предприятия"
4.5. Выводы
В данной главе показано, почему предложенные технологии поиска направлены в первую очередь на использование в информационных системах промышленных предприятий, и сделаны оценки эффективности предложенных методов повышения качества поиска и их влияние на следующие области:
- системы электронного документооборота металлургических предприятий;
- системы патентного поиска;
- системы контекстной рекламы в сети Интернет;
- непроизводительный трафик в сети Интернет.
В главе предложена методика оценки эффективности систем документооборота на металлургическом предприятии.
В области патентного обозначены основные риски предприятия из-за отсутствия качественного патентного поиска и факторы влияния эффективности поиска на хозяйственную деятельность предприятия.
Для обоснования применимости предложенных механизмов в сети Интернет предложена методика вычисления повышения пертинентности результатов поиска и сделана ее численная оценка.
На основе полученной оценки повышения качества поиска произведен анализ ее влияния на эффективность баннерной рекламы на поисковых системах и общий объем трафика в сети Интернет.
ЗАКЛЮЧЕНИЕ настоящей работе произведено исследование методов повышения качества поисковой составляющей в системах документооборота в металлургии и в системах патентного поиска.
В ходе выполнения работы выяснилось, что большинство опубликованных исследований ориентированы на развитие традиционных подходов к созданию ИПС, в то же время исследования, направленные на использование механизмов разрешения многозначности или построения интерактивных поисковых систем практически отсутствуют. Кроме того, большинство исследований направлено на поиск путей повышения качества автоматического поиска, хотя в случаях нечеткого формулирования поисковых запросов целесообразнее использовать интерактивные методы уточнения запроса.
Данная работа, в свою очередь, была направлена на исследование различных диалоговых (интерфейсных) методов повышения качества поиска, основанных на интерактивном изменении и уточнении поисковых запросов, а также проведена апробация диалоговых моделей фокусировки, расширения поиска и моделей частотного интерфейса формулирования запросов с использованием онтологии.
Созданные в результате работы модели позволили убедиться в правильности сделанных предположений о применимости интерактивного взаимодействия с пользователями для повышения качества поиска в системах документооборота металлургических предприятий. Созданное приложение-прототип продемонстрировало применимость онтологий в совокупности с частотными оценками для формулирования поисковых запросов при патентном поиске.
Проделанная работа привела к следующим результатам и выводам:
1. Выполнена формальная постановка задачи повышения качества поиска путем переформулирования запросов. Формализация охватывает следующие способы фокусировки запроса: тематические кластеры, словосочетания, вопросы, коммуникативные кластеры, и следующие способы расширения полноты поиска: словообразовательная парадигма, синонимы, аббревиатуры и онтологии. Введены формальные критерии качества поиска на основе понятий пертинентности и мощности множества результатов.
2. На основе выполненной формальной постановки задачи поиска предложен алгоритм построения диалоговой поисковой системы, использующей технологии разрешения многозначности.
3. Разработана реляционная модель данных, позволяющая описывать структуру текстов с целью улучшения возможности поиска, и прототип поисковой системы, в пользовательском интерфейсе которой были использованы механизмы разрешения многозначности.
4. Разработаны общие требования к частотным функциям, используемым в частотном интерфейсе. Разработано несколько частотных функций, проанализированы отношения между ними. Разработан метод оценки перспективности навигации по древовидной структуре на основе веса поддерева. Введены несколько вариантов таких методов и проанализированы их относительные преимущества и недостатки.
5. Проведено исследование возможностей использования частотных факторов в организации диалога информационной системы с пользователем для облегчения использования сложных механизмов поиска. Сформулированы подходы, позволяющие организовать частотно-зависимый онтологический интерфейс для различных категорий и информационных потребностей пользователей. Разработано специализированное приложение-прототип для оценки возможностей применения различных частотных факторов и способов их визуализации, с помощью которого опробованы различные способы визуализации частотных факторов, проанализированы их относительные преимущества и недостатки.
6. Сделан вывод о наибольшей эффективности предлагаемых механизмов при применении их в информационных системах промышленных предприятий (в том числе металлургических), а также в системах патентного поиска, т. е. при использовании специалистами в предметной области (хорошо владеющих специальной лексикой).
7. Результаты исследований применяются в проекте Интеллектуальной поисковой машины, в учебном процессе МИСиС по курсу «Лингвистические основы информатики», могут быть применены в системах документооборота металлургического предприятия, в системах патентного поиска, а также других информационных системах.
Библиография Бодров, Даниил Александрович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. ММК вводит электронные средства документооборота— http://www.meta!-trade.ru/news/2005/03/30/news22218.html, 31.03.2005.
2. Новосибирский металлургический завод внедрил электронный документооборот — http://www.upscalesoft.ru/pages/press/news/301006.html, 10.11.2006.
3. Система электронного документооборота Нестор: архитектура — http://www.memsys.ru/info.php?id=87,23.02.2006.
4. Андреев В. Этот многообразный мир документооборота.— http://www.mdi.ru/library/analit/etotmnogmir.html, 23.02.2006.
5. Функциональная архитектура системы корпоративного электронного документооборота — http://www.fact400.ru/funcarc.htm, 23.02.2006.
6. Системы электронного управления документами: обзор, классификация и оценка возврата от внедрения — http://www.mdi.ru/library/analit/sysel.html, 23.02.2006.
7. Van Rijsbergen, С. J. Information Retrieval, 2nd edition— Dept. of Computer Science, University of Glasgow, 1979
8. Максимович Г. Ю., Романенко А. Г., Самойлюк О. Ф. Информационные системы: Учебное пособие / Под общ. ред. К. И. Курбакова— М.: Издательство Российской экономической академии, 1998.
9. Капустин В. А. Попытка создать инструментарий для экспериментов с Z39.50 — http://www.z.nw.ru, 20.08.2002.
10. Поляков В.Н. Интеллектуальная поисковая машина. Концептуальный проект. // Труды Казанской школы по компьютерной и когнитивной лингвистике. TEL-2000. Вып. 5. Казань. 17-20 октября. 2000 г. — Казань. Изд-во Сэлэт, 2000. Стр. 87-119.
11. Ed Greengrass. Information Retrieval: A Survey— cite-seer.nj.nec.com/greengrass00information.html, 10.05.2002
12. GudivadaV. N. Information search on World Wide Web // Computer Weekly. 1997. №35.
13. Jansen В., Pooch U. A Review of Web Searching Studies and a Framework for Future
14. Research. // Journal of the American Society of Information Science. 2001. V. 52. № 3.
15. Jansen В., Spink A., Saracevic T. Real Life, Real Users, and Real Needs: A Study and Analysis of User Queries on the Web // Information Processing and Management. 2000. V. 36. № 2.
16. Lee U., Liu Z., and Cho J. Automatic identification of user goals in web search. Technical report // UCLA Computer Science. 2004.
17. Lee U., Liu Z., and Cho J. Analysis of User Web Traffic with a Focus on Search Activities — http://citeseer.ist.psu.edu/724934.html, 01.09.2006
18. Rose D. E. and Levinson D. Understanding user goals in web search // Proceedings of WWW 2004, New York, USA, May 17-22,2004 — 2004.
19. Brin S., Page L. The Anatomy of a Large-Scale Hypertextual (Web) Search Engine. // Computer Networks and ISDN Systems. 1998. V. 30. № 1-7.
20. Brin S. and oth. The PageRank Citation Ranking: Bringing Order to the Web. Technical report / Stanford University. — 1998.
21. Finkelstein L. et al. Placing Search in Context: The Concept Revisited // In Proceedings of the Tenth International World Wide Web Conference, 2001.
22. Поляков В. H. Новости и тенденции поисковых технологий (Функциональные возможности ПС) — http://www.ricn.ru/neiron/material/489/, 14.10.2002.
23. Визуализация информационных массивов — http://research.metric.ru/visual.asp, 10.10.2002.
24. Марчук Ю.Н. Основы компьютерной лингвистики. Москва, 2000.
25. Поляков В.Н., Павлов О.А. Частотный метод выявления устойчивых словосочетаний // Труды Казанской школы по компьютерной и когнитивной лингвистике. TEL-2001. Вып. 6. Казань. 22-28 октября. 2001 г. Казань. 2001.
26. Конноли Т., Бегг К., Страчан А. Базы данных: проектирование, реализация и сопровождение. Теория и практика, 2-е изд.: Пер. с англ.: Уч. пос. — М.: Издательский дом «Вильяме», 2000.
27. Рыков А. С. Методы системного анализа: Многокритериальная и нечеткая оптимизация, моделирование и экспертные оценки. — М.: НПО «Издательство "Экономика"», 1999.
28. Herrera-Viedma Е. Modeling the retrieval process for an information retrieval system using an ordinal fuzzy linguistic approach // Journal of the American Society of Information Science. 2001. V. 52. № 6, pp. 11-26.
29. Giacomo Piccinelli, Marco Casassa Mont. A Type 2 Fuzzy Set Based Model for Adaptive Information Retrieval — citeseer.ist.psu.edu/piccinelli98type.html, 20.12.2005.
30. Padmini Srinivasan, Miguel E. Ruiz, Donald H. Kraft, Jianhua Chen. Vocabulary mining for information retrieval: rough sets and fuzzy sets. // Information Processing and Management. 2001. V. 37, №1.
31. George A. Miller. The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information // The Psychological Review. 1956. V. 63, pp. 81-97.
32. Hick W.E. On the rate of gain information // Quarterly Journal of Experimental Psychology. 1959. V. 4. № 1.
33. Miller, George A., Richard Beckwith, Christiane Fellbaum, Derek Gross and Katherine J. Miller. Introduction to WordNet: an on-line lexical database. // International Journal of Lexicography 3 (4), 1990, pp. 235-244.
34. Brezeale, Darin. The Organization of Internet Web Pages Using WordNet and Self-Organizing Maps. Masters thesis, University of Texas at Arlington, August 1999.
35. Chakravarthy, A. S. and К. B. Haase. NetSerf: using semantic knowledge to find Internet information. In: Proceedings of the 18th Annual ACM SIGIR Conference on Research and Development in Information Retrieval, Seattle, 1995.
36. Martin, Philippe. Using the WordNet Concept Catalog and a Relation Hierarchy for Knowledge Acquisition In: Proceedings of Peirce'95,4th International Workshop on Peirce, University of California, Santa Cruz, August 1995.
37. T. Andreasen,, J. Fischer Nilsson, & H. Erdman Thomsen: Ontology-based Querying, in H.L. Larsem et al. (eds.) Flexible Query Answering Systems, Flexible Query Answering Systems, Recent Advances, Physica-Verlag, Springer, 2000. pp. 15-26.
38. Gonzalo, Julio, Felisa Verdejo, Irina Chugur and Juan Cigarran. Indexing with Word-Net synsets can improve text retrieval. In: Proceedings of the COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems, Montreal, 1998.
39. Mandala, Rila, Tokunaga Takenobu and Tanaka Hozumi. The use of WordNet in information retrieval. In: Proceedings of the COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems, Montreal, 1998.
40. Mihalcea, Rada and Dan I. Moldovan. extended WordNet: progress report. In: Proceedings of the NAACL 2001 Workshop on WordNet and Other Lexical Resources, Pittsburgh, June 2001.
41. Mihalcea, Rada and Dan I. Moldovan. A WordNet-Based Interface to Internet Search Engines In: Proceedings of FLAIRS-98, May 1998, Sanibel Island, FL
42. Ontology Usage and Application. //Applied Semantics. Technical Whitepapers. 2003.
43. Richardson, R. and Alan F. Smeaton. Using WordNet in a Knowledge-Based Approach to Information Retrieval. Working paper CA-0395, School of Computer Applications, Dublin City University, Dublin, 1995.
44. Vorhees, Ellen M. Using WordNet for text retrieval. In: Fellbaum, Christiane, ed.,
45. WordNet: An Electronic Lexical Database, MIT Press, May 1998.
46. Karov, Yael and Shimon Edelman. Learning similarity-based word sense disambiguation from sparse data. In: Proceedings of the 4th Workshop on Very Large Corpora, Copenhagen, 1996.
47. Kwong, Oi Yee. Word sense disambiguation with an integrated lexical resource. In: Proceedings of the NAACL 2001 Workshop on WordNet and Other Lexical Resources, Pittsburgh, June 2001.
48. Li, Xiaobin, Stan Szpakowicz and Stan Matwin. A WordNet-based algorithm for word sense disambiguation. In: Proceedings of the 14th International Joint Conference on Artificial Intelligence, Montreal, 1995, pp. 1368-1374.
49. Lin, Dekang. Using syntactic dependency as local context to resolve word sense ambiguity. In: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics, Madrid, 1997.
50. Mihalcea, Rada and Dan I. Moldovan. Word sense disambiguation based on semantic density. In: Proceedings of the COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems, Montreal, 1998.
51. Nastase, Vivi and Stan Szpakowicz. Word sense disambiguation in Roget's thesaurus using WordNet. In: Proceedings of the NAACL 2001 Workshop on WordNet and Other Lexical Resources, Pittsburgh, June 2001.
52. Ng, Hwee Tou. Exemplar-based word sense disambiguation: some recent improvements. In: Proceedings of the 2nd Conference on Empirical Methods in NLP (EMNLP-2), Providence, August 1997.
53. Wiebe, Janyce, J. Maples, L. Duan and Rebecca Bruce. Experience in WordNet sense tagging in the Wall Street Journal. In: Proceedings of the ACL SIGLEX Workshop on Tagging Text with Lexical Semantics: Why, What and How? Washington, April 1997.
54. Жучков А. В. и др. Новые технологии для понятийных сетей, создаваемых в рамках МНТП «Вакцины нового поколения и диагностические системы будущего» — http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2003/part6/ZATGS, 01.04.2006
55. Elena Garcia and Miguel-Angel Sicilia. User Interface Tactics in Ontology-Based Information Seeking. // PsychNology Journal, 2003 V. 1, № 3,242 255
56. Fensel, D.; Decker, S.; Erdmann, M.; Studer, R. Proceedings of the 11th Banff Knowledge Acquisition for Knowledge-Based System Workshop (KAW98), Banff, Kanada, April 1998.
57. Поляков B.H., Бодров Д.А., Точин A.B. Интерактивные методы фокусировки и расширения поиска в интеллектуальной поисковой машине. Труды Международного семинара Диалог'2002. Протвино, 6-11 июня 2002 г. с. 438-449.
58. Zipf, G. К. 1945. The Meaning-Frequency Relationship of Words // Journal of General Psychology 33:251-256.
59. Андреев Б. Электронный документооборот— http://www.usa.ru/documentl.html, 09.01.2006.
60. Калаев Д. В. Окупаемость внедрения электронного документооборота — возможно ли ее рассчитать? — http://delo-press.ru/documents-basis/elektronic.html, 09.01.2006.
61. Преимущества использования электронного документооборота — http://www.naumen.ru/go/products/naudoc/advantages, 09.01.2006.
62. Расчет эффективности владения— http://www.intalev.ru/index.php?id=987, 09.01.2006.
63. Чикагский бизнесмен раскатывает «Северсталь». Компанию обвинили в нарушении авторских прав // Коммерсантъ. — 2005. — 20 авг.
64. Сухорукое В. За кражу чужой идеи придется заплатить 195 тысяч гривен! — http://www.pr.azov.net/archiv/2004/N8/sud.htm, 09.01.2006.
65. Что такое CTR баннера — http://www.antula.nVbanner-ctr.htm, 25.02.2006.80. http://www.yandex.ru/last20.html, 27.06.2000.
66. Евгений Морозов, Трафик 2001,02. // Мир Internet #3 (66) март 2002.
-
Похожие работы
- Разработка комплекса алгоритмов и программ для повышения производительности функционирования электронного документооборота
- Методы и алгоритмы проектирования маршрутов электронных реляционных документов в приборостроении
- Автоматизация контроля достоверности информации в документах на бумажных носителях
- Модели форм автоматизации документирования процессов и результатов строительного проектирования
- Автоматизация принятия управленческих решений при оперативном учете хода производства на основе систем электронного документооборота
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность