автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Мультилингвистическая технология поиска данных для подготовки и принятия решения в информационно-управляющих системах

кандидата технических наук
Лохмаков, Павел Михайлович
город
Красноярск
год
2007
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Мультилингвистическая технология поиска данных для подготовки и принятия решения в информационно-управляющих системах»

Автореферат диссертации по теме "Мультилингвистическая технология поиска данных для подготовки и принятия решения в информационно-управляющих системах"

□0306383

На правах рукописи

Лохмаков Павел Михайлович

МУЛЬТИЛИНГВИСТИЧЕСКАЯ ТЕХНОЛОГИЯ ПОИСКА ДАННЫХ ДЛЯ ПОДГОТОВКИ И ПРИНЯТИЯ РЕШЕНИЯ В ИНФОРМАЦИОННО-УПРАВЛЯЮЩИХ СИСТЕМАХ

05 13.01 - Системный анализ, управление и обработка информации

Автореферат

диссертации на соискание ученой степени кандидата технических наук

Красноярск - 2007

0 7 ИЮН 2007

003063891

Работа выполнена в Политехническом институте Федерального государственного образовательного учреждения высшего профессионального образования «Сибирский федеральный университет», г Красноярск

Научный руководитель. доктор технических наук,

профессор Пантелеев Василий Иванович

Официальные оппоненты доктор технических наук,

профессор Петров Михаил Николаевич

кандидат технических наук,

доцент Усачев Александр Владимирович

Ведущая организация- ФГУ Государственный научно-исследовательский институт информационных технологий и телекоммуникаций «йнформика» (г Москва)

Защита состоится 28 июня 2007 года в 14 часов на заседании диссертационного совета Д212 249 02 при Сибирском государственном аэрокосмическом университете им ак МФ Решетнева по адресу 660014, г Красноярск, пр им газ. «Красноярский рабочий», 31.

С диссертацией можно ознакомиться в библиотеке Сибирского государственного аэрокосмического университета.

Автореферат разослан 26 мая 2007 года

Ученый секретарь диссертационного совета

И.В. Ковалев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Для современных информационно-управляющих систем (ИУС) характерен значительный рост объемов многоязычной (мультилингвистической) информации, хранящейся в банках данных предприятий и корпораций В мультинациональных корпорациях требуется своевременное предоставление управленческому персоналу документов, принадлежащих различным языковым множествам, в процессе подготовки и принятия решения Значительно возрастают требования к оперативности и качеству функционирования систем поиска мультилингвитсической информации, используемых лицом, принимающим решения (ЛПР) в различных экономических и производственных ситуациях

Известно, что в процессе управления дискретными техническими и человеко-машинными системами предприятия часто возникает необходимость найти и предоставить ЛПР все хранимые документы и данные (в общем случае, подготовленные и выполненные на разных языках), имеющие отношение к сложившейся производственной ситуации, предварительно упорядочив их по степени важности выдаваемой информации

Предлагаемые ранее методы решения поставленных задач зачастую оказываются недостаточно эффективными, так как, во-первых, не позволяют осуществить поиск и сортировку больших объемов разнородной информации, характеризующей сложившиеся производственные ситуации, во-вторых, не обеспечивают возможность мультилингвистического поиска данных для подготовки и принятия решения в ИУС

Указанное обстоятельство требует разработки новых эффективных моделей и алгоритмов поиска мультилингвистической информации, используемой при реализации поддержки принятия решений в ИУС современных предприятий и корпораций - корпоративных ИУС (КИУС) Это обусловливает актуальность, экономическую целесообразность и практическую значимость данного исследования

Необходимо разработать модельно-алгоритмическое обеспечение систем мультилингвистического поиска данных в ИУС, позволяющее на ограниченном интервале времени, отведенном на принятие решения, определить данные и документы, которыми в возникшей ситуации должен руководствоваться ЛПР При этом данные и документы должны быть упорядочены по степени важности предоставляемой информации Как правило, с этой целью используются такие характеристики, как ранг документа и данного, характеризующий степень важности их информационного содержания, и количество данных и документов, используемых в конкретной производственной ситуации

В работе основное внимание уделено разработке новых математических моделей и алгоритмов реализации мультилингвистического поиска данных о ситуациях, возникающих в ИУС, и требующих подготовки и принятия решения в режиме реальных временных ограничений

Объектом диссертационного исследования являются процессы подготовки и принятия решения в информационно-управляющих системах

Предмет исследований - модели и алгоритмы поиска мультилингвистической информации, используемой при реализации поддержки принятия решений в ИУС современных предприятий и корпораций.

Цель диссертационного исследования состоит в повышении эффективности поиска мультилингвистической информации для поддержки принятия решений в корпоративных информационно-управляющих системах. Поставленная цель достигается путем решения следующих задач.

• выявления специфики формирования и функционирования мультилингвистических поисковых систем, анализа существующих подходов к организации подготовки и принятия решения в ИУС,

• моделирования запросов ЛПР с учетом его информационных потребностей в конкретных производственных ситуациях, возникающих в системе,

• разработки алгоритма непрерывной корректировки модели ЛПР в рамках мультилингвистической технологии поиска данных и документов с учетом новых информационных запросов ЛПР и характеристик производственных ситуаций,

• модификации существующих алгоритмов мультилингвистического поиска данных и документов в ИУС, разработки новых методик, обеспечивающих заданный уровень релевантности электронных документов ИУС требуемой производственной ситуации,

• разработки алгоритма ранжирования и определения уровня релевантности электронных документов в ИУС требуемой производственной ситуации, использующего мультилингвистический информационно-терминологический базис

• реализации разработанных моделей и алгоритмов в реальных проектах систем поддержки принятия решений в ИУС

Методы исследования. Основные теоретические и прикладные результаты работы получены на основе методологии системного анализа, статистических методов обработки данных, информационных и коммуникационных технологий и методов прикладной математики Научная новизна работы.

Разработан новый алгоритм формирования и непрерывной корректировки параметров модели ЛПР на основе методологии вероятностного латентно-семантического анализа, позволяющий учесть семантическую близость терминологического состава последовательных запросов ЛПР при реализации поддержки принятия решений в ИУС современных предприятий и корпораций

Разработана новая модель мультилингвистического поиска данных для подготовки и принятия решения в КИУС, отличающаяся от известных процедурами формирования запросов и обработкой Отклика, которая базируется на узкоспециализированных многоязычных частотных словарях

Предложена оригинальная методика обеспечения заданного уровня релевантности электронных документов ИУС требуемой производственной ситуации, использующая мультилингвистический информационно-терминологический базис

Разработан новый алгоритм ранжирования данных и документов в ИУС, позволивший реализовать мультилингвистическую метапоисковую технологию для подготовки и принятия решения в ИУС корпоративного типа

Значение для теории. Результаты, полученные при выполнении диссертационной работы, имеют существенное значение для развития моделей и методов поиска и обработки мультилингвистической информации при управлении сложными информационно-управляющими системами производственного назначения

Практическая ценность. Разработанный в диссертации подход к моделированию информационных запросов лица, принимающего решение, позволяет учесть его информационные потребности в конкретной производственной ситуации, поскольку основной задачей управляющего персонала КИУС является поиск необходимой информации для принятия решения Это создает основу для разработки методов и алгоритмов формирования персонализированных программно-информационных сред взаимодействия ЛПР с распределенными информационными ресурсами системы управления

Разработанные в диссертации модели могут использоваться для повышения эффективности процессов подготовки и принятия решения в корпоративных информационно-управляющих системах

Мультилингвистическая технология поиска данных позволяет эффективно решать практические задачи интерактивного формирования многоязычных информационных ресурсов

Достоверность полученных результатов подтверждается корректным использованием методологии системного анализа и методов поиска и обработки информации при обосновании полученных результатов, выводов,

рекомендаций, а также успешной апробацией и демонстрацией возможностей разработанной системы при проведении экспериментов на базе информационно-управляющей среды в ФГУП ЦКБ «Геофизика» Реализация результатов работы.

Диссертационная работа выполнялась в рамках проекта РНП 2 2 2 3.9676 «Модельно-алгоритмическое обеспечение мультюшнгвистической технологии интерактивного формирования многоязычных информационных ресурсов» аналитической ведомственной целевой программы "Развитие научного потенциала высшей школы (2006-2008 годы)".

Полученные в диссертационной работе результаты внедрены в учебный процесс Политехнического института ФГОУ ВПО «Сибирский федеральный университет»

На основе моделей и математических методов была разработана программная система «Multi-Lmgvo ver 10», предназначенная для мультилингвистического анализа информационно-терминологического базиса в области системного анализа Программная система прошла экспертизу и зарегистрирована в Отраслевом фонде алгоритмов и программ (ОФАП), что делает ее доступной широкому кругу специалистов по системному анализу и специалистов, занимающихся техническим переводом и занимающихся формированием тематических коллекций для информационного обеспечения корпоративных информационно-управляющих систем

Апробация работы. Основные положения и результаты работы прошли апробацию на 47-49-й научно-технических конференциях преподавателей, аспирантов и студентов Красноярского государственного технического университета (2005-2007), на Пленарном заседании Второй Всероссийской конференции «Молодежь и наука начало 21-го века», посвященной 50-летию КГТУ (2006), на VI-й Всероссийской научно-практической конференции «Инновационные недра Кузбасса IT-технологии» (2007), на IV-m Международном технологическом конгрессе «ВТТВ-Омск» (2007), на ежегодной заочной конференции РАЕН «Современные телекоммуникационные и информационные технологии» (2006) Диссертационная работа в целом обсуждалась на научных семинарах Красноярского государственного технического университета, НИИ Систем управления, волновых процессов и технологий (2005-2007 гг)

Публикации. По материалам диссертации опубликовано 10 работ (в тома числе, одна работа - в издании по списку ВАК РФ), из них 3 без соавторов Полный список публикаций представлен в конце автореферата

Структура и объем работы. Диссертация состоит из введения, четырех разделов, заключения, списка литературы из 93 наименований

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении дана общая характеристика проблемы, обоснована актуальность выбранной темы, определены цель и задачи исследования. Сформулированы основные положения, выносимые на защиту, научная новизна и практическая значимость полученных результатов

В первом разделе рассмотрены основные проблемы, возникающие при разработке новых математических моделей и методов, используемых при поиске информации о производственных ситуациях, возникающих при управлении сложными информационно-управляющими системами производственного назначения

Известно, что в процессе функционирования сложных дискретных технических и человеко-машинных систем промышленного предприятия периодически возникают стереотипные ситуации st(a(t), u(t))e {St(a(t), u{t))}, требующие принятия решения на основе анализа документов и данных, хранящихся в различных информационных системах предприятия, где st(a(t), u(t)) — производственная ситуация, aft) — параметры среды, u(t) — управляющие воздействия; {St(a(t), u(t))} — множество допустимых производственных ситуаций В составе современных ИУС существует информационное хранилище, в котором размещено множество документов {D} и множество данных {F}, используемых ЛПР при управлении производственным процессом в ситуациях st(a(t), u(t)) С учетом монолингвистичности информационного обеспечения ИУС формализованная постановка решаемой задачи может быть представлена следующим образом

Необходимо разработать формальные модели и методы поиска информации, позволяющие на временном интервале \tm tk\ при известных параметрах среды и управляющих воздействиях, характеризующих возникшую производственную ситуацию, в течение времени, отведенного на решение задачи, определить данные и документы, которыми в возникшей ситуации должен руководствоваться ЛПР

d¡ d2, d3, , dw e {D}, fi f2,f3, ,fve{F},w«\{D}\, v«|{F}|, и упорядочить их по степени важности предоставляемой информации R(dz) > R(dx) > R(dc) >, , > R(dt), z, x, с, t< w, R(fz¡) > R(fxl) > R(fc¡) >, , R(ft¡),

zl, xl, el, ti < V,

где d¡ d2, d3, , dw и f¡t f2, f¡, ,, fv - документы и данные, необходимые ЛПР для принятия решения в рассматриваемой производственной ситуации, R(dz) -ранг документа dz, характеризующий степень важности документа, R(fz¡) -ранг данного fzl, w, v - количество данных и документов, характеризующих

производственную ситуацию, г, х, с, г1, х1, с1 - известные константы, [| -символ мощности множества

Указанная постановка задачи требует, чтобы хранящиеся в информационно-управляющих системах промышленных предприятий документы и данные предварительно были распределены экспертами между производственными ситуациями таким образом, чтобы, определив каждую из них, можно было незамедлительно выдать список семантически связанных с ней данных и документов. Очевидно, что организация эффективных поисковых структур в базах данных и знаний, как правило, основывается на идее единого семантического пространства, так как, согласно основным положениям работ Поспелова Д А, хранимые данные и документы не могут быть бессистемным «сборищем» отдельных информационных единиц

Список производственных ситуаций, контролируемых средствами вычислительной техники ИУС, составляется ведущими специалистами предприятия таким образом, чтобы в него вошли все ситуации, существенно влияющие на процесс выполнения производственной программы и связанные с оперативной обработкой значительных объемов информации, а также с трудоемким поиском данных и документов в распределенной базе данных предприятия При анализе возникшей производственной ситуации она сравнивается с уже известными ситуациями, занесенными в память ЭВМ, и ЛПР выдается перечень документов, данных и рекомендаций, необходимых для принятия адекватных управленческих решений В противном случае в метрическом пространстве ситуаций определяется точка, наиболее близкая к возникшей ситуации, и управленческому персоналу выдаются документы, данные и рекомендации, непосредственно связанные с ситуацией, которую эта точка характеризует Если для выработки решения управленческий персонал сочтет полученную информацию недостаточной, то полученная точка исключается из рассмотрения, поисковая система автоматически определяет следующую точку, расположенную наиболее близко к исходной ситуации, и выдает связанные с ней документы, данные и рекомендации управленческому персоналу Указанный процесс продолжается до тех пор, пока ЛПР не сочтет полученную информацию достаточной и не примет решения, адекватные возникшей ситуации

После окончания производственной ситуации уточненную информацию по данным, документам и рекомендациям, использованным управленческим персоналом в процессе принятия решения, эксперты заносят в базу данных, используемую информационно-поисковой системой ИУС В диссертации предлагается расширение постановленной задачи на случай, когда в ИУС используется мультилингвистический информационный базис (т е при

подготовке и принятии решения используются многоязычные данные, документы и рекомендации)

Второй раздел посвящен новым алгоритмам поиска документов, определения релевантности документов и ранжирования информации в рамках полученной выборки из мультилингвистических информационных тематических коллекций, которые можно использовать как в системах типа каталог, так и в обычных поисковых сервисах ИУС, а также в сервисах системы Internet

Следует отметить, что в настоящее время ведутся активные работы по созданию новых алгоритмов поиска, ранжирования и определения релевантности информации как в глобальной сети Internet, так и во всевозможных локальных информационно-управляющих системах. При этом методики и алгоритмы, направленные на решение проблем сбора и обработки информации для разных предметных областей и категорий пользователей существенно различаются Обычно для частных или локальных тематических коллекций корпоративных ИУС используют модификации моделей или алгоритмов, разработанных для поисковых машин (сервисов) сети Internet Однако в сети Internet существуют информационные ресурсы, построенные по принципу каталогов. Проблема работы с подобными тематическими коллекциями состоит в том, что для обеспечения надлежащего уровня релевантности отклика системы необходимо участие человека для проверки подлинности принадлежности документа к заявленной предметной области

Итак, определим предметную область применения предлагаемых алгоритмов с учетом современной концепции интегрированного производства, обеспечивающей объединение большинства сложных дискретных технических и человеко-машинных систем производственного назначения в составе единой системы управления В качестве тематических коллекций выступает корпоративная информация, находящаяся на внутренних серверах компании, причем объем компании неограничен Возможно наличие нескольких информационных серверов В качестве примера можно представить структуру следующего типа, имеется головной отдел компании и несколько филиалов. Для работы сотрудникам филиалов, как правило, достаточно информации, выложенной на их информационном сервере, однако периодически возникает потребность и в информации, находящейся на других сайтах компании Таким образом, для снижения расходов, связанных с Интернет трафиком, можно организовать трехуровневый поиск информации поиск на сервере филиала; поиск на серверах компании; поиск в Internet

Экономия трафика происходит в результате поиска на собственных серверах компании (внутренний трафик) Очевидно, что при поиске информации на серверах компании вся информация имеет высокую степень релевантности независимо от способа ее получения Используя Internet, мы несем затраты, связанные с избыточным поиском При этом возникает еще одна проблема - низкий уровень достоверности информации. В работе предлагаются следующие мультилингвистические принципы построения поисковых агентов в ИУС

Модели организации поисковых агентов

Данные модели предназначены для того, чтобы упорядочить полученные ссылки с множества сайтов как внутри одного языкового множества, так и для многомерного языкового множества Они применимы не только в рамках корпоративных серверов, но и позволяют расширить поиск за счет доступа в глобальные сети, например, Internet

Рассмотрим модель ранжирования информации сразу по нескольким языкам После проведения поисковых операций в корпоративной сети и, возможно, за ее пределами необходимо вычислить вес ссылки на документ для более удобного и грамотного отображения результатов поиска пользователю Таким образом, результат каждого запроса может быть представлен в виде г-мерного ранжированного вектора, который формируется на основе количества опрашиваемых сайтов, множества ссылок, выданных всеми опрошенными базами поисковых сервисов или внутренних ресурсов компании без дублей

_„ def

dy =~{RangDoc1y, RangDoc2y,, ,RangDoc,y),

n

RangDoc л = J] (RangSite ~ * RangSiteDo c!r) * Doc ,

i-i

где i - номер опрашиваемого сайта (/ = 1, ,n), n - количество опрашиваемых сайтов, у - номер ссылки из множества ссылок, выданных всеми опрошенными базами поисковых сервисов или внутренних ресурсов компании, без дублей (/ = 1, ,т), т - количество ссылок без повторений, у - номер языкового множества (у = 1, ,r\ г - количество опрашиваемых языковых множеств, RangDoCjy - получаемый ранг j-й страницы у-го языкового множества, RangSite,у - ранг /-го информационного ресурса в текущей предметной области у-то языкового множества на данный момент времени, RangSiteDoc,y - ранг ссылки на страницу внутри г-го поискового сайта у-ro языкового множества

Значение Doc,y равно 1, если сайт дал ссылку на данную страницу, и равно 0, если ссылка на /-м сайте отсутствует

Для определения ранга информационного ресурса по каждой производственной ситуации используется следующая процедура 1 При первом проходе RangSite,у = О

2 В процессе опроса каждого сайта ранг изменяет свое значение по следующей формуле

Еащ5ие,у = Яст^Ие^ + (ОосКе1Ша1,у - ОосИо1Ке1та11у)ЮосТо1а11у, где ОосКе1То1а1гу — количество релевантных документов, выданных г-м опрошенном информационным ресурсом, ОосМо1Яе1То1а11у - количество не релевантных документов, выданных г-м поисковьм сервесом, ОосТоГа1,у — общее количество документов, определяемое по формуле ВосТо1а1у = ОосКе1Ша1,у + ОосШ(11е1То1а1,у

3 Ранг ссылки на страницу внутри множества ссылок, выданных каждым конкретным информационным сервисом, определяется по формуле

Яа^БаеОоСу = ИипФоСу - ВосТоШ!^ Если необходимо проводить поиск только в пределах одного языкового множества, то в предложенной модели ранжирования необходимо рассматривать у = 1

Если ввести индекс и1, отвечающий за предметную область производственной ситуации, то полученная модель будет производить поиск и ранжирование сразу для нескольких производственных ситуаций Необходимо отметить, что сумма всех неповторяющихся ссылок по всем опрашиваемым производственным ситуациям будет меньше или равна общей сумме ссылок без повторений, что связано с пересечением предметных областей многих производственных ситуаций в системе или наличием, так называемых, смежных предметных областей.

Таким образом, ранг информационного ресурса по каждой производственной ситуации определятся в процессе опроса каждого сайта с учетом количества релевантных документов, выданных опрошенным информационным ресурсом, количества не релевантных документов и общим количеством документов

Также одним из важных агентов при специализированном поиске информации является агент определения релевантности Модель определения релевантности

Основой данной модели являются частотные мультилингвистические словари по категориям производственных ситуаций (предметным областям). В рамках модели каждому терму (словоформе) в документе и запросе сопоставляется некоторый неотрицательный вес (для запроса на один поисковый сервис) Таким образом, каждый документ и запрос может быть представлен в виде ¿-мерного вектора Согласно векторной модели, близость документа к запросу оценивается как корреляция между векторами их описаний Веса термов можно вычислять различными способами Один из возможных подходов - использовать в качестве веса терма в документе нормализованную частоту его использования в рамках данного документа

При определении релевантности с использованием мультилингвистических частотных словарей для вычисления веса терма целесообразно использовать частотную характеристику терма из словаря

Итак, в рамках данной модели каждому терму (словоформе) /, в документе 4 (и запросе д) сопоставляется некоторый неотрицательный вес м>у (м>, для запроса на один поисковый сервис). Таким образом, каждый документ и запрос может быть представлен в виде ¿-мерного вектора-

где ¿-общее количество различных термов во всех документах.

Согласно векторной модели, близость документа ^ к запросу д оценивается как корреляция между векторами их описаний Эта корреляция может быть вычислена, например, как скалярное произведение соответствующих векторов описаний

Веса термов можно вычислять различными способами. Один из возможных подходов — использовать в качестве веса терма м>у в документе <1} нормализованную частоту его использования р~ед!} в рамках данного документа:

= Щ =

шах

ФЩу

При определении релевантности, используя мультилингвистические частотные словари, сопоставим м>у частотную характеристику терма из словаря /гедВш/.

■н>у ^р-едВгСу

В данной формуле редБю^ , , ^гщВгсч равны Это связано с тем, что веса терминов берутся из словаря и для всех терминов в документе они равны весу из словаря Однако этот подход не учитывает, насколько часто данный терм используется в других документах коллекции, т. е дискриминационную силу терма Поэтому в случае, когда доступна статистика использований термов по коллекции эффективнее работает другая схема вычисления весов

-»««Г,-**.

где и, - число документов, в которых используется терм 1Р а N - общее число документов в коллекции.

с1е/ щ

= /гедВгс} * .

Предложенный алгоритм безупречно работает на этапе формирования мультилингвистического частотного словаря (который в дальнейшем является базисом модели), однако после его составления возникает необходимость в актуализации или обновлении Таким образом, в качестве весового коэффициента более целесообразно использовать весовой коэффициент каждого терма из частотного мультилингвистического словаря. Для этого при анализе текстов необходимо сравнивать полученный вес терма с относительной частотой данного терма в частотном словаре В итоге будет получено два вектора, состоящих из весов, только в одном векторе будут веса термов из текста, а в другом веса термов из словаря

doc j (wdocjj, wdoc2j, , wdoc/g ),

diej = (wdicjj, wdiC2j,., wdicfafy ),

где wdocy - w,j*g,j. wdic/ = frecDic¡*gi, г - номер терма в j - м документе 0=7, ,k), I - номер терма в частотном словаре,(1=1, ,kd), wdocv - вес i - го терма в у - м документе, \vdic¡ - вес / - го терма в частотном словаре, g¡} и gj-признаки включения терма в вектор для определения релевантности документа, если терм не релевантен предметной области, и, следовательно, той или иной производственной ситуации, то признак равен 0, в противном случае -1

Вектора ~wdocy и wdic¡ имеют разные размерности, что связано с ограничением словаря, в котором только релевантные термины Следовательно, равенство g¡ нулю возможно только в случае устаревания какого-либо термина на столько, что он полностью вышел из употребления

После приведения векторов к одной размерности и упорядочивания их в порядке принадлежности к одному термину, необходимо составить вектор с

__ def

с]={rellj,rel1}, ,relej), где е - размерность векторов весов,

wdoc - wdic

reí =---

wdoc + wdic t

при i = l, ,e

В случае, если

e

v = reí / e <= s , i=i

где s - пороговая величина, принимается решение о релевантности документа dj производственной ситуации

Следует отметить, что предложенный алгоритм эффективно работает как на этапе формирования мультилингвистического частотного словаря (который в дальнейшем будет базисом модели), так и после того, как он был составлен, и возникает необходимость в его актуализации или обновлении.

В третьем разделе представлены процедуры, позволяющие сформировать профиль ЛПР, что имеет существенное значение при учете производственных факторов, влияющих на процесс принятия решения, анализе последствий, к которым может привести та или иная ситуация (то или иное решение) и т д

Очевидно, что сформированный профиль ЛПР отражается на выборе рациональной стратегии поведения в сложных производственных ситуациях, зависит не столько от количественных соотношений, сколько от качественных формулировок Выбор категории или профиля ЛПР зачастую определяется набором типовых ситуаций, которые возникают в системе управления только в том виде, в котором он был зафиксирован на практике

При формировании профиля ЛПР учитывается ряд атрибутов, характеризующий различные производственные ситуации, возникающие в процессе функционирования промышленного предприятия

• наименование ситуации;

• описание причин ее возникновения,

• указание последствий, к которым она может привести,

• временные характеристики, определяющие время возникновения и окончания ситуации,

• наименование структурных подразделений предприятия, где возникла производственная ситуация,

• описание мероприятий, необходимых для ее успешного разрешения,

• указание производственных факторов, влияющих на процесс принятия решений,

список документов, регламентирующих поведение ЛПР в сложившейся ситуации,

перечень данных, поступающих от различных информационно-измерительных систем предприятия и используемых ЛПР в процессе выработки решения

Необходимо отметить, что на ряде промышленных предприятий часть указанных выше характеристик производственных ситуаций может не использоваться управленческим персоналом в процессе принятия решения. Кроме того, ряд характеристик производственных ситуаций может оставаться не определенным экспертами в течение значительного промежутка времени В этих случаях в разрабатываемой поисковой системе при формировании

профиля ЛПР будет учитываться только известные (базовые) характеристики и не будут рассматриваться остальные ■

В работе моделирование ЛПР строится на основе его информационных потребностей в конкретной производственной ситуации, поскольку основной задачей управляющего персонала является поиск необходимой информации для принятия решения Представлена методология латентно-семантического анализа (ЛСА), преимущества ее применения при поиске информации Показан переход к вероятностному ЛСА, применение для моделирования ЛПР и формирования алгоритма непрерывной корректировки параметров модели при работе ЛПР с системой

Тем самым, достигается индивидуализация (или лерсонализация) интерфейса ЛПР в ИУС, что позволяет обеспечивать информационную поддержку принятия решения в контексте текущей производственной ситуации То есть, еще на стадии обработки результатов поискового запроса отсеивается большая часть не релевантных документов и данных

Любой документ представляется как вектор частот появления определенных терминов в нем В этом подходе отношения между документами и терминами представляются в виде матрицы смежности А, элементом w„ которой является частота появления термина t, в документе d,. Обозначим через m количество проиндексированных терминов в коллекции документов d, а через п — количество самих документов В общем случае элементом w,; матрицы А является некоторый вес, поставленный в соответствие паре документ-термин (d„ t,) После задания всех весов, матрица А становится отображением коллекции документов в векторном гиперпространстве

В работе рассматривается новая схема моделирования ЛПР, основанная на инициализации начального профиля и его последовательной корректировке в процессе работы При этом документы могут быть представлены как векторы латентного семантического пространства Для того чтобы следить и непрерывно анализировать возможные изменения интересов ЛПР, предлагается ввести понятие временного измерения в латентном семантическом пространстве, тем самым рассматривая уже не само латентное семантическое пространство, а его модификацию - временное латентное семантическое пространство Каждое измерение (за исключением временного) такого векторного пространства представляет собой условные вероятности при заданном классе Р(»\ z) Документы представляют собой векторы с весовыми коэффициентами (координатами) P(z\d), временное измерение полагаем равным нулю Запросы ЛПР, равно как и сами документы, могут быть представлены в виде векторов во временном латентном семантическом пространстве Кроме весов P{z\Q) у них есть дополнительное (временное)

измерение (текущий вес), первоначально равный некоторой положительной величине, уменьшающейся с течением времени, исходя из предположения о падении актуальности определенной производственной ситуации (при отсутствии ее фигурирования в течение продолжительного времени) Если ЛПР инициирует запрос, связанный с определенной категорией из его текущего профиля, то вес данной категории может быть либо стабилизирован на определенное время, либо увеличен

Согласно геометрии рассматриваемого латентного семантического пространства запрос ЛПР, состоящий из терминов, проецируется в латентное семантическое пространство, при этом гиперповерхность 5',, образованная запросом <2, является пересечением вероятностных поверхностей всех классов, введенных на латентном семантическом пространстве, в которых с определенной вероятностью фигурирует данный термин

к

Алгоритм адаптивной коррекции профиля ЛПР основан на неявной обратной связи с ним, которая реализуется на основе истории его запросов в конкретных производственных ситуациях На вход алгоритма поступает запрос ЛПР, на выходе - одна или более троек (триплетов) вида (С„ Иг„ а,), где С, - категория ЛПР, Ж, — текущий вес, а, - уровень изменчивости (смысл данной величины состоит в том, чтобы отразить насколько изменяются интересы ЛПР в рамках текущей производственной ситуации по отношению к прошлым ситуациям и, следовательно, запросам к БД ИУС) При этом профиль ЛПР организован таким образом, что его интересы разделены на два типа краткосрочные {краткосрочный профиль) и долгосрочные (долгосрочный профиль) Как правило, емкость долгосрочного профиля больше емкости краткосрочного В работе предложен пошаговый алгоритм непрерывной корректировки профиля пользователя Эффективность методов информационного поиска оценена на тестовых наборах данных Проведенные экспериментальные исследование показали, что разработанный подход дает увеличение качества поиска на всех рассмотренных коллекциях документов

В четвертом разделе приводится описание реализованной системы поиска мультилингвистической информации для поддержки принятия решений в КИУС (рис 1) Следует отметить, что для практической реализации рассмотренных процедур поиска данных и документов предлагается оригинальная методика определения расстояния между отдельными точками метрического пространства производственных ситуаций При этом для определения расстояния между двумя произвольными производственными ситуациями 5,(1), 8,(() е{Б(0} необходимо предварительно определить

функции, устанавливающие степень сходства, существующего между соответствующими характеристиками 8,(1), 5'2{С).

Характеристики разбиты на четыре группы В первой группе характеристик содержится текстовая информация, во второй группе хранится информация в числовой форме, в третьей группе — ориентированные графы, используемые ЛПР в процессе подготовки и принятия решения

Рис 1 - Структурная схема реализации мультилингвистической технологии поиска данных для подготовки и принятия решения в КИУС

При этом граф G] характеризует взаимосвязи, существующие между параметрами объекта управления, системы управления и среды, влияющими на процесс принятия решения в ситуации S, а граф G2 учитывает взаимосвязи между административными мероприятиями, которые рекомендуется осуществить в сложившейся ситуации В характеристиках четвертой группы хранится название производственных ситуаций

Информационные элементы рассмотренной модели хранятся в базе данных реляционного типа в виде совокупности отношений различной структуры Поиск этих элементов осуществляется по запросу СУБД, сформированному на языке SQL и выдаваемому при обработке каждой производственной ситуации

В работе рассмотрены процедуры формирования функций сходства для каждой из указанных групп характеристик, затем на их основе выбрана метрика, определяющая расстояние между отдельными производственными ситуациями Функции Q,J, j = 1,. ,4 используются в составе метрики ря задающей расстояние между S/t), S2(t) в пространстве производственных ситуаций Принято во внимание, что при t = const метрика ps(S{(t), S2(t)) должна быть действительной числовой функцией, для которой выполняются известные аксиомы метрики В качестве функции, заведомо обладающей данными свойствами, выбрано евклидово расстояние, определяемое по формуле

Ps(S/t), S2(t)) = [ I^/ Qrf2.

На основе предложенной процедуры определения расстояния между различными производственными ситуациями, возникающими в процессе функционирования объекта управления, реализованы новые алгоритмы оперативного поиска мультилингвистических данных и документов Компоненты инструментальных средств, разработанных в диссертации, прошли апробацию в составе информационно-управляющих систем ряда предприятий и организаций

В заключении сформулированы основные результаты и выводы, полученные в диссертационной работе

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

Предложенный способ организации модели запросов ЛПР в ИУС позволил разработать новый алгоритм формирования и непрерывной корректировки данной модели с учетом новой информации, получаемой при взаимодействии ЛПР с системой в рамках конкретных производственных ситуаций

Разработанный алгоритм формирования и непрерывной корректировки параметров модели ЛПР реализован на основе методологии вероятностного латентно-семантического анализа, что позволило учесть семантическую близость терминологического состава последовательных запросов ЛПР при реализации поддержки принятия решений в ИУС современных предприятий и корпораций.

Разработана новая модель мультилингвистического поиска данных для подготовки и принятия решения в КИУС, отличающаяся о г известных процедурами формирования запросов и обработкой отклика, которые базируются на узкоспециализированных многоязычных частотных словарях

Показано, что использование мультилингвистического информационно-терминологического базиса для поисковых технологий в корпоративных ИУС повышает эффективность сетевых поисковых сервисов при определении релевантности и ранжировании данных и документов в системе, за счет применения

- оригинальной методики обеспечения заданного уровня релевантности электронных документов ИУС требуемой производственной ситуации, использующей мультилингвистический информационно-терминологический базис;

- нового алгоритма ранжирования данных и документов в ИУС, позволившего реализовать мультилингвистическую метапоисковую технологию для подготовки и принятия решения в ИУС корпоративного типа.

Таким образом, в данной диссертационной работе решена задача автоматизации мультилингвистической технологии поиска данных для подготовки и принятия решения в информационно-управляющих системах, имеющая существенное значение для теории и практики задач анализа и обработки мультилингвистической информации и интеллектуализации систем поддержки и принятия решений

Перспективным направлением является дальнейшее развитие предлагаемых методик определения релевантности и ранжирования данных и документов в поисковых сервисах сети Internet

Основные результаты диссертационной работы опубликованы в следующих работах

1 Лохмаков, ПМ Инструментарий поисковых систем сети Интернет [Текст] / П М Лохмаков // Вестник университетского комплекса сб научн тр / под ред Н В Василенко, НИИ СУВПТ, ВСФ РГУИТП -Красноярск, 2006 Вып 23-С. 113-118

2 Лохмаков, П М. Интеллектуализация поиска информации в корпоративных системах [Текст] / П М Лохмаков // Вестник университетского комплекса сб научн тр / под ред. Н.В Василенко, НИИ СУВПТ, ВСФ РГУИТП - Красноярск, 2006 Вып. 23 - С 141-156

3 Лохмаков, П М Анализ производственных функций в задачах управления проектами информационных систем [Текст] / П М Лохмаков, В.В Смолин, В Г Третьяков // Вестник университетского комплекса сб научн тр / под ред НВ Василенко; ПИИ СУВПТ, ВСФ РГУИТП - Красноярск, 2006. Вып 24 - С 119-122

4 Лохмаков, П М Особенности разработки локальных информационных систем [Текст] / П М Лохмаков // Вестник университетского

комплекса сб. научн тр. / под ред НВ. Василенко; НИИ СУВГГГ, ВСФ РГУИТП.- Красноярск, 2006 Вып 24,- С 136-140.

5 Лохмаков, П М Мультилингвистический переводчик по системному анализу [Текст] / П.М Лохмаков, И В. Ковалев, К В. Полянский, Р Ю Царев, С С Огнерубов, М.В Карасева // Инновации в науке и образовании -2007. - № 3 (26) -С 19

6 Лохмаков, ПМ Мультилингвистическая технология поиска данных для подготовки и принятия решения в информационно-управляющих системах [Текст] / П М Лохмаков, И В Ковалев, П В Зеленков, С С Огнерубов // Программные продукты и системы, 2007, № 2 - С 32-33

7. Лохмаков, П М. Программно-информационные технологии повышения надежности систем управления [Текст] / П М Лохмаков, Р Ю. Царев, В А Волков // Инновационные недра Кузбасса IT-технологии труды VI-й Всероссийской научно-практической конференции - Кемерово. ИНТ, 2007 - С 219-220

8 Лохмаков, ПМ. Мультилингвистический терминологический базис информационного обеспечения корпоративных систем [Текст] / П М Лохмаков, И В Ковалев, С С Огнерубов // ВТТВ-Омск-2007 Доклады IV-ro Международного технологического конгресса — Омск ОТИИ, 2007 -С 191-194 Разработки, прошедшие регистрацию в Отраслевом фонде алгоритмов и программ:

9 Лохмаков П М, Ковалев И В , Полянский К В , Царев Р Ю , Огнерубов С С, Карасева М В Мультилингвистический переводчик по системному анализу (программная система «Multi-Lmgvo ver 1.0») М • ВНТИЦ, 2007 № 50200700585

10 Лохмаков ПВ., Ковалев ИВ, Карасева М.В, Рогов С.В, Царев Р Ю Кроссплатформенная поисковая мультиагентная система «MAS Search ver 1 1» М ВНТИЦ, 2007 № 50200700634.

Лохмаков Павел Михайлович Мультилингвистическая технология поиска данных для подготовки и принятия решения в информационно-управляющих системах

Автореферат

Подписано в печать 10 05 2007 г Формат 60x84/16 Бумага писчая Уч изд л 1 Тираж 100 экз Заказ №<??/<f Отпечатано в СибГАУ 660014, г Красноярск, пр им газ «Красноярский рабочий», 31

Оглавление автор диссертации — кандидата технических наук Лохмаков, Павел Михайлович

1. Поиск данных и документов для подготовки и принятия 9 решения в информационно-управляющих системах

1.1. Поиск информации о производственных ситуациях в ИУС

1.2. Поиск на основе построения терминологической базы 14 документов

1.3. Контекстно-поисковые процедуры на основе реляционных баз 21 данных

1.4. Поисковый сервис сети Интернет

Выводы по разделу

2. Модели и алгоритмы поиска документов в многоязычных информационных ресурсах

2.1. Обобщенный алгоритм работы поисковых систем

2.2. Модели информационного поиска 62 Выводы по разделу

3. Модель запросов ЛПР в среде распределенных информационных ресурсов ИУС

4. Реализация мультилингвистической поисковой системы для подготовки и принятия решения в корпоративных ИУС

3.1. Характеристики модели запросов ЛПР

3.2. Частотная терминологическая модель запросов ЛПР

3.3. Экспериментальные исследования 105 Выводы по разделу

4.1. Алгоритм работы системы

4.2. Реализация предложенных алгоритмов 118 Выводы по разделу

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Лохмаков, Павел Михайлович

Актуальность работы. Для современных информационно-управляющих систем (ИУС) характерен значительный рост объемов многоязычной (мультилингвистической) информации, хранящейся в банках данных предприятий и корпораций. В мультинациональных корпорациях требуется своевременное предоставление управленческому персоналу документов, принадлежащих различным языковым множествам, в процессе подготовки и принятия решения. Значительно возрастают требования к оперативности и качеству функционирования систем поиска мультилингвитсической информации, используемых лицом, принимающим решения (ЛПР) в различных экономических и производственных ситуациях.

Известно, что в процессе управления дискретными техническими и человеко-машинными системами предприятия часто возникает необходимость найти и предоставить ЛПР все хранимые документы и данные (в общем случае, подготовленные и выполненные на разных языках), имеющие отношение к сложившейся производственной ситуации, предварительно упорядочив их по степени важности выдаваемой информации.

Предлагаемые ранее методы решения поставленных задач зачастую оказываются недостаточно эффективными, так как, во-первых, не позволяют осуществить поиск и сортировку больших объемов разнородной информации, характеризующей сложившиеся производственные ситуации, во-вторых, не обеспечивают возможность мультилингвистического поиска данных для подготовки и принятия решения в ИУС.

Указанное обстоятельство требует разработки новых эффективных моделей и алгоритмов поиска мультилингвистической информации, используемой при реализации поддержки принятия решений в ИУС современных предприятий и корпораций - корпоративных ИУС (КИУС). Это обусловливает актуальность, экономическую целесообразность и практическую значимость данного исследования. 3

Необходимо разработать модельно-алгоритмическое обеспечение систем мультилингвистического поиска данных в ИУС, позволяющее на ограниченном интервале времени, отведенном на принятие решения, определить данные и документы, которыми в возникшей ситуации должен руководствоваться ЛПР. При этом данные и документы должны быть упорядочены по степени важности предоставляемой информации. Как правило, с этой целью используются такие характеристики, как ранг документа и данного, характеризующий степень важности их информационного содержания, и количество данных и документов, используемых в конкретной производственной ситуации.

В работе основное внимание уделено разработке новых математических моделей и алгоритмов реализации мультилингвистического поиска данных о ситуациях, возникающих в ИУС, и требующих подготовки и принятия решения в режиме реальных временных ограничений.

Объектом диссертационного исследования являются процессы подготовки и принятия решения в информационно-управляющих системах.

Предмет исследований - модели и алгоритмы поиска мультилингвистической информации, используемой при реализации поддержки принятия решений в ИУС современных предприятий и корпораций.

Цель диссертационного исследования состоит в повышении эффективности поиска мультилингвистической информации для поддержки принятия решений в корпоративных информационно-управляющих системах.

• выявления специфики формирования и функционирования мультилингвистических поисковых систем, анализа существующих подходов к организации подготовки и принятия решения в ИУС;

• моделирования запросов ЛПР с учетом его информационных потребностей в конкретных производственных ситуациях, возникающих в системе;

• разработки алгоритма непрерывной корректировки модели ЛПР в рамках мультилингвистической технологии поиска данных и документов с учетом новых информационных запросов ЛПР и характеристик производственных ситуаций;

• модификации существующих алгоритмов мультилингвистического поиска данных и документов в ИУС, разработки новых методик, обеспечивающих заданный уровень релевантности электронных документов ИУС требуемой производственной ситуации;

• разработки алгоритма ранжирования и определения уровня релевантности электронных документов в ИУС требуемой производственной ситуации, использующего мультилингвистический информационно-терминологический базис.

• реализации разработанных моделей и алгоритмов в реальных проектах систем поддержки принятия решений в ИУС.

Методы исследования. Основные теоретические и прикладные результаты работы получены на основе методологии системного анализа, статистических методов обработки данных, информационных и коммуникационных технологий и методов прикладной математики.

Научная новизна работы:

Разработан новый алгоритм формирования и непрерывной корректировки параметров модели ЛПР на основе методологии вероятностного латентно-семантического анализа, позволяющий учесть семантическую близость терминологического состава последовательных запросов ЛПР при реализации поддержки принятия решений в ИУС современных предприятий и корпораций.

Разработана новая модель мультилингвистического поиска данных для подготовки и принятия решения в КИУС, отличающаяся от известных процедурами формирования запросов и обработкой отклика, которые базируются на узкоспециализированных многоязычных частотных словарях.

Предложена оригинальная методика обеспечения заданного уровня релевантности электронных документов ИУС требуемой производственной ситуации, использующая мультилингвистический информационно-терминологический базис.

Разработан новый алгоритм ранжирования данных и документов в ИУС, позволивший реализовать мультилингвистическую метапоисковую технологию для подготовки и принятия решения в ИУС корпоративного типа.

Значение для теории. Результаты, полученные при выполнении диссертационной работы, имеют существенное значение для развития моделей и методов поиска и обработки мультилингвистической информации при управлении сложными информационно-управляющими системами производственного назначения.

Разработанные в диссертации модели могут использоваться для повышения эффективности процессов подготовки и принятия решения в корпоративных информационно-управляющих системах.

Практическая ценность. Разработанный в диссертации подход к моделированию информационных запросов лица, принимающего решение, позволяет учесть его информационные потребности в конкретной производственной ситуации, поскольку основной задачей управляющего персонала КИУС является поиск необходимой информации для принятия решения. Это создает основу для разработки методов и алгоритмов формирования персонализированных программно-информационных сред взаимодействия ЛПР с распределенными информационными ресурсами системы управления,

Мультилингвистическая технология поиска данных имеет существенное значение для решения практических задач интерактивного формирования многоязычных информационных ресурсов.

Достоверность полученных результатов подтверждается корректным использованием методологии системного анализа и методов поиска и обработки информации при обосновании полученных результатов, выводов, рекомендаций, а также успешной апробацией и демонстрацией возможностей разработанной системы при проведении экспериментов на базе информационно-управляющей среды в ФГУП ЦКБ «Геофизика».

Реализация результатов работы.

Диссертационная работа выполнялась в рамках проекта РНП 2.2.2.3.9676 «Моделыю-алгоритмическое обеспечение мультилингвистической технологии интерактивного формирования многоязычных информационных ресурсов» аналитической ведомственной целевой программы "Развитие научного потенциала высшей школы (20062008 годы)".

Полученные в диссертационной работе результаты внедрены в учебный процесс ФГОУ ВПО «Красноярский государственный технический университет».

Па основе моделей и математических методов была разработана программная система «Multi-Lingvo ver.1.0», предназначенная для мультилингвистического анализа информационно-терминологического базиса в области системного анализа. Программная система прошла экспертизу и зарегистрирована в Отраслевом фонде алгоритмов и программ (ОФАП), что делает ее доступной широкому кругу специалистов по системному анализу и специалистов, занимающихся техническим переводом и занимающихся формированием тематических коллекций для информационного обеспечения корпоративных информационно-управляющих систем.

Апробация работы. Основные положения и результаты работы прошли апробацию на 47-49-й научно-технических конференциях преподавателей, аспирантов и студентов Красноярского государственного технического университета (2005-2007), на Пленарном заседании Второй Всероссийской конференции «Молодежь и наука: начало 21-го века», посвященной 50-летию КГТУ (2006), на VI-й Всероссийской научно-практической конференции «Инновационные недра Кузбасса. 1Т-технологии» (2007), на IV-m Международном технологическом конгрессе «ВТТВ-Омск» (2007), на ежегодной заочной конференции РАЕН «Современные телекоммуникационные и информационные технологии» (2006). Диссертационная работа в целом обсуждалась на научных семинарах Красноярского государственного технического университета, НИИ Систем управления, волновых процессов и технологий (2005-2007 гг.).

Публикации. По материалам диссертации опубликовано 10 работ, из них 3 без соавторов. Полный список публикаций представлен в конце автореферата.

Заключение диссертация на тему "Мультилингвистическая технология поиска данных для подготовки и принятия решения в информационно-управляющих системах"

Выводы по разделу 4

1. Разработанная система поддержки принятия решения в корпоративных информационно управляющих системах разработана на базе современных информационных технологий, и в полной мере реализует модели и методики поиска и ранжировании информации. Это позволяет перейти на новый этап развития технологии поддержки принятия решения за счет существенного сокращения трудозатрат при обработке необходимой информации, а так же при возникновении проблем и ситуаций, требующих принятия решения на корпоративном уровне.

2. Реализован алгоритм ранжирования и определения релевантности документов производственной ситуации. Полученные результаты можно применять как при работе с системами поддержки принятия решения, так и в поисковых системах, направленных на обработку результатов поиска как одного, так и нескольких поисковых сервисов (метопоисковые технологии).

3. Реализован алгоритм текстового анализа документа для определения уровня релевантности этого документа заданной производственной (корпоративной) проблеме/ситуации. Данный алгоритм позволяет анализировать тексты, принадлежащие к любой языковой группе. Возможен анализ письменности, основанной на иероглифах.

4. Предложенная поисковая методика в полной мере охватывает технологию работы с мультилингвистическими корпоративными базами данных и информационными хранилищами. Данная методика позволяет перейти на новый уровень развития технологий корпоративных информационных систем, учитывающей всестороннюю поддержку ЛПР (профиль пользователя, его требования к необходимой информации).

5. Предложенный способ организации модели запросов ЛПР в ИУС позволил разработать новый алгоритм формирования и непрерывной корректировки данной модели с учетом новой информации, получаемой при взаимодействии ЛПР с системой в рамках конкретных производственных ситуаций.

Заключение

Предложенный способ организации модели запросов ЛПР в ИУС позволил разработать новый алгоритм формирования и непрерывной корректировки данной модели с учетом новой информации, получаемой при взаимодействии ЛПР с системой в рамках конкретных производственных ситуаций.

Разработанный алгоритм формирования и непрерывной корректировки параметров модели ЛПР реализован на основе методологии вероятностного латентно-семантического анализа, что позволило учесть семантическую близость терминологического состава последовательных запросов ЛПР при реализации поддержки принятия решений в ИУС современных предприятий и корпораций.

Разработана новая модель мультилингвистического поиска данных для подготовки и принятия решения в КИУС, отличающаяся от известных процедурами формирования запросов и обработкой отклика, которые базируются на узкоспециализированных многоязычных частотных словарях.

Показано, что использование мультилингвистического информационно-терминологического базиса для поисковых технологий в корпоративных ИУС повышает эффективность сетевых поисковых сервисов при определении релевантности и ранжировании данных и документов в системе, за счет применения:

- оригинальной методики обеспечения заданного уровня релевантности электронных документов ИУС требуемой производственной ситуации, использующей мультилингвистический информационно-терминологический базис;

- нового алгоритма ранжирования данных и документов в ИУС, позволившего реализовать мультилингвистическую метапоисковую технологию для подготовки и принятия решения в ИУС корпоративного типа.

Таким образом, в данной диссертационной работе решена задача автоматизации мультилингвистической технологии поиска данных для подготовки и принятия решения в информационно-управляющих системах, имеющая существенное значение для теории и практики задач анализа и обработки мультилингвистической информации и интеллектуализации систем поддержки и принятия решений.

Перспективным направлением является дальнейшее развитие предлагаемых методик определения релевантности и ранжирования данных и документов в поисковых сервисах сети Internet.

Библиография Лохмаков, Павел Михайлович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Атанов, Г.А. Структурирование понятий предметной области с помощью методов представления знаний/ Г.А. Атанов, И.Н. Пустынникова //Искусственный интеллект, №2,1997. с.29-40.

2. Ахо А., Хопкрофт Дж., Ульман Дж. Структура данных и алгоритмы. М.: Вильяме, 2000.

3. Башмаков, А.И. Технология и инструментальные средства проектирования тренажерно-обучающих комплексов для профессиональной подготовки и повышения квалификации. Часть 2. /А.И. Башмаков, И.А. Башмаков //Информационные технологии. №7, 1999. -с.39-45.

4. Бовтенко, М.А. Компьютерная лингводидактика: Учеб. пособие. -Новосибирск: Изд-во НГТУ, 2000.

5. Брюхов Д.О., В.И. Задорожный, JI.A. Калиниченко, М.Ю. Курошев, С.С. Шумилов. Интероперабельные информационные системы: архитектуры и технологии. Системы управления базами данных, 4, 1995.

6. Ван Лоун, Ч. Матричные вычисления. Издательство "Мир", Москва, 1999.

7. Вендров, А.М. CASE-технологии. Современные методы и средства проектирования информационных систем. М.: Финансы и статистика, 1998.

8. Вендров, А.М. Один их подходов к выбору средств проектирования баз данных и приложений //Системы управления базами данных. №3, 1995. -с.75-86.

9. Вторая ежегодной конференции «Поисковая оптимизация и продвижение сайтов». 2002 http://www.wmate.ru.konf.htm.

10. Ю.Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2001. - 384с.

11. П.Гаврилова, Т.А. Адаптивный диалог и модель пользователя / Т.А. Гаврилова, Е.В. Зудилова //Диалог-95: материалы международного семинара по компьютерной лингвистике и ее приложениям. Казань, 1995. -с.88-97.

12. Даконта М, Саганич A. XML и Java 2. СПб.: Питер, 2001. - 384с.

13. Даниэла Флореску, Алон Леви, Альберто Мендельсон. Технологии баз данных для World-Wide Web: обзор. Системы управления базами данных, 4,1998.

14. Дж. Голуб, Ч. Ван Лоун. Матричные вычисления. Издательство "Мир", Москва, 1999.

15. Джексон, Г. Проектирование реляционных баз данных для использования с микро-ЭВМ. -М.:Мир, 1991.

16. Зеленков, П.В. Программная система «Multi-BasisOptimization у1.0»/Ковалев И.В., Зеленков П.В., Огнерубов С.С., Ежеманская С.Н.// Компьютерные учебные программы и инновации. №7,2005. - С. 20-21.

17. Илан Гринберг, Ли Гарбер. Разработка новых технологий информационного поиска. Открытые Системы, 10,1999.

18. Калянов, Г.Н. Консалтинг при автоматизации предприятий. Подходы, методы, средства. -М.: СИНТЕГ, 1997.

19. Калянов, Г.Н. Сравнение и проблема выбора методов структурного системного анализа / Г.Н. Калянов, А.В. Козлинский, В.Н. Лебедев //PC WEEK/RE. -№34,1996.

20. Калянов, Т.Н. Сравнительный анализ структурных методологий / Г.Н. Калянов, А.В. Козлинский, В.Н. Лебедев //Системы управления базами данных. №5,1997. - с.75-78.

21. Камер Дуглас Э. Компьютерные сети и Internet. Разработка приложений для Internet: Пер. с англ. М.: Изд. дом "Вильяме", 2002. - 640 с.

22. Карберри, С. Модели пользователя: проблема неадекватности //Новое в зарубежной лингвистике. Вып. 24. - М., 1989. - с.259-291.

23. Кириллов, В.П. SSADM передовая технология разработки автоматизированных систем //Компьютеры + программы. - №2, 1994. -с.8-17.

24. Колесников А.О. Реализация авторской системы в сетевой среде // http://www.ulstu.ru/conf/NMK99/2-14.htm

25. Кривошеев, А.О. Перспективные internet-технологии информационного обеспечения образовательных услуг Часть 1. / А.О. Кривошеев, Г.С. Голомидов, А.Н. Таран //Информационные технологии. №7, 1998. - с.38-44.

26. Кустов Д.В. PLSA-адаптация модели пользователя в открытой информационно-образовательной среде/ И.В. Ковалев, Д.В. Кустов// Журнал «Телекоммуникации и информатизация образования».-2004 № 6(25)- Москва. СГУ.-С. 41-51.

27. Кустов Д.В. XML-ориентированная модель гипермедиа/ Д.В. Кустов// Вестник университетского комплекса: Сб. научн. Трудов/ Под общей ред. профессора Н.В. Василенко; Красноярск: ВСФ РГУИТП, НИИ СУВПТ-2005-Вып. 3(17).-С. 16-36.

28. Кустов Д.В. Агентные технологии для поиска и сбора информации/ Д.В. Кустов// Материалы докладов всероссийской научной конференции молодых ученых. «Наука. Технологии. Инновации». Ч.1.- Новосибирск. 2003.-С. 187-189.

29. Кустов Д.В. Активная модель пользователя в среде распределенных информационных ресурсов/ Д.В. Кустов// Решетневские чтения: материалы IX Междунар.науч.конф., посвящ.45-летию Сиб.гос.аэрокосмич.ун-т.-Красноярск, 2005.-С. 217-218.

30. Кустов Д.В. Интеллектуальные агенты и базы данных/ Д.В. Кустов// Сборник материалов VII Всероссийской научной конференции "Решетневские чтения". Красноярск. 2003. - С. 230-231.

31. Кустов Д.В. Модуль реализации активной модели пользователя. М.: ВНИТЦ, 2006. - № 50200600031, Per. номер ОФАП 5544.

32. Кустов Д.В. Мультиагентные технологии поиска информации в распределенных источниках/ Д.В. Кустов// Вестник НИИ СУВПТ: Сб. научн. трудов/ Под общей ред. профессора Н.В.Василенко Красноярск НИИ СУВПТ. 2003. - Вып. 14. - С. 22-30.

33. Кустов Д.В. Программная структура корпоративной системы с элементами адаптации. М.: ВНИТЦ, 2006. - № 50200600032, Per. номер ОФАП 5545.

34. Кустов Д.В., Слободан М.Ю., Огнерубов С.С. «Адаптивная метапоисковая система». Инвентарный номер ФАП: 5955. Код программы поЕСПД: .03524577.01366-01.

35. Лекции по теории графов / Емеличев В.А., Мельников О.И. Сарванов В .И., Тышкевич Р.И. М.: Наука, Гл. ред. физ.-мат. лит., 1990. - 384 с.

36. Логический подход к искусственному интеллекту: от классической логики к логическому программированию/Пер. с франц. М.: Мир, 1990. - 432с.

37. Лорьер Ж.-Л. Системы искусственного интеллекта. / Пер. с франц. М.: Мир, 1991.-568с.

38. Лохмаков, П. М. Мультилингвистический^ переводчик по системному анализу Текст. / П.М. Лохмаков, И.В. Ковалев, К.В. Полянский, Р.Ю. Царев, С.С. Огнерубов, М.В. Карасева // Инновации в науке и образовании. -2007. № 3 (26). - С. 19.

39. Лохмаков, П.М. Инструментарий поисковых систем сети Интернет Текст. / П.М. Лохмаков // Вестник университетского комплекса: сб. научн. тр. / под ред. Н.В. Василенко; НИИ СУВПТ, ВСФ РГУИТП.-Красноярск, 2006. Вып. 23.- С. 113-118.

40. Лохмаков, П.М. Особенности разработки локальных информационных систем Текст. / П.М. Лохмаков // Вестник университетского комплекса: сб. научн. тр. / под ред. Н.В. Василенко; НИИ СУВПТ, ВСФ РГУИТП,-Красноярск, 2006. Вып. 23.- С. 136-140.

41. Мазурина С.М. Разработка моделей представления и обработки знаний в продукционных экспертно-обучающих системах. М.: МГИЭМ. 1995. -164с.

42. Макфредрис, П. Создание Web-страниц. М.: Астрель, 2004. - 230 с.

43. Мамиконов А.Г. Принятие решений и информация. М.: Наука, 1983. -184 с.

44. Манако, В. Коллекции интерактивных словарей для непрерывного обучения индивидуала. / В. Манако, А. Манако, К. Синица //Educational Technology & Society, 2001 № 4(1), http://ifets.ieee.Org/russian/depository/v4il/html/2.html

45. Марка, Д.А. Методология структурного системного анализа и проектирования SADT. М.: Метатехнология, 1993.

46. Некрестьянов, И.С. Тематико-ориентированные методы информационного поиска текст. дис. канд. физ. мат. наук: 05.13.11 /Новиков Б.А. Санкт-Петербург, 2000 -136 с. - библиогр. 126-136 с.

47. Нелюбин, Л.Л. Компьютерная лингвистика и машинный перевод. М., 1991.

48. Перегудов Ф.И., Тарасенко Ф.П. Основы системного анализа- Томск: Изд-во НЛТ, 1997.-396 с.

49. Позин, Б.А. Современные средства программной инженерии для создания открытых прикладных информационных систем //Системы управления базами данных. №1,1995. - с. 139-144.

50. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982. -360 с.

51. Поспелов Д.А. Семиотические модели в управлении./В кн. "Кибернетика. Дела практические". М.: Наука, 1984. - с. 70-87.

52. Представление и использование знаний: Пер. с япон./Под ред. X. Уэно, М. Исидзука. М.: Мир, 1989. - 220 с.

53. Приобретение знаний: Пер. с япон./Под ред. С. Осуги, Ю. Саэки. М.: Мир, 1990.-304 с.

54. Проект SESP (Search Engine Standards Project). Стандарты работы поисковых служб. http://www.searchenginewatch.com/standards/990204.html. -1999.

55. Растригин JI.A. Вычислительные машины, системы, сети. М.: Наука. Гл. ред. физ.-мат. лит., 1982. - 224 с.

56. Результат исследования поведения более 20 млн. пользователей сети. -www.searchenginewatch.com/reports/netratings.html -1999.

57. Ростунов Т.И. Сущность программированного метода обучения. / В сб.: Программированное обучение и кибернетические обучающие машины. / Под ред. Шестакова А.И. М.: Сов. радио, 1963. - с. 10-23.

58. Русский морфологический анализ. http://company.yandex.ru/articles/article 1 .html.

59. Русскин, В.М. Информационная методология SSADM: методика моделирования информационных потоков при разработке автоматизированных систем / В.М. Русскин, В.П. Кириллов //Компьютеры + программы. №3,1995. - с.15-23.

60. Сайт толкового словаря. www.glossary.ru.

61. Серия опросов посвященных Internet активности. -http://www.yandex.ru.polling/index.html

62. Стенли Р. Перечислительная комбинаторика: Пер. с англ. М.:Мир, 1990. -440 с.

63. Степанов В. К. Русскоязычные поисковые механизмы в Интернет. ComputerWorld Россия, И, 1997.

64. Талантов, М. Поиск в Интернете: подводные камни. // КомпьютерПресс №9,1999.-с. 46-52.

65. Терещенко Л.Я., Панов В.П., Майоркин С.Г. Управление обучением с помощью ЭВМ. Л.: Изд-во ЛГУ, 1981. - 143 с.

66. Тим Брэй, Джин Паоли, С.М. Сперберг-Макквин, Ив Мэйлер. Расширяемый язык разметки (XML) 1.0 (вторая редакция). Перевод Радика Усманова.// http://www.citforum.ru/internet/xmlspec/index.shtml.

67. Уотермен Д. Руководство по экспертным системам: Пер. с англ. М.: Мир, 1989.-388 с.

68. Усачев, А.В. Мнемотехника мультилингвистического подхода. Труды XL Международной научной студенческой конференции "Студент и научнотехнический прогресс": Информационные технологии. Новосибирск, НГУ, 2002г. С. 97-103.

69. Усачев, А.В. Нейросетевая кластеризация множественных значений терминологии с учетом лингвистической избыточности. Вестник НИИ СУВПТ, сборник научных трудов, Красноярск, 2003г. С. 140-150.

70. Шемакин Ю.И. Начала компьютерной лингвистики: Учеб. пособие М.: Изд-во МГОУ, А/О "Росвузнаука", 1992. - 115 с.

71. Штрик, A. CASE: автоматизированное проектирование программного обеспечения //Монитор. №4,1992. - с.4-6.

72. Albrecht F., Koch N., Tiller Т. SmexWeb: An Adaptive Web-based Hypermedia Teaching System.// Journal of Interactive Learning Research, Special Issue on Intelligent Systems/Tools in Training and Lifelong Learning. 2000. P. 367-388.

73. Anna Le Calve and Jacques Savoy. Database merging strategy based on logistic regression. Information Processing and Management, 36(3):341-359, May 2000.

74. Baeza-Yates R. and Berthier Ribeiro-Neto. Modern Information Retrieval. ACM Press, 1999.

75. Brusilovsky. P. Methods and techniques of adaptive hypermedia.// User Modeling and User Adapted Interaction. 1996. Vol. 6. P. 87-129.

76. C. M. Bowman, Peter B. Danzig, Darren R. Hardy, Udi Manber, and Michael F. Schwartz. The harvest information discovery and access system. Computer Networks and ISDN Systems, pages 119-125, December 1996.

77. Callan J. Learning while filtering documents. In Proc. of SIGIR'98, pages 224231, Melbourne, Australia, 1998.

78. Cannataro M., Cuzzocrea A., Pugliese A. A probabilistic approach to model adaptive hypermedia systems. Proceedings of the International Workshop on Web Dynamics. 2001.

79. Cohn, D. Learning to probabilistically identify authoritative documents. In Proc. 17th International Conf. on Machine Learning, pages 167-174,2000.

80. Daphen K. and Sahami Mehran. Hierarchically classifying documents using very few words. In Proc. of the ICML'97, pages 170-178,1997.

81. De Bra P., Aerts A., Houben G.J., Wu H. Making General-Purpose Adaptive Hypermedia Work. Proceedings of the WebNet Conference. 2000. P. 117-123.

82. Deerwester S., Dumasis S., Furnas G., Landauer Т., Harshman R. Indexing by Latent Semantic Analysis.// Journal of the American Society for Information Science. Vol. 41.1990. P. 391-407.

83. Douglas L. Baker and Andrew Kachites McCallum. Distributional clustering of words for text classification. In Proceedings of the SIGIR'98, pages 96-103, 1998.

84. Dumais, S. Latent semantic indexing: TREC-3 report. In Proc. of the Third Text REtrieval Conference, 1995.

85. Foltz, P.W. Using latent semantic indexing for information filtering. In ACM Conference on Office Information Systems (COIS), pages 40-47,1998.

86. Gay, G. Collaborative Design in a Networked Multimedia Environment: Emerging Communication Patterns //Journal of Research on Computing in Education. Vol.26, Iss.3. - Spring, 1994. - Pp.418-432.

87. Gilbert, J. E. and Han C. Y. Arthur: Adapting Instruction to Accommodate Learning Style.// Proceedings ofWebNet'99 World Conference of the WWW and Internet Honolulu: Ш. 1999. P. 433-438.

88. Goodfellow, R. CALL Programs for Vocabulary Instruction //Computer Assisted Language Learning Journal. Vol.8. - №2,1995. - Pp.205-226.

89. Halasz F., Schwartz M. The Dexter Hypertext Reference Model.// Communications of the ACM 37(2). 1994. P. 30-39.

90. Hardman L., Bulterman C., van Rossum G. The Amsterdam Hypermedia Model.// Communications of the ACM 37(2). 1994. P. 50-62.

91. Hoffman T. Probabilistic Latent Semantic Indexing.// Proc. Of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1999. P. 50-57.

92. Hoffman T. Unsupervised Learning by Probabilistic Latent Semantic Analysis.// Machine Learning. 2001. Vol. 42. P. 177-196.

93. Hohl, H., H.-D. Bocker, and R. Gunzenhauser. Hypadapter: An adaptive hypertext-system for exploratory learning and programming.// User Models and User Adapted Interaction.: 1996. Vol. 6.

94. Hopfield, J.J. Neural networks and physical systems with emergent collective computational abilities. Proc. Natl. Acad. Sci. 79, 1982. p. 25542558.

95. Katsumoto M., M. Fukuda, Y. Shibata. The Kansei Link Method for MultimediaDatabase.// 10th International Conference on Information Networking (ICOIN-IO). 1996. P. 382- 389.

96. Kleinberg, Jon M. Authoritative sources in a hyperlinked environment // Journal of the ACM, 46(5): 604-632,1999.

97. Koch, T. The building and maintenance of robot based internet search services: A review of current indexing and data collection methods. Technical report, Lund University Library, Sweden, 1996.

98. Lawrence, S. Searching the World Wide Web. Science, 280(5360): 98-100, 1998.

99. Maganti, A. An investigation of linguistic features and clustering algorithms for topical document clustering. In Proc. of the SIGIR'2000,2000.

100. Moran, S. The stochastic approach for link-structure analysis (salsa) and the tkc effect. In Proc. WWW9,2000.

101. Mueller, Ch. Initiation a la statistique linguistique. Paris, 1978.

102. Mukheqea, S., J. D. Foley, and S. Hudson. Visualizing complex hypermedia networks-through multiple hierarchical views.// СНГ95 -Denver. 1995. P. 331337.

103. Murtagh F., Tao F. Towards knowledge discovery from WWW log data. Proceedings of the International Conference on Information Technology: Coding and Computing. 2000.

104. Obraczka, K. Distributed indexing of autonomous Internet services. Computing Systems, 5(4):433-459,1992.

105. Page, L. The pagerank citation ranking: Bringing order to the web. Technical report, Stanford Digital Libraries, 1998.

106. Powell, A. Evaluating database selection techniques: A testbed and experiment. In Proc. of the SIGIR'98, Melbourne, Australia, August 1998.

107. Rauch Henzinger, M. Improved algorithms for topic distillation in a hyperlinked environment. In Proc. Research and Development in Information Retrieval, pages 104-111,1998.

108. Ravi Kumar, S. Prabhakar Raghavan, Sridhar Rajagopalan, Andrew Tomkins, David Gibson, and Jon Kleinberg. Mining the Web's link structure. Computer, 32(8):60-67,1999.

109. Raymie Stata, Krishna Bharat, and Farzin Maghoul. The term vector database: fast access to indexing terms for web pages. In Proc. of the WWW-9, May 2000.

110. Ribeiro-Neto, B. Modern Information Retrieval. ACM Press, 1999.

111. Salton G., McGrill M.J. Introduction to Modern Information Retrieval.// McGraw-Hill. New York. 1993.

112. Saltan, G. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.

113. Smith M., Welty C., McGuinness D. OWL Web Ontology Language Guide// http://www.w3 .org/TR/owl-guide/.

114. Soumen, Chakrabarti. Integrating the document object model with hyperlinks for enhanced topic distillation and information extraction. In Proc. WWW10,2001.

115. Vassileva. J. A task-centered approach for user modeling in a hypermedia office documentation system.// User Models and User Adapted Interaction. 1996. Vol. 6.

116. Weiss, R. HyPursuit: A hierarchical network search engine that exploits content-link hypertext clustering. In Proc. of Seventh ACM Conference on Hypertext, March 1996.

117. Wieringa R., Dubois E., Huyts S. Integrating Semi-formal and Formal Requirements.// Proceedings of Conference on Advanced Information Systems Engineering. 1997. P. 19-32.

118. Wu H, Houben G.-J., De Bra P. (1998). AHAM: A Reference Model to Support Adaptive Hypermedia Authoring.// Proceedings of InfWet 98.1998.

119. Zahn C.T. Graph-theoretical methods for detecting describing gestalt clusters.// IEEE Trans, on Computers. 1971. C-20(l). P. 68-86.

120. Zelenkov, P. Multilingual Adaptive Method of Learning Foreign Languages /Р. Zelenkov, E.Kofman// труды международной конференции «14th 1ST Mobile & Wireless Communications Summit». Дрезден Германия: Technische University Dresden, 2005г. - C.228-233.