автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка лингвосемантических методов обработки экспертной информации для ситуационных центров органов государственной власти
Автореферат диссертации по теме "Разработка лингвосемантических методов обработки экспертной информации для ситуационных центров органов государственной власти"
Тарасов Елизар Саввич
4839860
пг................"
РАЗРАБОТКА ЛИНГВОСЕМАНТИЧЕСКИХ МЕТОДОВ ОБРАБОТКИ ЭКСПЕРТНОЙ ИНФОРМАЦИИ ДЛЯ СИТУАЦИОННЫХ ЦЕНТРОВ ОРГАНОВ ГОСУДАРСТВЕННОЙ ВЛАСТИ
Специальность 05.13.01 - «Системный анализ, управление и обработка информации (информационные и технические системы)»
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
О з [.;,'Р 20:1
Краснодар-2011
4839860
Работа выполнена в ГОУ ВПО «Кубанский государственный технологический университет»
Научный руководитель:
доктор технических наук, профессор Симаиков Владимир Сергеевич
Официальные оппоненты: доктор технических наук, профессор
Ключ ко Владимир Игнатьевич
кандидат технических наук, Мягкий Алексей Евгеньевич
Ведущая организация:
ГОУ ВПО «Кубанский государственный университет», г. Краснодар
Защита диссертации состоится «2» марта 2011 г. в 12.00 часов на заседании диссертационного совета Д 212.100.04 в ГОУ ВПО «Кубанский государственный технологический университет» по адресу: 350072, г. Краснодар, ул. Московская, 2, Г-251
С диссертацией можно ознакомиться в библиотеке Кубанского государственного технологического университета по адресу: 350072, г. Краснодар, ул. Московская, 2А
Автореферат разослан «31» января 2011 г.
Ученый секретарь
диссертационного совета Д 212.100.04
канд. техн. наук, доцент
Власенко А.В.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы
Современный этап развития государства в условиях высокой динамики экономической ситуации и правовой базы требуют от руководителей органов государственной власти (ОГВ) постоянного внимания к различным аспектам рассматриваемых проблем в ходе принятия управленческих решений. Особую важность в данных условиях играет возможность эффективной обработки информации и принятия обоснованных решений в условиях нечеткости, неопределенности, неполноты и противоречивости исходных данных либо условий окружающей среды, специфики проблемной области.
В этой ситуации аппарат руководителя ОГВ нуждается не только в традиционных системах сбора и обработки информации, но и в аналитических моделях, позволяющих оперативно оценить реальное состояние проблемной области, предусмотреть тенденции развития и проанализировать возможные последствия управленческих решений. Этот комплекс задач позволяют решить ситуационные центры (СЦ), которые представляют собой автоматизированный информационно-аналитический комплекс для принятия стратегических решений и управления всеми аспектами деятельности ОГВ.
В современных системах обработки информации и получения знаний в условиях нечеткости, неполноты или противоречивости исходной информации о рассматриваемой проблеме, преимущественно естественно-языковых (ЕЯ) форм ее представления, а также связи со многими предметными областями, актуальным становятся ряд вопросов, связанных с привлечением к процедуре групповой экспертной оценки квалифицированных специалистов в различных предметных областях и обработкой получаемой экспертной информации.
Однако недостаточная эффективность существующих методов информационно-аналитического обеспечения в СЦ обуславливает необходимость дальнейшей разработки методологии и прикладных алгоритмов системного подхода, практической реализации процедур получения знаний и обработки разнородной информации, что повысит адекватность и обоснованность принимаемых в ОГВ решений по задачам оперативного, стратегического и ситуационного управления.
В рамках решения этих задач особый интерес представляет круг вопросов, связанный с формализацией естественно-языковых описаний проблем в рамках интересующей предметной области исследования, их последующего анализа и моделирования, а также дальнейшего использования в процедурах организации и проведения экспертизы, анализа и обобщения получаемой информации. Необходимо разработать методики и алгоритмы применения набора формальных и неформальных подходов к анализу ЕЯ- описания проблемы, ее формализации, оценке и впоследствии - к подбору специалистов в состав экспертных групп, обработке и обобщению поступающей информации по разработанным методикам.
Выбор лингвосемантического подхода в качестве платформы для разрабатываемых методик и алгоритмов обусловлен его эффекгивностью в обработке ЕЯ-описаний, возможностью интеграции с другими методами
получения и аналитической обработки знаний, гибким математическим и алгоритмическим аппаратами.
Целью работы является разработка методического аппарата лингвосемантического анализа и оценки экспертной информации, подходов к его применению в контуре принятия решений ситуационных центров органов государственной власти.
Объектом исследования является комплекс информационно-аналитических систем в составе ситуационных центров ОГВ.
Предмет исследования - математическое, алгоритмическое и программное обеспечение процедур лингвосемантического анализа естественно-языковых описания проблемы и экспертной информации, система соответствующих подходов, методов и моделей.
Основными задачами исследования являются следующие:
1. Разработка подходов, методик и алгоритмов лингвосемантического анализа и формализации информации, представленной на естественном языке с учетом факторов ее неопределенности, неполноты и противоречивости;
2. Разработка методик и алгоритмов формирования тезаурусных описаний экспертной информации;
3. Разработка методик построения моделирующих семантических сетей для формального представления ЕЯ-описаний и экспертной информации;
4. Разработка методики формирования проблемно-ориентированных экспертных групп в СЦ ОГВ, анализа, обобщения и формализации результатов экспертизы;
5. Программная реализация модуля с использованием архитектуры клиент-сервер и технологий интеллектуального анализа данных с поддержкой распределённых режимов работы комплекса.
6. Оценка эффективности разработанных методик, алгоритмов и программного комплекса.
Методы исследования включают: методы семантического, синтаксического, лингвистического и морфологического анализа, теории семантических сетей, кластерного анализа, теории графов, интеллектуального анализа данных (Data Mining).
Положения, выносимые на защиту.
К основным научным результатам, изложенным в диссертационной работе и выносимым на защи ту, относятся:
- подходы, методики и алгоритмы лингвосемантического анализа естественно-языковых описаний проблемы и получаемой экспертной информации в контуре принятия решений СЦ ОГВ;
- методика практической реализации математических моделей и алгоритмов процедур морфологического, синтаксического и лингвосемантического анализа, построения моделирующих семантических сетей обработки экспертной информации;
- программный комплекс «Эксперт», реализующий разработанные методики, модели и алгоритмы, интегрированный в структуру СЦ и
обеспечивающий автоматизацию процедур организации и проведения групповых экспертиз; - клиент-серверная архитектура программного комплекса, механизмы его интеграции в СЦ ОГВ, подходы и результаты оценки его эффективности, подтверждающие адекватность полученных в работе результатов.
Научная новизна работы:
- усовершенствованные математические модели и алгоритмы лингвосемантического анализа, формализации и обобщения естественно-языковых описаний проблемы и экспертной информации;
- оптимизация методик и алгоритмов формирования тезаурусных описаний, определения мер семантической близости моделей ЕЯ-информации, их кластеризации и ранжирования;
- подходы к практическому использованию разработанных методик в ситуационных центрах органов государственной власти;
- архитектура программного комплекса «Эксперт», методика его интеграции в состав ситуационных центров органов государственной власти; модель информационного взаимодействия участников контура принятия решений.
- оценка эффективности разработанных методик на примере формирования проблемно-ориентированных экспертных групп, анализа и обобщения получаемой экспертной информации;
Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается тщательным анализом состояния результатов российских и зарубежных исследований в областях теории прикладной лингвистики и семантического анализа, организации и проведения экспертиз, проектирования и реализации ситуационных центров.
Практическая значимость. Разработана совокупность теоретических положений и реализован специализированный программный комплекс, позволяющий осуществлять лингвосемантический анализ, формализацию и построение тезаурусов экспертной информации, представленной в естественноязыковой форме с учетом специфики решаемых задач, ограничений и условий внешней среды, сформирована методика его интеграции и использования в составе ситуационных центров органов государственной власти.
Усовершенствование научно-методического аппарата информационно-аналитического обеспечения и частичной автоматизации процедур экспертного принятия решений в СЦ ОГВ дает возможность повысить функциональность и оперативность процедур управления.
Публикация результатов и апробация работы. По результатам диссертации опубликовано 10 печатных работ, из них 5 статей (2 статьи в издании из Перечня ВАК для публикации научных результатов диссертаций на соискание ученой степени доктора и кандидата наук), 6 тезисов докладов в материалах Международных, Всероссийских и внутривузовских конференций, а также 1 свидетельство о государственной регистрации программы для ЭВМ. Восемь работ выполнены в соавторстве; личный вклад соавтора (научного руководителя) заключался в постановке задач и общем руководстве.
Основные результаты работы обсуждались на следующих Международных, Всероссийских и внутривузовских конференциях: международная научно-практическая конференция «Информационная безопасность» (Таганрог, 2005); международная заочная научно-практическая конференция «Прогрессивные технологии развития» (Томск, 2008); конференция получателей грантов регионального конкурса «ЮГ» Российского фонда фундаментальных исследований» (Краснодар, 2008); всероссийская конференция с элементами научной школы для молодёжи «Проведение научных исследований в области обработки, хранения, передачи и защиты информации» (Ульяновск, 2009); научно-практическая конференция «Научно-техническое творчество молодежи - путь к обществу, основанному на знаниях» (Москва, 2009); научно-практическая конференция «Ситуационные центры 2009» (Москва, РАГС 2010); международная научно-практическая конференция «Молодёжь и наука: реальность и будущее» (2010 г, Невинномысск).
Реализация и внедрение результатов работы.
Проведение исследований, отражённых в диссертации, было поддержано в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг., ГК № П742 «Разработка теоретических основ и построение интеллектуальной информационно-аналитической системы как основы региональных ситуационных центров органов государственной власти».
Часть результатов была использована при выполнении работ по ГК № П2026 "Разработка подходов к анализу и практической реализации интеллектуальных информационно-аналитических систем органов власти на основе ситуационного моделирования"; ГК Ж12378 «Разработка теоретических основ и построение интеллектуальной информационно-аналитической системы как платформы поддержки принятия решений в органах государственной власти"; проекта РФФИ № 08-07-99030, «Разработка теоретических основ и построение интеллектуальных систем мониторинга, анализа и поддержки принятия политических, социально-экономических и технологических решений регионального уровня для ситуационных центров органов власти».
Объем п структура работы. Диссертация включает в себя введение, 5 глав, заключение, список используемых источников из 108 наименований. Работа изложена на 198 страницах, содержит 42 рисунка и 12 таблиц.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, сформулированы цели и задачи диссертационного исследования, основные положения, выносимые на защиту, определена научная новизна и практическая значимость, содержание и методы выполнения работы, кратко изложены основные результаты.
В первой главе «Аналитический обзор проблем информационно-аналитического обеспечения деятельности ситуационных центров органов государственной власти» приведено краткое описание состояния и результатов российских и зарубежных исследований в области проектирования и реализации ситуационных центров, роли и места информационно-аналитического обеспечения в контуре принятия решений, а также проблем автоматизированной обработки естественно-языковой информации,
существующих методов и подходов лингвистического, семантического и других направлений анализа, теории прикладной лингвистики и семантики.
Обоснована необходимость и актуальность разработки методик повышения эффективности подбора экспертов с учетом специфики решаемых проблем, целесообразность частичной автоматизации этих процессов на основе методов обработки естественно-языковых (ВЯ) описаний, предложены обобщенные структурно-функциональные и информационные модели контуров взаимодействия участников организации и проведения экспертиз.
Показано, что процедура экспертного оценивания обладает рядом специфических черт: слабая формализуемость, противоречивость, значительная нечеткость, неполнота, неопределенность исходных данных и получаемых рекомендаций, необходимость их обобщения, согласования с учетом как требований регламента, так и специфики решаемой проблемы. Указанные особенности налагают ряд ограничений и требований на подходы и методики автоматизации процедур экспертизы, обуславливая необходимость использования методов системного анализа, нечеткой логики и обработки, формализации ЕЯ-описаний объектов. В этой связи предложено использование лингвосемантических подходов к обработке информации, обоснована их адекватность и эффективность для решения сформулированных задач.
Взаимосвязь решаемых задач в ходе функционировании С.Ц на примере контура экспертного оценивания приведена на рис. 1.
Падина
Описание, "стаст.енныйязмк Эксперты Описание: ПрСДВарИТС птый
Преобразование лробпвмы'ик^ог^вцни о пубпикшрш экспертов при помощи морфолотческого, морфемного и лнягенсшческосо лтгипл Р?>Г;т1г
На&«у лниг.кстачегких даутаекиих
ОИНГЧ1МПШГС "Цч'тг.г'мр э > 1 > [>1Г. ».«пи
тблякеинх ----
—л
Сопоставление ттптптстх переменных е классификатором проБп«кпп>к областей, описанных
Результат; Набор ой.чагтгй
Определен!
областей знаний
Нргдвар нтг.п» нмй (шймточимй) набор
Оценке уровня семантической близости ключевых слов установленному порогу Раулвгат цыхла: ОхтчатеяъныИ на Кор ключевых слоя
гттяртг.тлупщнх уггянпнлгнноту порогу
V-
Определение сипы связи
начальной формулировкой
проблемы' информации о публикациях чкгпертон ТУтультат: Набор со по с та »ленных с хлгочтмн словам* гкч ГКО»
J
Формирова» Результат: набор ключ гие итогового Итоговый
Погтроошю семантической сета по требуемому направлению
Не основе грамматически »8 словарей и попучоипого множе стм1^"'чу ключевых слов
Точка обратной связи
Модуль Аиалк!»
Методы лнкгвосемантнчвского, морфологического, скнтггскческогв а килю а, ппгвгвкрктермхтанай опткютмюг
Формирование предварительного с: с ост» экспертной группы Рпульгат; Прсдвчрнтелвнмй сп»
а экспертов - кандидатов в
Предварительные списки экспертов для аналта
1Е
Отбор участников
экспертной группы из списка кандидатов с учётом количественных и качественных требований Рмульгат: Список участников экспертной группы
-1Т
Модуле подбора зкетргош к формированииэкс портных групп Методы лнигаогемантнчрекогя, млрфв логического,
многокритериальной оятнтпацкн
Рисунок I - Задачи лингвосемантической обработки ЕЯ-информации в СЦ на примере контура экспертного оценивания
Проведен анализ методов, существующего математического аппарата и алгоритмического обеспечения лингвосемантического подхода к анализу и формализации ЕЯ-объектов. Формально поставлен ряд задач:
• лингвосемантический анализ разнородной информации, представленной на естественном языке, построение моделирующих семантических сетей;
• выделение ключевых слов, словосочетаний и семантических ареалов из полученных описаний (модели «Онтология - Тезаурус»);
• определение мер семантический близости, ранжирование, кластеризация модельных и ЕЯ-описаний (модели «Semantic Similarity/Clustering»);
• формирование итоговых обобщений имеющихся описаний и получаемой экспертной информации;
• разработка «обобщенного» лингвосемантического алгоритма анализа, формализации и обработки ЕЯ-информации с учетом факторов неполноты, нечеткости и противоречивости;
Во второй главе «Разработка методов, моделей и алгоритмов лингвосемантического анализа и обработки естественно-языковой информации» исследованы теоретические аспекты обработки знаний в ИАС; особенности архитектуры и функционирования ситуационных центров ОГВ; разработаны модели потоков данных, исследованы особенности представления и использования естественно-языковой информации в рамках информационно-аналитического обеспечения деятельности СЦ, которая рассмотрена как объект моделирования, управления и автоматизации. В результате определен ряд существенных недостатков традиционно используемых подходов, сформулированы предложения по частичной автоматизации и повышению его эффективности на базе лингвосемантического подхода к анализу и обработке информации об объектах управления и окружающей среде.
На этапе предварительной обработки и предметной классификации будем рассматривать текст как «набор слов», используя численные характеристики употребления тех или иных терминов, вне зависимости от порядка их употребления. Тогда вероятность того, что термин w, принадлежащий формируемому тезаурусу W, встречается в описании проблемы или корпусе анкет экспертов d (множества D тематического классификатор), т.е. принадлежит той или иной предметной области t:
</)=£/(НОЯМ «О, (1)
геГ
где t - элемент множества Т предметных областей.
Для оценки максимального правдоподобия параметров модели, зависящей от скрытых переменных, используем ЕМ-алгоритм. Параметры предварительного семантического анализа P(w\t) и P{t\d) определим следующим образом. Пусть г - число итераций. На Е-шаге вычислим P(t | w,djr):
„л
На М-шаге оценим параметры: fM')"'--^.............,„ (3),
P(t I j)('> __ «1-
(4)
r(.t)w,iif'
(5)
£ £ tf(»'.d)P(t | «'.df
W'cffrfcD 1СГИЕТ
где N(w,d) - число вхождения элемента тезауруса w в рассматриваемый текст d. Процесс обучения повторяется до сходимости параметров. Однако параметры часто попадают в область локального оптимума, эффективность не улучшается в результате обучения. Введен параметр 0<(1<1 для управления скоростью обучения. Выражение для М-шага примет вид:
г'еГ
Для достижения глобального оптимума изначально принимаем р=1 с уменьшением умножением на 0<//</, пока оценки не улучшатся.
Определим суммарные вероятности PV(w,t) и D(dj) следующим образом:
иЧ"\0(г)(6) Dy.f)"1 =]TA'(W)P(<Krf),r) (7)
lieD M^ir
По формуле (5) получим: rtW у x(w.d)(p(w[o'r""p(i[<о(М))' (s) r(tf f)co _ у mvMwr^ntIrf);r-"r
rfeD
1жГ
ivr
(9)
Алгоритм лингвосемантического анализа примет вид (рис. 2). (^Начало ) ( 1
I. Задание множества Т. Инициализация коэф-тов Дм'|/),/'(;|rf>, порога/?
4. ps(m)<
Q(m.l)
2. Итерационный расчет вероятностных характеристик H'(w,/)=0 для всех н<, /с IVxTn D(d.t)=0 для всех djeDxTn
SumAll(MQ.V( 1 ,.M),Q1\ 1.. М)) 5. Для всех Тп ад,. оад., г)»rf.) ■ сСТО
X
блеТп: i/еД' .SD(rf) ч- 21 D(/i,t)
3. Для всех (w,d): N(w, d)>0 Z(m)<—(w, cl)
Qlm. о <- {/><»•( tf~" P(f I rf)""" Г:
7. t e Tn: 0"' <- »H«-,0/s»r(0 />f/|rf)"> t-V(if.t)/SD(rl)
С Конец~^
Т- множество предметных областей; М- число обрабатываемых (буферных) документов; 2- массив размера М с парами (и», с!) «номер термина - номер документа»; {1(т,0 - массив для т-х промежуточных значений рассматриваемой ^области ЯнтЛПОп.дЗ.ОТ) — коммуникационная процедура, получает массив @передает для вычисления суммы всех значений ото всех процессов, н возвращает их в массив ОТ.
Рисунок 2 - Оптимизированный алгоритм лингвосемантического анализа с ЕМ-алгоритмом параллельного обучения
Для формирования ребер семантической сети и оценки меры семантической близости выделенных понятий (элементов тезауруса) в настоящее время используются четыре распространенных оценки: меры Jaccard, Overlap, Dice и PMI (point-wise mutual information).
Эти метрики исходят из предположения, что высокие частоты совместной встречаемости терминов в тексте указывают на значительную степень ассоциации, что в свою очередь обуславливает наличие семантических связей между ними.
В зависимости от лингвистических, стилистических и иных особенностей рассматриваемого ЕЯ-описания (объем, наличие выделенных модератором ключевых слов, изначально указанной предметной области экспертизы) будем использовать следующий набор метрик:
- Нормализованное расстояние Google и его модификацию:
G(ll, ) = тах{Л}-1о8|Д|1г,.1.-,) (Ш), G'On.ir2) = i?"20(",Hi) (11) l' 1 log|D| - тт{Л}
- Индекс Jaccard (Jaccard index) - статистическая величина, используемая для сравнения подобия и различия анализируемого набора ЕЯ-описаний:
л„. lA'KInA'lirJ____(12)
2 IA-' I ni | +А' | к j 1 -К | ir, | глК | и-, ||
- Коэффициент Dice (Dicc's coefficient), совместно с индексом Jaccard, определяет меру семантической близости терминов X и Y:
z^.nO^i^i^Kl! (В)
- Коэффициент Overlap (overlap coefficient) - мера подобия, связанная с индексом Jaccard, которая вычисляет степень совпадения между двумя тезаурусами:
0(), = (14)
1 П1>п(| АГ| if, ||.| Â'| us II)
- Косинусный коэффициент подобия (The Cositie similarity) - мера подобия между двумя n-мерными векторами по углу между ними:
СТ1.;.1Г2) =_1*1'П И* К И__(15)
' 1 sqrt(\ К | iv, ||)х«7Г/(| К | «j ||)
- Коэффициент простого соответствия (Simple matching coefficient) - по числу общих терминов, без учета размеров наборов:
где: мера | . | - объем набора ключевых терминов (тезауруса); K|w/| - набор связанных с W/ других терминов, полученных из анализируемого документа.
Предложена реляционная модель вычисления семантической близости, использующая набор отношений R(a;b), связывающих термины а и Ь:
sim (n,ft) = =(/?(«,/>)) О7)
Здесь sim(a,' h) - семантическая близость между терминами а и Ь,
S - весовая функция, определенная над множеством семантических отношений R(a; b), выражающая силу семантической связи между а и Ь.
В работе предложено использование результатов работы модуля лексического анализа - автоматически извлекаемые лексические образцы (lexical patterns), которые позволяют успешно представлять различные типы семантических отношений между терминами (порождение, наследование).
Следуя этому подходу, отношение R(a; b) представляется набором лексических образцов. Обозначим частоту встречаемости лексического образца для пары (a; b) как J(r; а; Ь). Наиболее простой подход к определению Е, заключающийся в использовании линейно-взвешенной комбинации отношений:
Е {П{о.Ь))= ]jT N',x/(r,,«,4, (18)
r<G/i(a,f.)
где iv, - вес, связанный с г, и определяемый с использованием обучающей выборки (по описанному выше ЕМ-апгоритму) - обладает рядом недостатков: ростом числа параметров при повышении сложности модели, предположением о взаимной независимости параметров линейной модели, что не соответствует природе ЕЯ-описаний.
Для преодоления указанных ограничений разработан алгоритм кластеризации лексических образцов для определения семантически связанных терминов (рис. 3). Используя результаты кластеризации, определим S следующим образом:
Е(И.(а.,Ь)) = х',/,Лх„/, (19)
здесь х„ь - вектор, описывающий термины а и b. j-й элемент xah равен сумме частот всех образов кластера cjy т.е. ÜLi-ec, '
Л - межкластерная корреляционная матрица, (ij)-n элемент матрицы описывает корреляцию между кластерами с, и зависимостей между семантическими отношениями.
Cj\ вводится для учета
Q На
Начало J
I. Задание множества лексических обратной Р, порога (■)
2. Сортировка 1\ обнуление кластеров
ч>
3. Для всех р; е Р max - ort. с*-0
................................
4. Для кластера с,е С sim cosine(pi. с,); sim max: max sum c'
5. Г.сли max>--0
=c*+p,orC = C&{pii .....
Конец 1
P - лектор частот пар (a, b), fiat; bp), n лексическом образце p: в - порог подобия (задастся пользователем); SORT~ функция сортировки образцов по общей встречаемости в парах (а, !>)\ Вычисление подобия между р, и центроидом кластера Cj ведется по косинусному ко х|)фнциснгу.
Рисуиок 3 - Алгоритм кластеризации для меры семантической близости
Предложенная модель отличается от подобных ей (например, contrast model of similarity) тем, что определена над множеством семантических связей, существующих между двумя терминами, а не набором свойств каждого термина, реализуя реляционный подход к оценке семантической близости.
Для формирования итоговых обобщений имеющихся описаний и
получаемой экспертной информации предложен подход, заключающийся в
формировании семантических пространств (ареалов) максимальной близости на
основе применения ЕА-алгоритма к результатам лингвосемантического
анализа. Обозначим 0/, ...Д - формализованная модель текста с к различными
предметными областями полученной семантической сети и вв - модель набора
текстов С. Термин w в тексте dоценивается следующей величиной:
к
p,i{w) =r Xnv{w\n„) + (1 - А„) (20)
=1
где н> - термин в тексте с/, кг//-вес текста d для выбора /-й предметной области
в ■
0в 7r,' i = ), и Хй - вес 0,
Использование модели 6В направлено на большее разделение моделей предметных областей, т.к. 0В присваивает высокие вероятности незначимым и неинформативным словам, снижая их влияние на модели предметных областей. 0ц оценивается на наборе текстов С и не меняется в ходе дальнейших оценок:
V c(w.d)
Введем дополнительный параметр оценки А = Щ, пd.j\deC, 1 < j< k }. Логарифмическая оценка правдоподобия С:
1окр(С|Л) = Y, Е ' МАпрИ»») + (1 (22)
dec теУ ./=1
где c(w; d) - число терминов w в тексте d.
Возникает задача найти такое значение параметра оценки А, которое максимизирует (22). Другими словами,
Л = nrgtii;ixlog/)(C-|A)
Л * (23)
= т-вчшх]^ Yj х МАнг>("'|0/») + (1 - AH)^(7T,,.jp(«.|flj)))]
Л rlcCwrV j=t
Введем «скрытые переменные», характеризующие термины: {zliK} и p(zd,w~B) - вероятность того, что термин w в тексте d подчиняется выбранному фоновому распределению (модель набора текстов 0В). p(z,/.lr=j) означает, что термин w в тексте d встречается в контексте предметной области j, и не учитывается притом общей моделью текста (не является незначимым). Получим выражения для шагов ЕМ-алгоритма. Е-шаг:
РЬ,-,-) = (24) рЫ,„ = В) = -А»?'("'|0») — (25)
АнрИ»«) + (1 - Л„) Ej\=I
М-шаг:
<ч + 1) = - ^ П))р(~.«,{„ = __/26)
Е('-1 £„,<=»' «(•<>,<*)(!- 7'(г,,.,„ = В))р(г,|,„ =./')
п(пИ)л,,|л = = «))?>(;„,,„ =7) {27)
1'1' Е„.<о <=« '0(1- Кч»* = в))рЫ„' = Я
Зная оценочные параметры каждого термина, группы терминов (семантические ареалы), принадлежащих предметной области ] условно будем считать "псевдотекстом", итоговым обобщением по ]-й предметной области текста. Используя модель (27), мы агрегируем все семантические ареалы термина принадлежащего предметной области ] (по всем текстам, рис. 4), и нормализуем выражение {р^Щ)}»^^ ¡хпя достижения
4 ..2
\ * '
Л ^ ,' ' • • .)....... х- г Агеа 3
"Л л ^
4 ■ г;««'-.--*.- ■, "' ^Ижйак-* •■ ■ ..Г'- ■ Ш ?
Д:- УЯМИ*^:.....Ь«'
Агеа 6 Т^4"99* \
• дгеа о
Рисунок 4 - Семантические ареалы и формирование итоговых обобщений
В третьей главе «Реализация разработанных методов и алгоритмов в составе ситуационных центров органов государственной власти»
разработаны принципы и предложена методика интеграции разработанных моделей и алгоритмов в состав ситуационных центров органов государственной власти, сформированы требования к архитектуре, видам обеспечения, подходы к разработке и реализации программного модуля «Эксперт» в составе СЦ.
Показано, что создание информационно-аналитической подсистемы СЦ, реализующей разработанные методики и алгоритмы лингвосемантического анализа ЕЯ-описаний с учетом специфики предметной области в контуре принятия решений, позволит:
- уменьшить стоимость и время процедур принятия решений;
- повысить качество и эффективность принимаемых решений;
- сократить долю рутинных работ, связанных со сбором, редактированием и анализом исходных и экспертных данных;
- учесть неполноту, противоречивость и нечеткость информации о предметной области и/или о проблеме;
- обеспечить более четкое понимание поставленных целей и задач, во многом типизировать процесс;
- снизить ресурсные затраты.
Разработана модель информационного взаимодействия участников принятия управленческих решений в СЦ ОГВ (рис. 5).
1
•Предварительные критерии отбор * экстентов •Предвлритепьняи г труктурз л»тпррт»нг< комиссий •Специалисты пп оОтг.том зиччий. ■ лгорн* могут Оыть привлечены грлОоте жпсрп
Группа администраторов
ИЙ ОТ«Т ПО Ии№&<№№№)0 ■<•» решения и о0осно»1ние
'НфОрМОЦИЧ
; •Внесение получении)' жпсрл му знаний | -ООеспсчение инфоршциоыю-.ттл^пилго | (ипрадо.яфтгц (•сехучхншюе ПР
А
1?!
Рисунок 5 - Модель информационного взаимодействия участников принятия решений в ГЦ
Описываемая НАС в условиях нечеткости и слабой структурированности исходной информации обеспечит возможность учета экспертных знаний в дальнейшем принятии решений, частичную автоматизацию этих процессов, механизмы ситуационного управления ими. Разработана система информационных, структурно-функциональных и ЭРО-моделей процедур разработки ИИАС СЦ, определены требования к ее математическому и алгоритмическому обеспечению.
Для практической реализации моделей предложено выделить ряд подсистем в блоке экспертного принятия решений СЦ (рис. б):
- Подсистема визуализации и представления данных (интерактивное представление данных, построение и функционирование когнитивных моделей, формализация результатов, интерпретация информации);
- Подсистема формирования проблемно-ориентированных экспертных групп (подбор кандидатур с учётом специфики проблемной области на
основе разработанных методик и алгоритмов анализа и формализации проблем, формализации данных об экспертах для формирования группы);
Подсистема организации и проведения экспертиз (процессы функционирования экспертной группы в части организации и проведения экспертизы, в том числе формирования списка вопросов к обсуждению, сбор, обработку и анализ получаемых экспертных знаний с их последующей формализацией).
/-......J
!,/J
L [ Формирование |
уационного ^ списка критериев \
центра
Определение данных, необходимых для экспертизы
Подсистема формирования ЭГ
'оператор модулей с помощью подсистем информационного обеспечения (комплекс IBM) формирует отчет о сеансе экспертизы.
Отчет может быть представлен как в печатном виде, так и в электронном (документ Word, Excel, выгрузка в БД, html страница).
После формирования отчет может быть выведен на демонстрационный монитор или на индивидуальные рабочие чместа экспертов.
Рисунок 6 - Схема взаимодействия подсистем модуля экспертизы
В четвертой главе «Разработка программного комплекса «Эксперт»
исследованы подходы к созданию программного комплекса, требования к инструментальным средствам, архитектуре, структуре и режимам работы.
Приведено описание программной реализации разработанных методик, алгоритмов и моделей информационного взаимодействия участников принятия управленческих решений, интерфейсы и регламент взаимодействия с подсистемами СЦ. В составе программного комплекса выделен лингвосемантический модуль (рис. 7), реализующий разработанные методики и алгоритмы, который использует морфологические, лексические и лингвистические словари на этапах предварительной обработки ЕЯ-объектов, в терминах которых формируется образ текста описания анкеты эксперта или проблемы.
Программное обеспечение реализует набор методов семантического анализа: лингвистическая обработка и семантическая интерпретация, выполняемые соответственно лингвистическим и семантическим модулями.
Лингвистический модуль объединяет этапы непосредственной обработки текста на естественном языке и его первичной формализации. На этапе
графематического анализа выделяются текстовые единицы (слова, предложения и абзацы), выполняется исключения незначимых слов и конструкций. На этапе морфологического анализа определяются грамматические значения слов.
Лингвистический модуль
описание I проблемы I
Первичные словари Грамматический словарь
Лингвистическое обеспечение Метаданные
I Графематический анализ | > Морфологический анализ | • Синтаксический анализ |
I
Текстовые единицы
Грамматические значения слов
Формальное описание
Пйролэча розупыаюв в семантический модуль
Семантический модуль
Словари моделей предметной области
' - "/'-«в.«»»
Ра.^упьтаты лицгоис тичесмкт.» анализа описания проблемы
Семантический анализ
Семантическое представление предложении
Семантическое обеспечение Словари межфразного анализа
; Межфрозныи семантический анализ |
Семантическое представление текста
Гезоурус.сиг.тРМ'Т кпючевм< сков, предметная обнасть проблемы.
««юяф!.
Рисунок 7 - Схема реализации в ПО методик лингвосемантического анализа
На этапе синтаксического анализа определяется синтаксическая структура предложения, описываемая формулами формального языка.
Семантический модуль выполняет смысловую обработку текста, входные данные представлены результатами обработки, полученными лингвистическим модулем. На этапе межфразового семантического анализа производится объединение семантических представлений отдельных предложений в единую семантическую сеть, описывающую смысл всего текста.
В результате лингвистического анализа поставленной проблемы производится ее структуризация в виде набора моделей проблемных областей, также формируется тезаурус и набор ключевых слов, описывающих проблему и предложения по критериям системы выбора экспертной группы (рис. 8).
Больше возможностей для описания свойств и класоо*
Описания сюйсп и »лассо* НО^рео/рсов, атагже се мантику для иерархий- обобщений таких свойств и классов
Модель данных дня объектов(«ресурсо&») и отношения ме* ду ними
Структура документов ,ХМ1., конкретные типы данных С и итак си с сфуюгури ров энных документов
Рисунок 8 - Иерархия моделей в ходе построения семантической сети
Разработка комплекса велась с учетом требований к функциональности:
- Разработка на основе технологий \Ут32-приложения с учетом требований эргономики, а также программно-аппаратной совместимости;
- Работа с подсистемой формирования знаний и их формализации путем создания единой БД, ее администрированию на основе Microsoft SQL;
- Работа с единой, унифицированной формой анкет;
- Поддержка методики проблемно-ориентированного отбора и ранжирования на основе многокритериального поиска;
- Учет возможности отбора по географическому принципу - с учетом региона и поддерживаемым областям знаний.
- Обеспечение возможности формирования экспертных групп на основе ввода количественных критериев отбора и требований к группе;
- Возможности отладки, верификации этапов функционирования ИАС;
- Возможности формирования и выгрузки отчетных данных.
- Фрагмент структуры БД программного комплекса приведен на рис. 9.
Klmj)act_DJs!:rlbutodJ3BJ.
1ЙШШИД..Р1»ИЬШЙ1 DB г
hv. .naVkppho . tablets
Wi.UcPSIrlng /ndld cninqory iHilHibrayCiHitU
NAVKF'PHO inMntid S'ülHHSIrlllll
Inqia
CflfRgorV
p^piiwnlyf.miiit
/NAVKPPfiO^
I"« Mania
U iOflirtl mnijlie H'lllt
SOillTllSlTlniJ
fan lit MlfifHliy
(KipllMtyCoiin!
iwch Ч'ЧцЧ, >[>[[ы 0 Imlexld
............_
It/'/uh'l iiltl'V.
Indexld
CLUSTER TABLE
"r.V. i.V/AHf'RO '
PK tflhletld.
№ """ •¡nmc'>Siffn(j
tankt
(xJputarilvt.wnl
PK
wrci.SMnc
foqld
C.nlAOory
tw AW.'KPRO
PK tabUiild
sewcli String
foqW
C.itf'gory
fin/McliirilyOnuit
Рисунок 9 - Фрагмент БД семантической сети программного комплекса
Программный комплекс обеспечивает информационную поддержку организации и проведения экспертизы по следующим направлениям (рис. 10):
1. Работа с данными по экспертам.
2. Формулировка проблемы и ввод в систему.
3. Ввод в систему ключевых слов по проблеме
4. Отображение результатов экспертизы: графика, текст.
5. Рассылка сообщений экспертам, контроль получения ответов.
6. Контроль времени проведения экспертизы, сбор, обобщение и хранение результатов.
mm
ФОРМИРОВАНИЕ ЭКСПЕРТНЫХ ГРУПП
Интерфейс Куратор»
И1 ppjynbTíioo • Лрхиа • Наст|
Проблемная область/для выбора экспертов
Семантический поиск Поисг по проблемны" областям Описание проблемы:
преда, -да Вопрос зкспортш
Основные направлена поиска
Проблемы:
«10 «шш«?*
Срочность «мглкг
Вопрос
. Как<м»
¡fUNI'NI
ЮКУЩШ
Сф.ц>ы
1) Какие мепн по Ылшеиу мдемо сглдует íl 4V»»®W>AC»{ фюаИОЧК)
.-(IIKVWJ.M «ОЙ l lllytlin-» ДНЯ >11013^И1Ч'Ч i 4>«и('?гн.ипя ДО«.« («МОВКНиЙ ?) К иим оЛрлку.1 апюм«* ; орлшп- прем» щ I nrtnoi'l 1IMP 1КЧ«"|»0ДКМ010 хлбщм tm.yi.K4Hо» -'!!.•;-МО«:» •.Va.vMfl» npíilKV »dtWI«WI \-VitC|K:J до
• I Pwtf ft* МИД, Ü|Sf|li>l
WMW1W
л Г1 TV
ЧП1 I
Проблема
ПЫ.».'1> iWt пкртсн
iiniuijiiorn фонда. ¿'ИНЙЙ|Ч1 JWH у( imuf-||>Н'У1!<ХШ1,« (*•' VpCOB
му|«пц«чиь>ии ofiju юяйяий ! CV-. noi O.V ll' W.'.'UIMrt ЮЛЛД ♦l«'l>.-.i'iiwipivm i ijM'pv (iWiiolH
Рисунок 10 - Интерфейс модуля «Эксперт»
Следуя представленной схеме, возникает следующий контур функционирования модуля «Эксперт»:
- Ввод описания проблемы на естественном языке
- Формализация полученного описания, классификация проблемы по рубрикатору, формирование множества ключевых слов (словоформ);
- Процедуры подбора кандидатур специалистов в состав формируемой экспертной группы, ранжирование, коррекция получаемого списка;
- Рассылки участникам экспертной группы специальных сообщений с указанием адреса генерируемой анкеты-опросника для сбора мнений;
- Мониторинг хода проведения экспертизы в режиме реального времени, сбор заполненных анкет, обработка и обобщение получаемых данных;
- Визуализация результатов аналитической обработки экспертных данных
В пятой главе «Оценка эффективности использования программного
комплекса» разработана методика оценки эффективности разработанных алгоритмов и программного модуля, приведено описание контрольного примера и полученных результатов (в части подбора экспертов и обобщения материалов экспертизы), сделан вывод о степени эффективности и адекватности разработанных методик и ПО.
Разработано несколько показателей численной оценки получаемых мер семантической близости и формальных представлений ЕЯ-информации в виде семантической сети: SER, ER и коэффициент Спирмена. SER (Strong Error Rate) -число ключевых слов (в процентах от общего числа найденных), которые не имеют отношения к проблемной области (определяется либо вручную — экспертом, либо автоматически - по наличию/отсутствию в тезаурусе). Words"и \{word.s¡¡,m,Xe, и Words ^
SER( и
Words и Words ,iVw и Words ¡"„
100
(28)
ER (Error Rate) - число слов (в процентах), не являются синонимами (определяется вручную экспертом либо автоматически - по наличию/отсутствию в тезаурусе WordNet).
I Words';', \ words w|
j Words words |
Д?(и-) = . 10() (29)
4 \ч/----1- , , W-----/„ »' v '
Где WordsJ_u - множество слов, найденных с помощью предложенного алгоритма для слова w, Words'!,г.* - список синонимов из тезауруса для слова w, Wordsj'„ - список слов близких по значению из тезауруса.
Результаты сравнения абсолютных величин и процентного соотношения ошибок определения мер близости с помощью различных алгоритмов приведены на рис. 12.
Min и max ошибка
0,5
0,45
0,4
J 0,35 •о
| 0.3
£ 0,25 s
| 0.2
I 0.15
0
Base Cos- Cos- Bi-Path Bi-EU Bi- SAN Cos-5n Cos-10n LSA Word Con EUby2
□ min ошибка и max ошибка
3
Рисунок 12- Результаты оценки вычисления мер семантической близости различными алгоритмами
Распределение величин ошибок
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
Base Cos- Cos- Bi-Path Bi-EU Bi- SAN Cos-5n Cos-10n LSA Word Con £Uby2
I о Низкая в Средняя □ Высокая^
Ввиду трудности объективной оценки семантической близости для сравнительного анализа использовался набор данных Миллера-Чарльза (MillerCharles dataset), который содержит 30 совокупностей пар слов, изначально оцененных группой экспертов от 0 (отсутствие подобия) до 4 (идентичность). Результаты вычисления степень корреляции между экспертными оценками и полученными автоматически различными алгоритмами, приведены в табл. I.
Таблица
Название и описание метода Корреляции на
Miller-Charles set
Индекс JaCcard (./accord index) ( 12) 0,260
Коэффициент Dice (Dice's coefficient) (13) 0,267
Коэффициент Overlap (overlap coefficient) (14) 0,382
Метод PMI (point-wise mutual information) 0,549
Нормализованное расстояние Google (11) 0,205
Метод SH (Sahami, 2006) 0,580
Мера CODC (Buckley, Salton, 1994) 0,694
Метод Chen (Chen, Lin, Wei, 2006) 0,834
Предлагаемый алгоритм JICA 0,867
Для оценки релевантности полученных кандидатур проведен экспертный анализ предлагаемого ранжированного списка на предмет соответствия их анкетных данных специфике поставленной проблемы (рис. 13), а также анализ полученных обобщенных заключений по результатам экспертизы. Точность отбора при этом составила от 65 до 80 процентов в зависимости от предметной области, полноты предоставленного описания проблемы и наличия в БД анкет специалистов по требуемому направлению.
Ш§ |
ФОРМИРОВАНИЕ ЭКСПЕРТНЫХ ГРУПП
Интпрфоис Куратора
рт«™™»-,-.^»! Проблемы: СПИСОК экспертов ПМГЛ>4Й«<*ЛМ*»?».;/.-
Пывог 'Рямнпня Mua. Отчеств Раж Соочивггь
Рисунок 13 - Результаты подбора экспертов во внешнюю группу
Сравнив полученные результаты с данными методов анализа, основанных на \Уогс1-Ые1/таксономии и работе со специализированными предметными
областями (табл. 2), можно сделать вывод о достаточной адекватности, надежности и эффективности разработанных методик и алгоритмов.
Таблица 2 - Результаты сравнения с методам», основанными на таксономии
Машаике метода Экспертное оценивание (эталон) Корреляция 0,90 i 5
Rcsnik (1995) 0,7450
Lin (1998) 0,8224
Li (2003) Мера Edgc-coimting 0,8914 0,664 .....
Мера Inloiination-contcnt Jiang & Conralh (1998) 0,745 .........."0,8484"
11рсдлагаемый алгоритм ЛСД 0,8129
Таким образом, получаемые в ходе функционирования программного модуля результаты (с предусмотренной возможностью их корректировки модератором или администраторами экспертизы) позволяют осуществлять эффективный подбор специалистов с учетом специфики конкретных проблем, формируемых на естественном языке, в режиме реального времени обеспечивать проведение экспертизы и аналитическую обработку получаемых результатов.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
В диссертационной работе формально поставлены и решены основные задачи лингвосемантического анализа естественно-языковых описаний с учетом факторов их неопределенности, неполноты и противоречивости. Разработаны подходы, методики и алгоритмы анализа и формализации информации, представленной на естественном языке.
При этом получен ряд новых результатов, к числу которых относятся:
1. Усовершенствованные математические модели и алгоритмы лингвосемантического анализа, формализации и обобщения естественноязыковых описаний, основанные на комплексном использовании результатов предварительного лингвистического, лексического и синтаксического видов анализа, что повышает эффективность формализации ЕЯ-описаний и адекватность используемого ЕМ-алгоритма в контуре обучения;
2. Методика, модели и алгоритм построения моделирующих семантических сетей для формального представления ЕЯ-описаний и экспертной информации, отличающийся от традиционно используемых метрик включением модуля кластеризации лексических образцов для определения семантически связанных терминов, что повышает эффективность и понижает вычислительную сложность алгоритма с ростом рассматриваемых параметров;
3. Подход к формированию итоговых обобщений ЕЯ-описаний и получаемой экспертной информации, заключающийся в формировании семантических пространств максимальной близости на основе применения ЕМ-алгоритма к результатам лингвосемантического анализа и дающий возможность исключать из рассмотрения неинформативных
либо незначимых терминов, а также управлять скоростью обучения с помощью задания величины порога близости.
4. Принципы и методика интеграции разработанных моделей и алгоритмов в состав ситуационных центров органов государственной власти с использованием инструментальных средств Data Mining. Сформированы требования к распределенной клиент-серверной архитектуре комплекса «Эксперт», видам обеспечения, подходы к его разработке и реализации в составе СЦ. Выделен ряд функциональных подсистем, обеспечивающих эффективную деятельность разработанного модуля: визуализации и представления данных; формирования проблемно-ориентированных экспертных групп; организации и проведения экспертиз.
5. Модель и регламент информационного взаимодействия участников процедур принятия решений, в которых выделены и описаны автоматизированный и «экспертный» контуры. Предложена структура программного комплекса со включением модулей лингвистического, морфологического, синтаксического и семантического видов анализа, реализующих разработанные алгоритмы и методики в применении к формированию проблемно-ориентированных экспертных групп в СЦ ОГВ, анализу, обобщению и формализации результатов экспертизы;
6. Самостоятельный практический интерес представляет программная реализация комплекса «Эксперт» на основе полученных теоретических результатов, с использованием архитектуры клиент-сервер и технологий интеллектуального анализа данных с учетом сформулированных требований к функциональности, режимам работы, программно-аппаратной совместимости, интегрируемости и управлению.
7. Методика оценка эффективности разработанных подходов, алгоритмов и их практической реализации, проведен сравнительный анализ эффективности и адекватности теоретического аппарата и разработанного программного комплекса с имеющимися метриками, алгоритмами и подходами - на основе коэффициентов корреляции, Спирмена, Пирсона и обработки эталонных наборов данных. Результаты оценки подтвердили вывод о достаточной адекватности, надежности и эффективности разработанных методик и алгоритмов.
Основные публикации но теме диссертации Статьи а журналах, рекомендованных ВАК для публикации результатов диссертаций на соискание ученой степени доктора и кандидата паук:
1. Симапков B.C., Тарасов ЕС., Путято М.М., «Методологические основы принятия решений с использованием автоматизации неформальных процедур», Журнал «Естественные и технические науки», №4,2010 г.
2. В. С. Симапков, Е. С. Тарасов. Методический подход к анализу и выработке приемов противодействия использованию нетрадиционных информационных каналов -Известия ТРТУ, №4. Информационная безопасность - Таганрог, 2005.
23
Другие издания:
3. Симапков B.C., Тарасов B.C., «О проблемах управления проектированием информационных систем с учетом требований безопасности» - 4-я Международная заочная научно-практическая конференция «Прогрессивные технологии развития», Томск, 2008
4. Симапков B.C., Рсдько А,П., Тарасов Е.С., Колесников Д.Л. и др. «Разработка теоретических основ и построение интеллектуальных систем мониторинга, анализа и поддержки принятия политических, социально-экономических и технологических решений регионального уровня для ситуационных центров органов власти. Конференция получателей грантов регионального конкурса «ЮГ» Российского фонда фундаментальных исследований». - Краснодар, 2008. С. 176-177
5. Симапков B.C., Тарасов B.C. «Интеллектуальная подсистема лннгвоссмаптического анализа для подбора экспертов по проблемным областям в рамках проведения психофизиологических исследований». Сборник трудов Юбилейной Десятой междуиар. научно-нрактич. конференции. - Краснодар: изд-во КубГТУ, 2009. - 164 с. С. 121.
6. Симапков B.C., Тарасов ЕС. «Интеллектуальная подсистема лингвоссмантнчсского подбора экспертов с учётом специфики проблемной области». Всероссийская конференция с элементами научной школы для молодёжи «Проведение научных исследований в области обработки, хранения, передачи и защиты информации», Ульяновск, 2009.
7. Е.С. Тарасов. Разработка и реализация процедур функционирования экспертных групп в рамках ситуационных центров органов государственной власти - «Научно-практическая конференция «Научно-техническое творчество молодежи - путь к обществу, основанному на знаниях», Москва 2009
8. Симанков B.C., Тарасов Е.С. «Применение внешних проблемно-ориентированных экспертных групп в работе информационно-аналитических систем ситуационного центра» - Сборник трудов научно - практической конференции «Ситуационные центры 2009», Москва, РЛГС, 2010.
9. Симанков B.C., Тарасов ЕС., Путято М.М. «О применении лингпосемантичсского подхода к подбору экспертов с учетом специфики проблемной области», Ш Международная научно-практическая конференция «Молодёжь и наука: реальность и будущее», том 5, Естественные и прикладные пауки, 2010 г, Нсвиипомысский институт экономики, управления и нрава.
10. Симанков B.C., Тарасов Е.С, Путято М.М. «Использование когнитивной графики для формализованного представления знаний экспертов и принятия решений», Международная научно-практическая конференция «Молодежь и наука: реальность и будущее», том 5, Естественные и прикладные науки, 2010 г, Нсвиипомысский инс титут экономики, управления н права.
11. Свидетельство об официальной регистрации программы для ЭВМ «Подсистема мониторинга и оценки эффективности деятельности органов государственной власти», (Симанков B.C., Черкасов A.M., Путято М.М., Тарасов Е.С.) №2010614836 от 23.08.2010 г.
Подписано в печать 31.01.2011. Печать трафаретная. Формат 60x84 1/16. Усл. исч. л. 1,35. Тираж 100 экз. Заказ №438. ООО «Издательский Дом-Юг» 350072, г. Краснодар, ул. Московская 2, корп. «В», оф. В-120
тел. 8-918-41-50-571 e-mail: olfomcnko@yandcx.ru Сайт: http://id-y4g.narod2.ru
Оглавление автор диссертации — кандидата технических наук Тарасов, Елизар Саввич
Введение.
1 АНАЛИТИЧЕСКИЙ ОБЗОР ПРОБЛЕМ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОГО ОБЕСПЕЧЕНИЯ ДЕЯТЕЛЬНОСТИ СИТУАЦИОННЫХ ЦЕНТРОВ ОРГАНОВ ГОСУДАРСТВЕННОЙ ВЛАСТИ.
1.1 Актуальность проблем информационно-аналитического обеспечения экспертной деятельности. Роль и место процедур обработки экспертной информации в контуре принятия решений.
1.2 Аналитический обзор архитектуры построения СЦ органов государственной власти, подходов к обеспечению их функционирования.
1.3 Цели, задачи и методы исследования проблем обработки естественноязыковой информации в составе СЦ органов государственной власти.
1.4 Выводы.
2 РАЗРАБОТКА МЕТОДОВ, МОДЕЛЕЙ И АЛГОРИТМОВ ЛИНГВОСЕМАНТИЧЕСКОГО АНАЛИЗА И ОБРАБОТКИ ЕСТЕСТВЕННО-ЯЗЫКОВОЙ ИНФОРМАЦИИ.
2.1 Особенности применения системного подхода в рамках информационно-аналитического обеспечения процедур функционирования СЦ.'.
2.2 Анализ подходов к использованию естественно-языковой информации в СЦ органов государственной власти.
2.3 Разработка подходов к автоматизации процедур информационно-аналитического обеспечения деятельности СЦ на основе методов обработки экспертной информации.;.
2.4 Выводы.
3 РЕАЛИЗАЦИЯ РАЗРАБОТАННЫХ МЕТОДОВ И АЛГОРИТМОВ В СОСТАВЕ СИТУАЦИОННЫХ ЦЕНТРОВ ОРГАНОВ ГОСУДАРСТВЕННОЙ ВЛАСТИ.
3.1 Разработка требований к архитектуре и видам обеспечения интеллектуальной подсистемы информационно-аналитического обеспечения экспертиз в СЦ.
3.2 Разработка подходов к реализации подсистемы обработки экспертной информации и ее интеграции в СЦ органов государственной власти.
3.3 Модель взаимодействия участников автоматизированных процедур организации и проведения экспертиз.
3.4 Выводы.
4 РАЗРАБОТКА ПРОГРАММНОГО КОМПЛЕКСА «ЭКСПЕРТ».
4.1 Разработка требований к платформе и инструментальным средствам реализации ПК «Эксперт».
4.2 Разработка архитектуры, структуры и регламента функционирования программного комплекса «Эксперт».
4.3 Описание процедуры использования программного комплекса «Эксперт» в контуре принятия решений.
4.4 Выводы.
5 ОЦЕНКА ЭФФЕКТИВНОСТИ ИСПОЛЬЗОВАНИЯ
ПРОГРАММНОГО КОМПЛЕКСА.
5.1 Методики оценки эффективности алгоритмов и программного комплекса «Эксперт».
5.2 Описание тестовых выборок и хода проведения эксперимента.
5.3 Анализ полученных экспериментальных результатов.,.
5.4 Выводы.
Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Тарасов, Елизар Саввич
В связи с быстро меняющейся обстановкой в стране . и мире, возникающими социально-экономическими и политическими кризисами и угрозами национальной безопасности неуклонно повышаются требования к информационному обеспечению государственного управления, осуществляемого различными ветвями власти в Российской Федерации. Суть этих требований - в незамедлительном представлении в полном объеме информационных ресурсов, необходимых для выработки и принятия важных государственных решений независимо от места и времени пребывания главы государства. При этом весьма актуальны задачи формирования ресурсов не только органами различных ветвей и уровней власти, но и полученных в результате сбора и анализа мнений экспертов и социальных групп по особо важным проблемам, а также обработки сообщений печатных и электронных средств массовой информации и из сети Интернет.
Такие задачи, как компьютерная обработка больших . массивов естественно-языковых текстов (ЕЯ-текстов), естественно-языковое взаимодействие системы с пользователем, создание больших банков информации на основе естественных языков (ЕЯ), .разработка языков посредников в многоязычной информационной среде, приобретают особую актуальность в связи с развитием глобальных компьютерных сетей и формированием больших объемов распределенных данных [54, 55].
Решение этих задач должно быть обеспечено путем внедрения передовых информационных технологий сбора, обработки и консолидации различных типов и форм данных, представления самых разнообразных информационно -технологических и аналитических услуг. Это обуславливает необходимость создания эффективной системы информационно-аналитического обеспечения деятельности органов государственной власти [64-66].
Качественное решение задач по информационно-аналитическому, информационно-справочному обслуживанию во многом зависит от эффективности применяемого инструментария - комплекса информационно-аналитических и информационно-справочных систем. В. составе комплекса важную роль играют информационно-справочные системы общего назначения, которые обеспечивают интеграцию и ведение отдельных ресурсов и могут быть полезны как при анализе общественно-политических процессов, так и при экспертной оценке социально-экономической ситуации.
Анализ опыта разработки сложных информационных систем обработки разнородной информации показывает, что строго формализованные методы анализа, моделирования и прогнозирования, в том числе статистйческие и методы математического моделирования, являются несостоятельными в целом ряде ситуаций. В общем, это является проявлением несоответствия характеристик изучаемого объекта допускам и возможностям методологии исследования, а также используемого инструментария, сколь бы технологически совершенно он не был реализован.
Такого рода характеристиками объектов на сегодняшний день являются как сложность проблем, решаемых ОГВ, так и хаотичность развития ситуации и ее окружения. Следствием такого несоответствия становится общая тенденция к усложнению и бюрократизации структур управления. Все вышесказанное приводит к необходимости частой констатации отсутствия у объектов мониторинга, контроля и управления стабильных во времени структурных и поведенческих характеристик. Исчезновение свойства инерционности, а, следовательно, невозможность выделения эволюционных этапов в развитии систем ведет к отсутствию как достоверной статистической базы по объектам исследования, так и обоснованной теории развития рассматриваемых систем, невозможности или нецелесообразности преодоления этих проблем в рамках сроков, приемлемых с точки зрения управления и принятия решений [23, 49, 54].
Кроме того, часто на начальных стадиях изучения проблемы либо в ходе рассмотрения долгосрочных перспектив развития исследователь сталкивается с тем, что вынужден иметь дело лишь с качественным описанием систем. Таким образом, следует признать наличие существенных ограничений, накладываемых на допустимые методы анализа со стороны как способов описания систем, так и способов представления информации по ним.
Как правило, решение в этих условиях задач контроля, принятия решений, управления и прогнозирования требует определения целей развития исследуемой системы, осуществления их упорядочивания и сравнения, выделения существенных факторов достижения целей, обоснования и формирования стратегий достижения целей и механизмов их реализации, учитывающих комплексную эффективность прогнозирования альтернатив развития и их следствий и т.п. [26, 64-66]. *
Все упомянутые ситуации, требующие использования инструментария экспертного оценивания, принятия решения и прогнозирования, сопряжены в подавляющем большинстве случаев с обоснованием в условиях крайней неопределенности не только процессов и взаимодействий, но и главным образом самих изучаемых систем, ситуаций и т.д.
В современных системах поддержки принятия решений в условиях неполноты или противоречивости исходной информации о рассматриваемой проблеме, ее связи со многими предметными областями экспертиза остается одним из наиболее эффективных механизмов контура принятия решений и аналитической обработки. Однако теоретические подходы и предложения к практической реализации процедур организации и проведению такого рода экспертиз еще недостаточно разработаны. В этой связи актуальным становятся вопросы, связанные с привлечением к процедуре групповой оценки квалифицированных экспертов в той или иной прёдметной области - в зависимости от специфики и направленности проводимой экспертизы [58-61].
Недостаточная эффективность существующих методов и подходов к организации процедур подбора экспертов в конкретных предметных областях обуславливает необходимость разработки методологии и прикладных алгоритмов системного анализа, направленных на решение этих задач, что позволит повысить адекватность и обоснованность выводов проводимых экспертиз сформированными группами специалистов.
В рамках решения этих задач особый интерес представляет круг вопросов, связанный с определением и формализацией конкретных проблем в рамках интересующей предметной области исследования, их последующего анализа, а также процедур организации и проведения экспертизы сформированными проблемно-ориентированными экспертными группами — как по уже полученным результатам, так и в режиме реального времени. Другими словами, представляется необходимым разработать методику применения набора теоретических формальных и неформальных подходов к формулированию проблемы, ее анализу, формализации и последующему подбору специалистов для формирования экспертных групп [62].
Предлагаемый подход обеспечит, с одной стороны, значительное повышение эффективности и экономию временных, финансовых и трудовых ресурсов, обоснованности принимаемых решений, особенно в условиях неполноты и противоречивости исходной информации, а с другой -возможность системного учета экспертных знаний в дальнейшем принятии решений, частичной автоматизации этих процессов и обеспечение требуемого уровня управляемости и контроля над процедурами принятия решений и их дальнейшей реализацией.
Привлечение экспертных групп к решению проблем в ситуационных центрах позволит достичь требуемого уровня эффективности принимаемых решений, надежности и оперативности их оценки и реализации, что обеспечивается спецификой распределённой архитектуры комплекса и его функционированием в режиме реального времени. Такая платформа обеспечивает использование опыта и знаний проблемно-ориентированной экспертной группы в целях полномасштабного контроля и управления всеми этапами жизненного цикла процесса принятия решений.
Заключение диссертация на тему "Разработка лингвосемантических методов обработки экспертной информации для ситуационных центров органов государственной власти"
Основные выводы и результаты работы
В диссертационной работе формально поставлены и решены основные задачй лингвосемантического анализа естественно-языковых описаний с учетом факторов их неопределенности, неполноты и противоречивости. Разработаны подходы, методики и алгоритмы анализа и формализации информации, представленной на естественном языке. При этом получен ряд новых результатов, к числу которых отнсятся:
1. Усовершенствованные математические модели и алгоритмы лингвосемантического анализа, формализации и обобщения естественноязыковых описаний, основанные на комплексном использовании результатов лингвистического, лексического и синтаксического видов анализа,- что повышает эффективность формализации ЕЯ-описаний и адекватность используемого ЕМ-алгоритма в контуре обучения;
2. Методика, модели и алгоритм построения моделирующих семантических . сетей для формального представления ЕЯ-описаний и экспертной информации, отличающийся от традиционно используемых метрик включением модуля кластеризации лексических образцов для определения семантически связанных терминов, что повышает, эффективность и понижает вычислительную сложность алгоритма с ростом рассматриваемых параметров;
3. Подход к формированию итоговых обобщений ЕЯ-описаний и получаемой экспертной информации, заключающийся в формировании семантических пространств- максимальной близости на основе применения ЕМ-алгоритма к
• результатам лингвосемантического анализа и дающий возможность исключать из рассмотрения неинформативных либо незначимых терминов, а также управлять скоростью обучения с помощью задания величины порога близости.
4. Принципы и методика интеграции разработанных моделей и алгоритмов в состав ситуационных центров органов государственной власти с использованием инструментальных средств Data Mining. Сформированы требования к распределенной клиент-серверной архитектуре комплекса «Эксперт», видам обеспечения, подходы к его разработке и реализации в составе СЦ. Выделен ряд функциональных подсистем, обеспечивающих эффективную деятельность разработанного модуля: визуализации и представления данных; формирования проблемно-ориентированных экспертных групп; организации и проведения экспертиз.
5. Модель и регламент информационного взаимодействия участников процедур принятия решений, в которых выделены и описаны автоматизированный и «экспертный» контуры. Предложена структура программного комплекса со включением модулей- лингвистического, морфологического, синтаксического и семантического видов анализа, реализующих разработанные алгоритмы и методики в применении к формированию проблемно-ориентированных экспертных групп в СЦ ОГВ, анализу, обобщению и формализации результатов экспертизы;
6. Самостоятельный практический интерес представляет программная реализация комплекса «Эксперт» на основе полученных теоретических результатов, с использованием архитектуры клиент-сервер и технологий интеллектуального анализа данных с учетом сформулированных требований к функциональности, режимам работы, программно-аппартаной совместимости, интегрируемости и управленнию.
7. Методика оценка эффективности разработанных подходов, алгоритмов и их практической реализации, проведен сравнительный анализ эффективности и адекватности теоретического аппарата и разработанного программного комплекса с имеющимися метриками, алгоритмами и подходами - на основе коэффициентов корреляции, Спирмена, Пирсона и обработки эталонных наборов данных. Результаты оценки подтвердили вывод о достаточной адекватности, надежности и эффективности разработанных методик и алгоритмов.
Заключение
Предложенные в работе методики и алгоритмы на основе системного подхода к обеспечению анализа и обработке экспертной информации в ситуационных центрах органов государственной власти основаны на применении методик лингвосемантического анализа, обработки и формализации естественноязыковых описаний с последующей реализацией в ИАС Ситуационных центров для автоматизации контуров мониторинга, контроля и принятия решений.
Разработанный программный комплекс «Эксперт» позволяет повысить эффективность решения следующих задач:
- сбор, первичную обработку и при необходимости - формализацию результатов мониторинга для аналитического обеспечения деятельности ОГВ;
- разработку эффективной Системы критериев оценки выполнения программных и текущих контролируемых ОГВ мероприятий;
- оценку целевых индикаторов объектов управления (региона, муниципального образования, округа) и разработку рекомендаций по устранению обнаруженных отклонений;
- прогнозные оценки выполнения мероприятий;
- организацию и проведение выборочной (при необходимости — полномасштабной) экспертизы отчетных материалов с помощью формируемой проблемно-ориентированной экспертной группы или же в автоматизированном режиме;
- оценку результатов и эффективности выполнения текущих проектов и программ в ОГВ на основе разработанного комплекса моделей;
- обнаружение, анализ и оценку факторов, оказывающих негативное влияние на выполнение проектов, разработку рекомендаций по их устранению;
Программная часть комплекса реализует разработанный математический и алгоритмический . аппараты, поддерживая в случае необходимости распределенные режимы работы с учетом факторов стабильности, функциональности и защищенности, в том числе выполняет процедуры извлечения данных из разнородных источников, согласовывает, агрегирует и преобразовывает эти данные в аналитическую информацию; поддерживая различные методы анализа данных и их представление в различных форматах.
На данный момент разработаны механизмы интеграции ПК «Эксперт» с подсистемами мониторинга, анализа,' прогнозирования и СППР в составе СЦ ОГВ, с БД и системами критериев (целевых индикаторов), а также визуальной динамической средой отображения.
В рамках Ситуационного центра разработан и протестирован регламент взаимодействия участников информационно-аналитической деятельности, схема управления данными и информационного обслуживания с применением разработанного программного и иных видов обеспечения аналитического сопровождения ОГВ.
Исследованы вопросы организации и функционирования подсистемы мониторинга' программных мероприятий в составе ситуационного центра, сформулированы и проанализированы ее цели, задачи и функции, приведен обзор наиболее эффективных методик и подходов к организации процесса мониторинга, проанализированы технологии и методы организации подсистемы на основе разработанной интеллектуальной архитектуры, определен порядок действий при подготовке и проведении мониторинга.
Разработан и сертифицирован алгоритм поддержки принятия управленческих решений на основе комплексного применения формальных и неформальных методов со включением описанных автоматизированного и «экспертного» контуров: использование баз данных и знаний информационно-аналитических систем ситуационного центра в случае получения корректного, допустимого множества альтернатив, а при отсутствии таковых — взаимодействие с формируемыми внешними группами экспертов для оперативного и эффективного принятия решений и организации выборочной либо полномасштабной экспертизы отчетов по выполнению мероприятий Программы. Вновь полученные экспертные знания интегрируются в базу знаний ситуационного центра для обработки информационно-аналитической системой и дальнейшего использования специалистами и ЛПР.
Разработаны и апробированы методики формирования экспертных групп на основе интеллектуальных методов, структуризации проблемы, ее формального описания, семантического и морфологического анализа, оценки эффективности сформированной группы, организации ее работы в • ситуационном центре.
В условиях неопределенности выбора и нечеткости исходной информации СЦ с интегрированным ПК «Эксперт» поддерживает все этапы принятия управленческих решений в ОГВ и оказывает эффективную помощь руководителю в сложившейся ситуации, взаимодействуя в том числе и с подсистемами мониторинга, моделирования и прогнозирования, а при необходимости - и с привлечением внешней экспертной группы из числа наиболее компетентных специалистов по соответствующим предметным областям. Применение такого подхода позволит расширить круг решаемых задач и позволит оптимизировать процессы принятия управленческих решений.
Библиография Тарасов, Елизар Саввич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Апресян Ю.Д. Лексическая семантика. Синонимические средства языка. М., Наука, 1974,367 с.
2. Бабак В.Ф., Рыженко И.Н. Аспекты проектирования информационных систем // Тезисы конференции посвященной 200-ю со дня рождения Пушкина. —Бишкек: КРСУ, июль 1999. — 356с.
3. Байдун В.В., Литвинцева Л.В., Налитов С.Д. Графические средства для построения систем когнитивной графики и виртуальных миров// Программные продукты и системы. — М., 1995. — с. 7-13.
4. Благовещенская М.М., Злобин Л.А. Информационные технологии систем управления технологическими процессами. М.: Высшая школа 2005.
5. Боженюк A.B., Котов Э.М., Целых A.A. Интеллектуальные интернет-технологии. — город.: Феникс, 2009. —382с.
6. Борисов А.Н., Левченков A.C. Методы интерактивной оценки решений. — Рига: Зинатне, 1982. — 250 с.
7. Бусленко В.И. Автоматизация имитационного моделирования сложных систем. М., 1977. 427 с.
8. Волкова В.Н., Денисов A.A., Темников Ф.Е. Методы формализованного представление систем. СПб.: СПбГТУ, 1997. —107 с.
9. Воронина И.Е. Компьютерное моделирование лингвистических объектов: монография / И. Е. Воронина. — Воронеж: Издательск'о- полиграфический центр ВГУ, 2007. — 177 с.
10. Воронина И.Е. Метод последовательной фильтрации при разработке лингвистического обеспечения информационных процессов / И. Е. Воронина, А. А. Кретов // Межвуз. сб. научных трудов "Математическое обеспечение ЭВМ", Вып. 1, Воронеж, 1999. — С. 17—21.
11. Гадяцкая O.A., Родионов A.C. Исследование некоторых показателей связности случайных графов // IX Международная конференция
12. Проблемы функционирования информационных сетей" ИВМ и МГ. — Новосибирск, 2006. — с. 87-89.
13. Герасименко В. А., Малюк А. А. Основы защиты информации. — М.: МГИФИ, 1997-456 с.
14. Гладкий A.B., Мельчук И.А. Элементы математической лингвистики. -М. :Наука, 1969.
15. Гладкий A.B. Формальные грамматики и языки.- М: Наука, 1973.
16. Гладкий A.B. Синтаксические структуры естественного .языка в автоматизированных системах общения. -М.: Наука. Главная редакция физико-математической литературы, 1985. -144 с.
17. Горелов И.Н. Разговор с компьютером: психолингвистический аспект проблемы. —-М.: Наука, 1987. — 256 с.
18. Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового* общения. "Новое в зарубежной лингвистике,вып.24.,Прогресс, 1989,с.5-29.
19. ГОСТ 27.002-89. Надёжность в технике. Основные понятия. Термины и определения. М.: Изд-во стандартов, 1989. - 36 с.
20. ГОСТ 27.003-90. Надежность в технике. Состав и общие правила задания требований по надежности.— М.: изд-во стандартов, 1990. — 27 с.
21. Гришин В.Г. Образный анализ экспериментальных данных. — М: Наука, 1982. —200 с.
22. Елагин В. В. Теоретические основы создания системы информационно-аналитического обеспечения государственного управления: диссертация доктора технических наук; 05.13.10: Челябинск, 2006. 440 с.
23. Иберла К. Факторный анализ. М.: Статистика, 1980. 98 с.
24. Информационно-аналитические средства поддержки принятия решений и ситуационные центры// Материалы научно-практической конференции, состоявшейся в РАГС 28-29 марта 2005 года / Под общ. ред. А.Н. Данчула. — М.: Изд-во РАГС, 2006. —326.с.
25. Ириков В.А., Тренев В.Н. Распределенные системы принятия решений. Теория и приложения. — М.: Наука. Физматлит, 1999. — 288 с. .
26. Искусственный'интеллект. В 3-х кн. — М.: Радио и связь, 1990. — Кн. 2. Модели и методы: справочник. — 304 с.
27. К. Асан, Д. Ватада, С. Иваи и др. Прикладные нечеткие системы: Пер.с япон. / Под ред. Т. Тэрано, К. Асаи, М. Сугэно. — М.: Мир, 1993. —168 с.
28. Кини Р.Д., Райфа X. Принятие решений при многих критериях. Предпочтения и замещения. — город, издательство 1981. — страницы
29. Косенко Е. Ю. Методы моделирования для проектирования распределенных информационных систем; диссёртация кандидата технических наук; 05.13.18: Таганрог, 2004. 216 с.
30. Князиков A.C., Завойстый В.И. Аспекты экономической безопасности региона (на примере Ярославской области), 2003. Электрон, ресурс. URL: http: // www. ubb. adm. yar. ru (14.05.2008) ,
31. Литвак Б. Г. Экспертная информация: методы получения и анализа. М.: Радио и связь, 1982. 94 с.
32. Лорьер Ж.-Л. Системы искусственного интеллекта. — М.: Мир, 1991. — 568 с.
33. Маидель И. Д. Кластерный анализ. М.: Финансы и статистика, 1988. 82 с.
34. Мелихов А.Н., Бернштейн Л.С., Коровин С.Я. Ситуационные советующие системы с нечеткой логикой. М.: Наука, 1990. 272 с.
35. Месарович М., Такахара И. Общая теория систем: Математические основы. — М.: Мир, 1978. — 311 с.
36. Моисеев H.H. Математические задачи системного анализа. М.: Наука, 1981. —488 с.
37. Муратова М.Ч. Количественный анализ социально-экономических параметров регионов России. — Майкоп: Изд-во Адыгейского государственного ун-та, 1997. — 40 с.
38. Нариньяни A.C. Экспериментальная разработка формальной модели русского языка. 4.1.// АН СССР. Сибирское отделение. Вычислительный центр, Препринт, 1978.
39. Нариньяни A.C. проблема понимания ЕЯ-запросов к базам данных решена. Труды Международного семинара "Диалог'95": компьютерная лингвстика и ее приложения,'Казань, 31 мая- 4 июня, 1995. /Под.ред. Р.Г.Бухараева, А.С.Нариньяни, В.Д.Соловьева /, с.206-215.
40. Научно-техническая безопасность регионов России: методические подходы и результаты диагностирования / Под ред. А.И. Татаркина, A.A. Куклина. — Екатеринбург: Изд-во Урал, ун-та, 2000. —415 с.
41. Орлов А. И. Теория принятия решений: учебник. — М.: Экзамен, 2006. — 573 с.
42. Орлов А. И. Принятие решений. Теория и методы разработки управленческих решений. Учебное пособие. — М.: МарТ, 2005. — 496 с
43. О семантическом анализе текстов в АОС// Сулейманов Д.Ш. Сб. научных тр. «Вероятностные методы и кибернетика». Вып. 20. - Казань: Изд-во Казан, ун-та, 1984. - С. 106-116.
44. Перегудов Ф.И. Системное проектирование АСУ организационными комплексами. —Томск: ТГУ, 1974. — 215 с.
45. Поляков В.Н. Модели алгоритмического типа для распознавания семантических связей в системах машинной обработки естественного языка: диссертация кандидата техн. наук; 05.13.16: Москва, 1997, 170 с.
46. Решта И. В. Математическое и программное обеспечение задач компьютерной поддержки принятия решений с использованием прецедентов: диссертация кандидата техн. наук; 05.13.17: Новосибирск, 2005, 22 с.
47. Романов В.П. Интеллектуальные информационные системы. М.: Экзамен, 2003.
48. Садовский В.Н. Основания общей теории систем: Логико-методологический анализ. — М.: Наука, 1974. — 279 с.
49. Симанков B.C. Автоматизация системных исследований: Монография (научное издание). —Краснодар.: КубГТУ, 2002. — 376 с.
50. Симанков B.C., Бучацкая В.В. Современное состояние и развитие нейронных сетей. Аналитический обзор. Ин-т совр. Технол. и экон. — Краснодар, 2003. Рус. Деп. в ВИНИТИ, 02.09 2003 г., № 1635-В2003.
51. Симанков B.C., Владимиров С.Н. и др. «Методологические аспекты построения систем поддержки принятия решений». Вестник ДГТУ,, том 8, № 3, Ростов-на-Дону, 2008 г.
52. Симанков B.C., Луценко Е.В. Адаптивное управление сложными системами на основе теории распознавания образов: Монография (научное издание). — Краснодар.: КубГТУ, 1999. — 318с.
53. Симанков B.C., Луценко Е.В., Лаптев В.Н. Системный анализ в адаптивном управлении: Монография (научное издание) / Под научн. ред. B.C. Симанкова. —Краснодар.: Ин-т совр. технол. и экон., 2001. — 258с.
54. Симанков B.C., Тарасов Е.С., Путято М.М., «Методологические основы принятия решений с использованием автоматизации неформальных процедур», Журнал «Естественные и технические науки», №4, 2010 г.
55. Симанков В. С., Тарасов Е. С. «Методический подход к анализу и выработке приемов противодействия использованию нетрадиционных информационных каналов» Известия ТРТУ, №4. Информационная• безопасность-Таганрог, 2005.
56. Симанков B.C., Тарасов Е.С., «О проблемах управления проектированием информационных систем с учетом требований безопасности» 4-я Международная заочная научно-практическая конференция «Прогрессивные технологии развития», Томск, 2008
57. Свидетельство об официальной регистрации программы для ЭВМ «Подсистема мониторинга и оценки эффективности деятельности органов государственной власти», (Симанков B.C., Черкасов А.Н., Путято М.М., Тарасов Е.С.) №2010614836 от 23.08.2010 г.
58. Ситуационные центры и перспективные информационно-аналитические средства поддержки принятия решений // Материалы научно-практической конференции. РАГС. 25-27 апреля 2007 года / Под общ. ред. А.Н. Данчула.
59. М.: Изд-во РАГС, 2008. — 352 с.
60. Ситуационные центры и перспективные информационно-аналитические средства поддержки принятия решений // Материалы научно-практической конференции. РАГС. 7-9 апреля 2008 года / Под общ. ред. А.Н. Данчула. — М.: Изд-во РАГС, 2009. — 352 с.
61. Ситуационные центры: модели, технологии, опыт практической реализации // Материалы научно-практической конференции. РАГС. 18-19 апреля 2006 года / Под общ. ред. А.Н. Данчула. — М.: Изд-во РАГС, 2007.352 с.
62. Сулейманов Д.Ш. Аналитический обзор отечественных и зарубежных работ в области обработки естественного языка в аспекте прагматически-ориентированного подхода" В электрон. журнале Казанского госуниверситета "Информационные технологии". Казань, 1999.
63. Тахтанджян A.JI. Принципы организации и трансформации сложных систем. Эволюционный подход. — СПб.: СПХВА, 1998. —118 с.
64. Трахтенгерц Э.А. Компьютерная поддержка принятия решений. Научно-практическое издание. Серия «Информатизация России на пороге XXI века». — М.: СИНТЕГ, 1998. —376с.
65. Хомский Н., Три модели описания языка, перевод с английского, «Кибернетический сборник», вып. 2, М., Изд-во иностранной литературы, 1961, стр. 238.
66. Шаров С.А. Использование объектно-ориентированного программирования для лингвистического моделирования. // Труды Международного Семинара ДИАЛОГ'95, 1995. С. 332-339.
67. Baader F., Hollunder В. KRIS: Knowledge Representation and Inference System, // SIGART Bulletin, 2/3, 1991. pp. 8-14.
68. Bach E., Jelinek E., Kratzer A., Partee В., (eds) Quantification in Natural Languages, Dordrecht: Kluwer, 1995.
69. Gang Lu, Peng*Huang, Lijun He, etc. A New Semantic Similarity Measuring Method Based on Web Search Engines - WSEAS TRANSACTIONS on COMPUTERS, Issue 1, Volume 9, Januaiy 2008
70. D. M. Blei, A. Y. Ng, and M. I. Jordan. Latent dirichlet allocation. J. Mach. Learn. Res., 3:993-1022, 2003.
71. A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incomplete data via the EM algorithm. Journal of Royal Statist. Soc. B, 39:1-38, 1977.
72. T. Hofmann. Probabilistic latent semantic indexing. In Proceedings of SIGIR'99,pages 50-57, 1999.
73. G. J. McLachlan and T. Krishnan. The EM Algorithm and Extensions. Wiley, 1997.
74. Q. Mei and C. Zhai. Discovering evolutionary theme patterns from text: an exploration of temporal text mining. In Proceeding of KDD'05, pages 198-207, 2005.
75. T. Tao and C. Zhai. Regularized estimation of mixture models for robust pseudo-relevance feedback. In Proceedings of SIGIR'06, pages 162-169, 2006.
76. C. Zhai. A note on the expectation-maximization (em) algorithm. In Course note of CS410.
77. C". Zhai, A. Velivelli, and B. Yu. A cross-collection mixture model for comparative text mining. In Proceedings of KDD '04, pages 743-748, 2004.
78. M. Berland and E. Charniak. Finding parts in very large corpora. In Proc. of ACL'99, pages 57-64, 1999.
79. D. Bollegala, Y. Matsuo, and M. Ishizuka. Measuring semantic similarity between words using web search engines. In Proc. of WWW'07, pages 757—766, 2007. ' •
80. D. Bollegala, Y. Matsuo, and M. Ishizuka. Measuring the similarity between implicit semantic relations from the web. In Proc. of WWW'09 (to appear), 2009.
81. H. Chen, M. Lin, and Y. Wei. Novel association measures using web search with double checking. In Proc. of the COLING/ACL '06, pages 1009-1016, 2006.
82. R.L. Cilibrasi and P.M.B. Vitanyi. The google similarity distance. IEEE Transactions on Knowledge and Data Engineering, 19(3):370-383, 2007.
83. J. Curran. Ensemble menthods for automatic thesaurus extraction. In Proc. of EMNLP, 2002.
84. B. Falkenhainer, K.D. Forbus, and D. Gentner. Structure mapping engine: Algorithm and examples. Artificial Intelligence, 41:1—63, 1989.
85. L! Finkelstein, E. Gabrilovich, Y. Matias, E. Rivlin, Z. Solan, G. Wolfman, and E. Ruppin. Placing search in context: The concept revisited. ACM TOIS, 20:116-131,2002.
86. R. L. Goldstone. The role of similarity in categorization: providing a groundwork. Cognition, 52:125-157, 1994.
87. Z. Harris. Distributional structure. Word, 10:146-162, 1954.
88. M.A. Hearst. Automatic acquisition of hyponyms from large text corpora. In Proc. of 14th COLING, pages 539-545, 1992.
89. J.J. Jiang and D.W. Conrath. Semantic similarity based on corpus statistics and lexical taxonomy. In Proc. of ROCLING'98, 1998.
90. C. L. Krumhansl. Concerning the applicability of geometric models to similarity data: The interrelationship between similarity and spatial density. Psychological Review, 85:445-463, 1978.
91. D. Lin. Automatic retreival and clustering of similar words.In Proc. of the 17th COLING, pages 768-774, 1998.
92. G. Miller and W. Charles. Contextual correlates of semantic similarity. Language and Cognitive Processes, 6(1): 1-28,1998.
93. R. Rada, H. Mili, E. Bichnell, and M. Blettner. Development and application of a metric on semantic nets. IEEE Transactions on Systems, Man and Cybernetics, 9(1): 17-30, 1989.
94. P. Resnik. Using information content to evaluate semantic similarity in a taxonomy. In Proc. of IJCAI'95, 1995.
95. M. Sahami and T. Heilman. A web-based kernel function for measuring the similarity of short text snippets. In Proc. of WWW'06, 2006.
96. V. Schickel-Zuber and B. Faltings. Oss: A semantic similarity function based on hierarchical ontologies. In Proc. of IJCAI'07, pages 551-556, 2007.
97. J. B. Tenenbaum. Bayesian modeling of human concept learning. In NIPS'99, 1999.
98. A. Tversky. Features of similarity. Psychological Review, 84:327-652, 1977.
99. D. McLean Y. Li, Zuhair A. Bandar. An approch for measuring semantic similarity between words using multiple information sources. IEEE Transactions on Knowledge and Data Engineering, 15(4): 871-882, 2003.
100. Montague R. The proper treatment of quantification in ordinary English. // Formal Philosophy, ThomasonR., (ed.), Yale University Press, New Haven, 1973. pp. 247-270.
101. Shieber S. Separating linguistic analyses from linguistic theories. // Natural Language Parsing and Linguistic Theories, U. Reyle and C. Rohrer (eds.). Reidel: Dordrecht, 1988. pp. 33-68.
102. Steele J. (ed.) Meaning-Text Theory: Linguistics, Lexicography and Implications. Ottawa: University of Ottawa Press, 1990.
-
Похожие работы
- Исследование и разработка методов построения систем отображения информации для ситуационного центра
- Информационная технология разработки учебно-аналитических задач на WEB-портале учебно-исследовательского ситуационного центра
- Разработка математического и алгоритмического обеспечения адаптивных систем поддержки принятия решений в ситуационных центрах
- Разработка организационно-функциональной технологии принятия групповых решений по целевым программам региона Российской Федерации
- Интеграция систем ситуационного, имитационного и экспертного моделирования
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность