автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Исследование и разработка моделей и алгоритмов системы информационной поддержки инновационной деятельности наукоемких промышленных предприятий
Автореферат диссертации по теме "Исследование и разработка моделей и алгоритмов системы информационной поддержки инновационной деятельности наукоемких промышленных предприятий"
На правах рукописи 005015015
ТРУСОВ ВЛАДИМИР АЛЕКСАНДРОВИЧ
ИССЛЕДОВАНИЕ И РАЗРАБОТКА МОДЕЛЕЙ И АЛГОРИТМОВ СИСТЕМЫ ИНФОРМАЦИОННОЙ ПОДДЕРЖКИ ИННОВАЦИОННОЙ ДЕЯТЕЛЬНОСТИ НАУКОЕМКИХ ПРОМЫШЛЕННЫХ ПРЕДПРИЯТИЙ
05.25.05 - Информационные системы и процессы
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
1 2 MAP 2012
Москва 2012
005015015
Работа выполнена на кафедре: «Микропроцессорных средств автоматизации» ФГБОУ ВПО «Пермский национальный исследовательский политехнический университет» (ФГБОУ ВПО ПНИПУ)
Научный руководитель:
Доктор технических наук, профессор Бочкарев Сергей Васильевич. Официальные оппоненты:
Цветкова Валентина Алексеевна, доктор технических наук, профессор, ФГБУ «ГПНТБ России», директор центра.
Ухин Юрий Юрьевич, доктор технических наук, профессор, ГОУ ДПО «ИПКИР», первый проректор - научный руководитель.
Ведущая организация: ФГАУ "Государственный научно-исследовательский
институт информационных технологий и телекоммуникаций» (ФГАУ ГНИИ ИТТ «Информика»)
Защита состоится «21» марта 2012 г. в 14-00 часов на заседании диссертационного совета: Д 212.198.02 при ФГБОУ ВПО «Российский государственный гуманитарный университет» по адресу: 125993, г. Москва, Миусская площадь, д.6.
С диссертационной работой можно ознакомиться в библиотеке ФГБОУ ВПО «РГГУ» по адресу: 125993, г. Москва, Миусская площадь, д.6.
Автореферат разослан «21» февраля 2012 г. Ученый секретарь
диссертационного совета Меркулов Вадим Николаевич
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследования. В настоящее время большое внимание уделяется разработке систем информационной поддержки принятия управленческих решений нацеленных на формирование качественно новой инновационной продукции в рамках производственной деятельности наукоемких промышленных предприятий. Конкурентоспособность продукции обеспечивается за счет активизации изобретательской и рационализаторской деятельности, за счет организации и проведения научно-исследовательских и опытно-конструкторских работ в процессе непрерывного производственного цикла. Созданные результаты инновационной деятельности- (РИД), т.е. новые или усовершенствованные с новым качеством продукты и позволят создать конкурентоспособное производство.
Важнейшим этапом производственного жизненного цикла наукоемкого промышленного предприятия является информационное обеспечение и информационная поддержка инновационной деятельности. В процессе создания РИД участвуют практически все структурные подразделения предприятия и информационное обеспечение этих подразделений разнородными информационными ресурсами: патентными, патентно-конъюнктурными и маркетинговыми, является важнейшей задачей современных систем автоматизации.
На современном этапе развития основным оперативным источником информации является сеть интернет, с ее многочисленными распределенными информационными ресурсами (ИР). Умение качественно обрабатывать информацию в распределенных информационных системах (РИС) это залог успешного создания конкурентоспособных РИД (инновационных проектов, объектов техники), это залог успешного функционирования предприятия в рыночных условиях. Поэтому и необходимо, в рамках существующих систем автоматизации промышленных предприятий (ERP - систем), сформировать систему информационной поддержки инновационной деятельности, основанной на семантической обработке неструктурированных маркетинговых, патентных и патентно-конъюнктурных данных в РИС сети интернет. Это и обуславливает актуальность настоящего исследования.
Фундаментальные положения теории информации и управления информационными процессами, включая процессы обработки информации, принадлежат: P.C. Гиляревскому, В.А. Мясникову; А.П. Пятибратову, М. Хаммеру, Г.И. Марчуку, Ю.М. Арскому, А.И. Черному, A.A. Стогнию, И.И. Попову, В.В. Кульбе, Ю.М. Черкасову, В.А. Цветковой, В.Н. Буркову, Д.А. Новикову, Чхартишвили А.Г., Н.В. Максимову и др. Основоположниками теории инноваций считаются: И. Шумпетер, идеи которого были развиты и дополнены в трудах А.И. Татаркина, Ю.В. Шленова, В.Е. Шукшунова, Ю.В. Яковца, Н.Д. Кондратьева, В.Н. Фридпянова и др.
Вместе с тем, на уровне промышленного предприятия практически отсутствуют системы автоматизации способные обеспечить качественную информационную поддержку инновационных процессов, на основе семантической обработки патентной, патентно-конъюнктурной и маркетинговой
информации в РИС сети интернет. Анализ показал, что, несмотря на то, что имеется множество различных систем обработки информации в сети интернет (Rambler, Yandex, Google и др.) остается проблема повышения эффективности (точности) обработки неструктурированной информации, предназначенной для информационной поддержки патентных, патентно-конъюнктурных и маркетинговых исследований в процессе инновационной деятельности наукоемкого промышленного предприятия.
Цель работы. Разработка комплекса моделей и алгоритмов, обеспечивающих информационную поддержку инновационной деятельности наукоемкого промышленного предприятия, за счет автоматизации процедур семантической обработки неструктурированной информации в РИС сети интернет.
Задачи исследования.
1. Провести структурный анализ процесса информационной поддержки производственной и экономико-управленческой деятельности наукоемкого промышленного предприятия, в части создания РИД;
2. Исследовать модели и алгоритмы обработки информации в РИС сети интернет;
3. Разработать модели и алгоритмы семантической обработки неструктурированной информации в РИС сети интернет.
4. Практически реализовать и провести апробацию программно-технических и организационных решений системы информационной поддержки инновационной деятельности наукоемкого промышленного предприятия.
Объект исследования. Объектом исследования является система информационной поддержки инновационной деятельности наукоемкого промышленного предприятия, в рамках непрерывного производственного цикла создания инновационного продукта.
Предмет исследования. Предметом исследования являются модели и алгоритмы обработки информации и информационной поддержки инновационной деятельности неструктурированными ресурсами РИС сети интернет.
Методы исследования. При разработке формальных моделей использовались: структурный анализ, теория баз данных, методы общей теории систем и классический теоретико-множественный аппарат, теория множеств, теория алгоритмов, математическое моделирование, методы функционального проектирования процессов, в нотациях IDEFO, IDEF3 и IDEF1.
На защиту выносятся:
1. Процедурная и теоретико-множественная модели системы информационной поддержки производственной и экономико-управленческой деятельности наукоемкого промышленного предприятия, с учетом сопоставления задач информационного обеспечения на стадиях жизненного цикла создания объектов техники;
2. Модели функционального представления процесса обработки информации в сети интернет, описывающие взаимодействие основных компонент процесса информационной поддержки и функций обработки информации;
3. Модели и алгоритмы семантической обработки неструктурированной информации в РИС сети интернет с, использованием механизма синонимии, модель семантического поиска и обработки информации в РИС сети интернет, включая модель построение поискового образа документа, алгоритмы построения тезаурусов и реферирования документов, модели построения поискового образа запроса и алгоритма составления частотного словаря;
4. Реализация системы информационной поддержки инновационной деятельности наукоемкого промышленного предприятия, в части семантической обработки неструктурированной информации в РИС сети интернет.
Научная новизна
1. Предложены процедурные и информационные модели производственной и экономико-управленческой деятельности наукоемкого промышленного предприятия, в части создания РИД, позволяющие создавать системы информационной поддержки инновационной деятельности;
2. Предложены модели функционального представления процесса обработки информации в РИС сети интернет, описывающие взаимодействие основных компонент процесса информационной поддержки и функций обработки информации;
3. Предложены модели и алгоритмы семантической обработки неструктурированной информации в РИС сети интернет, с использованием механизма синонимии. Разработана модель семантического поиска и обработки информации в РИС сети интернет, включая модель построения поискового образа документа, алгоритмов построения тезаурусов, реферирования документов, модели построения поискового образа запроса и алгоритм составления частотного словаря;
4. Разработаны программно-техническое и организационное обеспечение системы информационной поддержки инновационной деятельности наукоемкого промышленного предприятия.
Достоверность научных положений, рекомендаций и выводов. Обоснованность научных положений, рекомендаций и выводов, изложенных в работе, определяется корректным использованием современных математических методов и методологий структурного анализа и проектирования процессов. Достоверность положений и выводов диссертации подтверждена положительными результатами внедрения разработок.
Практическая ценность и внедрение. Научные результаты, полученные в диссертации, доведены до практического использования. Разработан программно-технический комплекс, позволяющий автоматизировать систему семантической обработки неструктурированной информации в РИС сети интернет и предназначенного для информационной поддержки инновационной деятельности наукоемкого промышленного предприятия, в рамках непрерывного производственного цикла создания инновационного продукта. Разработанные модели и алгоритмы прошли апробацию и доведены до практического применения на предприятиях.
Результаты внедрения и эксплуатации подтвердили работоспособность и эффективность разработанных методов.
Основные результаты, полученные в ходе работы над диссертацией, используются в учебном процессе ФГБОУ ВПО «Пермский национальный исследовательский политехнический университет» при изучении студентами по направлению подготовки: 220300 «Автоматизированные технологии и производства», по специальности 220305 - «Автоматизированное управление жизненным циклом продукции» дисциплины «Проектирование и совершенствование структур и процессов промышленных предприятий».
Апробация работы. Основные положения диссертационной работы, составляющие ее суть, и полученные новые научные результаты докладывались и обсуждались на межрегиональных и всероссийских конференциях и форумах, в частности: «Формирование системы подготовки и распространения электронных копий документов» // Всероссийская (с международным участием) конференция «Информация, инновации, инвестиции», 24-25 ноября 2004 года, г.Пермь; «Поиск информации в распределенных информационных системах глобальной вычислительной сети (РИС ГВС')» И 6-я Всероссийская (с международным участием) конференция «Информация, инновации, инвестиции», 23-24 ноября 2005 года, г.Пермь; «Межрегиональная информационно-аналитическая система мониторинга развития промышленности и энергетики регионов России» // 7-я Всероссийская конференция «Информация, инновации, инвестиции», 29-30 ноября 2006 года, г.Пермь; «Модель спроса на услуги информационно-анапитического обеспечения процесса коммерциализации результатов научно-технической деятельности»// VI Всероссийская школа-семинар молодых ученых «Управление большими системами», г.Ижевск. 2009; «Коммерциализация результатов инновационной деятельности в рамках регионального инновационно-технологического комплекса» // Межрегиональный конгресс по управлению качеством «Качество, инновации, издержки - три слагаемых успеха современного бизнеса», 30 ноября 2009г., г. Пермь; «Формирование регионального инноваг/ионно-технологического комплекса научно-технического и промышленного развития Пермского края» // Научно-практическая конференция «Вопросы защиты и эффективного управления интеллектуальной собственностью и результатами работ, созданными за счет средств федерального бюджета», 17-18 ноября 2009г., г. Пермь; «.Концептуачьная модель управления процессом коммерциализации результатов инновационной деятельности в рамках региона!ьного инновационно-технологического комплекса» // VII Всероссийская школа-конференция «Управление большими системами», 27-29 мая 20 Юг, г.Пермь; (.(Принцип построения автоматизированной системы управления интеллектуальной собственностью предприятия» // VII Всероссийская школа-конференция «Управление большими системами», 27-29 мая 2010г.; «.Принципиапьные программно-технические решения разработки автоматизированной системы управления процессом коммерциализации интеллектуальной собственности предприятия» // Межрегиональная научно-практическая конференция «Информация, инновации, инвестиции», 25-26 ноября 2010 года, г. Уфа.; «Система информационной поддержки процесса управления коммерциализацией результатов инновационной деятельности промышленных предприятий» // VIII ежегодная конференция «Эффективные методы
автоматизации подготовки и планирования производства» 2-3 февраля 2011 года г. Москва.
Публикации. По теме диссертации опубликованы 24 печатные работы, в том числе 1 монография и 5 статей в изданиях, рекомендованных ВАК РФ.
Личный вклад автора. Основные научные и практические результаты диссертации получены автором лично. Из печатных работ, опубликованных диссертантом в соавторстве, в диссертацию вошли только те результаты, которые получены автором лично на всех этапах, от постановки задач и моделирования, до практической реализации системы.
Объем и структура работы Диссертация состоит из введения, четырех глав, заключения и списка использованных источников из 147 наименований и 13 страниц приложений. Общий объем работы составляет 162 страницы, в том числе 77 формул, 2 таблицы и 46 рисунков.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Введение содержит обоснование актуальности темы, формулировку цели и задачи исследования, основные положения, выносимые на защиту, определяет практическую значимость, содержание и методы выполнения работы.
В первой главе проводится структурный анализ информационной поддержки инновационной деятельности наукоемкого промышленного предприятия. В настоящее время большое внимание уделяется разработке систем информационного обеспечения принятия управленческих решений нацеленных на формирование конкурентоспособной и качественно новой продукции в рамках производственной деятельности промышленного предприятия.
Опираясь на жизненный цикл создания объекта техники промышленного предприятия, в рамках непрерывного производственного цикла, проведен структурный анализ информационной поддержки инновационной деятельности (создаваемых объектов техники) промышленного предприятия.
Конкурентоспособность продукции обеспечивается за счет активизации изобретательской и рационализаторской деятельности, за счет организации и проведения научно-исследовательских и опытно-конструкторских работ в процессе непрерывного производственного цикла. Полученные результаты инновационной деятельности и являются той основой, которая и позволит создать конкурентоспособную продукцию.
Важнейшим этапом производственного жизненного цикла предприятия является информационная поддержка процесса инновационной деятельности (рисунок 1), оттого на сколько оперативно будут приниматься решения о выпуске новой конкурентоспособной продукции, на столько и будет рыночный успех промышленного предприятия.
В процессе инновационной деятельности участвуют практически все структурные подразделения предприятия и информационная поддержка этих подразделений разнородными патентными, патентно-конъюнктурными и маркетинговыми данными является важнейшей задачей современных систем информационного обеспечения.
ГОСТ Р15 011-Э6| ГОСТ 2 001-93
Исход
даннь
Формирование плана исследований и разработок
|4Ен_ 1
Отде^
инновационного развития
Нецелесообразность
Доработка
Заявка рззработ)
Формирование
Пэтешый отдел
Прогноз
целесообразности
Научно-исследовательская оабота
тзо
хледованив
рспектив
звития
Ог. гт о -врс(еедении
• V
Нецел
Методик: патентно-исследов
Доработка
сообразность
Разработка икр
^сслелование а сбыта
Служба гласного технолога
ш
ОНЬЮПурИЫ* 1НИЙ
Отчет о
проведениям
исследований
Анализ ур| тетннки
Рынок [Потребление в жмуата4ия)
Служба главного конструктора
а^реу Продте
Ш Маркетинговый отдел
Рисунок 1 — Процедурная модель жизненного цикла инновационной деятельности наукоемкого промышленного предприятия
На основе структурного исследования информационной поддержки инновационной деятельности наукоемкого промышленного предприятия разработана теоретико-множественная модель системы информационной поддержки инновационной деятельности.
Система информационной поддержки инновационной деятельности наукоемкого промышленного предприятия представляет собой пространство состояний £ в произвольный момент времени / и включает в себя следующие основные компоненты: совокупность заданий на обработку информации, поставленных на исполнение и ожидающих в очереди; использование оборудования р^ из множества рабочих мест Л; - привлечение персонала р^из множества V.
На современном этапе развития основным оперативным источником информации является сеть интернет, с его многочисленными РИС.
Обработка информации, необходимой для информационной поддержки инновационной деятельности наукоемкого промышленного предприятия, включает следующие элементарные функции: сс/^со,//,) - прием задания заказчика (оператора) // на обработку информации с объекта со; а2(Ь^) - доступ к информационному ресурсу Ь с целью поиска по заданным в заказе признакам информационного объекта аз(е,Па) - поиск и обработка информационного объекта с признаками g по варианту сложности (уровню аналитической нагрузки)
Па, с использованием существующих систем обработки информации в сети интернет; а4§,у) - перенос копии информационного носителя ф с использованием средств доставки у; <х$(ц,у) - отправка результата обработки информации заказчику ц с использованием средств доставки у.
Исходя из выше перечисленных параметров, функция обработки информации у опишется композицией элементарных функций:
у =а,(ю,|1)°а2(6^)оа3(£,Я/))°а4(ф,у)°а5(ц,у). Ц)
Сформированная теоретико-множественная модель описания функций обработки информации позволяет моделировать его состояние, как функциональной системы в произвольный момент времени, через динамически меняющееся пространство состояний 5.
Полученное функциональное представление способно служить инструментом по организации автоматизированной системы обработки информации в РИС сети интернет, что позволит осуществлять качественную информационную поддержку инновационной деятельности наукоемкого промышленного предприятия.
Математическая постановка задачи нацелена на информационную поддержку инновационной деятельности наукоемкого промышленного предприятия, в рамках жизненного цикла производства. Широкий ассортимент Е инновационной продукции успешно агрегируется с помощью определяющих факторов, образующих отношения эквивалентности, а значит, классы информационно-инновационных услуг, обеспечивающих удовлетворенность всех участников инновационной деятельности наукоемкого промышленного предприятия.
Пусть множество где /е1,Р, описывает перечень инновационной продукции /, /-го подразделения (цеха, отдела, лаборатории) наукоемкого промышленного предприятия, участника создания и реализации инновационного продукта. Тогда полный ассортимент предприятия определится объединением всех множеств в одно целое:
Н = 1>, (2)
Успешность в создание инновационной продукции в полной мере зависти от проведения маркетинговых исследований, патентных ■ и патентно-конъюнктурных исследований, подготовки аналитических отчетов, документации и т.п., что, в конечном счете, и приводит к созданию конкурентоспособной инновационной продукции Е. Исходя из этого Е разобьется на классы Еа,Еь,Ес: НвиН4иНе=Н, ЕапЕьпЕс=0 (3)
К классу относятся фиксированный перечень маркетинговых услуг: разработка предложений и рекомендаций по повышению инвестиционной привлекательности предприятия; выявление передовых тенденций в мировом производстве продукции по профилю деятельности предприятия; исследование факторов, определяющих структуру и динамику потребительского спроса на
продукцию и конъюнктуры рынка, как регионального, так и национального. Как правило, данный класс работ носит на предприятии плановый характер.
К классу Наследует отнести патентные и патентно-конъюнктурные исследования: анализ и прогнозирование основных конъюнктурно образующих факторов потенциальных рынков сбыта продукции; исследование потребительских свойств, производимой предприятием продукции и сбор информации об удовлетворенности ими покупателей; анализ патентно-лицензионной ситуации в отношении РИД (объекта техники); анализ технического уровня РИД (объекта техники); анализ ведущих в данном виде техники фирм; анализ тенденции развития РИД (объектов техники); анализ РИД (объекта техники) на патентную чистоту; анализ на новизну РИД (патентоспособность); анализ конкурентоспособности РИД; анализ торговых потоков объекта исследования; анализ (определение) емкости рынка РИД (объекта техники), которые в полной мере зависят от знаний специалистов-экспертов.
К классу Ег следует отнести: подготовку аналитических отчетов, справок, технической и технологической документации; подготовку лицензионных договоров на передачу технологий; подготовку заявок на регистрацию объектов интеллектуальной собственности, определение конкурентоспособности создаваемых инновационных объектов, оценку эффективности РИД и др.
Информационная поддержка, обеспечивающая удовлетворенность всех участников инновационной деятельности, предполагает многие сотни модификаций функций обработки информации.
Анализ информационно - инновационной деятельности наукоемкого промышленного предприятия свидетельствует, что для успешного решения задач инновационной деятельности необходимо комплексно рассмотреть вопросы информационной поддержки субъектов инновационного процесса наукоемкого промышленного предприятия с использованием систем обработки неструктурированной информации в РИС сети интернет.
Исходя из выше сказанного, математическая постановка задачи информационной поддержки инновационной деятельности включает в свой состав две группы задач:
Первая группа задач у,, отличающуюся наиболее простой процедурой поиска и обработки информации с минимальным вариантом сложности (уровню аналитической нагрузки) Паь совпадает по значению с функцией у и имеет вид: V =\|/, =0,(00,ц)оа2(й,г)оа3(г,Я^1)оа4(ф,у)оа5(ц,>') (4)
Вторая группа задач 1|/2 касается тематического поиска и обработки информации с наивысшем вариантом сложности (уровнем аналитической нагрузки) Пд2 и отличается от первой группы V// формой признаков информационного объекта g' способного привлечь несколько информационных ресурсов р" при достаточно нечетком описании. Соответствующую функцию можно построить на базе предыдущей, введя новую элементарную функцию: а6(у,Х) - разработка тематического запроса у на аналитическую обработку информации Я. Тогда искомую функцию можно представить следующим образом;
Ъ (5)
Во второй главе проведено исследование функционирования РИС сети интернет и осуществлена разработка моделей и алгоритмов обработки информации в РИС сети интернет.
Для правильной организации работы по поиску и обработке информации в РИС сети интернет значительную (основную) роль играют мета тэги (специальные тэги) введенные производителями браузеров. Одним из основных тэгов, с помощью которого реализуется релевантный способ поиска информации, является тэг указания набора ключевых слов (КС), по которым будет искать поисковый робот на предполагаемых www серверах. Тэг имеет вид:
МЕТА NAME: = "Keywords" CONTENT= "КС КС КС" Исходя из того, что тэг представляет собой совокупность КС произвольной записи Z ИР в РИС сети интернет Пг, где Z^iJz, то запись можно описать, как:
Z Z Z 7. .
Z=\Az,R2,\s/z,Lz)=(vA2,KjR.,<jy:,^jL:)eY[7 (б)
где П. - полный набор всех возможных записей ИР сети интернет характеризующего РИД.
Аг- алфавит (русский, латинский, ...); Rz- разделительные знаки (« » - пробел,:, -, ...); \jiz- словарь, являющийся языком в алфавите А; у. сЛ'; ¿.-язык
информационного объекта, L, с(\|/, и Л.) .
РИС сети интернет технически представляют собой совокупность серверов, на которых и находятся искомые записи, характеризующие РИД. Функция сети интернет для J-ого сервера есть алгоритм реализации семейства
(7)
преобразования на множестве состояний UZj -» UZj
где Тм - тезаурус КС, находящегося в распоряжение оператора (специалиста в области коммерциализации РИД); - предметный словарь, находящийся в
распоряжение оператора; (х,,...^) - семейство преобразований, определенных некоторым словарем; Пг - полный набор записей ИР на j сервере.
Аналитическая составляющая представляет собой формирование тезаурусов предметной области необходимых для составления поисковых предписаний (ПП) на поиск и обработку информации с использованием механизмов синонимии, дедукции и индукции. Синонимия используется для расширения ИР предметной области, дедукция для формирования тезаурусов с использованием подхода от общего к частному, а индукция для формирования тезаурусов с использованием подхода от частного к общему. Аналитическая составляющая базируется на использование известных рубрикаторов и классификаторов (УДК, ГРНТИ, МПК и др.). Тезаурусы формируются как тезаурусы КС и дескрипторов. Сформированные тезаурусы лежат в основе составления оптимальных ПП,
отражающих в своей сути искомый поисковый образ документа (ПОД) в РИС сети интернет.
Тезаурус предметной области т2[ представляет собой систематизированный набор данных описывающий знания в искомой области:
Tz¡ £ Vz,. (8)
где - словарь некоторой предметной области состоящих из записей Z¡, и
множество дескрипторов Dz¡ т.е. наиболее существенных понятий в виде
>
устойчивых словосочетаний (включающих в себя записи Z/), обладающих семантической устойчивостью и контрастностью:
DZl с Lz¡ с (V Z| и Rz¡) = (rZi и V Zi \ Tz¡ uíj. (9)
В третьей главе построены формальные модели и алгоритмы системы семантической обработки неструктурированной информации в РИС сети интернет.
К поисковой системе сети интернет предоставляются три основных требования: контроль полноты охвата ресурсов; контроль достоверности информации, полученной из сети; высокая скорость проведения поиска. На основе обобщенной модели поиска информации в РИС сети Интернет предлагается следующий алгоритм решения задачи информационной поддержки инновационной деятельности: 1) Поиск и обработку информации в РИС сети интернет необходимо производить с использованием механизма синонимии, который включает: анализ задания на поиск информации, заданной предметной области, выявление КС и дескрипторов; поиск информации с использованием механизма синонимии; расширение предметной области за счет синонимии; формирование тезауруса синонимии. 2) Путем поисковых процедур, pz составленных из известных оператору КС тезауруса предметной области при решение поставленной задачи T'L (Т!„,) осуществляется максимальное покрытие предметной области:
9:"vP„(/.=OZ-»p¿,A = l; (Ю)
3) Производится исследование полученных в результате поиска и обработки записей {z} с с целью выявления синонимии пс и дескрипторов d¿, 4) Выявленная синонимия пс используется для расширения тезауруса предметной области решения задачи pz при:
"m»~"maх + "с • 00
На основе предложенного алгоритма разработана модель, дающая возможность перейти к автоматизированной семантической обработке неструктурированной информации в РИС сети интернет. Модель (рисунок 2) включает: 1) Выявление информационной потребности - образец документа, представляющий собой шаблон обработки, вводится экспертом вручную; 2) Выделение из документа темы запроса - ПОДа, и определение ПП; 3) Расширение темы запроса, за счет синонимии и ассоциативных запросов; 4) Формирование поискового образа запроса (ПОЗ) на основе частотного словаря, с разбивкой его
на отдельные ПП; 5) Получение ссылок на релевантные документы, в существующих поисковых интернет-машинах и помещение ссылок в хранилище данных; 6) Осуществление закачки найденных документов в хранилище данных;
7) Формирование ПОД, для каждого найденного документа, в хранилище данных;
8) Проведение ранжирования документов в соответствии с заданной темой (п.2);
9) Проведение реферирования найденных документов и передача рефератов для ознакомления и анализа эксперту.
Предложенный подход к организации семантической обработки неструктурированной информации в РИС сети интернет позволяет качественно улучшить формирование поисковых запросов к поисковым машинам сети интернет, позволяет автоматизировать процесс обработки релевантной информации, с ранжированием информации в соответствии с заданной темой, что дает возможность экспертам уйти от ручного последовательного просмотра найденных ресурсов.
Для правильной классификации и индексирования для каждого документа необходимо иметь ПОД. Процесс автоматизации построения ПОД можно разбить на три стадии: 1) Выделение словника документа или перечня слов и устойчивых словосочетаний, используемых в документе; 2) Замена словоформ и синонимов на дескрипторы; 3) Фильтрация специфической терминологии от общей лексики.
Первые две стадии банальны и не вызывают сложностей с реализацией. Для реализации третьей стадии необходимо получить критерий оценки специфичности того или иного термина, для этого используем вероятностную математическую модель:
Рассмотрим полное множество Q= {СО} , элементами которого являются слова (язык значения не имеет). Тогда документом или текстом Д назовем такое множество, которое является подмножеством Q:
Д = Да П, d.efi, (12)
где д- элемент множества Д, суть слово. А информационный ресурс В назовем такое множество, которое является подмножеством Q или совпадает с ним и является объединением множеств Д:
В = [)Дк, B = {bt.}, В с П, Ь,е Q. (13)
к
Введем следующие обозначения: т, - количество повторений слова о, в документе Дк; т2- количество повторений слова о:в В; N„ - количество слов в В; Ыл - количество слов в документе Д.
В содержит NB слов. Из всего множества слов В выберем одно эталонное, которое обозначим как д.,, тогда mj - количество повторений слова д, в документе Дк, а т\ - количество повторений слова d, в В. Частотой повторения слова д, в В назовем величину:
Массив пертенентных документов
С
Эксперт
Формирование дайджеста рефератов в соответствие с рейтингом
Выявление информационной потребности
Формирование информационно-поисковой задачи
3
Ранжирование документов в соответствии с заданной темой поиска
Формирование поискового образа документа (лертенентного информационной потребности эксперта) (ПОД)
Формирование для каждого релевантного документа поискового образа документа (ПОД)
IE
Формирование поискового образа запроса (ПОЗ) с разбивкой на части, для формирования системы поисковых предписаний (ПП)
Хранилище релевантные документы
Релевантный список ссылок на ИР сети Интернет с полным URL, согласно ПП
N ^
Ч
ПОЗ! П032 П032
URL релевантных документов
Релевантные документы
Ш» ^.У*0 СвТ" WWWn
Интернет
Рисунок 2 -Модель семантической обработки информации в РИС сети
интернет
а частотой повторения слова д, в документе Д назовем величину:
«Г
N
"я
Последовательно, перебирая все элементы множества Д, мы сравниваем текущее слово с эталонным словом. Таким образом, на всем множестве В имеет
(15)
место Ыд сравнений. Пусть событие лт, заключается в том, что из всех сравнений Ыд на всем возможном множестве В в т] случаях слова д, ий,- совпадают.
В процессе инновационной деятельности наукоемкого промышленного предприятия большое значение имеет ИР В. Так как документальной основой, достоверно подтверждающей смысл РИД является патент на изобретение (или заявка на патент на изобретение), то имеет смысл в качестве такого ИР принять национальные и международные патентные ресурсу, где в качестве документа определен патент на изобретение. Так как Д = {6,}, то в качестве элементов Л, патента на изобретения будут: ь, - технический результат изобретения; -техническая задача, решаемая изобретением; Ь, - сущность разработанного технического решения; ¿>4 - основное отличие разработанного решения от аналогов; 65 - пример реализации технического результата; Ьй - аналоги и прототипы предлагаемого технического решения; 67 - формула изобретения.
В зависимости от поставленной задачи на обработку информации в РИС сети интернет, в качестве ИР для формирования ПОД можно использовать как весь В в целом, так и отдельные элементы, что является целесообразным для решения отдельных задач инновационной деятельности. Выделение элементов ИР является целесообразным для определения специальной лексики обработки информации, которая делает ПОД уникальным, не имеющим аналогов. Это в конечном итоге приведет к точности семантической обработки информации.
Алгоритм вычисления ПОД. В вычислении ПОД можно выделить два этапа: подготовительный и основной. Подготовительный этап включает в себя подсчет средних частот употребления слов. Очевидно, что ИР, на котором производиться подсчет, должен быть достаточно полным, т.е. покрывать множество £2. Чем больше ИР, тем точнее будет средняя частота и тем ближе она будет приближаться к реальной частоте. Суть заключается в том, что на полном множестве В = []Дк происходит подсчет всех слов и количество повторений этих
слов. Затем вычисляется частота использования слов и заносится в базу. Основной этап включает в себя подсчет повторений слов в конкретном документе и выборки ключевых фраз удовлетворяющих критерию. На данном множестве (с учетом отобранных словосочетаний) можно построить алфавитный, предметный указатели и ПОД. После создания ПОД заносится в базу.
Алгоритм построения тезаурусов (рисунок 3), тематических классификаторов и рубрикаторов обработки информации в РИС. Структура и принципы организации классификаторов и рубрикаторов делают возможным автоматизировать процесс построения тезаурусов Т предметной области, используя метод дедукции.
Основой для формирования тезауруса является ПОД, задание на обработку информации, определяемое оператором. Следовательно, первым шагом становится исследование и анализ задания. На первом этапе заказчик указывает интересующую тему или проблему, возможные КС и их синонимы. В результате этого получаем поверхностное представление о предметной области. Кроме того,
формируется тезаурус КС по методу дедукции, для чего необходимы: массив КС, который задает сам пользователь, обозначенный в алгоритме как МР; массив КС, извлеченный из задания на поиск соответственно М2.
И1 - Индекс массива экспорта
4=1 - индекс массива КС
- Индекс массива задания
П=1 Индекс рубрикаторов
|г=0 - Цикл анализа рукбрикатора К:»1 Индекс смены рубрикаиора_
Рисунок 3 - Алгоритм построения тезаурусов 16
Для более полного и глубинного представления о предметной области используем существующие рубрикаторы и классификаторы. С целью максимального охвата предметной области необходимо просмотреть все, имеющиеся в наличии Массив классификаторов и рубрикаторов представляет Л/7?.
На базе полного набора ПОД (обозначим П = 11П() можно создать
к
отраслевые тезаурусы и единый классификатор ИР. Очевидно, что полный набор П сам представляет простейший тезаурус. Однако, используя критерий отбора:
т„тр = Кт„} = Г\пк, (16)
можем построить отраслевые (специализированные для данной конкретной задачи) тезаурусы. При этом множество всех отраслевых тезаурусов образует полный тезаурус
г={;} = иг4, (17)
к
разделы которого, могут быть, иерархически структурированы в соответствии с требованиями ГОСТов по основным рубрикаторам и классификаторам или по внутреннему единому классификатору. Автоматизация процесса построения тезауруса и классификации позволяет максимально облегчить труд оператора работающего с распределенными ИР.
В общем случае алгоритм включает следующие основные этапы: 1 производится выделение предложений из документа, закаченного из сети интернет и находящегося в хранилище данных, путем выделения знаков препинания и сохраняем его в массиве; 2)Каждое предложение разбивается на слова путем выделения разделителей, и сохраняем их в массив, причем для каждого предложения массив разный; 3)Для каждого предложения, для каждого слова этого предложения считаем количество слов в других предложениях (до и после). Сумма повторов для каждого слова (до и после) и будет весом данного предложения; 4)Заданное число предложений с максимальным весовым коэффициентом и выбираем в реферат в порядке появления в тексте.
Предложенная модель построения тезауруса и тематических каталогов информационной системы представляет собой теоретическую основу для автоматизации семантической обработки информации и позволяет специалисту -эксперту, не только обрабатывать информацию, но и в автоматизированном режиме, реферировать документы, полученных в результате обработки информации в РИС сети интернет.
При работе с распределенными ИР сети интернет, содержащими большие объемы неструктурированных документов, возникает проблема обработки результатов поисковых запросов, так как при релевантном поиске информации таких документов значительное количество. Важнейшим шагом при поиске информации является построение ПОЗ. Рассмотрим два множества: множество документов Д и множество поисковых запросов (). Будем считать, что они полные и одно множество отображается на другое. Во множестве 0 есть подмножество д, которое отвечает тематическому запросу, т.е. некоторому количеству ПП по одной (заданной) теме. Этому подмножеству д во множестве Д соответствует
подмножество д документов по заданной тематике. Предположим, что эти два множества Д и <2 подобны
(Щ
соответственно можно предположить, что количество запросов пц по конкретному поисковому предписанию пропорционально количеству найденных документов пд
(19)
где С, - коэффициент подобия.
Таким образом, элементарное событие заключается в определении конкретного ПП и соответствующих, этому предписанию, документов. Случайная же величина определяется как отношение количества запросов к количеству найденных документов за определенный достаточно большой период времени, т.е. коэффициент подобия:
(20)
Таким образом, можем определить выборку случайных величин как:
(21)
п; п„
Тогда средняя величина £ будет определяться как:
(22)
т п„ п; п„ где гп - количество элементов в выборке.
Дисперсия же определяется как:
г—^Х-С)3- (23)
>П 4-1
Для составления ПОЗ на обработку необходимо анализировать частоту повторяемости слов входящих в текст документа Д являющегося по сути шаблоном для обработки информации в РИС сети интернет.
Алгоритм составление частотного словаря (рисунок 4) реализуется следующим образом: 1) Анализируем шаблон поиска на выделение слов; 2) Выделяем текущее слово; 3) Слово заменяем на начальную словоформу из словаря словоформ Зализняка, если словоформа в словаре отсутствует, то слово остается неизменным; 4) Добавляем слово в одномерный массив, если в массиве присутствует данное слово, то его встречаемость увеличивается на 1; 5) До тех пор, пока в шаблоне документа не закончатся слова, переходим к п.2 настоящего алгоритма, если набор слов исчерпан, то анализ частоты повторяемости слов входящих в текст документа завершается.
Таким образом, предложенная модель построения ПОЗ и обработки информации в РИС сети интернет может использоваться для предварительной оценки исследуемой предметной области.
Разработанные формальные модели семантического поиска и обработки неструктурированной информации в распределенных ИР сети интернет служат теоретической основой для реализации автоматизированной системы семантической обработки информации.
Рисунок 4 - Алгоритм составления частотного словаря В четвертой главе представлена практическая реализация разработанной системы информационной поддержки инновационной деятельности наукоемкого промышленного предприятия.
Система в свой состав включает три компоненты: управление системой семантической обработки информации, серверная часть системы и база данных.
Управление системой семантической обработки неструктурированной информации в РИС сети интернет осуществляет авторизацию пользователей, обработку списка заданий с их статусами (новое задание, уточнение задания, обновление задания, просмотр результатов обработки) и администрирует работу системы (настройка заданий, управление закачкой, просмотр статистки работы, добавление и удаление пользователей, просмотр заданий пользователя).
Серверная часть системы обеспечивает режим параллельной работы. В системе предусмотрены три параллельных процесса: 1) Процесс получения запроса веб-интерфейса (установка новых настроек, послать реферат, прием нового задания, прием расширенного ПОЗ, запуск обновления, управления закачкой, добавление нового пользователя, изменения пользователя, просмотр существующих заданий); 2) Процесс для всех непрокаченных ссылок на ресурсы в сети интернет (закачка информации, вычисление ПОД, ранжирование полученной информации, выявление новых ссылок на ресурсы в сети интернет, реферирование полученной информации); 3) Процесс подсчета трафика, скорости и памяти (позволяет добавлять или удалять потоки, в зависимости от возможностей каналов связи в данный момент времени).
Исходя из разработанных моделей функционирования системы семантической обработки информации, сформирована инфологическая модель базы данных. Основным объектом инфологической модели является сущность «Задание», которое определяет основные характеристики обработки информации. Каждому заданию на семантическую обработку информации в РИС сети интернет соответствует свой набор документов.
ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ
1. Предложены процедурные модели формирования результатов инновационной деятельности и информационной поддержки управления инновационной деятельности промышленного предприятия, с учетом сопоставления задач информационного обеспечения на стадиях жизненного цикла создания объектов техники, представленных в нотациях ГОЕЕО, ШЕРЗ. Разработана теоретико-множественная модель системы информационной поддержки инновационной деятельности наукоемкого промышленного предприятия, описывающая взаимодействие основных компонент процесса информационной поддержки, через динамически меняющееся пространство состояний (потока поступающих заданий, оборудования и персонала). Описана функция обработки информации, позволяющая моделировать его состояние, как функциональной системы в произвольный момент времени;
2. Предложены модели и алгоритмы функционального представления процесса обработки информации в сети интернет, описывающие взаимодействие основных компонент процесса информационной поддержки и функций обработки информации;
3. Предложены модели и алгоритмы семантической обработки неструктурированной информации в распределенных информационных системах сети интернет, с использованием механизма синонимии. Разработана модель
семантического поиска и обработки информации в РИС сети интернет, включая модель построения поискового образа документа, алгоритмов построения тезаурусов и реферирования документов, модель построения поискового образа запроса и алгоритма составления частотного словаря;
4. На основе разработанных моделей реализована система информационной поддержки инновационной деятельности наукоемкого промышленного предприятия, в части семантической обработки неструктурированной информации в РИС сети интернет.
НАУЧНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ Основное содержание диссертационной работы достаточно полно отражено в 1 монографии, 23 работах, из них 2 в зарубежных изданиях, 5 работ из перечня ВАК (общий объем публикаций составляет /6,704 п.л., авторских - 6,543 п.л.): Монографии (7.68 п.л., из них автора 1,53 п.л.)
Публикации в изданиях, рекомендованных ВАК РФ (2.54 п.л. из них автора
0.96.п.л.)
1. Трусов В.А., Анцифиров В.Н., Олонцев В.Ф., Анцифирова И.В., Трусов A.B., Формирование нанотехнологического комплекса Пермского края. -Пермь: Пермский ЦНТИ, 2010, -123с. - 7.68 п.л. (из них автора 1.53 п.л.).
Публикации в изданиях, рекомендованных ВАК РФ (2.54 п.л. из них автора
0.96 п.л.)
2. Трусов В.А., Трусов A.B. Информационное обеспечение инновационных процессов в сфере энергосбережения // Научно-практический журнал Информационные ресурсы России №1(119), 2011г. с9-11. . - 0.18 п.л. (из них автора 0.09 п.л.).
3. Трусов В.А., Трусов A.B. Подходы к формированию смыслового поиска информации в распределенных информационных системах сети интернет // Информационные ресурсы России. Научно-практический журнал, №2 (120), -2011 - С. 20-24. - 0.31 п.л. (из них автора 0.15 п.л.).
4. Трусов В.А. Построение тезаурусов, тематических классификаций и рубрикаторов для поиска информации в распределенных информационных системах // Информационные ресурсы России. Научно-практический журнал, №3 (121),-2011 -С. 9-13.-0.31 п.л. (из них автора 0.31 п.л.).
5. Трусов В.А. Модель построения поискового образа запроса в распределенных информационных системах сети интернет// Журнал научно-техническая информация/ Информационные процессы и системы НТИ серия 2, №5, 2011, с.18-22 - 0.32 п.л. (из них автора 0.32 п.л.).
6. Трусов В.А, Трусов A.B. Модель поиска информации в распределенных информационных системах сети Интернет// Журнал научно-техническая информация/ Информационные процессы и системы НТИ серия 2, №8, 2011, с.29-31- 0.18 п.л. (из них автора 0.09 п.л.).
Прочие публикации (5,985 пл. из них автора 3,651 п.л.)
1. Трусов В.А., Березовик Ю.Л. Формирование системы подготовки и распространения электронных копий документов // Информация, инновации, инвестиции: Материалы Всероссийской (с международным участием)
конференции 24-25 ноября 2004 года, г.Пермь. /Пермский ЦНТИ. -Пермь, - 2004. с.45-47. - 0.18 п.л. (из них автора 0.09 п.л.).
8. Трусов В.А., Бабарыкин Е.П. Поиск информации в распределенных информационных системах глобальной вычислительной сети (РИС ГВС) // Информация, инновации, инвестиции: Материалы 6-ой Всероссийской (с международным участием) конференции 23-24 ноября 2005 года, г.Пермь. -Т. 1/Пермский ЦНТИ. -Пермь, - 2005. с.31-33. - 0.18 пл. (из них автора 0.09 п.л.).
9. Трусов В.А., Лучникова Л.В., Трусов A.B. Межрегиональная информационно-аналитическая система мониторинга развития промышленности и энергетики регионов России // Информация, инновации, инвестиции: Материалы 7-ой Всероссийской конференции 29-30 ноября 2006 года, г.Пермь. /Пермский ЦНТИ. -Пермь, -с. 124-128. - 0.31 п.л. (из них автора 0.1 п.л.).
10. Трусов В.А., Трусов A.B. Модель спроса на услуги информационно-аналитического обеспечения процесса коммерциализации результатов научно-технической деятельности // VI Всероссийская школа-семинар молодых ученых «Управление большими системами»: сборник трудов. -Tl. -Ижевск: ООО «Информационно-издательский центр «Бон Анца», 2009. - с.329-336. - 0.25 п.л. (из них автора 0.125 пл.).
11. Трусов В.А., Трусов A.B. Коммерциализация результатов инновационной деятельности в рамках регионального инновационно-технологического комплекса // Качество, инновации, издержки - три слагаемых успеха современного бизнеса: Материалы VIII Межрегионального конгресса по управлению качеством, 30 ноября 2009г. //AHO ДО «Консалтинговая фирма «Бизнес-Прогресс». -Пермь, 2009, с.47-65. 1.125 п.л. (из них автора 0.56 пл.).
12. Трусов В.А., Трусов A.B. Формирование регионального инновационно-технологического комплекса научно-технического и промышленного развития Пермского края II Вопросы защиты и эффективного управления интеллектуальной собственностью и результатами работ, созданными за счет средств федерального бюджета: Материалы научно-практической конференции 17-18 ноября 2009г., г.Пермь. -Пермь: Пермский ЦНТИ, 2009. с.85-96. - 0.75 п.л. (из них автора 0.375 пл.).
13. Трусов В.А., Трусов A.B. Теоретико-множественная модель управления информационной деятельностью субъектов коммерциализации результатов инновационной деятельности // Теоретические и прикладные аспекты информационных технологий: Сб. ТЗЗ науч.тр./ОАО «НИИУМС». -Пермь, 2009. Вып.58. с.27-30. - 0.25 п.л. (из них автора 0.125 пл.).
14. Трусов В.А., Трусов A.B. Формирование системы информационно-аналитического обеспечения региональных органов государственной власти в рамках ФЗ «Об энергосбережении и повышении энергетической эффективности и о внесении изменений в отдельные законодательные акты Российской Федерации» //3-я Всероссийская научно-техническая конференция «Инновационная энергетика»/Пермь, 4 декабря 2009 года, с.51-59. - 0.5 пл. (из них автора 0.25 пл.).
15. Трусов В.А., Трусов A.B. Информационно-аналитическое обеспечение региональных органов власти в области повышения энергоэффективности
экономики региона // Энергетика. Энергоснабжение. Экология. Информационно-аналитический журнал. Февраль 2010 года., -Ижевск, с.Зб-41. - 0,375 п.л. (из них автора 0,18 п.л.).
16. Трусов В.А., Трусов А.В. Организация сбора и анализ информации для эффективной работы по энергосбережению // Ежемесячный деловой журнал/ Коммунальный комплекс России №3 (69), 2010, с.64-70. - 0.44 п.л. (из них автора 0.44 п.л.).
17. Трусов В.А., Трусов А.В. Концептуальная модель управления процессом коммерциализации результатов инновационной деятельности в рамках регионального инновационно-технологического комплекса // VII Всероссийская школа-конференция «Управление большими системами»: сборник трудов, 27-29 мая 2010 г., -Т1, -Пермь: Издательство Пермского государственного технического университета,2010, с.374-378. - 0.312 п.л. (из них автора 0.156 п.л.).
18. Трусов В.А. Принцип построения автоматизированной системы управления интеллектуальной собственностью предприятия // VII Всероссийская школа-конференция «Управление большими системами»: сборник трудов, 27-29 мая 2010 г., -Т2, -Пермь: Издательство Пермского государственного технического университета,2010, с.139-145. -0.44 п.л. (из них автора 0.44 п.л.).
19. Трусов В.А. Принципиальные программно-технические решения разработки автоматизированной системы управления процессом коммерциализации интеллектуальной собственности предприятия // Информация, инновации, инвестиции: Материалы межрегиональной научно-практической конференции (25-26 ноября 2010 года). -Уфа: ГАУ РНТИК «Баштехинформ», 2010. с.150-155. - 0.31 п.л. (из них автора 0.31 п.л.).
20. Трусов В.А., Бочкарев С.В. Система информационной поддержки процесса управления коммерциализацией результатов инновационной деятельности промышленных предприятий //, 2011г. с. -0.31 п.л. (из них автора 0.31 п.л.).
21. Трусов В.А. Обоснование методологической базы разработки автоматизированной системы информационной поддержки процесса // Материалы IV Всероссийской научно-технической интернет-конференции (1-31 октября 2010г.) с.138-149. - 0.69 п.л. (из них автора 0.69 п.л.).
22. Трусов А.В., Бабарыкин Е.П. Оценка границ области тематического информационного запроса в распределенных информационных системах Материалы Всероссийской (с международным участием) конференции «Информация, инновации, инвестиции», 24-25 ноября 2004 года, г.Пермь /Пермский ЦНТИ. -Пермь, 2004, с.76-79. - 0.25 п.л. (из них автора 0.125 п.л.).
Публикации в зарубежных сборниках (0,499 п.л. из них автора 0,402 п.л.)
23. Трусов В.А. A model for Designing Query Images in Distributed
Internet Information Systems // SSN 0005П1055, Automatic Documentation and Mathematical Linguistics, 2011, Vol. 45, No. 3, pp. 121-126. - 0.312 п.л. (из них автора 0.312 п.л.).
24. Трусов В.А., Трусов А.В. Information Search Models in Distributed Information Systems of the Internet // SSN 0005-1055, Automatic Documentation and Mathematical Linguistics, 2011, Vol. 45, No. 4, pp. 211-212. - 0.187 п.л. (из них автора 0.09 п.л.).
Трусов Владимир Александрович Печатается в авторской редакции
Подписано в печать 15.02.2012г. Уч.-изд.л. 0.875
Сдано в производство 16.02.2012 г. Формат 60x84 1/16 Тираж 80 экз. Заказ №143/01
Отпечатано в группе оперативной полиграфии Пермского ЦНТИ 614990, г.Пермь, ул. Попова, 9
Текст работы Трусов, Владимир Александрович, диссертация по теме Информационные системы и процессы, правовые аспекты информатики
61 12-5/1707
Федеральное государственное оюджетное учреждение высшего профессионального образования «Пермский национальный исследовательский политехнический
университет»
ИССЛЕДОВАНИЕ И РАЗРАБОТКА МОДЕЛЕЙ И АЛГОРИТМОВ СИСТЕМЫ ИНФОРМАЦИОННОЙ ПОДДЕРЖКИ ИННОВАЦИОННОЙ ДЕЯТЕЛЬНОСТИ НАУКОЕМКИХ ПРОМЫШЛЕННЫХ
ПРЕДПРИЯТИЯ
05.25.05 Информационные системы и процессы
Диссертация на соискание ученой степени кандидата технических наук
Научный руководитель: Доктор технических наук, профессор Бочкарев Сергей Васильевич
Пермь 2012
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ.................................................................................................................4
ГЛАВА 1 СТРУКТУРНЫЙ АНАЛИЗ ПРОЦЕССА ИНФОРМАЦИОННОЙ ПОДДЕРЖКИ ИННОВАЦИОННОЙ ДЕЯТЕЛЬНОСТИ НАУКОЕМКОГО ПРОМЫШЛЕННОГО ПРЕДПРИЯТИЯ............................................................13
1.1 Структурный анализ жизненного цикла инновационной деятельности промышленного предприятия..............................................................................13
1.2 Тенденции развития методов и моделей информационной поддержки процесса управления инновационной деятельностью предприятия................52
1.3 Теоретико-множественная модель системы информационной поддержки инновационной деятельности наукоемкого промышленного предприятия.... 58
1.4 Математическая постановка задачи. Состав и структура частных задач исследования..........................................................................................................62
ВЫВОД ПО ГЛАВЕ 1.............................................................................................67
ГЛАВА 2 ИССЛЕДОВАНИЕ ПРОЦЕССА ОБРАБОТКИ ИНФОРМАЦИИ В РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ СЕТИ ИНТЕРНЕТ...............................................................................................................69
2.1 Исследование структуры информационного ресурса в распределенных информационных системах сети интернет.........................................................69
2.2 Информационная модель представления процесса обработки информации в сети интернет.......................................................................................................72
2.3 Модель обработки информации в распределенных информационных системах сети интернет.........................................................................................79
2.4 Формирование поискового образа документа в системах обработки информации............................................................................................................83
ВЫВОД ПО ГЛАВЕ 2.............................................................................................85
ГЛАВА 3 РАЗРАБОТКА МОДЕЛЕЙ И АЛГОРИТМОВ СИСТЕМЫ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ В РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ СЕТИ ИНТЕРНЕТ...............................................................................................................87
3.1 Концептуальный подход к формированию семантической обработки информации в распределенных информационных системах сети интернет ..87
3.2 Разработка алгоритма формирования поискового образа документа........97
3.3 Разработка алгоритма формирования поискового образа запроса на обработку информации в распределенных информационных системах сети интернет................................................................................................................101
3.4 Разработка алгоритма формирования расширенного поискового образа запроса с использованием тезаурусов...............................................................110
3.5 Разработка алгоритмов ранжирования и реферирования найденных документов в распределенных информационных системах сети интернет.. 118
ВЫВОД ПО ГЛАВЕ 3...........................................................................................122
ГЛАВА 4 РАЗРАБОТКА СИСТЕМЫ ИНФОРМАЦИОННОЙ ПОДДЕРЖКИ ИННОВАЦИОННОЙ ДЕЯТЕЛЬНОСТИ НАУКОЕМКОГО ПРОМЫШЛЕННОГО ПРЕДПРИЯТИЯ..........................................................123
4.1 Разработка программно-технического обеспечения системы информационной поддержки инновационной деятельности промышленного предприятия..........................................................................................................123
4.2 Разработка базы данных системы информационной поддержки инновационной деятельности промышленного предприятия........................129
4.3 Требования к разработке автоматизированной системы информационной поддержки инновационной деятельности наукоемкого промышленного предприятия..........................................................................................................133
4.4 Методическое и организационное обеспечение системы информационной поддержки инновационной деятельности наукоемкого промышленного предприятия..........................................................................................................141
ВЫВОД ПО ГЛАВЕ 4...........................................................................................144
ЗАКЛЮЧЕНИЕ......................................................................................................146
ЛИТЕРАТУРА........................................................................................................148
ПРИЛОЖЕНИЯ.....................................................................................................163
ВВЕДЕНИЕ
В настоящее время большое внимание уделяется разработке систем информационной поддержки принятия управленческих решений, нацеленных на формирование конкурентоспособной и качественно новой продукции в рамках производственной деятельности промышленных предприятий. Конкурентоспособность продукции обеспечивается за счет активизации изобретательской и рационализаторской деятельности, за счет организации и проведения научно-исследовательских и опытно-конструкторских работ в процессе непрерывного производственного цикла. Полученные результаты инновационной деятельности (РИД), т.е. новые или усовершенствованные с новым качеством продукты и позволят создать конкурентоспособное производство. Важнейшим этапом производственного жизненного цикла предприятия является формирование системы информационной поддержки инновационной деятельности, от того насколько оперативно будут приниматься решения о выпуске новой конкурентоспособной продукции, настолько и будет рыночный успех промышленного предприятия.
Актуальность работы
В процессе инновационной деятельности [1] участвуют практически все структурные подразделения предприятия, и информационная поддержка этих подразделений разнородными патентными, патентно-конъюнктурными и маркетинговыми данными, в том числе на основе информационных ресурсов[2] государственной системы научно-технической информации [3-5], является важнейшей задачей современных систем автоматизации [6]. На современном этапе развития одним из основных оперативных источников информации является сеть интернет [7], с его многочисленными распределенными информационными ресурсами (ИС) [8]. Умение качественно обрабатывать информацию [9] в распределенных информационных системах (РИС) - это залог успешного создания конкурентоспособных РИД [10-11] (инновационных проектов, объектов техники), это залог успешного функционирования
предприятия в рыночных условиях. Поэтому и необходимо, в рамках существующих систем автоматизации промышленных предприятий (ERP -систем) [12] сформировать подсистему информационной поддержке инновационной деятельности промышленных предприятий [13-17], в рамках которой уделять особое внимание автоматизации семантической обработки неструктурированных маркетинговых, патентных и патентно-конъюнктурных данных в РИС сети интернет. Это и обуславливает актуальность настоящего исследования. [18-19]
Фундаментальные положения теории информации и управления информационными процессами, включая процессы обработки информации и информационного управления, принадлежат P.C. Гиляревскому [20-22], В.А. Мясникову [23], А.П. Пятибратову [24], М. Хаммеру [25], Г.И. Марчуку [26-27], Ю.М. Арскому [28-29], А.И. Черному [30], A.A. Стогнию [31-32], Ю.М. Черкасову [33], В.А. Цветковой [34], И.И. Попову [35-37], В.В. Кульбе [38-40], Н.В. Максимову [41-42], В.Н. Буркову [43-44], Д.А. Новикову [45-46], А.Г. Чхартишвили [47] и др.
Основоположниками теории инноваций считаются Й. Шумпетер [48], идеи которого были развиты и дополнены в трудах А.И. Татаркина [49-50], Ю.В. Шленова [51], В.Е. Шукшунова [52], Ю.В. Яковца [53], Н.Д. Кондратьева [54], В.Н. Фридлянова [55-56] и др.
Однако в известных работах решались, как правило, локальные задачи, связанные с повышением эффективности поиска [57-58], передачи и анализа информации [59], решались задачи управленческого и экономического характера использования РИД в интересах предприятий. Но вместе с тем на уровне промышленного предприятия практически отсутствуют системы автоматизации, способные обеспечить информационную поддержку инновационной деятельности. Особенно актуальны вопросы, связанные с семантической обработкой патентной, патентно-конъюнктурной и маркетинговой информации в РИС сети интернет. Анализ показал, что, несмотря на то, что имеется множество различных систем обработки
информации [60] в сети интернет (Rambler, Yandex, Google и др.), остается проблема повышения эффективности (точности) обработки неструктурированной информации, предназначенной для информационной поддержки патентных, патентно-конъюнктурных и маркетинговых исследований в процессе инновационной деятельности промышленного предприятия.
Цель работы
Разработка комплекса моделей и алгоритмов, обеспечивающих повышение эффективности информационной поддержки инновационной деятельности наукоемкого промышленного предприятия за счет автоматизации процедур семантической обработки неструктурированной информации в РИС сети интернет.
Задачи исследования
1. Провести структурный анализ процесса информационной поддержки производственной и экономико-управленческой деятельности наукоемкого промышленного предприятия в части создания РИД.
2. Исследовать модели и алгоритмы обработки информации в РИС сети интернет.
3. Разработать модели и алгоритмы семантической обработки неструктурированной информации в РИС сети интернет.
4. Практически реализовать и провести апробацию программно-технических и организационных решений системы информационной поддержки инновационной деятельности наукоемкого промышленного предприятия.
Объект исследования
Объектом исследования является система информационной поддержки инновационной деятельности наукоемкого промышленного предприятия в рамках непрерывного производственного цикла.
Предмет исследования
Предметом исследования являются модели и алгоритмы обработки информации и информационной поддержки инновационной деятельности неструктурированными ресурсами РИС сети интернет.
Методы исследования
При разработке формальных моделей использовались структурный анализ, теория баз данных, методы общей теории систем и классический теоретико-множественный аппарат, теория множеств, теория алгоритмов, математическое моделирование, методы функционального проектирования процессов, в нотациях ГОЕРО, ГОЕРЗ и ЮЕР1.
На защиту выносятся:
1. Процедурная и теоретико-множественная модели системы информационной поддержки производственной и экономико-управленческой деятельности наукоемкого промышленного предприятия с учетом сопоставления задач информационного обеспечения на стадиях жизненного цикла создания объектов техники.
2. Модели функционального представления процесса обработки информации в сети интернет, описывающие взаимодействие основных компонент процесса информационной поддержки и функций обработки информации.
3. Модели и алгоритмы семантической обработки неструктурированной информации в РИС сети интернет с использованием механизма синонимии, модель семантического поиска и обработки информации в РИС сети интернет, включая алгоритм составления частотного словаря, алгоритм построения поискового образа запроса (ПОЗ), алгоритм построения тезаурусов и расширения поискового образа запроса (РПОЗ), алгоритм построения поискового образа документа (ПОД), алгоритм ранжирования и реферирования документов.
4. Реализация системы информационной поддержки инновационной деятельности наукоемкого промышленного предприятия в части семантической обработки неструктурированной информации в РИС сети интернет.
Научная новизна
1. Предложены процедурные и информационные модели производственной и экономико-управленческой деятельности наукоемкого промышленного предприятия в части создания РИД, позволяющие создавать системы информационной поддержки инновационной деятельности. Разработана теоретико-множественная модель системы информационной поддержки инновационной деятельности наукоемкого промышленного предприятия, позволяющая описывать взаимодействие основных компонент процесса информационной поддержки через динамически меняющееся пространство состояний.
2. Предложены модели функционального представления процесса обработки информации в РИС сети интернет, описывающие взаимодействие основных компонент процесса информационной поддержки и функций обработки информации.
3. Предложен концептуальный подход семантической обработки неструктурированной информации в РИС сети интернет с использованием механизма синонимии. Разработана модель и алгоритмы семантического поиска и обработки информации в РИС сети интернет, являющиеся теоретической основой для перехода к автоматизированной семантической обработке неструктурированной информации в сети интернет.
4. Разработаны программно-техническое и организационное обеспечение системы информационной поддержки инновационной деятельности наукоемкого промышленного предприятия.
Достоверность научных положений, рекомендаций и выводов
Обоснованность научных положений, рекомендаций и выводов, изложенных в работе, определяется корректным использованием современных математических методов и методологий структурного анализа и проектирования процессов. Достоверность положений и выводов диссертации подтверждена положительными результатами внедрения разработок.
Практическая ценность и внедрение
Научные результаты, полученные в диссертации, доведены до практического использования. Разработан программно-технический комплекс, позволяющий автоматизировать систему семантической обработки информации в РИС сети интернет, и предназначены для информационного обеспечения инновационной деятельности наукоемкого промышленного предприятия в рамках непрерывного производственного цикла. Разработанные модели и алгоритмы прошли апробацию и внедрены для практического применения на предприятиях.
Результаты внедрения и эксплуатации подтвердили работоспособность и эффективность разработанных методов.
Основные результаты, полученные в ходе работы над диссертацией, используются в учебном процессе ФГБОУ ВПО «Пермский национальный исследовательский политехнический университет» по направлению подготовки: по специальности 220300 «Автоматизированные технологии и производства»; по специальности 220305 «Автоматизированное управление жизненным циклом продукции дисциплины «Проектирование и совершенствование структур и процессов промышленных предприятий».
Диссертация состоит из введения, четырех глав, заключения, приложений и списка использованных источников.
В первой главе проводится структурный анализ системы информационного обеспечения инновационной деятельности промышленного предприятия. Исследуется жизненный цикл создания объекта техники промышленного предприятия, конкурентоспособность РИД на стадиях жизненного цикла промышленного предприятия. На основе структурного исследования информационной поддержки инновационной деятельности наукоемкого промышленного предприятия разработаны процедурные и информационные модели производственной и экономико-управленческой деятельности наукоемкого промышленного предприятия в части создания РИД, позволяющие создавать системы информационной поддержки инновационной деятельности. Разработана теоретико-множественная модель системы
информационной поддержки инновационной деятельности предприятия. Осуществлена математическая постановка задачи, определены состав и структура частных задач исследования.
Во второй главе проводится исследование моделей обработки информации в РИС сети интернет. Разработано функциональное представление процесса обработки информации в сети интернет. Разработана модель обработки информации в РИС сети интернет и формирования поискового образа документа в системах обработки информации.
В третьей главе построены формальная модель и алгоритмы системы семантической обработки информации в РИС сети интернет. Сформирован концептуальный подход к формированию семантической обработки информации в РИС сети интернет. Разработана модель семантического поиска и обработки информации в РИС сети интернет, включая алгоритм составления частотного словаря, алгоритм построения ПОЗ, алгоритм построения тезаурусов и РПОЗ, алгоритм построения ПОД, алгоритм ранжирования и реферирования документов.
В четвертой главе рассмотрены подходы к разработке системы информационной поддержки инновационной деятельности промышленного предприятия. Разработано программно-технического обеспечения системы информационной поддержки инновационной деятельности промышленного предприятия. Приведен алгоритм функционирования автоматизированной системы семантической обработк
-
Похожие работы
- Методология построения автоматизированных систем управления инновационными наукоемкими химическими предприятиями
- Разработка и организация функционирования информационной системы поддержки принятия решений наукоемкого производства
- Методы организации производственных процессов наукоемкого предприятия
- Совершенствование методов интегрированной логистической поддержки жизненного цикла наукоемких изделий
- Разработка организационно-экономических методов и моделей управления логистической системой поддержки жизненного цикла наукоемкой продукции