автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Моделирование и алгоритмизация процессов анализа научно-технической информации с целью выявления тенденций развития в перерабатывающих отраслях АПК

кандидата технических наук
Галочкин, Сергей Александрович
город
Москва
год
2003
специальность ВАК РФ
05.13.18
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Моделирование и алгоритмизация процессов анализа научно-технической информации с целью выявления тенденций развития в перерабатывающих отраслях АПК»

Автореферат диссертации по теме "Моделирование и алгоритмизация процессов анализа научно-технической информации с целью выявления тенденций развития в перерабатывающих отраслях АПК"

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПРИКЛАДНОЙ БИОТЕХНОЛОГИИ

На правах рукописи

ГАЛОЧКИН Сергей Александрович

Моделирование и алгоритмизация процессов анализа научно-технической информации с целью выявления тенденций развития в перерабатывающих отраслях АПК.

Специальность 05.13.18 - Математическое моделирование,

численные методы и комплексы программ.

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва -2003

Работа выполнена на кафедре "Компьютерные технологии и системы" Московского государственного университета прикладной биотехнологии

Научный руководитель

■ доктор технических наук, профессор Ивашкин Юрий Алексеевич

Официальные оппоненты:

■ доктор технических наук, профессор Красуля Ольга Николаевна

• кандидат технических наук, доцент Белопушкин Виктор Иванович

Ведущая организация

- Российский химико-технологический университет им. Д.И.Менделеева

Защита состоится «¿20» 2003г. в /4 &часов на заседании

диссертационного совета К212.149.03 при Московском государственном университете прикладной биотехнологии по адресу: 109316, г.Москва, ул. Талалихина, 33, конференц-зал.

С диссертацией можно ознакомиться в библиотеке Московского государственного университета прикладной биотехнологии.

Автореферат разослан« ¿>4 » ^ОЛгУиЛ 2003г.

Ученый секретарь диссертационного совета, к.т.н., доцент

Потапов А.С.

2ооЗ-А • 184 2о

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы.

Важнейшим условием обеспечения эффективного научно-технического развития в перерабатывающих отраслях АПК является обоснованный выбор приоритетов и концентрация научного потенциала, финансовых и материальных ресурсов на их реализации. Этот принцип положен в основу Доктрины развития российской науки и действующего Федерального закона «О науке и государственной научно-технической политике».

Исходя из этого, важной составной частью государственной социально-экономической политики является инновационная политика, определяющая цели инновационной стратегии и механизмы поддержки приоритетных инновационных проектов и программ.

Научно-технические инвестиционные проекты получают финансирование в основном через систему целевых программ, создаваемых при поддержке государственных структур и распределяющих инвестиционные кредиты на льготных условиях в важные для государства проекты.

Повышение эффективности использования ограниченных ресурсов при проведении научно-исследовательских работ, финансируемых из средств государственного бюджета, является одной из важных стратегических целей управления наукой, для достижения которой на этапе распределения финансирования требуется принимать решения, основанные на складывающихся тенденциях развития науки и достигнутом мировом уровне научных исследований, экспертном прогнозе развития науки на ближайшую перспективу и экономических целях, актуальных задачах и проблемах, а также предлагаемой к разработке научной тематики.

На этапе выбора приоритетных направлений развития, отбора инновационных проектов и распределения финансирования одной из главных задача является выявление складывающихся тенденций развития науки и

техники в различных областях знаний, решение которойг в настоящее время,

РОС НАЦИОНАЛЬНАЯ I

достигается привлечением большого количества для

С.Петер«и>г I О»

анализа имеющейся информации и принятия решений на основе накопленного опыта и знаний в конкретной области.

При этом лицам, принимающим решения на разных уровнях управления необходима компьютерная поддержка в определении объективно складывающихся тенденций развития науки, основанная на анализе больших потоков научно-технической информации с последующим выявлением правильности вложения средств, рациональности политических, социальных или экономических мероприятий.

В связи с этим задача создания информационной технологии, быстро оценивающей большие объемы данных по научно-техническим публикациям и позволяющей выявить необходимые знания для обоснованного принятия решения является социально значимой и актуальной.

Цель диссертационной работы заключалась в моделировании и алгоритмизации процессов анализа научно-технической информации с накоплением формализованных знаний и создании знание-ориентированной компьютерной технологии, выявляющей складывающиеся тенденции развития науки и техники в выбранной области знаний.

Для достижения поставленной цели необходимо решение следующих

задач:

• анализ существующих систем и методов обработки научно-технической информации с формализацией целей, задач, условий и принципов отбора инновационных проектов в перерабатывающих отраслях АПК;

• формализация информационных характеристик, параметров и структуры реляционной базы данных по научно-техническим публикациям;

• разработка математической модели идентификации научного направления и тенденции развития на множестве ключевых слов и семантических связей;

• разработка метода и алгоритма выявления семантически связанных ключевых слов в массиве научно-технических публикаций с формированием терминологической формулы научного направления;

• разработка диалогового алгоритма и программного комплекса идентификации тенденций научных исследований и технических проектов в перерабатывающих отраслях АПК в экспертной системе поддержки принятия решений.

Научная новизна.

1. Разработана математическая модель и алгоритм анализа потоков научно-технической информации, обеспечивающие формализацию знаний с помощью ключевых слов и терминологических формул. ' '"

2. Разработан алгоритм ассоциативного поиска семантически связанных ключевых слов в массивах текстовой научно-технической информации с формированием терминологических формул.

3. Предложен критерий оценки информативности терминологических формул.

4. Разработана информационная технология выявления тенденций развития научных исследований и технических проектов в предметной области знаний.

Практическая значимость работы.

1. На основе разработанных моделей и алгоритмов создан программный комплекс «КЕУЕАЬТЕМ», реализующий предложенные методы анализа текстовой информации с формированием множества семантически связанных ключевых слов и терминологических формул.

2. Разработано программное обеспечение и демонстрационная версия экспертной системы определения тенденций развития в перерабатывающих отраслях АПК, информационно- и программно-совместимые с экспертной системой РогеСазсег.

3. Разработана структура и программный аппарат поддержки реляционной базы данных по регистрационным и информационным картам для накопления научно-технической информации и последующего использования в ОНТИ МГУПБ.

Апробация работы. Основные результаты диссертации представлены на: 4-ой Международной научно-технической конференции «Пища. Экология. Человек.» (Москва, 2001г.); 2-ой Всероссийской научно-технической конференции. (Воронеж, 2002г.); а также в Вестнике Международной Академии Системных Исследований. «Информатика, Экология, Экономика». (Том 5., Часть IV, М., 2001г.).

Публикации. По материалам диссертации опубликовано 4 печатных работы, в том числе статья в академическом Вестнике, доклады и тезисы докладов в трудах и материалах Международных и Всероссийских конференций.

Структура и объем диссертации.

Диссертация состоит из введения, четырех глав, заключения и приложений и содержит 119 страниц основного текста, 26 рисунков, 16 таблиц, список литературы из 85 наименований и 76 страниц приложений.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении излагается краткое описание проблемы выявления тенденций и направлений научно-технического прогресса, в частности перерабатывающих отраслей АПК, формулируется цель исследования, актуальность темы, научная новизна и практическая значимость работы.

В первой главе, посвященной системному анализу проблемы идентификации направлений развития предметной области, описывается комплекс научно-технической информации о существующих исследованиях и разработках, действующие механизмы отбора и финансирования инновационных проектов с конкретизацией задач:

• выявления складывающихся тенденций развития науки и техники;

• определения и расстановки приоритетов;

• научно-технического прогноза;

• экспертизы и отбора инновационных проектов и программ.

При этом центральное место занимает задача выявления складывающихся тенденций развития научных исследований, решение которой является исходным информационным базисом для выполнения последующих задач.

Анализ существующих систем и методов выявления тенденций научно-технического развития в перерабатывающих отраслях АПК показывает, что в настоящее время, решение проблемы основывается на субъективной оценке информации группой специалистов-экспертов и полностью зависит от их компетенции и знаний. Использование автоматизированных информационных систем и технологий, ограничивается только компьютерной обработкой мнений экспертов.

Получение полной, объективной и достоверной информации о складывающихся тенденциях развития науки и техники требует разработки формализованных методов и процедур быстрой оценки и анализа больших объемов библиографических данных и научно-технических публикаций с выявлением необходимых знаний для последующего принятия решения при разработке инновационных стратегий.

Решение задачи достигается созданием компьютерных технологий анализа потоков научно-технической информации с помощью взаимосвязанных ключевых слов и их конструкций (терминологических формул), отражающих то или иное научное направление в виде ветвей семантического графа с использованием некоторого критерия достоверности и оценки связности.

Вторая глава посвящена формализации и математическому моделированию процесса обработки научно-технической информации с целью выявления тенденций развития в предметной области знаний.

Информационное пространство содержит библиографические сведения о статьях в периодических изданиях, технических отчетах, патентах, книгах, монографиях, рекламных публикациях, чертежах, диссертациях и т.п.

Объектом анализа являются наборы ключевых слов (терминов) и их частотные характеристики, отражающие частоту появления того или иного

понятия или объекта исследования во взаимосвязи с другими объектами и событиями, - характеризующими возможную направленность в заданной предметной области.

Формализация извлекаемых знаний достигается построением продукционной модели эвристических выводов по принципу выявления ассоциативных правил с оценкой изменения неопределенности на очередном шаге идентификации.

• Получение продуктивных знаний осуществляется разбиением общего количества публикаций анализируемой предметной области в зависимости от содержания на определенные рубрики некоторой классификации. Каждый класс характеризуется набором признаков - специфических для него ключевых слов, выражающих основные понятия и отношения между ними.

Таким образом, формализация знаний сводится к представлению их в виде ограниченного множества наиболее вероятных последовательностей ключевых слов (терминологических формул) и построению классификационного семантического графа.

Формализованная постановка задачи для информационной базы данных из q научно-технических публикаций сводится к следующему:

Задано множество ключевых слов W = {Wu W2, ..., Wn}, используемых в рассматриваемой предметной области. Пусть D - множество публикаций, где каждая публикация Р ~ это набор слов из W, Р с W. Если публикация Р содержит X , некоторый, набор терминов из W и X а Р, то ассоциативным правилом является импликация:

Х=>У,где ХаР, Y cW и XnY = 0.

Правило X=>Y имеет поддержку S (support), если S процентов публикаций из D, содержат X u Y.

Достоверность Йравила показывает, какова вероятность того, что из X следует Y. "Правило X => Y справедливо с достоверностью С (confidence), если С процентов публикаций из D, содержащих X, также содержат Y .

ад . . . .

Другими словами, если в публикации встретился некоторый 'набор ключевых слов X, то с определенной вероятностью 5 можно'утверждать','что также же должен появиться другой набор слов У в этой публикации. Установление таких интуитивно понятных правил дает возможность находить семантически взаимосвязанные последовательности терминов.

Алгоритм нахождения ассоциативных правил X => У при заданных пороговых значениях поддержки £ и. достоверности С, называемых минимальной поддержкой (ттзирроп) 5т|п и минимальной достоверностью (ттсопйс1епсе) Ст;п разбивается на три этапа:

1. Нахождение всех наборов ключевых слов, которые-удовлетворяют порогу (гшширрог[) . Такие наборы называются "часто встречающимися".

2. Генерация правил (терминологических формул) из множества наборов ключевых слов, найденных согласно п.1. с достоверностью, удовлетворяющей порогу (ттсопйс1епсе) Ст¡п.

3. Оптимизация сгенерированных правил, с целью ■ ■ последующего представления полученных результатов в виде классификационного терминологического графа. .....

Значения Минимальной поддержки 5т;п и минимальной достоверности Ст!п выбираются так, чтобы ограничить количество найденных правил. Если пороговый уровень поддержки Я «кёет'большое значение, то алгоритмы будут находить правила, хорошо известные экспертам-аналитикам или настолько очевидные, что подобный анализ теряет смысл. С другой * стороны, низкое значение поддержки ведет к генерации огромного количества правил, анализ которых требует существенных вычислительных ресурсов. Тем не менее, большинство интересных правил находится именно при малых значениях 5т1г,, но в тоже время, слишком малое "Значение поддержки ведет к генерации статистически необоснованных 'правил.

Процедура идентификации и принятия решения о тенденциях развития в анализируемой области знаний можно представить в виде блок-схемы диалогового алгоритма (рис.1).

Рис. 1. Блок-схема диалогового алгоритма принятия решения.

Установление ассоциативных правил приводит к формированию т терминологических наборов (формул):

/т{»\> ■». %к> <4

где п^ТУ, 1 = 1,к; к - количество терминов в формуле (длина

формулы); п - квантор «И» (пересечения терминов).

Первоначально выявленное множество терминологических формул обладает определенной избыточностью, вызванной пересечением тех или иных формул, а также наличием формул с недостаточным количеством терминов к дад объективного анализа и выявления тенденции. В связи с этим проводятся процедуры минимизации и дополнения сформированных терминологических формул.

Множество взаимосвязанных терминологических цепочек можно представить в виде семантического графа - дерева идентификации, в вершинах которого размещены термины.

. Каждый возможный путь от узлов (терминов) верхнего уровня до исходов (терминов) нижнего уровня определяет содержание (семантику) конкретного научного направления и характеризует складывающуюся тенденцию научно-технического развития. В качестве примера приводится отдельный фрагмент полученной терминологической классификации в базе данных для перерабатывающих отраслей АПК (рис.2). \

Рис.2. Фрагмент классификационного терминологического графа (предметная категория -«молоко и молочные продукты»).

Статистические данные о связях понятий в публикациях и их распределении, основанные на вероятностях совместной встречаемости ключевых слов, позволяют оценить их вклад в общее содержание текстов публикаций. В связи с тем, что различные комбинации ключевых слов несут различную семантическую информацию,' необходимо ввести меру терминологической информативности для последующего ранжирования и выбора терминологических наборов (формул).

Решаемая задача классификации есть не что иное, как принятие решения о принадлежности распознаваемых объектов (научно-технических публикаций) определяемым терминологическим наборам. -

Процесс распознавания связан, прежде всего, со снятием неопределенности в вопросе о том, к какому классу относится распознаваемый объект:

Выявляемая в потоках научно-технической информации терминологическая структура характеризуются к -элементным набором признаков (ключевых слов) й>!, и>2,..., н>к е1У, причем данные признаки статистически зависимы.

В случае к зависимых признаков, энтропия объединения системы будет равна:

Количество информации, как мера степени снятия неопределенности, определяется разностью между безусловной и условной энтропиями. При к-уровйевой структуре полное количество информации,. предоставляемое системой можно рассчитать через априорные и апостериорные энтропии по следующей формуле:

/(»Р1,Я52,н;3)...,Н;*)=Я(»1)-Я(№1 /я2)-...-Н(%1 /Я2«*3...»?*) или через условные энтропии в развернутом виде:

ы /=1 № А*>})

1 Л Зм Р^ь^М) , ^

После преобразования формула нахождения полного количества информации в системе имеет вид:

к и и п

.....»*)=£££

/=1 У=1/=1

1

РО*])' X"?) '

А«'].»"/) ..,и£) у

Предлагаемый метод позволяет использовать классическую теорию информации для построения модели терминологической классификации и принятия решений путем вычисления количества информации, содержащиеся в конкретном терминологическом наборе, которое при к -уровневой структуре определяется как:

__рЫь»)) Р^.^Л) Ж*],

или выражая вероятности сочетания признаков (ключевых слов) через частоты их наблюдения, как:

Рассчитывая значения количества информации, предоставляемой каждым терминологическим набором, можно провести их ранжирование с целью выделения наиболее информативных наборов.

В третьей главе представлен алгоритм формирования терминологических наборов семантически связанных ключевых слов «REVEALTEN» (reveal tendency - выявление тенденций), включающий три этапа:

1) Предварительная обработка исходной базы данных по научно-техническим публикациям с целью отбора необходимых данных и приведения их к * нормализованному виду.

2) Нахождение всех часто встречающихся наборов ключевых слов, которые ' , удовлетворяют .порогу (minsupport) .

3) Генерация правил из полученных наборов ключевых слов с достоверностью, удовлетворяющей порогу (minconfidence) Cmin.

Алгоритм предполагает определение управляющих параметров, а именно, указание временного диапазона, предметной категории U, порогов (minsupport) Smin и (minconfidence) Cmin. Значения данных параметров вводятся пользователем-экспертом.

Разработанный алгоритм «REVEALTEN» применяет метод выявления

t

часто встречающихся наборов элементов, используя свойство антимонотонности, сорЙ8н& которого поддержка любого набора ключевых слов не может превышать минимальной поддержки любого из его подмножеств. Таким образом, с ростом размера терминологического набора поддержка уменьшается, либо остается такой же. Отсюда следует, что любой к-элементный набор терминов будет часто встречающимся только тогда, когда все его (Ы)-элементные подмножества будут также часто встречающимися. Использование этого правила позволяет существенно сократить пространство поиска и, соответственно, время поиска. .

На первом шаге алгоритма подсчитываются 1-элементные часто встречающиеся терминологические наборы. Для этого необходимо перебрать все публикации базы данных и подсчитать поддержку для каждого ключевого слова j^Vj, 5V2> — т-е- сколько раз встречается в базе данных в

выбранной области знаний. Далее осуществляется сравнение полученных

поддержек с заданным порогом <Ут[п, по результатам которого формируются

часто встречающиеся 1-элементные наборы {Ргец^).

Следующие шаги будут состоять из трех частей: генерации потенциально часто встречающихся наборов элементов - кандидатов, подсчета поддержки для кандидатов и формирования часто встречающихся наборов элементов.

Функция генерации кандидатов, в свою очередь, состоит из двух процедур:

• Объединение. Каждый кандидат будет формироваться путем расширения часто встречающегося набора размера (к-1) добавлением ключевого слова из 1-элементного часто встречающегося терминологического набора Ргед®.

• Удаление избыточных правил. На основании свойства анти-монотонности, следует удалить все наборы кандидатов, для которых хотя бы одно из его (к-1) подмножеств не является часто встречающимся.

Все стадии подбора ключевых слов в терминологический набор показаны на рис.3.

Изначально 1-ый уровень терминологической классификации представлен полным набором ключевых слов, используемых в выбранной области знаний, т.е. кандидатами на 1-ом этапе являются все ключевые слова. Далее следует подсчет поддержки для каждого кандидата, т.е. частот встречаемости ключевых слов в анализируемой области знаний и их сортировка по убыванию частоты встречаемости. Те слова, поддержка которых меньше заданного порога (минимальной поддержки »Ут!п), не включаются в перечень часто встречаемых ключевых слов и в дальнейшем анализе не участвуют. На рис. 3 данные ключевые слова (кандидаты) помечаются темным фоном.

1 уровень |-

1

я.

1Г,

IV,

чу.

к

Рис. 3 Схема формирования часто встречающихся наборов ключевых слов.

На 2-ом уровне кандидаты формируются, используя часто встречающиеся ключевые слова 1-го уровня. Данный уровень предполагает формирование наборов, состоящих из двух ключевых слов, используя комбинаторное правило сочетания элементов.

Если поддержка набора-кандидата меньше минимальной поддержки 5т|„, то данный набор исключается (на рис. 3 - набор {^¡Щ}).

На 3-ем уровне кандидаты формируются, используя сочетание часто встречающихся наборов 2-го и 1-го уровней, и из составленного перечня кандидатов исключаются кандидаты, не удовлетворяющие свойству антимонотонности, которое гласит, что поддержка любого набора ключевых слов не может превышать минимальной поддержки любого из его подмножеств. Данными кандидатами на рис.3 являются ¡ЩЩ^} и {^й^^},

так как набор 2-го уровня полностью входящий в их состав, не

является часто встречаемым.

Для оставшихся после проверки свойства анти-монотонности кандидатов рассчитывается поддержка 5 и сравнивается с 5т1П. Также как и на предыдущих шагах, кандидат не включается в перечень часто встречаемых наборов ключевых слов, если его поддержка оказывается меньше 5т,п. На 3-ем уровне таким набором-кандидатом условно является

Рассмотренная для 3-го уровня процедура отбора часто встречающихся наборов ключевых слов повторяется для всех последующих уровней терминологической структуры. Разработанный алгоритм ' допускает ' использование до 7-ми классификационных уровней.

После нахождения всех часто встречающихся наборов ключевУх>Слов, выполняется следующая процедура терминологической классификации -генерация правил (терминологических формул) из полученный' наборов'"' ключевых слов с достоверностью, удовлетворяющей порогу (ттсопййепсе)

Ст!п. При этом каждая полученная терминологическая формула записывается4

, . . .1 'Л с* | 'юО

последовательностью индексов ключевых слов, используемых в формуле.

Ч'г

- 1S-

Также в данной главе рассмотрены вопросы информационного обеспечения экспертной системы анализа научно-технических публикаций с описанием:

- общей схемы подготовки и обработки данных;

- структуры библиографических информационных баз данных по научно-техническим публикациям FSTA и AGRIS, являющихся международными базами данных по пищевой промышленности и сельскому хозяйству, производимые компанией Silver Platter;

- структуры базы данных по регистрационным и информационным картам, разработанной для отдела научно-технической информации МГУПБ;

- процедуры нормализации исходных баз данных научно-технической информации (применение конвертеров данных).

В четвертой главе описывается функциональная структура (рис.4) и демонстрационная версия экспертной системы анализа научно-технических публикаций и выявления тенденций развития науки и техники в перерабатывающих отраслях АПК.

Рассмотрены особенности программного обеспечения разработанного комплекса «REVEALTEN» и смоделирована процедура принятия решений на

■. . ( г

примере анализа научно-технических публикаций базы данных FSTA, являющейся реферативным сборником по проблемам пищевой науки и технологии, в предметной области <Milk and dairy products> (молоко и молочные продукты).

В результате анализа выполняется непосредственный подсчет часто встречающихся наборов ключевых слов с формированием списка терминологических формул (рис.5) в соответствии с заданными характеристиками ассоциативной модели.

Например, на рис.5 четвертая формула (строка 4) состоит из четырех ключевых слов, индексы которых <106 -- 42 - 7 - 67> указаны в соответствующих столбцах таблицы; шестая формула (строка 6) состоит из пяти терминов с индексами <106 - 42 - 7 - 67 - 105>.

Рис.4. Функциональная структура экспертной системы анализа научно-технических публикаций и выявления тенденций развития науки и техники в перерабатывающих отраслях АПК.

Ыынмленке шнд.енц«Д р^звшии перерабагывдошнк отраслей АПК ЯЯВ1

Стаж ш|>нино<к>гичесмжфирм<|п ■

Щ щшпм!.?-» -шричи!4-*$ . ¡^»таиифорМатаи j

106 42 7 98

106 l 42 7 105

IOC • 42 i 7 67

106 42 7 67

106 42 7 67

106 42 67

106 42 67 6

106 42 67 47

106 42 67 47

106 42 67 38

106 42 .67 142

106 42 -67 142

106 , 42 £7 142

1№ 42 67 142

106 42 £7 105

106 . 42 67 5

106 '42 " B7 5

106 42 67 5

106 _42 67 5

105

б 47

♦7

47

142 142

Поиск ключевого слова

i ! ,.„ SBACTERA-

|BACTERIOFHAGES-¡BETA4ACTOGLOBUUN 3EVE RAGES-

0 0537 S 2341

01068 9 2038

0 2ЭЭ6 Э23Э2

>0 0588 9 3492

0 0670 9 2385

0 6907 91589

0 0Э87 9 2125

01104 19 2224

0 0769 9 2684

0 0588 9 2750

0 2227 9 3640

0 0869 9 4048

01023 9 4241

D0S97 9 4623

01132 3 2506

01240 '3 2496

0 0561 9 3271

0 0833 3 3722

0 0561 9 4497

Ш

ibwweräiinw

Рис.5. Перечень терминологических формул.

В седьмом столбце (рис.5) приводятся значения поддержки S для терминологических наборов. Для 4-ой формулы 5-0.2336, а для 6-ой S =0.0670. Меньшее значение поддержки 6-ой формулы вызвано добавлением на пятом уровне идентификации ключевого слова с индексом <105> и, соответственно, " снижением вероятности появления данного терминологического набора в анализируемой предметной области.

* Далее рассматривается этап семантического анализа полученных терминологических формул специалистом-экспертом на примере формулы №6 (риаб).

Терминологическая формула (в индексах терминов): <106 - 42 - 7 - 67 - 105> в англоязычных терминах имеет вид:

MILK — DAIRY-PRODUCTS — BACTERIA — FOOD-SAFETY— MICROORGANISMS В русскоязычных терминах терминологическая формула записывается как: МОЛОКО — МОЛОЧНЫЕ ПРОДУКТЫ — БАКТЕРИИ — БЕЗОПАСНОСТЬ ПИЩИ — МИКРООРГАНИЗМЫ

Подробный анализ Формулы

»f * * л *

Предметная категория Р Milk and dairy products

Общее коя во гтаб/жаций в данной предметной области • 9638 Частота встречаемости терммолсгической формулы • 74

Общее количество терминов в БД • 5840 Достоверность данного набора ¡min) ■ 2.084

Рис.б. Подробный анализ выбранной терминологической формулы.

Данный терминологический набор подлежит семантическому анализу специалистом-экспертом и переводу в связанную естественно-языковую форму и может представлять следующее научное направление: "Изготовление безопасных молочных продуктов с применением микроорганизмов и бактерий".

В заключении обобщены результаты, полученные в ходе теоретического и практического решения задачи анализа научно-технической информации с целью выявления складывающихся тенденций развития науки и техники в перерабатывающих отраслях АПК.

В приложениях приведены примеры фрагментов базы данных РБТА, листинг программного комплекса по выявлению тенденций развития науки и техники в перерабатывающих отраслях АПК «11ЕУЕАЬТЕ1Ч», листинг пакета

программ по обработке и оформлению регистрационных и информационных

карт, руководство по эксплуатации программного комплекса.

Основные результаты и выводы:

1. Проведен анализ существующих систем и методов обработки научно-технической информации с формализацией условий и принципов отбора инновационных проектов и программ в перерабатывающих отраслях АПК.

2. Предложены информационные характеристики и формализованная модель описания научного направления в виде наборов ключевых слов (терминологических формул) и ветвей семантического графа.

3. Разработана математическая модель идентификации научного направления и тенденций развития по ключевым словам публикаций с использованием ассоциативных правил подбора терминов в набор и оценкой уменьшения степени неопределенности на очередном шаге идентификации.

4. Разработан алгоритм выявления ассоциативных связей и семантически связанных ключевых слов с формированием терминологической формулы научного направления.

5. Создана структура базы данных по реферативным публикациям и НИОКР в перерабатывающих отраслях АПК, обеспечивающая выполнение идентификации научных направлений в виде семантического графа ключевых слов.

6. Разработано программное обеспечение и демонстрационная версия компьютерной системы анализа научно-технической информации и идентификации направлений и тенденций развития для перерабатывающих отраслей АПК.

Список публикаций:

1. Галочкин С.А. Технология определения тенденций развития производства безопасных пищевых продуктов. // Доклады четвертой международной научно-технической конференции «Пища. Экология. Человек.» М., 2001, с.308-310.

2. Ивашкин Ю.А., Галочкин С.А. Модели и алгоритмы формирования и анализа баз знаний для выявления тенденций развития и оценки перспективности научных исследований. // Вестник Международной Академии Системных Исследований. Информатика, Экология, Экономика. Том 5. Часть IV, М., 2001, с.63-72.

3. Галочкин С.А. Система поддержки принятия решений в определении тенденций развития науки и техники перерабатывающих отраслей АПК. // Теория конфликта и ее приложения: Материалы II Всероссийской научно-технической конференции. - Воронеж: Воронеж, гос. технол. акад., 2002,

4. Ивашкин Ю.А., Кузнецов C.B., Галочкин С.А. Отчет о научно-исследовательской работе. «Разработать компьютерные технологии производства безопасных пищевых продуктов.», № госрегистрации 01990010643,2001,25 с.

Отпечатано в типографии ООО "Франтэра" ПД № 1-0097 от 30.08.2001г. Москва, Талалихина, 33

Подписано к печати 27.10.2003г. Формат 60x90/16. Бумага "Офсетная №1" 80г/м*. Печать офсетная. Усл.печ.л. 1,44. Тираж 120. Заказ 067. МГУПБ. 109316, Москва, ул. Талалихина, 33

с.48

www.frantera.ru

2 о

Оглавление автор диссертации — кандидата технических наук Галочкин, Сергей Александрович

ВВЕДЕНИЕ.

ГЛАВА 1: СИСТЕМЫ НАКОПЛЕНИЯ И ОБРАБОТКИ НАУЧНО* ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ (НТИ).

§1.1. Общие цели и задачи накопления и обработки НТИ.

§1.2. Методы и средства анализа НТИ для формализованной оценки тенденций, перспектив развития научных исследований и отбора инновационных проектов. 18

§1.3. Постановка задачи создания информационной технологии обработки научно-технических публикаций с целью выявления тенденций развития науки и техники в перерабатывающих отраслях АПК.

ГЛАВА 2: ФОРМАЛИЗАЦИЯ И МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПРОЦЕССА АНАЛИЗА НТИ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ ф ТЕНДЕНЦИЙ РАЗВИТИЯ.

§2.1. Формализованные характеристики научных направлений и тенденций развития.

§2.2. Продукционная математическая модель терминологической классификации.

ГЛАВА 3: АЛГОРИТМИЧЕСКОЕ И ИНФОРМАЦИОННОЕ ОБЕСПЕЧЕНИЕ АВТОМАТИЗИРОВАННОЙ ЭКСПЕРТНОЙ СИСТЕМЫ АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ПУБЛИКАЦИЙ.

§3.1. Алгоритм формирования терминологических формул и построения семантического графа тенденций научнотехнического развития.

§3.2. Структура информационных банков данных по научнотехническим публикациям.

Ф §3.3. Диалоговый алгоритм обработки данных в задаче выявления тенденций развития перерабатывающих отраслей АПК.

ГЛАВА4: ЭКСПЕРТНАЯ СИСТЕМА АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ПУБЛИКАЦИЙ И ВЫЯВЛЕНИЯ ТЕНДЕНЦИЙ НАУЧНО-ТЕХНИЧЕСКОГО РАЗВИТИЯ В ПЕРЕРАБАТЫВАЮ-ЩИХ ОТРАСЛЯХ АПК.

§4.1. Функциональная структура экспертной системы.

§4.2. Программное обеспечение.

§4.3. Процедура принятия решений на примерах анализа научно-технических публикаций в перерабатывающих отраслях АПК.

ВЫВОДЫ И ЗАКЛЮЧЕНИЯ.

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Галочкин, Сергей Александрович

В условиях сложившейся конъюнктуры рынка, жесткой конкуренции между отечественными производителями продуктов питания и импортерами, перед перерабатывающими отраслями агропромышленного комплекса (АПК) выдвигается ряд важнейших народнохозяйственных задач по совершенствованию технологических процессов переработки биосырья животного происхождения, повышению эффективности производственных процессов с внедрением ресурсо- и энергосберегающих технологий, обеспечению качества и безопасности биологического сырья, полуфабрикатов и готовой продукции.

Разработка и внедрение новых технологий производства биологически безопасных и высококачественных продуктов питания является одной из основных задач перерабатывающих отраслей АПК [6], для решение которой привлекается значительная часть научного потенциала отрасли.

Определяющим фактором создания современной технологии производства мясных и молочных продуктов является постоянное развитие фундаментальных и прикладных исследований по изучению природы процессов, увеличению полноты и глубины переработки биоресурсов, управлению качеством продукции [75]. Подобные исследования, а также разработка принципиально новых методов являются основой научно-технического прогресса с ростом производительности и экономической эффективности производства.

Дальнейшее развитие техники и технологий переработки биосырья животного и растительного происхождения в широкий ассортимент продуктов питания, медицинских препаратов и технических фабрикатов связан с внедрением наукоемких технологий, обеспечивающих высокое качество и безопасность выпускаемого продукта, снижение его себестоимости и затрат на производство, и вследствие этого расширение рынка сбыта и увеличение прибыли.

Решить данную стратегически важную задачу можно только путем целенаправленного инвестирования в соответствующие инновационные проекты и научно-исследовательские работы институтов и предприятий отрасли. В связи с этим важнейшим условием обеспечения эффективного научно-технического развития является обоснованный выбор приоритетов и концентрация научного потенциала, финансовых и материальных ресурсов на их реализации. Этот принцип положен в основу Доктрины развития российской науки и действующего Федерального закона «О науке и государственной научно-технической политике» [28]. Исходя из этих основополагающих документов, в России определяются приоритетные направления развития науки и техники. Правительственной комиссией по научно-технической политике было признано необходимым периодически (раз в 2-3 года) уточнять перечни приоритетных направлений развития науки и техники, каждое из которых объединяет совокупность структурообразующих технологий, определяющих научно-технический уровень промышленности.

Серьезный прогресс в формировании реального сектора экономики, ориентированного на выпуск инновационной продукции, может быть достигнут только на основе реализации крупномасштабных наукоемких проектов, нацеленных на реализацию передовых технологий [6]. Однако такие проекты требуют привлечения значительных инвестиций. В то же время серьезные инвесторы вкладывают свои ресурсы только при условии определенных гарантий их окупаемости. Это означает, что формируемые проекты должны быть ориентированы на получение конкретных практических результатов, производство высокотехнологичной, конкурентоспособной продукции и, таким образом, быть максимально привлекательными для инвесторов.

С другой стороны, выполнение этих проектов должно гарантировать крупные сдвиги в технологическом преобразовании отечественного производства, увеличение выпуска конкурентоспособной продукции российскими предприятиями на внутреннем и мировом рынке, решение острых социальных проблем, т.е. в полной мере ориентироваться на реализацию национальных приоритетов [7].

В связи с этим, важной составной частью государственной социально-экономической политики является инновационная политика, которая определяет цели инновационной стратегии и механизмы поддержки приоритетных инновационных программ и проектов [19,29]. Главными и наиболее острыми проблемами являются проблемы повышения эффективности использования научных разработок и внедрения результатов фундаментальных и прикладных исследований в производство.

В настоящее время в мясной и молочной промышленности наблюдается снижение инновационной активности под влиянием низкой платежеспособности как со стороны государства, так и со стороны негосударственного сектора экономики. В этих условиях предприятия и организации в первую очередь сокращают объемы производства наукоемкой продукции в пользу более дешевой и упрощенной технологии, не всегда обеспечивающей должный уровень качества [6].

Инвестиционные проекты предприятий и организаций получают финансирование в основном через систему целевых программ, создаваемых при поддержке государственных структур и распределяющих инвестиционные кредиты на льготных условиях в важные для государства проекты [7,61,75]. Активная роль государства в финансировании НИР неизбежна, так как степень развития и глубина проникновения научных идей и разработок в производство становится решающим фактором конкурентоспособности страны на мировом рынке. Государственная поддержка НИР, особенно в сфере фундаментальных исследований, а также при распространении научно-технических идей, является важнейшей финансовой составляющей инновационного процесса.

Одна из основных форм передачи государственных средств на научные исследования в тех случаях, когда они выполняются частными фирмами, институтами и лабораториями, - заключение контрактов. Финансовые ресурсы правительства представляются, как правило, наиболее перспективным организациям, могущим эффективно распорядиться кредитными ресурсами. С целью выбора кредитуемой организации проводится конкурс целевых программ фирм, подавших заявки на государственное финансирование [6,28].

Конкурсная основа создает конкуренцию за получение финансовых средств, заставляет фирмы и институты разрабатывать наиболее экономичные и эффективные проекты. Для систем государственной поддержки инновационного процесса последних лет характерно распространение программы целевого финансирования, когда финансовые ресурсы сосредотачиваются на приоритетных направлениях, наиболее значимых для экономического развития страны в целом. С этой целью используются средства специальных правительственных организаций, которые идут для финансирования нововведений, по большей части фундаментального характера, не дающих быстрой прибыли [75].

Повышение эффективности использования ограниченных ресурсов при проведении научно-исследовательских работ, финансируемых из средств государственного бюджета, является одной из важных стратегических целей управления наукой. Для достижения данной цели при распределении финансирования требуется принимать решения основанные на [28]:

• экспертном прогнозе развития науки на ближайшую перспективу;

• экономических целях;

• достигнутом мировом уровне научных исследований;

• предлагаемых к разработке научных темах;

• актуальных задачах и проблемах.

На этапе выбора приоритетных направлений развития, отбора инновационных проектов и распределения финансирования одной из главных задача является выявление складывающихся тенденций развития науки и техники в различных областях знаний, решение которой, в настоящее время, достигается привлечением большого количества специалистов-экспертов для анализа имеющейся информации и принятия решений на основе накопленного опыта и знаний в конкретной области.

При этом лицам, принимающим решения на разных уровнях управления необходима компьютерная поддержка в определении объективно складывающихся тенденций развития науки, основанная на анализе больших потоков научно-технической информации с последующим выявлением правильности вложения средств, рациональности политических, социальных или экономических мероприятий.

В связи с этим задача создания информационной технологии, быстро оценивающей большие объемы данных по научно-техническим публикациям и позволяющей выявить необходимые знания для обоснованного принятия решения является социально значимой и актуальной.

Цель диссертационной работы заключалась в моделировании и алгоритмизации процессов анализа научно-технической информации с накоплением формализованных знаний и создании знание-ориентированной компьютерной технологии, выявляющей складывающиеся тенденции развития науки и техники в выбранной области знаний.

Для достижения поставленной цели необходимо решение следующих задач:

• анализ существующих систем и методов обработки научно-технической информации с формализацией целей, задач, условий и принципов отбора инновационных проектов в перерабатывающих отраслях АПК;

• формализация информационных характеристик, параметров и структуры реляционной базы данных по научно-техническим публикациям;

• разработка математической модели идентификации научного направления и тенденции развития на множестве ключевых слов и семантических связей;

• разработка метода и алгоритма выявления семантически связанных ключевых слов в массиве научно-технических публикаций с формированием терминологической формулы научного направления;

• разработка диалогового алгоритма и программного комплекса идентификации тенденций научных исследований и технических проектов в перерабатывающих отраслях АПК в экспертной системе поддержки принятия решений.

При выполнении диссертационного исследования получены следующие научные результаты:

1. Разработана математическая модель и алгоритм анализа потоков научно-технической информации, обеспечивающие формализацию знаний с помощью ключевых слов и терминологических формул.

2. Разработан алгоритм ассоциативного поиска семантически связанных ключевых слов в массивах текстовой научно-технической информации с формированием терминологических формул.

3. Предложен критерий оценки информативности терминологических формул.

4. Разработана информационная технология выявления тенденций развития научных исследований и технических проектов в предметной области знаний.

Практическая значимость работы.

1. На основе разработанных моделей и алгоритмов создан программный комплекс «ЯЕУЕАЬТЕМ», реализующий предложенные методы анализа текстовой информации с формированием множества семантически связанных ключевых слов и терминологических формул.

2. Разработано программное обеспечение и демонстрационная версия экспертной системы определения тенденций развития в перерабатывающих отраслях АПК, информационно- и программно-совместимые с экспертной системой РогеСаБ1ег.

3. Разработана структура и программный аппарат поддержки реляционной базы данных по регистрационным и информационным картам для накопления научно-технической информации и последующего использования в ОНТИ МГУПБ.

Структура диссертационной работы включает четыре главы и приложения:

Первая глава диссертации посвящена описанию и систематизации существующих систем и методов накопления и обработки научно-технической информации с постановкой задачи создания информационной технологии анализа публикаций с целью выявления складывающихся тенденций развития науки и техники в перерабатывающих отраслях АПК.

Во второй главе рассматриваются этапы математического моделирования процессов обработки научно-технической информации, интеллектуального анализа данных и формализованного представления результатов исследования.

В третьей главе приводится алгоритм формирования терминологических наборов семантически связанных ключевых слов (терминологических формул), изложена концепция проектирования баз данных по научно-техническим публикациям, приведена структура базы данных Р8ТА в качестве объекта выявления тенденций научно-технического развития, а также алгоритм нормализации исходных данных с целью их приведения к бинарному виду.

В четвертой главе дается описание экспертной системы анализа научно-технических публикаций и выявления тенденций развития науки и техники в перерабатывающих отраслях АПК, а также описание и результаты апробации пакета программ на реальных примерах в процессе принятия решения в диалоговом режиме.

В приложениях представлены: фрагмент используемой базы данных по научно-техническим публикациям, листинги всех модулей программного комплекса, руководство по эксплуатации разработанного пакета программ.

Предложенная информационная технология позволяет проводить оценку состояния и перспектив развития научных исследований, а также в значительной степени облегчает для специалиста-эксперта процедуру выбора приоритетных направлений развития науки и техники в перерабатывающих отраслях АПК.

Работа выполнялась по программе Миннауки Российской Федерации на 1998-2001г.г. в рамках госбюджетной тематики «Разработать компьютерные технологии определения тенденций развития производства безопасных пищевых продуктов» (коды по Государственному рубрикатору научно-технической информации - 50.53.19, 50.41.25)

Основное содержание диссертации представлено на следующих конференциях:

1У-ой международной научно-технической конференции «Пища. Экология. Человек.» - Москва, 2001г.;

П-ой Всероссийской научно-технической конференции. — Воронеж, 2002г.; а также в Вестнике Международной Академии Системных Исследований. «Информатика, Экология, Экономика». Том 5. Часть IV, М., 2001г. и отчете о научно-исследовательской работе на тему «Разработать компьютерные технологии производства безопасных пищевых продуктов» № госрегистрации 01990010643.

Заключение диссертация на тему "Моделирование и алгоритмизация процессов анализа научно-технической информации с целью выявления тенденций развития в перерабатывающих отраслях АПК"

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ.

В результате проделанной работы можно сделать следующие выводы:

1. Проведен анализ существующих систем и методов обработки научно-технической информации с формализацией условий и принципов отбора инновационных проектов и программ в перерабатывающих отраслях АПК.

2. Предложены информационные характеристики и формализованная модель описания научного направления в виде наборов ключевых слов (терминологических формул) и ветвей семантического графа.

3. Разработана математическая модель идентификации научного направления и тенденций развития по ключевым словам публикаций с использованием ассоциативных правил подбора терминов в набор и оценкой уменьшения степени неопределенности на очередном шаге идентификации.

4. Разработан алгоритм выявления ассоциативных связей и семантически связанных ключевых слов с формированием терминологической формулы научного направления.

5. Создана структура базы данных по реферативным публикациям и НИОКР в перерабатывающих отраслях АПК, обеспечивающая выполнение идентификации научных направлений в виде семантического графа ключевых слов.

6. Разработано программное обеспечение и демонстрационная версия компьютерной системы анализа научно-технической информации и идентификации направлений и тенденций развития для перерабатывающих отраслей АПК. f

Библиография Галочкин, Сергей Александрович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Андреев A.M., Березкин Д.В., Брик A.B. Лингвистический процессор для ^ информационно-поисковой системы // Компьютерная хроника, 1998. №11 —стр. 79-100.

2. Антонов A.B. Формы фиксации научно-технических знаний (Психологический анализ). Рига: Авотс, 1981.

3. Белов В.В. и др. Интеллектуальная собственность. Законодательство и практика его применения. М.: Юрист, 1997. 288 с.

4. Бешелев С.Д., Гурвич Ф.Г. Экспертные оценки в принятии плановых решений. —М.: Экономика, 1996.

5. Бирман З.Г. Сравнительный анализ методов прогнозирования: научно-техническая информация. — М.: ВИНИТИ, 1986, сер. 2, №1.

6. Богатырев А.Н., Масленникова O.A., Панфилов В.А. и др. Приоритеты развития науки и научного обеспечения в пищевых и перерабатывающих отраслях АПК., (часть II) — М.: Издательский комплекс МГАПП, 1995.

7. Богатырев А.Н. АПК России: приоритеты развития инновационных процессов в условиях рыночной экономики. — М.: Колос, 1994.

8. Большаков О.В. Количественная оценка темпа научно-технического прогресса. // Мясная индустрия СССР. 1987. N 4. с. 16-19.

9. Бородин. A.B. Автореферат диссертации на соискание ученой степени д.т.н. Научно-практические основы построения знание-ориентированных систем поддержки принятия решений для перерабатывающих отраслей АПК. М.: 2001.

10. Бражников A.M. Элементы научно-технического прогнозирования /конспект лекций). М.: МТИММП, 1992.- 11311. Браун Д., Пейкин С., Поливка Р. АРЬ время пришло. - М.: Министерство науки и технической политики, АО «РЭДСтарс», 1995.

11. Бриллюен Л. Наука и теория информации. М.: Физматгиз, 1960. с.19-31, 39-47.

12. Бромберг Г.В. Основы патентного дела. М.: ИНИЦ Роспатента, 2000. 172 с.

13. Бромберг Г.В., Розов Б.С. Интеллектуальная собственность: действительность и перспективы переходного периода. М.: ИНИ Роспатента, 2000. 208 с.

14. Венда В.Ф. Инженерная психология и синтез систем отображения информации. М.: Машиностроение, 1982.

15. Гаврилов Э.П. Комментарий закона об авторском праве и смежных правах. М.: Фонд "Правовая культура", 1996. 250 с.

16. Галочкин С.А. Технология определения тенденций развития производства безопасных пищевых продуктов. // Доклады четвертой международной научно-технической конференции «Пища. Экология. Человек.» М., 2001.

17. Гмурман В.Е. Теория вероятностей и математическая статистика. Изд. 6-е. — М.: Высшая школа., 1997г.

18. Горбушин Н.Г. Искусственные интеллектуальные среды в решении экономических проблем фундаментальных исследований // Трудымеждународного) конгресса «Искусственный интеллект в XXI веке» М.: ФМ, 2001. Т.2. с.737-745.

19. Дягтерев. Ю.И. Системный анализ и исследование операций. — М.: Высшая школа, 1996, 335с.

20. Диго С.М. Проектирование и использование баз данных. М.: Финансы и статистика, 1995г. с. 18-25.

21. Еременко В.И. Комментарий к законодательству об охране интеллектуальной собственности. М.: Фонд "Правовая культура", 1997. 240с.

22. Ивашкин Ю.А. Вычислительная техника в инженерных расчетах. М.: Агропромиздат, 1989г.

23. Ивашкин Ю.А. Структурно-параметрическое моделирование интеллектуальных агентов и мультиагентных систем, Труды международной конференции " Параллельные вычисления и задачи управления" ИПУ РАН, -М., 2001г.

24. Кара-Мурза С.Г. Проблемы управления наукой на новом этапе реформ. // Проблемы управления. №1, 2003, с.53-61.

25. Краснов А.Е., Красуля О.Н., Большаков О.В., Шленская Т.В. Информационные технологии пищевых производств в условиях неопределенности (системный анализ, управление и прогнозирование с элементами компьютерного моделирования). — М.: ВНИИМП, 2001.

26. Кусов И.Ф., Фролов Ю.Н. Взаимодействие объектов различных уровней в иерархических организационных системах//Там же. С. 105.

27. Лапко A.B., Ченцов C.B. Непараметрические системы обработки информации: Учебное пособие. М.: Наука, 2000. -350с.

28. Лисичкин В.А. Отраслевое научно-техническое прогнозирование. — М.: Экономика, 1991.

29. Ловас Л., Пламмер М. Прикладные задачи теории графов. Теория паросочетаний в математике, физике, химии. М.: Мир, 1998.

30. Макеев Б.А. Информационная разведка в сумме технологий. М.: 2000.

31. Макеев Б.А. и др. Экспертная система квазиологического анализа документальных информационных потоков в области применения теории и практики искусственного интеллекта в атомной науке и технике " ПАРАДИГМА". АРиППС, 1992., Отчет по НИР.

32. Макеев Б.А., Калинин И.Ф., Зуева A.B., Пахомов А.Л. Анализ зарубежных источников информации для формирования баз данных экспертной системы. Аналитический обзор. АРиППС, 1992., Отчет по НИР.

33. Макеев Б.А., Зуева A.B., Большаков О.В., Красуля О.Н. Методы графического анализа документального информационного потока и их применение в АПК. Пищевая промышленность, 1995, №3

34. Макеев Б.А. и др. Исследование методов создания и применения экспертных систем в НИР и ОКР по отдельным направлениям атомной науки и техники, 1990г., АРиППС ВНИГИК, Отчет по НИР.

35. Марков Ю.Г., Паршин B.C., Красов Ю.С., Козлов С.И. Подсистема перспективного развития отрасли. М.: Статистика, 1975г.

36. Мешалкин В.П. Экспертные системы в химической технологии. М.: Химия, 1995, 368с.

37. Пащенко Ф.Ф. Технопарковые структуры и инновационное развитие. // Проблемы управления. №1, 2003, с.41-52.

38. Перельман А.Е. Построение моделей автоматизированных систем оперативного управления производством. М.: Статистика, 1973г.

39. Петров A.B. Информационные технологии в управлении социально-экономическим развитием // доклад к заседанию научно-практического семинара «Аналитика в государственных учреждениях» от 27.11.1997г.

40. Попов A.A. Программирование в среде СУБД FoxPro2.0. -М.: Издательство Март, 1996г.

41. Прангишвили И.В. Системный подход и общественные закономерности. — М.: СИНТЕГ, 2000, 528с.

42. Прангишвили И.В., Пащенко Ф.Ф., Бусыгин Б.П. Системные законы и закономерности в электродинамике, природе и обществе. М.: Наука, 2001, 525с.

43. Прохоров Ю.В., Розанов Ю.А. Теория вероятностей. М., 1987

44. Растяпин В. Вузы и охрана интеллектуальной собственности // Интеллектуальная собственность. 1995. №3-4. С. 65-68.

45. Рахманова И.О. Редактор сценариев групповой экспертной оценки качества организационно-технических решений. // Труды 6-й Санкт-Петербургскоймеждународной конференции "Региональная информатика", Санкт-Петербург, 1998.

46. Рузский Ю.З. Вопросы теории информатизационной оптимизации автоматических систем. // Автоматическое управление и вычислительная техника. Вып. II. Информационные системы. Под ред. В.В. Солодовникова. М.: Машиностроение, 1975, с.31-95.

47. Саати Т. Принятие решений. Метод анализа иерархий. М.: Радио и связь, 1993.

48. Сван Т. ЭЕЬРН14.0. Библия разработчика, (перевод с англ.) -К.;М.;СПб.: Диалектика, 1998г.

49. Семенов Ю.А. Современные поисковые системы (ГНЦ ИТЭФ) — М.: 2002.

50. Стерлигов Б.И. Организация и планирование производства и управление на предприятиях мясной и молочной промышленности. —М.: Легкая и пищевая промышленность, 1981г.

51. Тейменсон И.Е. Автореферат диссертации на соискание ученой степени к.т.н. Информационная технология стратегии инвестирования в переработку отходов предприятий минерально-сырьевого комплекса. — М.: 2001.

52. Тельнов Ю.Ф. Интеллектуальные информационные системы в экономике. Учебное пособие. Серия «Информатизация России на пороге XXI века». — М.: СИНТЕГ, 1998,216 с.

53. Трахтенгерц Э.А. Компьютерная поддержка принятия решений. М.: СИНТЕГ, 1998, 360с.

54. Федунец Н.И., Ашихмин А.А., Тейменсон И.Е. Аспекты управления инвестиционными проектами по переработке отходов предприятий черной и цветной металлургии. // Горный информационно-аналитический бюллетень. М.: МГГУ. - 1999. -№4.

55. Чабровский В.А. Прогнозирование развития науки и техники М.: Экономика, 1983.- 11863. Шамбадаль П. Развитие и приложения понятия энтропии. М.: Наука, 1967 — 290с.

56. Шахиди А. Введение в анализ ассоциативных правил. BaseGroup Labs. 2002.

57. Шеннон К.Э. Работы по теории информации и кибернетике. М.: Ил., 1963 -829с.

58. Швецов А.Н., Яковлев С.А. Распределенные интеллектуальные информационные системы. СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2003. -318с.

59. Щавелев JI.B., Способы аналитической обработки данных для поддержки принятия решений. СУБД. -1998.-№4-5.

60. Эванс Дж.Р. Маркетинг, (сокр. пер. с англ.) / Авт. предисл. и науч. ред. Горячев A.A. — М.: Экономика, 1993.

61. Эйрес Р. Научно-техническое прогнозирование и долгосрочное планирование. М.: Издательство «Мир», 1971.

62. Янг Э. Прогнозирование научно-технического прогресса, (перевод с англ.) -М.: Прогресс, 1974.

63. Инновационная политика развития капиталистических стран. Сборник трудов ВНИИТСИ, вып. 3, М.: 1990.

64. Методика комплексного анализа научно-технического уровня отраслей агропромышленного комплекса. // ВАСХНИЛ. М.: 1989.

65. Моделирование научно-технического прогресса в машиностроении. -Ленинград: Машиностроение ленинградское отделение, 1987.

66. Надежность и техническая диагностика оборудования перерабатывающих отраслей АПК: Сборник научных работ. 3-е изд./ Под ред. Чижиковой Т.В. / М.:2000.

67. Основы управления инновациями в пищевом подкомплексе АПК (наука, технология, экономика) / Под ред. Тужилкина В.И. — М.: Издательский комплекс МГУПП, 1998.- 11976. Теория вероятностей. КРУГОСВЕТ. Энциклопедия 2001.

68. Adomavicius G., Tuzhilin A. "Expert-Driven Validation of Rule-Based User Models in Personalisation Applications", J. Data Mining and Knowledge Discovery, Jan. 2001, pp. 194-201.

69. Ganti V., Gehrke J., Ramakrisnan R. Mining Very Large Databases. IEEE Computer, August 1999, pp. 38-45.

70. Makeev B.A, Zoueva A.V. Elaboration of Forecast system for the separate scientific branches in atomic science and technology analysis. TechnoRef, 1, US, 1994.

71. Kalinin V.F., Makeev B.A., Zoueva A.V., Pakhomov A.L. APL as a Tool for Scientific Forecasting. The International Conference on APL. Conference Proceedings. 175 -182 pp.,1992

72. Parsaye K. A Characterization of Data Mining Technologies and Processes // The Journal of Data Warehousing. -1998.-№ 1.

73. Parsaye K. OLAP and Data Mining: Bridging the Gap // Database Programming and Design. 1997. - № 2.

74. Quinlan J.R. Generation production rules from decision trees // In Proceedings of the 10th International Joint Conference on Artificial Intelligence (IJCAI-87). -Morgan Kaufmann, 1987. p. 304-307.

75. Srikant R., Agrawal R. Mining quantitative association rules in large relation tables. In Proceeding of the ACM SIGMOD Conference on Management of Data, Montreal, Canada, June 1996.

76. Toivonen H. "Sampling Large Databases for Association Rules", Proc. 22nd Int'l Conf. Very Large Databases, Morgan Kaufmann, San Francisco, 1996, pp. 134145.