автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.12, диссертация на тему:Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний

кандидата технических наук
Коробкин, Дмитрий Михайлович
город
Волгоград
год
2006
специальность ВАК РФ
05.13.12
Диссертация по информатике, вычислительной технике и управлению на тему «Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний»

Автореферат диссертации по теме "Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний"

Па правах рукописи

КОРОБКИП ДМИТРИЙ МИХАЙЛОВИЧ

ВЫДЕЛЕНИЕ СТРУКТУРИРОВАННОЙ ПРЕДМЕТНОЙ ИНФОРМАЦИИ ИЗ ТЕКС ТОВ ПЕРВИЧНЫХ ИСТОЧНИКОВ НА ПРИМЕРЕ ФИЗИЧЕСКИХ ЗНАНИЙ

Специальность 05.13.12 - Системы автоматизации проектирования

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Волгоград - 2006

Работа выполнена на кафедре «Системы автоматизированного проектирования и поискового конструирования» Волгоградского государственного технического университета.

Научный руководитель

доктор технических наук, профессор Фоменков Сергей Алексеевич.

Официальные оппоненты:

доктор технических наук, профессор Андрейчиков Александр Валентинович, кандидат технических наук, доцент Сальникова Наталья Анатольевна»

Ведущая организация

Астраханский государственный университет.

Защита состоится 26 декабря 2006 г. в 12 часов на заседании диссертационного совета Д 212.028.04 при Волгоградском государственном техническом университете по адресу: 400131, г. Волгоград, проспект Ленина, 28, ВолгГТУ.

С диссертацией можно ознакомиться в библиотеке Волго1радского государственного технического университета.

Автореферат разослан 24 ноября 2006 г.

Ученый секретарь диссертационного совета

т

Водопьянов В.И.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуатьность. В связи с ростом количества электронных источников все более увеличивается потребность в поиске и выделении интересующей пользователя информации. Опыт использования существующих систем, применяющих универсальные модели выделения информации, свидетельствует о необходимости ограничения обрабатываемой в системе информации до конкретной предметной области (ПО), чго позволит более релевантно искать и выделять нужную информацию. В данном исследовании предметная область ограничивается структурированной физической информацией в виде физических эффектов (ФЭ), которые полезны при конструировании принципиально новых высокоэффективных технических систем, разработке новых технологий, научно-техническом прогнозировании, при обучении методам технического творчества.

Существуют различные подходы к формированию концептуальных моделей описания физических эффектов, способам формализации этих моделей и созданию автоматизированных информационных систем на их основе. Значительный вклад в развитие научных направлений, в рамках которых осуществляется структурирование физической информации, внесли Г.С. Алытиуллер, Г.Я. Буш, В.Н. Глазунов, A.M. Дворянкин, М.Ф. Зарипов, В.А. Камаев, К.В. Кумунжиев, А.И. Половинкин, II.IO. Петрова, 3. М. Шмаков, Р. Аллей, В. Бейтц, Г. Голл, Р. Коллер, II. Крумхауэр, Г. Пресс, В. Роденахср, X. Франке, К. Хикс и другие отечественные и зарубежные ученые.

Эффективность работы с системами, оперирующими структурированной физической информацией в форме физических эффектов, зависит не только от методов и алгоритмов информационного поиска, синтеза и анализа структур физического принципа действия технической системы. В неменьшей степени она зависит от качества и наполнения самого фонда ФЭ.

На данный момент вопросам поддержки процесса формирования информационного обеспечения базы данных ФЭ не уделяется должного внимания ни в одном из направлений, кроме подхода, описанного в трудах А.И. Половинкина и получившего дальнейшее развитие в работах кафедры САПР и ПК ВолгГТУ. Однако и у методики модификации фонда ФЭ, созданной в рамках данного направления, существует серьезный недостаток: все операции осуществляются вручную, что приводит к большим временным и трудовым издержкам.

Таким образом, учитывая, что центральными и наиболее трудоемкими операциями методики являются поиск первичных источников и выделение из текста описаний

физических эффектов, то актуальной является необходимость разработки автоматизированных средств поиска и выделения структурированной физической информации в виде физических эффектов из текстов первичных источников на естественном русском языке (ЕЯ).

Целью работы является повышение эффективности процесса формирования информационного обеспечения фонда ФЭ, а также качества самого фонда за счет автоматизации наиболее трудоемких процедур.

Для достижения данной цели необходимо решить следующие задачи:

1. Проанализировать процесс формирования информационного обеспечения фонда ФЭ и осуществить постановку задачи автоматизации наиболее трудоемких процедур.

2. Построить формальные модели и алгоритмы выбранных процедур.

3. На основе предложенных моделей и алгоритмов разработать обобщенную методику поддержки процесса формирования информационного обеспечения фонда физических эффектов.

4. Программно реализовать разработанную методику и проверить работоспособность созданного программного комплекса при решении практических задач.

Объект исследования. Различные модели описания ФЭ, тексты физического профиля в первичных источниках на ЕЯ.

Предмет исследования. Методы поиска и выделения структурированной предметной информации в виде физических эффектов из текста первичных источников в сети Интернет.

Методы исследования. В диссертации использованы методы системного анализа, компьютерного моделирования, искусственного интеллекта, компьютерной лингвистики, теории графов, теории баз данных, объектно-ориентированного проектирования систем.

Научная новизна работы состоит в следующем:

1) Построена модель представления структурированной предметной информации, позволяющая выделять из текста информацию, которую можно представить в виде трех компонентной структуры (Л,В,С), где А - входное воздействие. С — выходное воздействие, В — объект.

2) Разработана методика выделения структурированной физической информации в виде физических эффектов из текста, использующая построенную модель.* Разработан алгоритм, реализующий методику, и сформированы тезаурусы концептов и концептуальных отношений предметной области «Физический эффект».

3) Разработаны методика и алгоритм тематической фильтрации первичных источников. Методика основана на методе латентно-семантического анализа текста и отличается от известных аналогов использованием коэффициентов принадлежности тематике семантических классов термов.

4) На основе предложенных моделей и алгоритмов разработана обобщенная методика поддержки процесса формирования информационного обеспечения фонда физических эффектов, отличающаяся от известной тем. что позволяет автоматизировать ее наиболее трудоемкие процедуры и тем самым повысить качество описания отдельного ФЭ.

Достоверность и обоснованность научных положений и результатов, приведенных в диссертационной работе, обеспечиваются использованием зарекомендовавших себя методов компьютерного моделирования, искусственного интеллекта, компьютерной лингвистики, подтверждаются показателями эффективности работы созданного программного комплекса на тестовом массиве документов, а также результатами его функционирования при решении конкретных задач поддержки процесса формирования информационного обеспечения фонда ФЭ.

Практическая значимость и внедрение:

1) Разработана модель представления структурированной предметной информации, инвариантная относительно предметных областей. Благодаря данной модели, программный комплекс может быть ориентирован на другие предметные области и формализованные модели ФЭ, например, на химические знания в виде химических эффектов.

2) Разработан программный комплекс поддержки процесса формирования информационного обеспечения фонда ФЭ (ПК 11Г1ФИО БДФЭ). который позволяет существенно снизить время и трудозатраты на поиск описаний новых ФЭ и расширение описаний уже существующих. Кроме того, программный комплекс дает возможность повысить качество фонда ФЭ за счет его постоянного мониторинга, направленного на выявление недостаточно полно описанных и дублирующих ФЭ, а также улучшить наглядность просмотра фонда ФЭ с помощью его сис тематизации на основе многомерных систематизационных схем. Отдельные компоненты программного комплекса могут применяться в составе иных программных средств.

Данная работа выполнялась в рамках гранта для поддержки научно-исследовательской работы аспирантов вузов Федерального агентства по образованию (шифр: А04-3.16-505). Программный комплекс внедрен в учебный процесс АГТУ, а также зарегистрирован в отраслевом фонде алгоритмов и про1рамм ФГНУ

«Государственный координационный центр информационных технологий» Федерального агентства по образованию РФ.

Основные положения диссертации, выносимые на защиту:

1) Модель представления структурированной предметной информации.

2) Методика выделения структурированной физической информации в виде физических эффектов из текста.

3) Методика тематической фильтрации массива текстовых документов.

4) Обобщенная методика поддержки процесса формирования информационного обеспечения фонда ФЭ.

5) Программный комплекс ППФИО БДФЭ и результаты его работы.

Апробация. Основные положения диссертации докладывались и обсуждались на

научных семинарах кафедры «САПР и ПК» ВолгГ'ТУ, а также на Международных и Всероссийских научных и научно-практических конференциях: «Информационные технологии в науке, образовании, телекоммуникации и бизнесе (IT + SE)» (Гурзуф. Украина, 2004), «Системные проблемы надежности, качества информационных и электронных технологий (Инноватика)» (Сочи, 2004), «Интеллектуальные системы (AIS). Интеллектуальные САПР (CAD)» (Дивноморское, 2004), «Информационные технологии в образовании, технике и медицине» (Волгоград, 2004).

Публикации. Основные положения диссертации отражены в 12 опубликованных работах. В том числе 3 статьи напечатаны в ведущих рецензируемых научных журналах и изданиях РФ, в которых ВАК рекомендует публикацию основных результатов диссертационных работ.

Структура и содержание диссертационной работы. Диссертационная работа состоит из Введения, четырех глав, Заключения, приложений, списка литературы. Общий объем диссертации - 151 страница, включая 32 рисунка, 9 таблиц, список литературы из 102 наименований.

Автор выражает глубокую признательность научным консультантам: к.т.н.. доц. Петрухину A.B. и с.н.с Колесникову С.Г.

СОДЕРЖАНИЕ РАБОТЫ

Во Введении обоснована актуальность темы диссертации, сформулированы цели и задачи исследования, определена научная новизна, приводится перечень основных положений, выносимых на защиту, излагается краткое содержание глав диссертации.

В первой главе проводится обзор работ, связанных с использованием

структурированных физических знаний. Рассматриваются наиболее известные подходы к способам формализации моделей описания ФЭ и созданию автоматизированных информационных систем на их основе, такие, как: энерго-информационная модель цепей и метод структурных параметрических схем [Зарипов М.Ф., Петрова H.IOJ, комбинаторный метод поиска принципов действия [Глазунов В.Н.], вепольный анализ в рамках теории решения изобретательских задач [Альтшуллер Г.С.], функционально -физический и компьютерные методы поискового конструирования [Колер Р., Половинкин А.И., Дворянкин A.M., Камаев В.А.]. Анализируется существующая методика модификации фонда ФЭ, описанная в работах Фоменкова С.А.. определяются ее основные процедуры и выявляются недостатки.

Были изучены возможные способы решения проблемы поиска первичных источников описания ФЭ с помощью таких методов кластеризации, классификации и фильтрации текстовой информации, как метод Байеса, опорных векторов (SVM), латентно-семантического анализа (LSA), вероятностного латентно-семантического индексирования (PLSI), кластеризации на основе суффиксных деревьев (STC), методы иерархическо-агломеративной кластеризации (Single Link, Complete Link, Group Average), метод Scatter/Gather, k-средних (K-means), индексации концептов (CI), нейронная ссть ART, самоорганизующиеся карты Кохонеиа (SOM). Выявлены их достоинства и недостатки.

В рамках задачи выделения описаний ФЭ из текста первичных источников были проанализированы работы Браславского П.И., Ермакова А.Е., Загорулько Ю.А.. Леонтьевой H.H.. Нариньяни A.C., Поспелова Д.А., Рубашкина В.III.. Тузова В.А.. Уэно X. и др., рассмотрены системы, применяющие технологии извлечения знаний из текстов, такие, как про1раммный комплекс РАСПАС, использующий автоматическую реконструкцию содержания текстов (ConExT), RCO Fact Extractor, основанный на сетевых описаниях извлекаемых из текста фактов. Проведенный анализ показал, что существующие универсальные методы и программные системы выделения информации из текста не могут учитывать специфику исследуемой ПО «ФЭ».

Таким образом, выявлена необходимость проведения научного исследования для разработки модели, методик, алгоритмического обеспечения и реализации их в программном комплексе, осуществляющем поиск и выделение структурированной физической информации в форме физических эффектов.

Во второй главе рассматривается созданная автором обобщенная методика поддержки процесса формирования информационного обеспечения фонда ФЭ (рис. 1). Основные ее процедуры - расширение фонда ФЭ (включение описаний новых ФЭ) и

модернизация фонда ФЭ (улучшение описаний ФЭ). Эти процедуры далее будут рассматриваться совместно, т.к. их суть - анализ первичных источников, состоящий из поиска первичных источников, выделения описаний ФЭ и первичной верификации. Кроме того, в процедуре модернизации фонда ФЭ присутствует также операция анализа фонда ФЭ, которая предполагает автоматическое выявление ФЭ, требующих расширения описания в полях «Применение», «Сущность» и «Литература» выходной карты ФЭ.

Начало

Список ФЭ

Поиск первичных источников

Рекурсивный обход ссылок на источники

Первичны,) источник

Тематическая фильтрация

Источник по тематике «Физика»

Фильтрация по маске описания ФЭ

Первичный источнщ гпо тематике «ФЭ» Выделение описаний ФЭ

Предвари гельные входная и выход ная карты ФЭ

Первичная ( ррификация

Составление описаний ФЭ

Редактирование описаний ФЭ

Верификация ФЭ

Нахождение тождественных ФЭ

Верификация но полям «Вход»,

«Объект», «Выход» ФЭ

Верификация по полю

«Наименование» ФЭ

Верификация по полю

«Сущность» ФЭ

Выявление рассогласований входной и выходной карт ФЭ

Входная и выход ¿ая карты ФЭ

Ввод карт в БД ФЭ

С

Конец

3

Рис. 1. Алгоритм обобщенной методики поддержки процесса формирования информационного обеспечения фонда ФЭ

Разработанная автором методика тематической фильтрации первичных источников основывается на объединении двух методов: метода семантического анализа документов (БетЬР), базирующегося на семантическом словаре русского языка В.А.Тузова, и метода латентно-семантического анализа (ЬБА).

Метод вешЬР основан на представлении каждого слова исходного текста в виде семантической формулы, являющейся суперпозицией базовых функций над семантическими классами. Предложения исходног о текста в результате семантического анализа представляются в виде семантико-синтаксических деревьев, вершиной которых является глагол или отглагольная форма.

Согласно разработанной методике тематической фильтрации, построение фильтра по тематике «Физика» осуществляется в 2 этапа.

Вначале с помощью метода БетЬР происходит семантический анализ документов массива (совокупности полей «Сущность» выходных карт всех ФЭ из существующего фонда ФЭ). Для осуществления семантического анализа физических текстов автором работы были уточнены и значительно расширены описанные в словаре русского языка В.А.Тузова семантические классы, относящиеся к понятиям физики. Семантический словарь русского языка модифицируется таким образом, что каждому семантическому классу приписывается коэффициент его принадлежности тематике «Физика», который определяется экспертно.

Далее из совокупности семантико-синтаксических деревьев всех документов £} массива извлекаются термы t¡ и определяется частота их встречаемости в документах. Под термом понимается слово/фразеологизм в нормальной морфологической форме. Последовательно осуществляются локальное (1), глобальное взвешивание термов (2), их нормализация и вычисляются приведенные частоты встречаемости термов в документах массива. В тематический фильтр отбираются термы, приведенные частоты х:] которых больше некоторого экспертно выбранного порогового значения.

где /у — частота встречаемости /, в Е/, г, - коэффициент принадлежности семантического класса, соответствующего /„ тематике «Физика»; коэффициенты К1, К2, КЗ отражают значимость слагаемого для общей суммы, подбираются опытным путем, К1+К2+КЗ-1;

(1),

О, если нет

г,, если с поле "Наименование "]-го ФЭ

г,, при >0 О, при /0-О '

/

где N- количество документов в массиве;

(3)

На втором этапе уточняется разработанный фильтр по тематике «Физика». Для этого посредством латентно-семантического анализа уменьшается пространство термов (исключается «шум») и выявляются скрытые зависимости между термами. В качестве исходной информации LSA использует матрицу термы-на-документы. Элементы этой матрицы содержат приведенные частоты x;i встречаемости каждого терма t, в каждом документе Ej. В LSA используется сингулярное разложение матрицы термы-на-документы в произведение трех матриц A=UDVr(4), где U - матрица векторов термов, D - матрица сингулярных значений. УТ - матрица векторов документов.

Такое разложение обладает следующей особенностью: если в матрице D оставить k наибольших сингулярных значений, а в матрицах U / V1 - соответствующие этим значениям столбцы / строки, то произведение получившихся матриц Л/< будет наилучшим приближением исходной матрицы А матрицей ранга к.

Предлагаемая методика фильтрации основана на предположении, что оценка тематической близости документа и тематики «Физика» определяется близостью термов, входящих в их описания. Вычисляем оценку близости документа и тематики C(d,T) (5) как среднее арифметическое попарных оценок близости термов а (соответствующих строк матрицы Ак) из описаний документа d и тематики Т.

где <о'' - /-ый терм из документа d; o/j - j-ый терм из тематического фильтра; |Tj -количество термов в тематическом фильтре; \d\ • количество термов в документе d.

Успешно прошедшими тематическую фильтрацию считаются документы, оценка близости которых тематике C(d,T) (5) больше некоторого экспертно выбранного порогового значения. Разработанная методика применяется также при верификации по полям «Сущность» и «Наименование» выходной карты ФЭ (рис. 1).

Следующая операция предлагаемой обобщенной методики (рис. 1) - фильтрация по маске описания ФЭ. Первичные документы, которые успешно прошли предыдущий

(5),

этап тематической фильтрации, теперь фильтруются посредством поиска в тексте маски описания ФЭ. Под маской описания ФЭ понимается поддерево в семантико-синтаксическом дереве предложения. Вершиной поддерева является один из терминов («Эффект», «Явление», «Закон», «Закономерность» и др.), и при этом данная вершина -родительская для термов предложения, которые содержатся в разработанном тематическом фильтре «Физика».

Чтобы автоматизировать процедуру выделения описаний ФЭ из текстов первичных документов, определим компоненты формального описания ПО «ФЭ»:

1) онтология, включающая в себя концепты (понятия) (рис. 2) и концептуальные отношения ПО «ФЭ»;

2) предметный словарь (тезаурус), содержащий термины, с помощью которых в тексте могут представляться концепты и концептуальные отношения онтологии.

----Семантическое отношение «18-ОЕРП^ЕО-ВУ»

Рис. 2. Таксономия концептов ПО «ФЭ»

Тезаурус концептов ПО сформирован из терминов, отображающих концепты на ЕЯ, и их синонимов. Например, концепту «Твердое тело» в тезаурусе будет соответствовать не только термин «Твердое тело», но и его синоним - «Твердотельный материал».

Согласно модели ФЭ, разработанной на кафедре САПР и ПК ВолгГТУ, входные воздействия на объект ФЭ вызывают выходное воздействие на окружающую среду или на объект ФЭ. Поэтому в тексте, содержащем описание ФЭ, необходимо выделить

концептуальные отношения, описывающие некоторое «воздействие» над «объектами», выполняющими определенные роли внутри данного «воздействия».

На основе анализа массива первичных источников, соответствующего фонду ФЭ. были выделены в единый класс все концептуальные отношения ПО «ФЭ», характерные для описания ФЭ в тексте физического профиля, такие, как: влияние, воздействие, зависимость и др. Был сформирован тезаурус, содержащий около 100 терминов, посредством которых на ЕЯ представлены данные отношения. Для каждого концептуального отношения определены следующие роли (валентности): «агент» (то, что воздействует), «объект» (то, что подвергается воздействию), «место» (где осуществляется воздействие), которые сопоегавлены с элементами описания ФЭ: входом, выходом и объектом.

Для того чтобы выделять описания ФЭ, была разработана модель представления структурированной предметной информации:

л/, - <с, я, г, /\ /г*, я:, Д/> (6)

где С - множество концептуальных отношений, определенных в ПО, с, С;

Я ~ множество ролей концептуальных отношений ПО {АГЕНТ, ОБЪЕКТ, МЕСТО), Я,с:Я - список заполненных валентностей (ролей) для с,;

7. - множество наборов значений (элементов структуры (Л,В,С)) ролей

концептуальных отношений. \/с, еС Ве /?, [г}—<<е/- > г], где г ^ ВХОД (А), ВЫХОД

(В), ОБЪЕКТ (С)}, с!е/ - оператор, ставящий в соответствие роли г, концептуального отношения С/ набор элементов структуры (А,В,С) г;

У - множество семантических формул, представляющих слова русского языка при помощи суперпозиции базовых функций над семантическими классами В.Л.Тузова:

Яс - отношение на СхЯ, пара {с,г) б однозначно определяет члена концептуального отношения с, выполняющего роль г внутри данного отношения;

- отношение на ЯсхХ, пара ((с,г), г) е Я. определяет набор значений роли г, которую выполняет член концептуального отношения с;

Я/ - отношение на Схр\ пара (с,/) € Я, определяет описывающую концептуальное

отношение с семантическую формулу f.

Согласно модели Л/, (6), выполнять одну и ту же роль в концептуальном отношении могут- разные элементы описания ФЭ. Для устранения такого рода неопределенности было введено отношение семантической однозначности, базирующееся на предлагаемой модели концептуального отношения Мг (рис. 3):

Мг = < Д В, Я, Яг> (7)

где /) - множество ролей концептуального отношения; В - множество их значений (элементов описания ФЭ); Я - отношение на йхВ; Я* - отношение семантической однозначности, обладающее следующими свойствами:

Отношение Я* определяет, что семантически несовместимыми являются одинаковые значения, относящиеся к разным ролям концептуального отношения.

Рис. 3. Графическое представление модели Мг

На основании предложенной модели Л/, (б) разработана методика выделения структурированной физической информации в виде физических эффектов из текста первичных источников (рис.4), состоящая из следующих последовательных процедур:

1) Семантический анализ, который представляет текст первичного источника в виде семантико-синтаксических деревьев.

2) Лингво-семантический анализ, начальная операция которого - поиск в тексте первичного источника терминов из тезауруса концептуальных отношений ПО «ФЭ», являющихся вершинами семантико-синтаксических деревьев предложений текста. Из семантико-синтаксического дерева предложения выявляются значимые для данного концептуального отношения заполненные валентности (роли) и присоединяемые посредством данных валентностей термы предложения. При этом термы должны содержаться в тезаурусе концептов ПО «ФЭ». Термам согласно модели Л/5 (6) приписываются соответствующие наборы значений (элементы описаний ФЭ) {г/, ...,г„ }.

Следующая операция лингво-семантического анализа - построение семантической сети описания ФЭ в предложении (рис. 5) с использованием отношения семантической однозначности Я* (8) и идентификацией концепта ПО, соответствующего терму из текста, на предмет принадлежности классам концептов ПО: «Вход ФЭ», «Выход ФЭ» или «Объект ФЭ» (рис. 2).

с

Текст пепвичного источника

1 .Семантический анализ

Семантико-синтаксические лепевья

2. Лингво-семантический анализ

Нахождение концептуальных отношений ПО в деревьях

Выявление валентностей и связанных с ними термов

Построение семантических сетей описаний ФЭ в предложениях текста

Семантические сети опифний ФЭ в предложениях

З.Составление предварительных входной и выходной карт ФЭ

^ конец 3

Рис. 4. Алгоритм методики выделения структурированной физической информации в

виде ФЭ из текста

Под вершиной семантической сети понимается: О - (Т,г), (9)

где Т - терм, описывающий члена концептуального отношения ПО, выполняющего определенную роль; г - набор значений соответствующей роли из (6) {2/,...,г„}.

)2 Роль: ОБЪЕКТ

Роль: АГЕНТ

01=(Т1,г1)

Т1={...}

О!

с2 = Изменение

02=(Т2,г2)

Т2={сила электрического тока} г2={вход ФЭ, выход ФЭ}

СЗ'

Роль: МЕСТО 03=(ТЗ,гЗ)

Т3={полупроводник},гЗ^ объект ФЭ} Рис. 5. Семантическая сеть описания ФЭ в предложении «Изменение силы

электрического тока в полупроводнике» Потому как основной задачей выделения описаний ФЭ из текста является не столько извлечение концептов ПО, сколько определение того, характеристиками какого

именно элемента описания ФЭ (входа, выхода или объекта) они являются, то преобразуем семантическую сеть, состоящую из вершин О (9) и ребер с, представляющих собой концептуальные отношения ПО, в вид, представленный на рис. 6:

Преобразованную семантическую сеть описания ФЭ в тексте можно представить

как:

Л/„ = <А„ Вп, С„, Я', /?" > (10),

где В„ - множество вершин I рода - элементов описания ФЭ (значения г из О (9)); В„сВ - множество вершин II рода - концептов ПО, соответствующих термам Т из О (9); С„ - множество выявленных в тексте концептуальных отношений (6); - структурные связи вершин 1 рода с понятием «ФЭ», /?' - семантическое отношение «18-А» концептов ПО на множестве концептов ПО В (рис. 2), Л" • семантическое отношение «1$-ОЕПЫ£В-ВУ» концептов ПО на множестве В.

Отношение Я' обладает следующим свойством:

УЬа>Ьи^В[Ь,кК'Ьи-^Ь1_кЯ1Ь,к] (11)

Т.е., для любой пары концептов ПО, связанных концептуальным отношением с еС„ в преобразованной семантической сети описания ФЭ в тексте (10) с одним и тем же элементом описания ФЭ (входом, выходом или объектом) и находящихся в семантическом отношении К, возможна свертка в один концепт, находящийся на более низком 57308116 таксономии концептов ПО (рис. 2).

Отношение К" обладает следующим свойством:

д, а^л-л; ->б;лиг»;], (12)

где Ь/еВн, ВнсгВ, Вн - концепты ПО, являющиеся экземплярами концептуального класса «Наименование воздействия» (рис. 2).

Т.е., для любой пары концептов ПО, связанных концептуальным отношением с еС„ в преобразованной семантической сети описания ФЭ в тексте (10) с одним и тем же элементом описания ФЭ (входом, выходом или объектом) и находящихся в

семантическом отношении Л" с концептом ПО Ь/ (рис. 2), возможна свертка в концепт Ь».

3) Следующая процедура методики (рис. 4) - составление предварительной входной карты ФЭ, используя свертку концептов. Текст документа разбивается на последовательность тематически однородных фрагментов. В качестве основы разбиения используются авторские параграфы. Семантические сети описания ФЭ в предложениях параграфа текста сводятся в одну преобразованную семантическую сеть (10).

Описания ФЭ составляются по следующему правилу: если для с1„ 1е{1,2} (10) количество концептов ПО после свертки М,"=\В,\>1> где В, = {Ъ,,1, В,аВ„, с/,<г£>„, то

можно сделать вывод о различии в наименованиях входа (/=./) или выхода 0=2). Две тройки (вход! (АО, объект] (В О, выход! (СО) и (А;, Вг, Сг) считаются разными, если они отличаются наименованиями (количеством) входных воздействий Аь Аг и/или наименованиями выходных воздействий Сь С?.

Например, имеется следующий фрагмент текста «Увеличение температуры кристаллического диэлектрика изменяет его электрическое сопротивление. Также наблюдается возрастание магнитной проницаемости твердотельного материала вблизи точки Кюри» (рис. 7). В данном случае будут составлены описания 2 ФЭ, у которых входным воздействием будет являться температура, объектом - кристаллическое твердое тело, диэлектрик, а выходные воздействия будут различаться: 1) электрическое сопротивление, 2) магнитная проницаемость.

Температура Кристаллическое твердое тело

Рис. 7. Иллюстрация процедуры составления предварительного описания ФЭ

Предварительная выходная карта ФЭ формируется из предложений текста, на базе которых были составлены семантические сети.

Следующая операция обобщенной методики (рис. 1) - первичная верификация, которая так же, как и верификация по полям «Вход», «Объект», «Выход» ФЭ, осуществляется посредством выполнения итерационных шагов поиска подобных ФЭ с последовательным упрощением запроса: 1) сравнение полных описаний А, В, С (вычисление подобия I (наивысшего) ранга); 2) сравнение полных описаний 5, наименований воздействий и качественных характеристик А и С (подобие 11 ранга); 3) сравнение полных описаний В, наименований воздействий А и С (подобие 111 ранга); 4) сравнение полных описаний А, С (подобие IV ранга); 5) сравнение наименований воздействий и качественных характеристик А и С (подобие V ранга); 6) сравнение наименований воздействий А и С (подобие VIранга).

В третьей главе описан созданный программный комплекс поддержки процесса формирования информационного обеспечения БД ФЭ (ПК ПГ1ФИО БДФЭ) (рис. 8), реализующий разработанные модели и алгоритмы.

1 - предварительная входная и выходная карта ФЭ

2 - ссылки на источники; термины концептов и концептуальных отношений ПО «ФЭ», тезаурусы фонда ФЭ

3 - предварительная входная карта ФЭ; входные и выходные карты фонда ФЭ; тезаурусы фонда ФЭ;

4 -- «новизна» ФЭ; рассогласованные карты ФЭ: карты тождественных ФЭ

5 - систематизированный фонд ФЭ; созданные систематизационные оси

6 - входные карты фонда ФЭ; систематизационные оси; тезаурусы фонда ФЭ;

7 - новые систематизационные оси

8 - выделенные ссылки на источники

9 — предварительные входные и выходные карты ФЭ; рассогласованные карты или карты тождественных ФЭ

10 - отредактированные входные и выходные карты новых и расширенных ФЭ

БД концептов ПО «ФЭ»

БД концептуальных отношений ПО «ФЭ»

Н 1

>

Подсистема анализа гп

первичных источников

4 3

Подсистема верификации БД ФЭ

ы

Подсистема систематизации

БД ФЭ

«ш* 9

I

БД тезаурусов фонда ФЭ

Ж

БД ссылок на источники

БДФЭ

БД систематизацион-ных осей

Рис. 8. Архитектура ПК ППФИО БДФЭ

Подсистема анализа первичных источников функционирует в режимах расширения, модернизации, а также анализа фонда ФЭ. Подсистема верификации БД ФЭ работает в режимах верификации фонда и отдельного ФЭ. Подсистема систематизации БД

ФЭ функционирует в режиме систематизации фонда ФЭ. Режимы работы и функциональная схема ПК ППФИО БДФЭ приведены на рис. 9.

Рис.9. Режимы работы и функциональная схема ПК ППФИОБДФЭ

Рис. 10. Архитектура подсистемы анализа первичных источников

Подсистема анализа первичных источников, архитектура которой приведена на рис. 1О, - основная в разработанном программном комплексе.

Стратегия поиска документов в сети Интернет, содержащих описания ФЭ, основывается на двух подходах:

1) Работа с начальным массивом ссылок на ресурсы с контентом в области физики (например, сайты журналов: «Успехи физических наук», «Журнал технической физики», «Физика твердого тела» и др.), заданных администратором системы.

2) Использование индексов существующих крупных поисковых систем.

Подсистема анализа первичных источников реализована в виде системы с

иерархической организацией взаимодействия поисковых агентов.

1. На верхнем уровне находятся начальные ссылки. Каждому /-ому Url верхнего уровня приписывается вероятность P(i) (на этапе инициализации равная 1) того, что ссылка из соответствующего документа указывает на документ, релевантный физической тематике.

2. В дереве URL выбирается узел / , для которого P(i) максимально и который не был еще рассмотрен. Загружается документ по выбранной ссылке, затем -фильтруется.

3. Если документ прошел тематическую фильтрацию, то релевантность исходящих из него ссылок принимается равной 1. Формируется новые узлы (но количеству ссылок из данного) с релевантностью 1. Если не прошел, то релевантность исходящих ссылок равна 0. Для ссылок, еще не рассмотренных и имеющих с проверенной общий документ-хранилище, происходит перерасчет релевантности:

1 + г/(Рг(0) 1 + ?7(Pr(0) + nrl(?r(i))' где Pr(í') - документ-хранилище для данной ссылки/, г/(Рг(/)> - количество релевантных ссылок из Рг(/), п/7(Рг(/)) - количество нерелевантных ссылок из Pr(z')

Рис. 11. Алгоритм обхода дерева выделенных ссылок

Мета-агент работает с поисковым индексом, составленным на основе информации, передаваемой поисковым агентом. Мета-агент в режиме расширения фонда ФЭ передает поисковому агенту начальные ссылки, а в режиме модернизации - запросы, составленные на основе описания модифицируемого ФЭ. Мета-агенг осуществляет выделение описания ФЭ из текста первичного источника.

Поисковый агент загружает документы, используя ссылки на ресурсы, переданные мета-агентом или сервисами Google Web API и Лндекс-XML в ответ на запрос. Он осуществляет парсинг html-документов, тематическую фильтрацию, фильтрацию по маске описания ФЭ, а также рекурсивный обход ссылок (Url), основанный на разработанной

стратегии обхода дерева выделенных внутренних и внешних ссылок (рис. 11). Поисковый агент также работает с форматами txt, doc, rtf, pdf.

Проектирование системы велось в соответствии с международным стандартом разработки программного обеспечения Rational Unified Process с использованием унифицированного языка моделирования UML.

Программный комплекс реализован на языке MS Visual С# 2005 с использованием архитектуры клиент-сервер и может функционировать в операционных системах MS Windows 98/2000/ХР. Поисковый агент реализован в виде web-сервиса. Для хранения поискового индекса используется СУБД MS SQL Server 2000. Программному комплексу для функционирования в режимах расширения и модернизации фонда ФЭ необходим доступ к сети Интернет.

В четвертой главе приведены результаты функционирования созданного программного комплекса при решении конкретных задач расширения и модификации фонда ФЭ, а также определены оценки эффективности его работы на тестовом массиве документов.

В режиме расширения фонда ФЭ было найдено свыше 50 описаний новых ФЭ. Отметим, что большинство найденных ФЭ (например, гигантский магнитоэлектрический эффект, гигантский эффект Фарадея, акустический эффект Фарадся, акустическое двулучепреломление, магнитоакустический резонанс {в ферритах}, гигантское магпитосопротивление, гигантские осцилляции магнетосопротивления, эффект Кларка-Лагервола, электроклинный эффект в хиральных смектических жидких кристаллах, бистабильное электрооптическое переключение в двучастотных немашческих жидких кристаллах, эффект деформирования геликоидальной спирали в хиральных смектических жидких кристаллах, явление вибрационной инжекщш газа в жидкость, многоэлементный масштабный эффект физических характеристик, явление образования вращающихся акустических зон на поверхностях твердых пластин и др.) представляют особый интерес, поскольку описаны в статьях журналов физического профиля за последние 5 лет.

В результате работы ПК ППФИО БДФЭ в режиме модернизации фонда ФЭ были расширены описания свыше 40 ФЭ (например, зависимость магнитной проницаемости ферромагнетика от температуры вблизи температуры Кюри (эффект Гопкинсона), эффект Марангони-Гиббса, баллоэлектрический эффект (эффект Хенарда), магнитопластический эффект, светоиндуцированная намагниченность, осциллирующая зависимость магнитной восприимчивости вещества от внешнего магнитного поля, триболюминесценция, явление конвекции газа под действием температурных напряжений, уменьшение температуры смеси твердого и жидкого гелия при адиабатическом сжатии (Эффект Померанчука) и

др.). Использование ПК ППФИО БДФЭ позволяет заполнять пустые поля «Практическое применение», существенно расширять поля «Сущность» и «Литература» в выходных картах ФЭ.

Поскольку в индексе разработанной поисковой системы сохраняется ссылка на ресурс, содержащий описание ФЭ, то был составлен фонд первичных источников на основе новейших публикаций в журналах физического профиля, который расширяет информацию выходной карты выделенных ФЭ.

Эффективность ПК ППФИО БДФЭ проверялась на специально созданном т естовом массиве документов, состоящем из 60 документов с нефизичсскнм контентом, 17 документов с физическим контентом, но не содержащих описания ФЭ и 74 документов, содержащих описания ФЭ.

Таким образом, количество релевантных (с точки зрения фильтрации по тематике «Физика», а затем - на наличие в тексте описаний ФЭ) документов в тестовом массиве -Drel = 74, нерелевантных документов - Dnrel = 77.

Использование ПК ППФИО БДФЭ в подрежиме фильтрации дало результаты, приведенные в таблице 1, где Dn,ri!,r и Dnre'retr - количество прошедших через фильтр соответственно релевантных и нерелевантных документов; Drt„ - количество документов,

„ |D , n D I ¡D„, n D.....!

найденных системой; точность фильтрации Р -J—:-:—L (13); полнота R = J

|Опге1оО!

(14); вероятность отбора нерелевантного ресурса Б =J—-;—- (15).

В 74 документах содержится Ог"' = 82 описания ФЭ. При использовании ПК ППФИО БДФЭ в подрежиме выделения описаний ФЭ были получены результаты, приведенные в таблице 1, где 1Ус1ге,г и 1У,к'ге1г - количество соответственно релевантных и нерелевантных предварительных описаний ФЭ; Оге1г - количество составленных описаний ФЭ; точность выделения описаний ФЭ (13); полнота (14).

В таблице 1 для каждого из подрежимов приведены усредненные результаты тестовой работы программного комплекса (количество проверок равно 3).

Таблица 1

Результаты работы ПК па тестовом массиве документов

Фильтрация Выделение описаний ФЭ

jyel l-s rerr 73 49

D"r'\„r 3 78

Dre,r 76 127

P 0.961 0,386

R 0,986 0,598

F 0,039 -

Время работы Г1К ППФИО БДФЭ пренебрежимо мало по сравнению со временем, которое требуется составителю описаний ФЭ на то, чтобы провести поиск и анализ документов вручную в библиотеке. Например, на тематическую фильтрацию и фильтрацию по маске описания ФЭ в тестовом массиве документов программным комплексом было затрачено порядка 2 мин (компьютер AMD 64 2.6 ГГц, оперативная память 1Гб).

Преимущество использования разработанного программного комплекса перед ручной методикой формирования фонда ФЭ заключается не только в уменьшении временных и трудозатрат на поиск и анализ первичных источников, но и в возможности с его помощью находить источники описаний ФЭ, труднодоступные или вовсе не доступные администратору БД ФЭ при ручном поиске. Опыт работы ПК ППФИО БДФЭ показал, что необходимая физическая информация может располагаться не только на сайтах физических журналов или сборках материалов по физике. Например, для расширения описания одного из ФЭ была использована информация, найденная на сайте геологического факультета МГУ.

В настоящее время программный комплекс используется на кафедре САПР и ПК ВолгГТУ - с cí o помощью проводится поиск описаний новых ФЭ и расширений описаний уже существующих. Разработанная программа позволила повысить качество фонда ФЭ также за счет выявления дублирующих ФЭ и ФЭ. имеющих рассогласованные описания входных и выходных карт. ПК ППФИО БДФЭ внедрен в учебный процесс Астраханского государственного технического университета, что отражено в соответствующем акте.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1) Проанализирован процесс формирования информационного обеспечения фонда ФЭ и поставлены задачи автоматизации его наиболее трудоемких процедур: поиска и выделения описаний ФЭ из текста первичных источников.

2) Построена модель представления структурированной предметной информации.

3) Разработаны методика и алгоритм выделения структурированной физической информации в виде ФЭ из текста, сформированы тезаурусы концептов и концептуальных отношений предметной области «ФЭ».

4) Разработаны методика и алгоритм тематической фильтрации первичных источников, являющейся основной операцией процедуры поиска первичных источников.

5) На основе предложенных модели и алгоритмов разработана обобщенная методика поддержки процесса формирования информационного обеспечения фонда физических эффектов.

6) Создан программный комплекс, реализующий разработанные модель, методики и алгоритмы.

7) Произведена проверка работоспособности программного комплекса при решении задач расширения и модернизации фонда ФЭ, а также оценка эффективности основных процедур обобщенной методики: тематической фильтрации и выделения описаний ФЭ из тестов первичных источников.

8) В результате работы комплекса расширен фонд ФЭ, произведена модификация значительной части ФЭ, составлен фонд первичных источников на основе новейших публикаций в журналах физического профиля.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ:

1. Коробкин, Д.М., Методика автоматизированного поиска и выделения описаний новых физических эффектов / Д.М. Коробкин., М.Ю. Попов, С.А. Фоменков // Известия Волгоградского государственного технического университета. Сер. Концептуальное проектирование в образовании, технике и технологии. Вып.2: Межвузовский сб. науч. ст. - Волгоград: ВолгГТУ, 2006. - №2(17). - с. 104-108.

2. Коробкин, Д.М., Фоменков, С.А. Автоматизированная система верификации базы данных по физическим эффектам / Д.М. Коробкин , С.А. Фоменков // Известия Волгоградского государственного технического университета. Сер. Концептуальное проектирование в образовании, технике и технологии. Вып.1: Межвузовский сб. науч. ст. -Волгоград: ВолгГТУ, 2004. - с. 49-52.

3. Коробкин, Д.М., Автоматизация процедур расширения и модификации информационного обеспечения по физическим эффектам / П.М. Тищенко, Д.М. Коробкин, С.А. Фоменков // Известия Волгоградского государственного технического университета. Сер. Концептуальное проектирование в образовании, технике и технологии. Вып.1: Межвузовский сб. науч. ст. - Волгоград: ВолгГТУ, 2004. - с. 76-79.

4. Коробкин, Д.М., Автоматизация процесса формирования информационного обеспечения базы данных физических эффектов / Д.М. Коробкин, С.А. Фоменков, С.Г. Колесников //Вестник компьютерных и информационных технологий. - 2005. - №3. - с. 22-25.

5. Коробкин, Д.М., Предметно-ориентированный анализ текстовых документов на примере системы поиска описаний физических эффектов / М.Ю. Попов, Д.М. Коробкин, С.А. Фоменков // Вестник компьютерных и информационных технологий. — 2005. - №6. -с. 20-24.

6. Коробкин, Д.М., Автоматизация процесса формирования информационного обеспечения базы данных физических эффектов / Д.М. Коробкин, С.А. Фоменков, С.Г. Колесников // Успехи современного естествознания. Прил.1: Материалы XXXI Международной конференции «Информационные технологии в науке, образовании, телекоммуникации и бизнесе (1Т + 8Е'2004)». - Украина, Ялта-Гурзуф, 2004. - №5. - с. 3739.

7. Коробкин, Д.М., Принципы организации постсемантического анализа текстовых документов для поиска описаний физических эффектов / Д.М. Коробкин, М.Ю. Попов, С.А. Фоменков // Интеллектуальные системы (IEEE AIS'04) и Интеллектуальные САПР (CAD-2004): Сб. тр. Международных научно-технических конференций. - М.: Изд-во физико-математической литературы, 2004. - Т.1. - с. 174-178.

8. Коробкин Д.М., Автоматизация верификации базы данных физических эффектов / Д.М. Коробкин, С.А. Фоменков, С.Г. Колесников // Системные проблемы надежности, качества, информационных и электронных технологий (Инноватика - 2004). Секция 5: Сб. материалов Международной конференции и Российской научной школы. - М.: Радио и связь, 2004. - с. 5-8.

9. Коробкин Д.М., Автоматизация информационного обеспечения базы данных физических эффектов / Д.М. Коробкин, С.А. Фоменков, С.Г. Колесников // Системные проблемы надежности, качества, информационных и электронных технологий (Инноватика - 2004). Часть 1: Сб. материалов Международной конференции и Российской научной школы. - М.: Радио и связь, 2004. - с. 31-33.

10. Коробкин Д.М., Принципы автоматизации процесса верификации базы данных физических эффектов / Д.М. Коробкин, С.А. Фоменков Н Информационные технологии в образовании, технике и медицине: Сб. материалов Международной конференции. -Волго1рад: ВолгГГУ, 2004. - Т. 2. - с. 142-147.

11. Коробкин, Д.М., Автоматизация процесса формирования информационного обеспечения базы данных по физическим эффектам / Д.М. Коробкин, С.А. Фоменков // Сб. тезисов докладов VIII Региональной конференции молодых исследователей Волгоградской области. - Волгоград: ВолгГТУ, 2004. - с. 205-207.

12. Коробкин, Д.М., Представление физических знаний в АРМ ГК / A.B. Кизим, Д.А. Давыдов, С.А. Фоменков, Д.М. Коробкин // Концептуальное проектирование в образовании, технике и технологии: Межвузовский сб. науч. тр. - Волгоград: ВолгГТУ, 2002.-е. 109-111.

Подписано в печать 20.11.2006. Формат 60x84 1/16. Бумага писчая.. Усл. печ. л. 1.

Тираж 100 экз. Заказ 26$ .

Волгоградский государственный технический университет.

400131, Волгоград, пр. Ленина, 28.

РПК «Политехник» Волгоградского государственного технического университета. 400131, Волгоград, ул. Советская, 35.

Оглавление автор диссертации — кандидата технических наук Коробкин, Дмитрий Михайлович

Аннотация.

Введение.

Глава 1. Анализ проблемы поддержки процесса формирования информационного обеспечения фонда физических эффектов.

1.1. Структурированное представление физической информации в поисковом конструировании и изобретательской деятельности.

1.1.1. Энерго-информационная модель цепей и метод структурных параметрических схем.

1.1.2. Комбинаторный метод поиска принципов действия.

1.1.3. Теория решения изобретательских задач.

1.1.4. Функционально - физический и компьютерные методы поискового конструирования.

1.2. Методика модификации фонда физических эффектов.

1.2.1. Методика формирования объектно-ориентированного фонда физических эффектов.

1.2.1.1. Анализ имеющегося массива физических эффектов.

1.2.1.2. Мобилизация первичной информации.

1.2.1.3. Анализ первичной информации.

1.2.1.4. Составление описаний физических эффектов.

1.2.2. Методика корректировки базы данных по физическим эффектам при включении новых объектно-ориентированных фондов.

1.2.2.1. Верификация фонда физических эффектов.

1.2.2.2. Коррекция фонда ФЭ.'.

1.2.3. Систематизация фонда ФЭ.

1.3. Существующие подходы к автоматизации процедур формирования объектно-ориентированного фонда ФЭ.

1.3.1. Подходы к автоматизации процедуры мобилизации первичной информации.

1.3.2. Анализ методов классификации и фильтрации документов.

1.3.2.1. Метод Байеса.

1.3.2.2. Метод опорных векторов SVM.

1.3.2.3. Метод латентно-семантического анализа/индексирования LSA/LSI.

1.3.2.4. Метод вероятностного латентного семантического индексирования PLSI.

1.3.2.5. Метод индексации концептов С1.

1.3.2.6. Классификатор Гроссберга (ART).

1.3.2.7. Самоорганизующиеся карты Кохонена (SOM).

1.3.3. Подходы к автоматизации процедуры поиска первичных источников описаний физических эффектов.

1.3.4. Подходы к автоматизации процедуры анализа первичных источников описания физических эффектов.

1.3.4.1. Технология автоматической реконструкции содержания текстов на естественном языке.

1.3.4.2. Технология извлечения из текста сетевых описаний фактов.

1.3.4.3. Недостатки рассмотренных технологий применительно к задаче выделения физических эффектов из текстов первичных источников.

Выводы по первой главе.

Глава 2. Обобщенная методика поддержки процесса формирования информационного обеспечения фонда физических эффектов.

2.1 Семантический анализ текста на естественном языке.

2.2. Методика тематической фильтрации первичных источников.

2.3. Фильтрация по маске описаний физических эффектов.

2.4. Выделение описаний физических эффектов из текста первичных источников.

2.4.1. Модель представления структурированной предметной информации.

2.4.2. Отношение семантической однозначности.

2.4.3. Методика выделения структурированной физической информации в виде физических эффектов из текста.

2.5. Верификация фонда физических эффектов.

2.5.1. Ранги подобия физических эффектов по полям «Вход», «Объект»,

Выход».

Выводы по второй главе.

Глава 3. Разработка программного комплекса поддержки процесса формирования информационного обеспечения базы данных физических эффектов.

3.1. Архитектура программного комплекса.

3.2. Подсистема расширения фонда физических эффектов.

3.3. Подсистема модернизации фонда физических эффектов.

3.4. Подсистема верификации фонда физических эффектов.

3.4.1. Верификация физических эффектов по полям «Вход», «Выход», «Объект».

3.4.2. Верификация физических эффектов по полям «Сущность» или «Наименование».■.

3.4.3. Выявление физических эффектов с рассогласованными входными и выходными картами.

3.5. Подсистема систематизации фонда ФЭ.

3.6. База данных концептуальных отношений предметной области «Физический эффект».

3.7. База данных концептов предметной области «Физический эффект».

3.8. База данных ссылок на источники.

3.8. База данных тезаурусов фонда физических эффектов.

Выводы по третьей главе.

Глава 4. Применение программного комплекса поддержки процесса формирования информационного обеспечения фонда физических эффектов.

4.1. Результаты функционирования программного комплекса при решении задач расширения фонда физических эффектов.

4.2. Результаты работы программного комплекса при решении задач модернизации фонда физических эффектов.

4.3. Результаты проверки эффективности работы программного комплекса.

4.4. Использование результатов диссертационной работы.

4.4.1. Использование для физико-технических эффектов.

4.4.2. Использование в предметной области «Химия».

Выводы по четвертой главе.

Основные результаты диссертационной работы.

Список публикаций по теме диссертации.

Список сокращений и условных обозначений.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Коробкин, Дмитрий Михайлович

Актуальность. В связи с ростом количества электронных источников все более увеличивается потребность в поиске и выделении интересующей пользователя информации. Опыт использования существующих систем, применяющих универсальные модели выделения информации, свидетельствует о необходимости ограничения обрабатываемой в системе информации до конкретной предметной области (ПО), что позволит более релевантно искать и выделять нужную информацию. В данном исследовании предметная область ограничивается структурированной физической информацией в виде физических эффектов (ФЭ), которые полезны при конструировании принципиально новых высокоэффективных технических систем, разработке новых технологий, научно-техническом прогнозировании, при обучении методам технического творчества.

Существуют различные подходы к формированию концептуальных моделей описания физических эффектов, способам формализации этих моделей и созданию автоматизированных информационных систем на их основе. Значительный вклад в развитие научных направлений, в рамках которых осуществляется структурирование физической информации, внесли Г.С. Альтшуллер, Г.Я. Буш, В.Н. Глазунов, A.M. Дворянкин, М.Ф. Зарипов, В.А. Камаев, К.В. Кумунжиев, А.И. Половинкин, И.Ю. Петрова, 3. М. Шмаков, Р. Аллей, В. Бейтц, Г. Голл, Р. Коллер, П. Крумхауэр, Г. Пресс, В. Роденакер, X. Франке, К. Хикс и другие отечественные и зарубежные ученые.

Эффективность работы с системами, оперирующими структурированной физической информацией в форме физических эффектов, зависит не только от методов и алгоритмов информационного поиска, синтеза и анализа структур физического принципа действия технической системы. В неменьшей степени она зависит от качества и наполнения самого фонда ФЭ.

На данный момент вопросам поддержки процесса формирования информационного обеспечения базы данных ФЭ не уделяется должного внимания ни в одном из направлений, кроме подхода, описанного в трудах А.И. Половинкина и получившего дальнейшее развитие в работах кафедры САПР и ПК ВолгГТУ. Однако и у методики модификации фонда ФЭ, созданной в рамках данного направления, существует серьезный недостаток: все операции осуществляются вручную, что приводит к большим временным и трудовым издержкам.

Таким образом, учитывая, что центральными и наиболее трудоемкими операциями методики являются поиск первичных источников и выделение из текста описаний физических эффектов, то актуальной является необходимость разработки автоматизированных средств поиска и выделения структурированной физической информации в виде физических эффектов из текстов первичных источников на естественном русском языке (ЕЯ).

Целью работы является повышение эффективности процесса формирования информационного обеспечения фонда ФЭ, а также качества самого фонда за счет автоматизации наиболее трудоемких процедур.

Для достижения данной цели необходимо решить следующие задачи:

1. Проанализировать процесс формирования информационного обеспечения фонда ФЭ и осуществить постановку задачи автоматизации наиболее трудоемких процедур.

2. Построить формальные модели и алгоритмы выбранных процедур.

3. На основе предложенных моделей и алгоритмов разработать обобщенную методику поддержки процесса формирования информационного обеспечения фонда физических эффектов.

4. Программно реализовать разработанную методику и проверить работоспособность созданного программного комплекса при решении практических задач.

Объект исследования. Различные модели описания ФЭ, тексты физического профиля в первичных источниках на ЕЯ.

Предмет исследования. Методы поиска и выделения структурированной предметной информации в виде физических эффектов из текста первичных источников в сети Интернет.

Методы исследования. В диссертации использованы методы системного анализа, компьютерного моделирования, искусственного интеллекта, компьютерной лингвистики, теории графов, теории баз данных, объектно-ориентированного проектирования систем.

Научная новизна работы состоит в следующем:

1) Построена модель представления структурированной предметной информации, позволяющая выделять из текста информацию, которую можно представить в виде трехкомпонентной структуры (А,В,С), где А - входное воздействие, С - выходное воздействие, В - объект.

2) Разработана методика выделения структурированной физической информации в виде физических эффектов из текста, использующая построенную модель. Разработан алгоритм, реализующий методику, и сформированы тезаурусы концептов и концептуальных отношений предметной области «Физический эффект».

3) Разработаны методика и алгоритм тематической фильтрации первичных источников. Методика основана на методе латентно-семантического анализа текста и отличается от известных аналогов использованием коэффициентов принадлежности тематике семантических классов термов.

4) На основе предложенных моделей и алгоритмов разработана обобщенная методика поддержки процесса формирования информационного обеспечения фонда физических эффектов, отличающаяся от известной тем, что позволяет автоматизировать ее наиболее трудоемкие процедуры и тем самым повысить качество описания отдельного ФЭ.

Достоверность и обоснованность научных положений и результатов, приведенных в диссертационной работе, обеспечиваются использованием зарекомендовавших себя методов компьютерного моделирования, искусственного интеллекта, компьютерной лингвистики, подтверждаются показателями эффективности работы созданного программного комплекса на тестовом массиве документов, а также результатами его функционирования при решении конкретных задач поддержки процесса формирования информационного обеспечения фонда ФЭ.

Практическая значимость и внедрение:

1) Разработана модель представления структурированной предметной информации, инвариантная относительно предметных областей. Благодаря данной модели, программный комплекс может быть ориентирован на другие предметные области и формализованные модели ФЭ, например, на химические знания в виде химических эффектов.

2) Разработан программный комплекс поддержки процесса формирования информационного обеспечения фонда ФЭ (ПК ППФИО БДФЭ), который позволяет существенно снизить время и трудозатраты на поиск описаний новых ФЭ и расширение описаний уже существующих. Кроме того, программный комплекс дает возможность повысить качество фонда ФЭ за счет его постоянного мониторинга, направленного на выявление недостаточно полно описанных и дублирующих ФЭ, а также улучшить наглядность просмотра фонда ФЭ с помощью его систематизации на основе многомерных систематизационных схем. Отдельные компоненты программного комплекса могут применяться в составе иных программных средств.

Данная работа выполнялась в рамках гранта для поддержки научно-исследовательской работы аспирантов вузов Федерального агентства по образованию (шифр: А04-3.16-505). Программный комплекс внедрен в учебный процесс АГТУ, а также зарегистрирован в отраслевом фонде алгоритмов и программ ФГНУ «Государственный координационный центр информационных технологий» Федерального агентства по образованию РФ.

Основные положения диссертации, выносимые на защиту:

1) Модель представления структурированной предметной информации.

2) Методика выделения структурированной физической информации в виде физических эффектов из текста.

3) Методика тематической фильтрации массива текстовых документов.

4) Обобщенная методика поддержки процесса формирования информационного обеспечения фонда ФЭ.

5) Программный комплекс ППФИО БДФЭ и результаты его работы.

Апробация. Основные положения диссертации докладывались и обсуждались на научных семинарах кафедры «САПР и ПК» ВолгГТУ, а также на Международных и Всероссийских научных и научно-практических конференциях: «Информационные технологии в науке, образовании, телекоммуникации и бизнесе (IT + SE)» (Гурзуф, Украина, 2004), «Системные проблемы надежности, качества информационных и электронных технологий (Инноватика)» (Сочи, 2004), «Интеллектуальные системы (AIS). Интеллектуальные САПР (CAD)» (Дивноморское, 2004), «Информационные технологии в образовании, технике и медицине» (Волгоград, 2004).

Публикации. Основные положения диссертации отражены в 12 опубликованных работах. В том числе 3 статьи напечатаны в ведущих рецензируемых научных журналах и изданиях РФ, в которых ВАК рекомендует публикацию основных результатов диссертационных работ.

В первой главе диссертации приводится обзор работ, связанных с использованием структурированных физических знаний, анализируется существующая методика модификации фонда ФЭ, определяются ее основные процедуры и выявляются недостатки, изучаются возможные способы решения проблемы поиска первичных источников описания ФЭ, а также технологии и программные системы извлечения знаний из текстов.

Во второй главе приводится разработанная обобщенная методика поддержки процесса формирования информационного обеспечения фонда ФЭ, основанная на предложенной модели представления структурированной предметной информации, методиках и алгоритмах тематической фильтрации и выделения структурированной физической информации в виде физических эффектов. Приводится алгоритм верификации фонда ФЭ для выявления тождественных физических эффектов, предложены ранги подобия ФЭ.

В третьей главе описана архитектура созданного программного комплекса поддержки процесса формирования информационного обеспечения БД ФЭ (ПК ППФИО БДФЭ), приведены режимы работы и функции программного комплекса, показаны подсистемы и структуры данных. Приведенные в главе 2 модель, методики и алгоритмы полностью реализованы в ПК ППФИО БДФЭ.

В четвертой главе показаны результаты работы созданного программного комплекса в режимах расширения и модернизации фонда ФЭ, приведены показатели эффективности ПК ППФИО БДФЭ для подсистем тематической фильтрации и выделения описаний ФЭ из текста первичных источников.

Программный комплекс внедрен в учебный процесс Астраханского государственного технического университета, а также зарегистрирован в отраслевом фонде алгоритмов и программ ФГНУ «Государственный координационный центр информационных технологий» Федерального агентства по образованию РФ.

Автор выражает глубокую признательность научным консультантам: к.т.н., доц. Петрухину А.В. и с.н.с Колесникову С.Г.

Библиография Коробкин, Дмитрий Михайлович, диссертация по теме Системы автоматизации проектирования (по отраслям)

1. Подсистема верификации фонда физических эффектовПодсистема верификации БД ФЭ работает в двух режимах:

2. Верификация отдельного ФЭ со всем фондом ФЭ;

3. Магнитное поле + 0 Внутреннее 0 Изменение параметров (парамет

4. Пространственные характер»- + 0 Внешнее 0 Физическая величина- 0 Временные характеристики *■ Механика

5. ПОСТОЯННОЕ ♦ 0 Термодинамика

6. ПЕРЕМЕННОЕ 0Электричествоt; 0 Специальные характеристик» t ^ЭЛЕКТРИЧЕСКИЙ ЗАЬ 0 Физическая величина t Q ПОВЕГОНОСТНАЯ ПГ

7. МАГНИТНАЯ ИНДУКЦИ? * * □ЭЛЕКТРИЧЕСКИЙ МС

8. Фазовое состояние а + 0 Химический состав

9. Магнитная структура '+• 0 Электрическая провод» + 0 Механическое состоян! t 0 Оптическое состояниеe "ТФаза 2

10. Фазовое состояние * +■ 0 Химический состав + 0 Магнитная структура0Электрическая провод» + 0 Механическое состоян! "*•< 0 Оптическое состояние•*: П Специальные характер л < >Фаза 2

11. Зависимость давления от объема в изотермическом процессеОБЪЕМ (МЛ3) Увеличение.ДАВЛЕНИЕ (ПА). УменьшениеСостояние объекта. Однофазное 1 ГАЗ, ДИЭЛЕКТРИК