автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методы и модели автоматического построения онтологий на основе генетического и автоматного программирования
Автореферат диссертации по теме "Методы и модели автоматического построения онтологий на основе генетического и автоматного программирования"
003464360
На правах рукописи
НАЙХАНОВА ЛАРИСА ВЛАДИМИРОВНА
МЕТОДЫ И МОДЕЛИ АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ ОНТОЛОГИЙ НА ОСНОВЕ ГЕНЕТИЧЕСКОГО И АВТОМАТНОГО ПРОГРАММИРОВАНИЯ
Специальность 05.13.11 «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей»
Автореферат диссертации на соискание ученой степени доктора технических наук
Красноярск - 2009
003464360
Работа выполнена в Восточно-Сибирском государственном технологическом университете
Официальные оппоненты: доктор физико-математических наук, профессор
Пальчунов Дмитрий Евгеньевич
доктор технических наук, профессор Шалыто Анатолий Абрамович
доктор технических наук, профессор Доррер Георгий Алексеевич
Ведущая организация:
Таганрогский технологический институт ФГОУ ВПО «Южный федеральный университет»
Защита состоится 26 марта 2009 года в 14'.00 на заседании диссертационного совета ДМ 212.099.05 при Сибирском федеральном университете по адресу: ул. академика Киреиского, 26, Красноярск, 660074, ауд. УЛК 1-15.
С диссертацией можно ознакомиться в библиотеке Сибирского федерального университета по адресу: Киренского, 26, Красноярск, 660074, ауд.Г 2-74.
Автореферат разослан «<2/» февраля 2009 г.
Учёный секретарь диссертационного совета к.т.и.
Е.А. Вейсов
ОБЩАЯ ХАРАКТЕРИСТИКА ДИССЕРТАЦИИ
Актуальность исследования. Понятие онтологии, заимствованное из философии (введено немецким философом R. Goclenius), в настоящее время активно используется в искусственном интеллекте и информатике. Все больше интеллектуальных задач, связанных с обработкой знаний, решаются с применением онтологий. В недалекой перспективе онтологии будут использоваться при решении очень многих задач.
Самым распространенным определением онтологии на данный момент является определение T.R. Gruber, согласно которому онтология является точной спецификацией концептуализации. С этой точки зрения для каждой из баз данных, или баз знаний, или систем, основанных на знаниях, или агентов знаний должны быть построены спецификации, основанные на некоторой концептуализации. Множества объектов и отношений между ними должны быть описаны в некотором словаре, в котором система, основанная на знаниях, представляет свои знания.
На сегодняшний день известен ряд зарубежных и отечественных систем (Ontolingua и Protégé - разработки Стенфордского университета, OntoEdit - разработка университета Karlsruhe, OilEd - разработка Манчестерского университета, ВИКОНТ -разработка Санкт-Петербургского института высокопроизводительных вычислений и баз данных, Web-Deso - разработка Санкт-Петербургского института информатики и автоматизации РАН и др.), предназначенных для построения онтологий. В основе этих систем находятся различные формализмы описания знаний, разнообразные модели понятий и отношений, разные методы обработки знаний. В качестве формализма используется, в основном, логика предикатов первого порядка. Нередко встречаются в данной роли объектно-ориентированные сети ограничений, Description Logic, ОКВС-совместимая или RDF-совместимая фреймовая модель знаний. Понятия и отношения моделируются, как правило, в виде таксономии. Для объединения онтологий применяются методы интеграции и соединения.
К настоящему времени на основе этих и других систем созданы различные онтологии, многие из которых размещены в сети Интернет. В России к наиболее известным и качественным онтологиям можно отнести лингвистическую онтологию по естественным наукам и технологиям, многоуровневую онтологию химии, онтологию по медицинской диагностике и другие.
Анализ существующих методик и методологий построения онтологий показал, что процесс разработки онтологии включает следующие обязательные стадии: спецификации, концептуализации, формализации, объединения и реализации. Известно, что в основе концептуализации лежат некоторые категории абстракций, которые, по мнению ряда исследователей, носят субъективный характер, и каждая онтология обладает собственными категориями абстракций. Именно по этой причине разработка онтологии верхнего уровня является серьезной проблемой, решение которой пока не найдено. Все наиболее известные методологии создания онтологий объединяет то, что описание общих понятий, отношений между ними и утверждений при создании онтологии выполняется в интерактивном режиме с привлечением ручного труда экспертов. Более эффективное автоматическое построение онтологий основано на использовании методов искусственного интеллекта, способных извлекать из текста элементы знаний и нетривиально их перерабатывать.
В настоящее время методы автоматического построения онтологий развиваются недостаточно быстро, что обусловлено двумя факторами: слабым распространением систем лингвистического анализа текста, способных интерпретировать семантические отношения между словами, и относительно низкой достоверностью автоматически извлекаемых из текста утверждений и фактов, что обусловливается как
несовершенством алгоритмов анализа текста, так и качеством источников информации.
Естественно, что любая научная дисциплина постепенно вырабатывает свои основные положения, понятия и средства их наименования. Результатом их анализа, состоящем в выявлении терминологии, её упорядочении, доведении до уровня, делающего эту терминологию доступной для освоения людьми, желающими приобрести соответствующие профессиональные знания, являются терминологические словари, которые и должны быть источниками знаний при формировании ядра онтологии. А извлечение знаний из научных текстов позволит расширить это ядро.
Выполненный обзор технологий, методов и средств автоматического создания онтологии актуализирует необходимость разработки методов автоматического построения онтологий.
В настоящее время достаточно широко используются технологии генетического и автоматного программирования, позволяющие максимально возможно автоматизировать процесс создания программного обеспечения. Надо отметить, что среди отечественных ученых в развитие данного направления исследований большой вклад внес A.A. Шалыто.
Таким образом, существует техническая проблема, заключающаяся в разработке технологии создания методов автоматического построения онтологий, позволяющей сформировать библиотеку методов, которую достаточно просто развивать и совершенствовать. Решение данной проблемы позволит в автоматическом режиме извлекать знания о терминах и отношениях между ними из терминологических словарей и научных текстов, что повысит эффективность построения онтологий.
Научная проблема заключается в разработке теоретических основ для решения технической проблемы. Разработка теоретических основ состоит в создании моделей и методов, необходимых для автоматического построения онтологий.
Работы исследователей в области автоматического построения онтологий частично решают научную проблему. В проекте «Система ONTOGRID для построения онтологий», выполняемая под руководством Н.Г. Загоруйко, реализованы: морфологическая база русского языка; блоки морфологического и статистического анализа; программы выделения устойчивых словосочетаний в тексте и выявления аномалий в позиционном распределении лексем по тексту, построение семантических сетей текстовых документов, которое выполняется в полуавтоматическом режиме.
Настоящая работа более близка к этой работе, так как предлагаемые методы построения онтологий основаны на естественно-языковой обработке научного текста, в которую также включены наряду с другими методами методы морфологического и статистического анализов, выделения устойчивых словосочетаний. Существенным отличием настоящей работы является разработка методов автоматического построения онтологий в виде систем продукций и применении генетического и автоматного программирования для создания требуемых моделей.
Объект исследований — естественно-языковая обработка научных текстов для построения онтологий.
Предмет исследований - методы и модели автоматического построения онтологий.
Целью работы является разработка и исследование методов и моделей автоматического построения онтологий, позволяющих ускорить процесс создания онтологий и повысить их качество.
Для достижения поставленной цели в работе решаются следующие задачи:
1. Обзор и анализ существующих решений в области автоматического построения онтологий.
2. Разработка категориального аппарата, как результата концептуализации знаний онтологий, на основе исследования языка научного текста и семиотического моделирования.
3. Разработка декларативных методов построения онтологий с использованием продукционной модели знаний.
4. Разработка и исследование модели генерации систем продукций на основе генетического программирования.
5. Разработка и исследование модели генерации преобразователя продукционных правил с применением генетического и автоматного программирования.
6. Разработка и исследование модели аппарата активации, как модуля управления продукционными знаниями, с применением генетического и автоматного программирования.
7. Апробация разработанных моделей и методов.
Основная идея диссертации. В основе автоматического построения онтологий находится естественно-языковая обработка научного текста, в большей мере связанная с методами извлечения и представления знаний. Однако такие методы невозможно построить без понимания того, какими именно знаниями необходимо оперировать. В связи с этим необходимо заранее решить, какой подход будет использован при концептуализации онтологии. Концептуализация, обеспечивая структурирование предметных знаний в рамках эксплицитной модели, предопределяет задачу построения категориального аппарата онтологии. При решении данной задачи выполняется классификация понятий и отношений между ними, которая чётко определяет семантику компонентов онтологии и возможные диагностические семантические конструкции, позволяющие в итоге извлечь знания из предложений научного текста. Компоненты онтологии и семантические конструкции, в свою очередь, оказывают значительное влияние не только на содержание методов извлечения и представления знаний, но и на принципы их построения.
Анализ трудов в области естественно-языковой обработки научного текста выявил существенное преобладание использования различных правил при решении задач в данной области. Этот факт и декларативный характер представления методов автоматического построения онтологий обуславливают применение систем продукций в качестве модели представления знаний о методе. Вместе с тем, продукционная модель имеет одно отрицательное качество, связанное с тем, что в истории использования продукций они всегда создавались экспертами. Однако известен, по крайней мере, один случай, когда правила создавались на основе генерации методами эволюционных вычислений. В связи с этим при разработке методов построения онтологий необходимо исследовать вопросы генерации систем продукционных правил на основе применения технологий генетического программирования.
Такой подход к созданию систем продукций как методов построения онтологий обуславливает решение задач, связанных с преобразованием продукционных правил в формальный вид и последующим определением их корректности. Достаточно распространенное применение симбиоза технологий генетического и автоматного программирования для создания систем со сложным поведением при решении широкого спектра задач определяет направление исследований, связанное с разработкой моделей преобразователя и аппарата активации продукций.
Таким образом, для создания методов автоматического построения онтологий необходимо разработать модель генерации систем продукций на основе применения генетического программирования, модель генерации преобразователей на основе генетического и автоматного программирования, модель генерации систем логического вывода на основе генетического и автоматного программирования и модель аппарата активации продукций на основе применения автоматного программирования. Аппарат активации может быть использован как для проверки систем продукций на корректность, так и для функционирования в реальном режиме. Предложенная технология обеспечит наиболее доступное совершенствование разработанных методов и моделей, что очень важно для новых направлений исследований, к которым относятся и исследования, связанные с созданием онтологий.
Методы исследований. Методологической и теоретической основой выполненного исследования послужили положения теории искусственного интеллекта, логики предикатов первого порядка, нечеткой логики, семиотического и ситуационного моделирования, генетического программирования, формальных грамматик и автоматов, математической лингвистики.
Для исследования понятий и отношений использованы методы анализа естественно-языковых текстов, рассмотренные в работах N.Chomsky, I.Dalberg, W. Humboldt, C.Fillmore, R.Schank, Н.Д.Арутюновой, Л.А.Беловольской, А.А.Залевской, С.Е.Никитиной, Ю.С.Степанова, В.А.Тузова и других. Построение методов извлечения и представления знаний базировалось на трудах M.Minsky, В.Н.Вагина, Е.П.Куршева, Г.С.Осипова, Д.А.Поспслова, В.Ф.Хорошевского и других. Моделирование понятнй и отношений в виде сети знаков-фреймов базируется на применении аппарата семиотического моделирования как одного из наиболее приемлемых для символьной системы моделирования. Для логического вывода на ядрах классических продукций применяется эвристический метод линейной резолюции Д.Лавленда, Р.Ковальского и Д.Кюнера; для логического нечеткого вывода на ядрах нечетких продукций - метод нечеткого регулирования A.Kaufmann, E.Mamdani, L.A.Zadeh. Создание методов построения онтологии базировалось на трудах И.Л.Артемьевой, Т.А.Гавриловой, Б.В. Доброва, А.Е.Ермакова, Н.Г.Загоруйко, Ю.А.Загорулько, А.С.Клещева, Н.В.Лукашевич, A.C. Нариньяни, В.Ш. Рубашкина, А.В.Смирнова, В.Ф.Хорошевского, T.R.Gruber, N.Guarino, J.F.Sowa, M.Uschold, B.J.Wielinga и многих других. Построение моделей генераторов систем продукций и модели преобразователя основывалось на трудах М.Л.Кричевского, В.М.Курейчика, В.В.Курейчика, Л.Д.Гладкова, А.А.Шалыто, J.Holland, D.Goldberg, J.Koza, М.А.Lankhorst, S.M.Lucas, A.Naidoo и других.
Научная новизна. Научная новизна работы заключается в развитии теоретических основ проектирования и разработки технологии создания методов автоматического построения онтологий с применением генетического и автоматного программирования, что позволило автоматизировать процесс создания программного обеспечения. Данное утверждение формируется из следующих положений.
1. Новизна разработанных методов создания онтологий в виде классических и нечетких систем продукций заключается в развитии методов извлечения знаний о терминах и семантических отношениях между ними, построения семантической сети знаков-фреймов и соединения онтологий, которое состоит в уточнении представления ядра продукционного правила за счет использования простой ядерной конструкции языка ситуационного моделирования и в структуризации компонентов простой ядерной конструкции, что позволило выделить динамическую часть, содержание которой зависит от конкретного метода, и статическую часть - одинаковую для всех
методов. Такой способ построения методов обеспечивает возможность их автоматической генерации.
2. Новизна предложенной модели генерации систем продукций заключается в том, что в ней с одной стороны, продукция как любое выражение представляется в виде дерева. С другой стороны, конструктивные знания эксперта, выявленные на основе анализа научного текста и разработанных методов, формализованы в виде конструкций и тоже представлены деревьями. Это определило структуру хромосомы и Ркпезя-функцшо. что позволило применить генетическое программирование для генерации систем продукций. Разработанный генетический алгоритм обладает свойством универсальности по отношению к методу, настраиваясь на него посредством спецификации метода, содержащей конструктивные знания эксперта.
3. Новизна предложенной модели генерации преобразователя продукционных правил состоит в том, что она позволяет порождать модели конечных преобразователей, способных отображать классические и нечеткие продукции, представленные на ограниченном подмножестве естественного языка, в формулы логики предикатов, а их, в свою очередь, во множества дизъюнктов. Особенностью модели генератора является то, что порожденный преобразователь может переводить символы входного алфавита в символы выходного алфавита без явного задания грамматики перевода. Грамматики перевода определяются неявно посредством задания исходных объектов, описанных в символах входного алфавита, и эталонных объектов, описанных в символах выходного алфавита. Достижению такой универсальности генетического алгоритма в рамках класса задач преобразования с неявно заданной грамматикой способствовали направленный поиск и ряд генетических операторов, типовых по выполняемому действию. Кроме того, для получения кода конечных преобразователей применены технологии автоматного программирования.
4. Новизна разработанной автоматной модели аппарата активации состоит в том, что следование единообразию представления методов в виде классических и нечетких продукций определило необходимость реализации нечеткого логического вывода на основе применения методов нечеткого регулирования, которые хорошо вписались в предложенную технологию. Это позволяет разрешать конфликтные ситуации, возникающие при использовании классического логического вывода, а также решать задачи в условиях неопределенности. Реализация аппарата активации выполнена на основе применения технологий генетического и автоматного программирования.
Значение для теории. Разработанные модели и методы построения онтологий составляют теоретическую основу для разработки технологий автоматизированного решения различных задач, для которых в качестве моделей решения можно использовать системы продукций. Кроме этого, появилась возможность дальнейшего их развития с точки зрения объективизации категориального аппарата, уточнения множества типов предикатов, типов семантических отношений и исследования их свойств, необходимых для анализа онтологий.
Значение для практики. Разработка онтологий по предложенной технологии позволит облегчить процесс их создания, повысить доверие к хранилищам знаний и информации, снизить издержки на разработку программного обеспечения, обеспечить дальнейшее развитие информационных и интеллектуальных технологий. Кроме того, результаты, полученные в работе, окажут положительное влияние на конгломерацию частных онтологий в систему знаний, поскольку в настоящее время средств, позволяющих создать полную систему знаний («модель мира»), не существует.
Достоверность полученных результатов. Достоверность результатов и выводов работы подтверждается корректным использованием теоретических и
экспериментальных методов обоснования полученных результатов и выводов. Положения теории основываются на известных достижениях фундаментальных и прикладных научных дисциплин в области инженерии знаний, классического и нечеткого логического вывода, генетического и автоматного программирования. Достоверность выводов и результатов подтверждается также их исследованием на конкретных задачах естественно-языковой обработки научного текста. Сопоставление полученных результатов показывает их согласованность с теоретическими выводами. Научная новизна технических решений подтверждена авторскими свидетельствами.
Личный вклад автора. Все основные результаты диссертации получены лично автором.
Рекомендации по использовании результатов диссертации. Результаты работы могут быть использованы при разработке системы автоматического построения онтологии. Программные средства, разработанные в процессе диссертационного исследования, составляют основные компоненты технологии, позволяющие проводить экспериментальные исследования генерируемых методов.
Апробация результатов диссертации. Основные положения и результаты диссертационной работы докладывались и обсуждались на Всероссийской научно-практической конференции «Управление созданием и развитием систем, сетей и устройств телекоммуникаций» (г.Санкт-Петербург, 2008 г.); Всероссийской научно-технической конференции «Информационные системы и модели в научных исследованиях, промышленности и экологии» (г.Тула, 2007 г.); Второй Международной конференции по когнитивной науке «The Second Conference on Cognitive Science» (г.Санкт-Петербург, 2006 г.); Международной научной конференции «Information Technologies and Telecommunications in Education and Science (IT@I ES'2005)» (г.Москва, 2005 г.); Общероссийском постоянно действующем семинаре «Интернет-порталы. Содержание и технологии» (г.Москва, 2005 г.), девятой Всероссийской научно-практической конференции «Проблемы информатизации региона» (г.Красноярск, 2005 г.); Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (г.Улан-Удэ, 2000-2008 гг.); Всероссийской научно-технической конференции «Проблемы качества, безопасности и диагностики в условиях информационного общества» (г.Сочи, 2004 г.); Всероссийской научно-практической конференции-выставке «Единая образовательная информационная среда: Проблемы и пути развития» (г.Омск, 2004 г.); Всероссийской научно-практической конференции «Российская школа и Интернет» (г. Санкт-Петербург, 2002 г.); Международной научно-технической конференции «Информатизация процессов формирования открытых систем на основе СУБД САПР, АСНИ и СИИ» (г.Вологда, 2001 г.); Третьей Меяодународной выставке-конференции «Информационные технологии и телекоммуникации в образовании» (г.Москва, 2001 г.); Международном семинаре «Искусственный интеллект в образовании» (г.Казань, 1996 г.) и другие.
Кроме того, результаты исследования вошли в материалы отчетов по госбюджетным научно-исследовательским работам «Теоретические и прикладные вопросы разработки интегрированных интеллектуальных информационных систем» (ГР № 01.200.205060; Инв. № 02.200305099, 2002 г.), «Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы» (ГР № 01.200.205060; Инв. № 0320.0501291, 2004 г.), «Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов» (ГР № 01.200.205060; Инв. №0320.0603814, 2005 г.) и «Исследование проблем моделирования знаний и разработка методологии создания
онтологии со встроенной семантикой и прагматикой» (ГР №01.2006.10552; Инв. №03200802713, 2007 г.), по научно-исследовательской работе: «Разработка генератора автоматов, основанного на использовании генетических алгоритмов», шифр «2007-41.4-18-01-037» (ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы», ГК № 02.514.11.4047 от 18.05.2007 г.).
Материалы диссертационных исследований используются в Московском авиационном институте при решении задачи ускорения процесса синтеза алгоритмов бортовых экспертных систем аэрокосмических летательных аппаратов; в Тверском государственном техническом университете при исследовании лингвистической семантики и прагматики в виде методов извлечений знаний и построения семантических сетей знаков-фреймов научного текста; в учебной и научной деятельностях Восточно-Сибирского государственного технологического университета и включены в программы учебных дисциплин «Системы искусственного интеллекта)), «Теория искусственных нейронных сетей», «Теория вычислительных процессов и структур» специальности 010503 «Математическое обеспечение и администрирование информационных систем» в виде методических указаний.
Публикации. По теме диссертации опубликовано 80 работ, из них: 4 -монографии; 9- статьи в изданиях по списку ВАК; 12- статьи в сборниках; 48-работы, опубликованные в материалах всесоюзных, всероссийских и международных конференций и симпозиумов. Автором получены 7 свидетельств об официальной регистрации программ для ЭВМ, разработанных в рамках тематики работы.
Содержание разделов диссертации. Диссертация состоит из введения, 5 разделов, заключения, списка использованных источников, содержащего 280 наименований, 10 приложений. Основная часть работы содержит 288 страниц, включая 34 рисунка, 14 таблиц.
В первом разделе приведены обзор и анализ существующих решений, приводится описание проблемы.
Второй раздел посвящен разработке категориального аппарата онтологий. Анализ работ по лингвистике, семиотике и информатике, касающихся построения терминологии области науки, показал, что качественная терминосистема является отражением структуры области науки. Это базируется на основном свойстве термина -системности, являющимся отраженным признаком системности знания, элементом которого и есть термин, то есть термин представляет собой фрагмент общего смыслового единства системы.
Структура терминосистемы должна определять связи терминов, переходы внутри общей совокупности терминов, описывать семантику, синтактику и прагматику отдельных терминов. Это означает, что схема знака-термина должна учитывать свойства термина как логоса и как лексиса, то есть интегрировать в себе логико-семантические и языковые свойства термина. Среди существующих схем знаков наиболее адекватной схемой знака является квадрат Д.А. Поспелова, содержащий метазнак и отображающий три основных аспекта знака, а именно имя знака, содержание знака, назначение знака. Однако по С.Е. Никитиной, термин, как знак специальной семиотической системы, должен обладать номинативно-дефинитивной функцией и внутренней формой. Учитывая это, на основе квадрата Поспелова и в соответствии с глобальной классификацией категорий объектов и отношений И.Дальберг разработано шесть конструкций знака: понятие, свойство, действие, состояние, событие, величины. Глобальные классификации И. Дальберг представляют собой некоторые априорные схемы научного знания, которые могут накладываться на
конкретную терминологию. Классификации показывают, как в семантической структуре организуется и воплощается знание терминологии. Поэтому связи между компонентами знака классифицированы в соответствии с глобальной классификацией отношений. Структурированность знака позволяет более четко описывать понятия и понимать лучше не только их содержание, но и какие знания о термине необходимо извлекать из научных текстов.
Автоматическое извлечение знаний из научных текстов предполагает не только выявление терминов, но и извлечение знаний о них. Для этого необходимо распознать в тексте семантические отношения между терминами, так как именно они задают семантическую структуру терминологии. В связи с этим в работе построена иерархия семантических отношений на основе классификации концептуальных отношений (табл. 1). Значимым признаком построения предложенной иерархии является принадлежность отношений понятийным сферам. Группировка отношений по понятийным сферам (уровням абстракции) дает возможность более четко описать семантику каждого отношения. Кроме того, такой подход позволяет в значительной степени уменьшить мощность множества типов предикатов, что является весьма важным фактором повышения эффективности резолютивного логического вывода.
Таблица 1. Иерархия отношений между терминами
Категория отношений Группа отношений Отношение Понятийная сфера
Квалитативные отношения Отношения иерархии Род-вид Сфера абстрактного - конкретного
Признак-значение признака
Инвариант-вариант
Отношения агрегации Целое-часть Сфера принадлежности
Объект-пространство реализации (локализации) объекта
Объект - свойства/признак
Уровень-единица уровня
Функциональные отношения Объект действия-действие- субъект действия Причина-следствие Условие-де йствие Событие-действие Состояние-действие Событие-состояние Инструмент-действие Данные-действие Данные-величины Сфера процессуальное™
Семиотические отношения Термин-способ выражения Термин-способ представления Сфера формы и содержания
Термин-метазнак термина
Квантитативные отношения Отношения тождества Термин-синоним термина Сфера тождества и противопоставления
Отношения корреляции Термин-коррелят термина
На рисунке 1 представлено концептуальное знание о термине. Роль знака играет термин !, изображенный на графе в одноименной вершине. Вершина Т определяет множество терминов Г, имеющих отношение с термином I. Если сравнить данную конструкцию с квадратом Поспелова, то вершине «знак» квадрата соответствует вершина (, вершине «смысл знака» - вершины Д С, Р, 5 и Т, вершине «действия, связанные со знаком» - вершина А, а вершине «метазнак» - вершина М. Дуги графа соответствуют концептуальным отношениям. Для отражения прагматического аспекта
термина в конструкцию знака введена вершина А, и так как знания о прагматике несколько отличаются от знаний об объекте, то для них разрабатываются отдельные конструкции, необходимые для представления знаний о действиях, связанных с объектом.
Синонимь; корреляты Состояние
Т) г?)
Шз ЪКуТ Термины
Рис. 1. Графическая интерпретация знака "Понятие": / -термин; С>111 - квалитативные отношения; (Ж?- квантитативные отношения, с - отношение включения
Таким образом, предложенный подход построения конструкций знака концептуальных объектов, как основных категорий абстракций, позволяет создать единую концептуализацию предметной области, которую смогут понимать различные системы. Единая концептуализация необходима для формирования терминосистемы, являющейся ядром онтологии предметной области. Терминосистема может служить одновременно лексикой информационно-поискового языка. С этой позиции она должна представляться в виде тезауруса. В работе разработана структура словарных статей тезауруса на основе конструкций знака для выбранных категорий концептуальных объектов. Для примера приведем словарную статью «Понятие», соответствующую конструкции знака, показанной на рис. 1, и имеющую вид:
Сопсер1 = </, О, Р, А, С, Т, М>, (1)
где I. /=<Гь (ъ 1\ - имя термина; 12-тип концептуального объекта «Понятие»; ¿з - вид сущности: материальный, нематериальный.
О. В = {4| 4 - субстанциальная дефиниция, i= 1 +п,п- число дефиниций}.
Р. Р = {(рь р2), | Р\ - имя свойства; р2 - ссылка на словарную статью, описывающуюр\, /'-число свойств понятия}.
А. А = {(аь а2), | а1 - действие; а2 - ссылка на словарную статью, описывающую а\ как термин; ¡=1-гП, п - число действий, релевантных термину}.
С. Множество терминов, имеющих квантитативные отношения с термином I, описывается двойкой <СЬ С2>, где С, ={(си, с\2), | сц - синоним; с\г - ссылка на словарную статью, описывающую сц как термин; ¡=\^к, к - количество синонимов}, а Сг ={(с21, Сц), I с2] - коррелят; с22 - ссылка на словарную статью, описывающую с21 как термин; 1-1 -¡-т, т - число коррелятов}.
5. 5= [(.5|,52), | - имя термина, описывающего состояние сущности, ссылка на словарную статью, описывающую термин ;=1 -¥п,
Т. Множество понятий (терминов), имеющих квалитативные отношения с термином I, описывается четверкой < Г], Тг, Т}, Г4>, где
Т\ - понятия, составляющие родовидовые отношения с I, Т\ = <Т\\, Г12>, где Гц - множество понятий, являющихся родом I; Т\2 - множество понятий, являющихся видом /; элементами множеств Тп и Г12 являются двойки,
компоненты двойки - это имя понятия и ссылка на словарную статью, описывающую это понятие;
Ti - понятия, составляющие отношение «целое-часть» с /; Т2 = <Г2,, Т22>, где Тц - множество понятий, являющихся целым для /; Тп - множество понятий, являющихся частью i; элементами множеств Г21 и Г22 являются двойки, компоненты двойки - это имя понятия и ссылка на словарную статью, описывающую это понятие;
Тз ~ где i3| - термин, обозначающий способ представления термина t,
1зг~ ссылка на словарную статью, описывающую i3i как термин;
Та, = <<4i, '42>, где t4 ] - термин, обозначающий способ выражения термина t, i42-ссылка на словарную статью, описывающую Ц\как термин.
М. С помощью данного элемента определяются отношения между знаковыми системами. Он описывается двойкой <МЬ М2>, где
Mi - способ метаязыкового представления, который позволяет зафиксировать связь термина и его представления в метаязыке;
Мг - термин другого языка, который позволяет зафиксировать связь терминов различных предметных областей.
Словарная статья «Понятие» является центральной. При описании термина посредством элементов Р, А и S устанавливается связь со словарными статьями, описывающими свойства, действия и состояния, через элементы С и Т - различные связи с другими терминами. Элемент М позволяет определить отношения с терминами смежной предметной области.
Структура словарных статей тезауруса позволила определить структуру прототипов знаков-фреймов, являющихся узлами семантической сети таксономии.
Следует отметить, что совокупность разработанных схем знаков для выбранных категорий глобальных объектов (понятие, свойство, действие, состояние, событие, величины) согласуется с соглашением, принятым в области искусственного интеллекта, и связанным с моделями представления знаний. Соглашение заключается в том, что в реальном мире есть объекты, которые могут состоять из частей. У объектов есть свойства, которые имеют значения. Объекты могут находиться в различных отношениях друг с другом. Свойства и отношения изменяются во времени. В различные моменты времени возникают события, активизирующие процессы, в которых участвуют объекты и которые также изменяются во времени. События могут вызывать другие события, то есть давать эффект. Мир и его объекты могут находиться в различных состояниях.
Разработав концептуализацию онтологии и поняв, что требуется извлекать из научных текстов, необходимо определить механизм извлечения знаний. На основе трудов K.I. Lewis, L. Wittgenstein, Д.А. Попелова, Г.С. Осипова, В.Н. Вагина, A.A. Залевской в работе обосновано, что лучшим подходом для извлечения знаний является ситуационный подход. Действительно, возможными ситуациями являются тот или иной предпорядок компонентов. Поэтому, выполняя морфологический или синтаксический анализ, извлекая знания о терминах из терминологических словарей или применяя другие методы анализа текста, мы всегда исследуем ситуации, в которых находятся морфемы в лексеме, лексемы - в предложении, предложения - в тексте. Методы естественно-языковой обработки текста почти всегда направлены на анализ ситуационного контекста, и в зависимости от метода объектом этого анализа является либо текст, либо предложение текста, либо лексема предложения. Из этого следует, что для решения различных задач естественно-языковой обработки научного текста необходимо разработать методы их решения, основываясь на ситуационном
моделировании. В основе языка ситуационного моделирования лежит простая ядерная конструкция k=xRy, где х, у - термины, R - отношение между ними. В свою очередь, конструкция к имеет вид посылки ядра продукции. Поэтому в качестве модели представления знаний о методах избраны системы продукций, которые обладают простотой, модульностью, возможностью постепенного наращивания и модификации.
Таким образом, с целью концептуализации знаний онтологии, на основе исследования языка научного текста и семиотического моделирования:
- определены шесть категорий понятий на основе глобальных классификаций объектов И. Дальберг и соглашения, принятого в искусственном интеллекте; построены схемы знаков категорий понятий. Разработанные схемы знаков в отличие от существующих знаков понятий обладают лучшей структурированностью, что способствует более точному описанию понятий и отношений между ними и, как следствие, лучшему их пониманию людьми и машинами;
- построена иерархия семантических отношений на основе глобальных классификаций отношений И. Дальберг;
- разработана структура словарных статей тезауруса на основе схем знаков глобальных объектов, что позволило определить состав и структуру слотов протофреймов, образующих фундамент модели представления онтологии в виде семантической сети знаков-фреймов;
- определены типы предикатов как ядер продукционных правил на основе выявленных категорий семантических отношений.
В третьем разделе рассмотрены методы естественно-языкового (ЕЯ) анализа научного текста. Все методы условно разделены на две группы. К первой отнесены традиционные методы ЕЯ-обработки текста, ко второй - методы, касающиеся непосредственно построения онтологии. В работе рассмотрена обобщенная схема анализа научного текста, в соответствии с которой построены системы продукций для методов морфологического и синтаксического анализов, метода выделения именных субстантивных словосочетаний. Для построения онтологии эта схема модифицирована. В ней появились методы второй группы. Классические системы продукций построены для создания семантических сетей знаков-фреймов терминосистемы и номенклатуры, нечеткие - для соединения онтологий. В качестве примера рассмотрим извлечение знаний об отношении тождества категории квантитативных отношений.
Отношение тождества. В некоторых словарях синонимы термина не указываются явно и могут быть выявлены только в результате анализа текста словарной статьи, например: «Авизо (итал. avviso, англ, advice — сообщение, уведомление) - извещение, посылаемое одним контрагентом другому ...». Здесь синонимом заголовочного термина является перевод аналога термина на иностранном языке. Наиболее распространенной является ситуация, когда синонимы заголовочного термина следуют за терм-признаком «Син.:». Пример: «Акция - осуществляемое по заранее разработанному плану масштабное действие, син.: деяние, действие». Тогда продукционное правило, распознающее синоним термина в этой ситуации имеет вид:
ЕСЛИ
<предложение> <лредложение> <СПИСО!С> <предложение>
р содержит <термин> р содержит <список>
q содержит <ЭлементСг.иска> р содержит <признак> h имеет <эначение>
2 И
g V.
е И
h И
<призкак> <приэнак> <слисок>
["син.:"] И
h имеет <индекс>
q имеет <индекс>
е имеет <тип>
i И !i+l)
ТО <ЭлементСписка> е
["синоним"].
Постдействием данного продукционного правила является выделение списка терминов, следующего за указанным в продукции признаком.
Формирование соответствующих слотов семантической сети знаков-фреймов осуществляется следующим образом. После активации продукции найденные синонимы "деяние" и "действие" выделяются и присваиваются атрибуту «VALUE» соответствующих слотов с элементом NAME="namesyn" экзофрейма Ф„ релевантного термину «акция»: <SLOT NAME«="syncnyms"> <SLOT NAME="synonyra">
<SLOT NAME="tiamesyn" VALUE-"деяние"/> <SLOT NAME="link" FILE="Frame_#.xuil"/> </SLOT>
<SLOT NAME=nsynonym">
<SLOT t№ME-"namesyn" УАИ/Е»"действие"/> <SLOT NMffi="lifikn FILE="Frame_#.xml"/> </SLOT> </SLOT>.
Далее производится поиск терминов-синонимов во множестве фреймов Ф. Если экзофреймы Фо и ФС/, описывающие данные термины, найдены, то в соответствующих слотах с атрибутом NAME="link" атрибуту FILE="Frame_# .xml" присваиваются ссылки на Фа и Фсу (полный путь к файлу, символ it в имени файла Frame_#. xml обозначает порядковый номер файла). В противном случае создаются фреймы, релевантные терминам "деяние" и "действие", и после этого ссылки на них записываются в соответствующие слоты.
Система продукций, предназначенная для распознавания синонимов, должна содержать правила, анализирующие все возможные ситуации определения синонима в словарной статье терминологического словаря.
Продукции методов, представленных в данном разделе, были созданы в соответствии с результатами, полученными во втором разделе. Посылки антецедента и заключение консеквента каждого продукционного правила имеют вид простой ядерной конструкции языка ситуационного моделирования и соответствуют типам отношений, определенным в табл. 1. На примере методов извлечения знаний о различных компонентах конструкций знаков показан процесс заполнения словарных статей и построения узлов семантической сети знаков-фреймов.
При построении онтологии предметной области вначале создается терминосистема, а затем - номенклатура. Поэтому при создании номенклатуры используется терминосистема, в которой уже определены все основные термины предметной области. Присоединение номенклатуры к терминосистеме может осуществляться как в процессе, так и после её создания.
Для метода соединения онтологий должны быть построены помимо классических продукций и нечеткие. Рассмотрим процесс построения нечетких продукций. При создании терминосистемы и номенклатуры заполняется их заголовок, который включает имя предметной области для терминосистемы и имя области знаний для номенклатуры. Присоединение вновь создаваемой номенклатуры NS к существующей терминосистеме TS той же предметной области выполняется в процессе представления нового термина.
По каждому новому термину ti?se TermNS, где TermNS - множество терминов номенклатуры NS, должен выполняться поиск по образцу данного термина в терминосистеме TS. Пусть имеем два образца г,75 и соответствующие имени термина в терминосистеме TS и номенклатуре NS:
rTS = I 1 Zl Z31 Xm = 1 Z' Zl Zl I
Ul Xi2 xnJ k Uil Уп Укъ)
где г, — имя термина, z2 - тип термина, z3 - вид сущности, х,, - значение для
NS
терминосистемы, ук] - значения тк для номенклатуры.
Если соответствующие xtJ и >'jy равны, то термину ti':s соответствует термин i(TS е Тсппт:\ где Term™ - множество терминов терминосистемы TS.
Однако возможны случаи, когда в образце ii'vx неизвестны значения Укг и/или уцз, так как в научном тексте информация о термине может быть неполной. Тогда, если х,\ = Ук\, будем считать, что термину соответствует термин i,15eTermTS'. Если термин найден, то в соответствующую вершину семантической сети G или слота знака-фрейма F записывается ссылка на термин i,rs терминосистемы. Кроме того, необходимо добавить записи в заголовки терминосистемы и номенклатуры.
Вполне возможно, что термин номенклатуры имеет имя, не совпадающее с именем термина в терминосистеме, но, по сути, они являются квазисинонимами. Поэтому после создания номенклатуры необходимо выполнить сравнение интенсионалов терминов номенклатуры и терминосистемы.
Интенсивная термина типа «Понятие» определяется кортежем (1). Так как элементами вектора Т являются, в основном, множества, то анализ проводится по каждому элементу отдельно, причем существенными считаются множества Pr, Tj. Нельзя сказать, что множества С, М и А не существенны. Однако, как правило, в научном тексте рассматриваются отдельные стороны термина, касающиеся какой-либо проблемы, поэтому для номенклатуры можно допустить, что эти множества не существенны.
Для анализа интенсионалов используем отношение сравнения элементов вектора Г, которое рассмотрим для каждой пары терминов (/,, 0, такой, что t,™е TemP, tfse TermNS. Обозначим символом X множества вектора Termа К — множества вектора TermhS, то есть при рассмотрении элемента «Свойства» вектора Т Х- Рг a У=Рг.т, где Pr^- {prtlTS, ..., рг,™} задает свойства термина t?eTermTS, а множество Рг, \prjihs,..., pr/s } задает свойства термина t,NSе TermNS.
При анализе множеств и Tfs отношение сравнения должно применяться для множеств терминов, связанных родовидовым отношением и отношением «Целое -часть». При этом последовательно должны сравниваться множества родовых терминов, видовых терминов, терминов-целое, терминов-часть. Из этого следует, что в сравнении участвуют: множество свойств; множество терминов-род; множество терминов-вид; множество терминов-целое; множество терминов-часть.
Отношение сравнения множеств. Сравнение множеств X и У будем осуществлять следующими отношениями: УгХ, У=Х, УаХ, УиХ, УпХ#0.
Если для любых X и У отношение неравенства существует, то следует, что
<75 .NS г:
термины t, и tj разные, и дополнительных действии не требуется, то есть номенклатура остается в той же конфигурации.
Если для любых X и У отношение равенства существует, то это означает, что термины идентичны. В этом случае в знаке-фрейме F®, соответствующем данному термину в номенклатуре NS, необходимо удалить всю информацию кроме заголовочной. В заголовочную часть нужно добавить ссылку на знак-фрейм Тогда в знаке-фрейме Fvsостается только имя термина tjNSи ссылка на t™. В том случае, если имена терминов не совпали, а для остальных множеств существует отношение равенства, то из этого следует, что термин tfs является синонимом t,TS, и во множество синонимов терминосистемы нужно включить имя термина и ссылку на него.
Если для любых Л' и Y отношение включения YcX истинно, то это означает, что рассматриваемый термин tfs наследует все свойства термина /,г;. Из этого следует, что в знаке-фрейме соответствующем данному термину в номенклатуре NT,
необходимо удалить всю информацию кроме заголовочной. В заголовочную часть добавляется ссылка на знак-фрейм FTS.
Если для любых Хи Y отношение включения 1ЪХистинно, то это означает, что рассматриваемый термин tfs обладает более полным описанием, чем термин t/s, и его знак-фрейм F^ необходимо дополнить недостающей информацией из знака-фрейма l7''s, затем удалить всю информацию из знака-фрейма F's кроме заголовочной. В заголовочную часть добавляется ссылка на знак-фрейм FJS.
Надо отметить, что вероятность существования отношений равенства и включения на множествах X и Y невелика. Наиболее частым является случай, когда истинно отношение УглХ*0. Для его анализа лучше всего использовать аппарат нечеткой логики, который позволяет рассматривать различные ситуации, например: часть свойств совпала в основном, и мощность конечного множества пересечения родовых понятий большая, мощность конечного множества пересечения видовых понятий небольшая, а мощности множеств пересечения других множеств ничтожно малы, то можно сказать, что термин t¡TS в научном тексте рассматривается под другим углом. Этой ситуации, скорее всего, соответствует вывод, что в номенклатуре определен новый вид как отображение термина t™.
Таким образом, проекция терминосистемы TS на плоскость рассматриваемого научного текста в виде номенклатуры NS позволяет уточнять термины терминосистемы, определять новые виды терминов, новые компоненты терминов, то есть уточнять терминологию предметной области.
Для реализации анализа отношения Yr\Xt0 хорошо подходят методы нечеткого регулирования. Рассмотрим основные аспекты их применения.
Отношение YpXpt0, I-1-^5, может быть истинно для V(Yi, VXh), где индекс I последовательно нумерует множества в следующем порядке: свойств, терминов-род; терминов-вид; терминов-целое; терминов-часть. На практике могут встречаться различные комбинации истинности отношения У/~Х?£0. Двумя наиболее интересными являются случаи, когда отношение YtnX^0 истинно при / е {1,2,3} и / е{ 1,4,5}. Рассмотрим только первый случай.
Для нечеткого логического вывода анализа отношения УгХ£0 применим известный метод нечеткого регулирования Mamdani. Основные компоненты нечеткого вывода рассмотрим на примере определения степени достоверности того, что термин tjNS является новым видом термина f,.;71.
Основой для проведения операции нечеткого логического вывода является база правил, содержащая нечеткие высказывания в форме "Если-то" и функции принадлежности для соответствующих лингвистических термов. Здесь рассмотрим
, NS
только ядра правил для определения степени достоверности новизны термина tj относительно термина t/.™.
Условие ядра (А): составное нечеткое высказывание вида «IS, = < И DTISi = 1' И DNISi = /'», где индекс /е {1,2,3} последовательно нумерует: множества свойств, множества родовых терминов, множества видовых терминов;
ISi — обозначения входных лингвистических переменных Intersection, соответствующих мощностям множеств YfXi,
DTlSj ~ обозначения входных лингвистических переменных DifferenceTSInterSection, соответствующих мощностям множеств Л//( YinXi);
DNISt - обозначения входных лингвистических переменных DifferenceNSInterSection, соответствующих мощностям множеств Y/( У/"\Л/); терм i е Tj= {Низкая (Little), Средняя (Mean), Высокая (Big)}. Заключение ядра (В): нечеткое высказывание вида «H_NKT, = At"», где H_NKT - обозначение выходной лингвистической переменной СТЕПЕНЬ РАЗЛИЧИЯ ХАРАКТЕРИСТИК ТЕРМИНА;
терм t" е 7*2 и Т2 = {Низкая (Low), Средняя (Normal), Высокая (High)}, модификатор ДеА/, и М\ = {Ниже (Down), Выше (Up)}.
Так как условие ядра нечетких множеств лингвистических переменных включает три переменные, и каждое правило использует каждую из переменных в посылке, то было построено пг=З3=27 последовательностей длины три из переменных IS,, DTISh DNIS,. Анализ построенных правил показал, что не все правила могут быть использованы для проведения операции нечеткого логического вывода. Это объясняется тем, что некоторые наборы значений входных лингвистических переменных не имеют смысла в разрезе решаемой задачи. Поэтому из рассмотрения были исключены шесть правил. Таким образом, база правил содержит нечеткие правила /?,, где /=);-«/, т'- 21 и является полной. На рис. 2 показан фрагмент базы правил:
1. If (IS is title) and (DTIS is little) and (DNIS is little) then (H MKT is low) (1)
2 If (IS is mean) and [DTIS is little) and (DNIS is little) then (H NKT is low) (1)
3. If (IS is big) and (DTIS is little) and (DNIS is little) then (HJJKT is low) (1)
4. If (IS is little) and (DTIS is mean) and (DNIS is Me) then (H MKT is low) (1)
5. If (IS is mean) and (D TIS is mean) and (DNIS is little) then (H NK.T is low) (1)
S. If (IS is big) and (DTIS is mean) and (DNIS is little) then (H_NKT is low) (1)
7. If (IS is Mel and (DTIS is bio) and (DNIS is Me) then (H MKT is ud lowl (11
Рис. 2. Фрагмент базы правил определения степени различия свойств терминов
Более подробное описание использования метода нечеткого регулирования Mamdani приведено в работе. Результатом нечеткого логического вывода по рассмотренной базе правил является числовое значение выходной переменной «степень достоверности новизны термина». В зависимости от полученного значения выполняются те или иные действия.
Методы построения семантических сетей терминосистемы и номенклатуры демонстрируют возможность первичного анализа понятий семантической сети в процессе её создания на основе сравнения их интенсионалов и применения метода поиска по образцу. Для этого выполняется анализ теоретико-множественных отношений между соответствующими компонентами-множествами сравниваемых терминов. Размытый характер мощности множества пересечения этих компонентов обусловил использование нечеткого логического вывода. В работе показан способ введения нечеткости и возможности применения методов нечеткого регулирования.
Кроме этого, методы нечеткого регулирования используются для разрешения конфликтного множества решений, которое иногда может иметь место в различных задачах ЕЯ-обработки научного текста. Данные методы, основанные на использовании систем нечетких продукций, обеспечивают единство подходов в представлении и обработке методов построения онтологий.
Таким образом, в данном разделе разработаны и исследованы декларативные методы построения онтологий:
- показано, что методы естественно-языковой обработки научного текста, являющиеся базой для методов построения онтологий, могут быть представлены в
виде классических систем продукций. Для разрешения возможных конфликтных ситуаций предложено использовать нечеткие продукционные правила;
- разработаны методы построения понятийного базиса онтологии в виде семантических сетей знаков-фреймов, представляющих собой терминосистему;
- предложен метод соединения онтологий с применением аппарата нечеткого регулирования. Метод обеспечивает соединение онтологий, создаваемых из нескольких терминологических словарей путем анализа интенсионалов понятий, позволяя получить объективную терминосистему, а также соединение терминосистемы с номенклатурой, построенной на основе извлечения знаний из научных текстов. Главное достоинство этого метода заключается в том, что он позволяет строить иерархию онтологий по предметной области.
В четвертом разделе рассмотрена предложенная модель генерации систем продукций, которая описывается кортежем: MGSP = <КС, GASP>, где
КС - компонент «Конструктивные знания эксперта», GASP - компонент «Генетический алгоритм».
Компонент «Конструктивные знания эксперта». Каждая система продукций представляет собой модель решения (метод) некоторой прикладной задачи, например, задачи выделения словосочетаний или распознавания некоторого семантического отношения. Генератор (генетический алгоритм) должен настраиваться на прикладную задачу посредством заранее сформированной спецификации её предметной области. Спецификация формируется на основе конструктивных знаний эксперта - знаний о наборах возможных структур объектов и взаимодействии между их частями. Используем упрощенную модель предметной области: MSA = <Tk, Kt>, где 7* -множество понятий; Кк - кортеж, описывающий множество конструктов и их взаимосвязи. В решаемой задаче компонентами кортежа К* являются множество конструктов Ккс, семейство множеств допустимых значений элементов конструктов
множество графов Kkg, определяющих допустимые взаимосвязи конструктов.
Рассмотрим создание модели MSA на примере метода извлечения знаний из терминологических словарей о квалитативном отношении «Целое - часть». Прежде всего определим понятийное множество Тк метода, которое включает следующие понятия: предложение р, композиционное словосочетание (КСС) к, именное субстантивное словосочетание (ИСС).?, семантическое отношение (СемОтношение) г, заголовочный термин г, термин t, лексема /, список q, элемент списка (ЭлСписка) е, глагол v, терм-спутникЯ tr, терм-спутникХ tx, терм-спутникУ ty, признак h, характеристиках, часть речи с. (ЧастьРечи), падеж с2, значение.
В работе введена модель рассуждения эксперта: в каждом методе есть объект исследования; объект исследования содержит некоторые компоненты; компоненты, в свою очередь, могут включать в себя другие компоненты; все компоненты могут иметь характеристики; характеристики являются некоторыми свойствами; свойства имеют некоторые значения, тогда в. зависимости от ситуации, которая определяется значениями характеристик и взаимным расположением компонентов (предпорядком), можно распознать в объекте анализа искомый элемент схемы знака.
В рассматриваемом методе объектом исследования является предложение, а искомым элементом схемы знака - семантическое отношение «Целое-часть». Сформированное множество конструктов Кь как множество отношений Я, имеет вид: Л'*с=№! Rf={(x,y)\ У; ХпУ*0}; (2)
где A", Y- множества понятий, используемых в методе.
Для рассматриваемого метода л= 10. Тогда в общем виде множество Ккс составляют следующие отношения:
Л|={(лу')!х содержит^, 16 {Предложение},.^/!}; •Й2={(.ду)1 х содержит у, хеВ,уеС}', Лз={(ЛУ)| х содержит у, хе {ИСС}, ,уе£>}; Й4={(ду)| х содержит^, хе{СемОтношение},.уе£};
х имеет у, хеР, уе {Характеристика} >; Лб={0у)1 х есть у, хе {Характеристика}, ^еО); /?7={(;у)1 х естьд>, хе {ЭлементСписка},>>е//};
(лг^^! х имеет у, хе1, уе {Значение}}; Л;>={0у)| х имеете, хеЛ.уе {Индекс}}. Лн>={(зу)| х эквивалентен х, хеУ}}.
Каждый метод имеет собственное семейство множеств конструктов Ккс, которое должно быть конкретизировано. Дм конкретизации отношения Я, представлены в виде хКу. Тогда для рассматриваемого метода при Л = {КСС, ИСС, СемОтношение, термин, лексема, список} первое отношение имеет вид:
Л|={<Предложение> содержит <КСС>, <Предпожение> содержит <ИСС>, <Предложеиие> содержит <СемОтношение>, <Предложение> содержит <Гермин>, <Предложение> содержит <Лексема>, <Предложение> содержит <Список>}.
Первые четыре множества конструктов с по Л4 отражают возможную иерархическую структуру понятий предметной области. Пятый конструкт позволяет задать характеристики понятий, если таковые имеются. Для данного метода важны характеристики следующих понятий Т7 = {ИСС, Термин, Лексема, ЭлементСписка, Терм-спутникХ, Терм-спутникУ}. Следующий конструкт уточняет значение характеристики как категории посредством отношения "И-А", С? = {Падеж, ЧастьРечи}. Седьмой конструкт также уточняет значение понятия «Элемент списка» как категории, Н = {ИСС, Термин, Лексема}. Восьмой конструкт необходим для задания конкретных значений характеристикам понятий и некоторым вспомогательным понятиям, / = {Глагол, Терм-спутникК, Терм-спутникХ, Терм-спутникУ, Признак, ЧастьРечи, Падеж}. Для определения местоположения компонентов в предложении используется девятый конструкт, задающий положение основных понятий в предложении посредством индекса. В данном конструкте в качестве левой части используются компоненты множества А. Последний конструкт связан с введением отношения тождества, которое в данном методе необходимо для проверки значений характеристик, /={Падеж, ЧастьРечи, Индекс}.
Таким образом, создается некоторая иерархическая организация, которая хорошо согласуется с теоретическими основаниями когнитивной психологии. Согласно ей при мышлении используются не языковые конструкции как таковые, а их коды в форме некоторых абстракций, которые образуют иерархические структуры.
Пример взаимосвязи конструктов представлен на рис. 3. В корне графа всегда находится объект исследования. Вершины первого уровня графа содержат основные компоненты предложения. Верхние дуги графа в основном помечены глаголом «содержит», что показывает иерархическую вложенность понятий. Листья графа содержат константные значения или индекс. Из анализа существующих продукций, разработанных для данного метода, было выявлено, что первый уровень вершин Уг графа могут составлять множество из одиннадцати альтернативных наборов компонентов: {(к, г, д]^/), (51, г, ф]/), (?, г, (Ф, Ц, Л)}.
Это множество определяет возможные ветки дерева: к,х, г, д, /, г, Л. В работе приведены возможные варианты построения веток метода извлечения знаний об отношении «Целое - часть». Ниже приведены варианты построения ветки к.
Для лучшего понимания приведенного описания веток рассмотрим в ветке branch_к вторую строку - <s(x(c(yalue))), s(z(x(c(value)))),index>. Она соответствует изображению ветки к на рисунке 3. Запись варианта означает, что вершина к распадается на две ветки с вершинами i и ветку с вершиной index, которая является листом. Ветки с вершинами s представляют собой последовательно расположенные вершины, заканчивающиеся листьями с константным значением.
Рис. 3. Пример графовой структуры, отражающей взаимосвязь конструктов метода извлечения знаний о семантическом отношении «Целое - часть»
Итак, каждое продукционное правило может быть представлено в виде дерева. Причем дерево строится на основе конструктов, состоящих из двух вершин и помеченной дуги. Допустимое соединение конструктов задается с помощью описаний веток дерева.
Из этого следует, что спецификация метода включает: множество понятий Тк, используемых в методе; семейство множеств конструктов Ккс, определяющих связь между двумя понятиями; множество графов Kkg в вцце множества альтернативных кортежей, компоненты которых составляют вершины первого уровня графа, и множества возможных вариантов построения веток. Этой информации достаточно для генерации ядер продукционных правил, входящих в систему продукций. В качестве средства описания спецификации метода в работе использован язык XML.
Компонент «Генетический алгоритм GASP». Модель генератора систем продукций построена с применением генетического программирования.
Структура хромосомы имеет вид дерева продукции. Молекула ДНК состоит из динамического числа генов и представляется в виде
<а, ->рь 1с, р2,1с,..., 1с, р„>, где а/5 р(, р2, ..., рт, /с - гены, тах(т)=1; а,, РУ е Ту, Тк - входной алфавит, \Тк\= к; символ '->' обозначает глагол; 1с - логическая связка «И» или «ИЛИ».
Например, если а,= р, р(,= к, р2 = /г, то граф молекулы ДНК будет иметь вид, изображенный на рис. 4. Пара смежных веток, исходящих из одной вершины, связана между собой логической связкой «И» или «ИЛИ». Глагол может иметь отрицание -унарную логическую связку '-V, которая записывается над стрелкой '—
О
содержит ^>>-<^_содержит
Рис. 4. Пример молекулы ДНК
Оценка особи. По каждой разрешенной ветке вычисляется функция Г, по
формуле Дайса: = 2и((71пС:2)/(и(С1)+и(С:2)), где в] - ветка дерева, описанная в спецификации метода; О^ - ветка порожденного дерева. Графы О) и Ог имеют одинаковый корень. Общая формула для №мем-функции Г особи вычисляется как сумма Р, всех разрешенных веток в сгенерированном дереве. В процессе оценивания заполняется таблица помет, в которой по каждой особи отмечается, какой вид генетического оператора рекомендуется использовать для улучшения её свойств.
После оценивания выполняются операторы селекции, скрещивания и мутации с целью улучшения особей популяции. Когда функция оценки совокупности особей достигает единичного значения, данная особь копируется в конечное множество. В данном алгоритме используются классические одно- и двухточечные операторы кроссинговера, мутации вида: ¿1-мутация, /?га«с/г-мутация, /(-мутация.
Оценка достоверности сгенерированных систем продукций. Для первичной оценки достоверности сгенерированной системы продукций использован подход, описанный в работе А.А. Асанова «Генетический алгоритм построения экспертных решающих правил в задаче многокритериальной классификации». Для этого введены коэффициенты абсолютной ошибки Е-^, и относительной ошибки £ГС1, которые вычисляются по формулам:
ЕаЬх(.Ккс> Ккс) = ^ Ккс\ = и Ккс| -|Ккс П Ккс|
Еге1(Ккс'Ккс) = ЕаЬ${Ккс,Ккс)^Ккс\ где Ккс - множество исходных конструктов метода, определенных по формуле (2); Ккс- множество конструктов метода в порожденных продукциях.
Для метода «Распознавание семантического отношения «Целое - часть» число исходных конструктов = 43, количество конструктов в порожденных продукциях: | Ккс |=39. Тогда коэффициент абсолютной ошибки будет равен ЕЛ1(КЬу, К^) - 4. Коэффициент относительной ошибки: Еы(Ккс,Ккс) = 0,09.
В работе введено понятие степени покрытия сс1 множеством порожденных конструктов множества исходных. Для порожденных множеств конструктов она равна ей = Г- А'к) = 0,91. Таким образом, полученное значение степени покрытия сс!
показывает, что достоверность порожденных продукций достаточно высока.
Для окончательной оценки порожденной системы продукций используется объект, внешний для генетического алгоритма - система логического резолютивного вывода LogResDed (Logical Resolutive Deduction). Система LogResDed должна окончательно определить приспособленность совокупности особей к решению поставленной прикладной задачи.
Предложенная модель генератора преобразователя продукционных правил позволяет порождать модели преобразователей, способных отображать продукции, представленные на ограниченном подмножестве естественного языка, в формулы логики предикатов первого порядка, а их, в свою очередь, во множества дизъюнктов.
Анализ результатов вычислительных экспериментов показал, что генетический алгоритм выдает лучший результат при использовании ряда операторов скрещивания 33Simp!e33Arithm34MixGen (рис. 5). Во-первых, применение ряда операторов показало наилучшую сходимость алгоритма. Во-вторых, графики лучшей и средней функций приспособленности особи имеют вид возрастающей функции. При этом среднее значение не становится очень близким и не удаляется сильно от лучшего значения. Все это позволяет утверждать об удовлетворительном качестве популяции. Различие между лучшим и средним значениями Fitness-функции поддерживает разнообразие генетического материала, которое увеличивает вероятность появления особи с лучшими свойствами.
10SimpIe80Anûiml0MCiGen 20SrnpIe4OArithnHOMKGen .ЗЗЗвлркЗЗАгйигММиОеп ,40Sinipb10Arithni20MixGen 4OSmp!e20Ariflmvl0MÎJcGen lOSmpfelOAfithniSOMixOen MSimpfcl OAxithml OMixGen
♦ AverFF_ 1 OSimpteSOArithrn I OMixGen AverFF_20Sinple40AriÛinl40MKGen
* ■ AveiFV_î3Sm^ieï3Artthrzû4MjKGeii
• ■ ■ - AverFF_40Sinç!e40Aiithm20MË<Gen x ■ AverFF__40Simple20Arithm40MffiGen
* - AverFF_10SinpIeI0Arithni80MKGeti
AverFF_80SjmpIe 1 OArithml OMixGen
Рис. 5. Результаты испытаний комбинированного оператора скрещивания
По результатам проведенных трех серий испытаний программного компонента «Генератор модели преобразователя продукционных правил» в генетический алгоритм были включены следующие генетические операторы:
1) ряд операторов селекции: 80% пропорциональной селекции и 20% турнирной селекции (%QRatio20Tourn);
2) ряд операторов скрещивания: 33% хромосом скрещиваются одноточечным кроссинговером, 33% - арифметическим и 34% - с использованием генного смешивания (33Simple33Arithm34MixGen);
3) ряд операторов мутации: 40%-а-Mutation, 40% - р-Mutation, 20% - A-Mutation.
В качестве Fitness-функции была использована модифицированная функция расчета меры близости графов, основанная на коэффициенте Дайса. Для двух графов Ge и Gt мера близости Ft вычисляется по формуле:
Fr=±k,-n(SjnSf)/tkr"(S?), /=1 / .=[
где n(S) - мощность множества вершин 5 графов GE и GT; Е - индекс графа, представляющего входную эталонную продукцию; Т - индекс текущего выходного графа, представляющего преобразованную продукцию; i - индекс вершины; к, -масштабирующий коэффициент соответствующих вершин. Выходной граф Gt создается в результате прогона особей в инструментальной среде UniMod, поддерживающей технологии автоматного программирования. Хромосома представляет собой закодированную модель преобразователя. В среде UniMod разработан метод «Интерпретатор хромосомы в представление среды UniMod». Полученная модель преобразователя может быть запущенна в режиме интерпретации или преобразована в код на языке Java и скомпилированна.
Апробация модели преобразователя осуществлялась на множестве тестовых входных файлов с идентификаторами InPut#.xml. После прогона в UniMod создавался выходной файл OutPutf.xml, содержащий преобразованную продукцию. Каждому тестовому файлу InPut#.xml соответствовал эталонный файл Etalon#.xml, который был использован для расчета Fitness-функции особи.
Надежность алгоритма вычислялась как отношение числа успешных запусков is порожденного преобразователя, при которых решение было найдено, к общему числу запусков к: S = ks /к. Если преобразователь правильно выполнил преобразование, запуск считался успешным. Все 98 исходных формул преобразователь правильно перевел во множество дизъюнктов, то есть kf= 98. Тогда, S= 98/98=1. Это означает, что алгоритм абсолютно надежен для заданной выборки продукций и его надежность составляет 100%.
Таким образом, разработанные генераторы построены с использованием генетического программирования. В генераторах (генетических алгоритмах) использован единый способ представления хромосом популяции в виде деревьев, хотя структуры молекул ДНК хромосом различны. Общим является и то, что в генетических алгоритмах применены ряды однотипных генетических операторов. Единый подход к их подбору заключался в использовании не одного конкретного оператора, а ряда операторов: скрещивание хромосом производилось вероятностным смешивающим, одноточечным и арифметическим кроссинговерами; мутация -операторами or-мутации, /?-мутации и Л-мутации; селекция - операторами пропорциональной и турнирной селекции. Использование ряда генетических операторов во время эволюции позволяют создавать лучшие решения с меньшими вычислительными усилиями.
Следует также отмстить то, что применение технологий генетического и автоматного программирования позволяет значительно ускорить процесс разработки программного обеспечения, так как в этом случае основной упор при программировании делается лишь на программирование методов, реализующих действия автомата.
Особенностью модели генератора является то, что порожденный преобразователь может переводить символы входного алфавита в символы выходного алфавита без явного задания грамматики перевода. При этом символы алфавитов могут иметь сложную синтаксическую конструкцию. Грамматики перевода определяются неявно
посредством задания исходных объектов, описанных в символах входного алфавита, и эталонных объектов, описанных в символах выходного алфавита. Достижению такой универсальности генетического алгоритма в рамках класса задач преобразования с неявно заданной грамматикой способствовали направленный поиск и специфические генетические операторы, представляющие собой ряд типовых по выполняемому действию генетических операторов.
Пятый раздел посвящен описанию предложенной автоматной модели аппарата активации, необходимой для апробации сгенерированных методов естественноязыковой обработки научного текста. Принципиально аппарат активации построен как модуль управления продукционными знаниями.
Модуль управления разработан в среде Eclipse по технологии автоматного программирования, обеспечивающей широкие возможности модификации и совершенствования автоматных моделей с минимальным объемом прямого программирования. Для поддержки автоматного программирования в СПбГУ ИТМО создана инструментальная система Unimod с открытым исходным кодом, которая содержит набор инструментов, позволяющих проектировать и реализовывать программы по SWITCH-технологии. Система Unimod реализована на языке Java в виде плагина к среде разработки Eclipse. Программа, написанная с помощью Unimod и соответствующая концепции автоматного программирования, содержит схему связей, состоящую, как и в SWITCH-технологии, из источников событий, системы управления и объектов управления. Источник событий информирует систему управления о завершении выполнения действий в некотором состоянии. К выходным воздействиям автомата относятся выходные переменные и события, к входным - переменные, необходимые для вычисления условия перехода. Далее производится проверка переменной события и осуществляется соответствующий переход. Таким образом, объект управления инкапсулирует описание выходных воздействий и условий перехода. Автоматная модель модуля управления (рис. 6), построена в соответствии с её принципиальной схемой, приведенной в работе. В данной модели, осуществляется либо безусловный переход из одного состояния в другое, либо переход по возникновению событий (табл. 2). Модель автомата состоит из четырех групповых и одного нормального состояний:
1) SeíActiveProdSystem - предназначено для выбора продукционного правила и баз фактов, формирования множества Г, включающего множество {Г2,...,Г\} баз фактов, используемых методом для логического вывода, Г] - множество дизъюнктов текущего правила;
2) SelectlnSituationSet - предназначено для формирования и выгрузки в рабочую память множества дизъюнктов входных ситуаций d0;
3) SelDisjunctAndResolution - обеспечивает логический вывод для текущего правила на всех дизъюнктах входной ситуации и всех входных ситуациях;
4) SolvaíionOfConJlictSet - предназначено для определения системы разрешения конфликтного множества, передачи ей управления и подготовки необходимой информации;
5) FuzzyLogic - простое состояние, предназначенное для вызова системы нечеткого логического вывода.
Групповое состояние SeíActiveProdSystem. Оно включает три состояния. В состоянии Input выполняются следующие выходные воздействия (действия):
]) о2.г1 - ввод информации в буфер о порядке выполняемых методов, объектах их анализа и идентификаторах файлов 1прМеМ1п/.хт1, содержащих информацию о методе из файла Соттоп1пА.ШНой5.хт1\
2) о2.г2 - определение текущего метода, подлежащего выполнению, поиск идентификатора файла 1прМеЛШп/.хт!, чтение файла и запись считанной информации в новый буфер. Если выполнены все методы, то переход по событию еЮО на конечное состояние автомата АсНуаНопМасМпе, иначе переход в состояние хе1Рас/зВа$е.
В состоянии 5е1Рас1$Вахе в соответствии со списком баз фактов, содержащимся в слоте ЬШйШюпагу файла СоттопЫАЛе1койш.хт1, выполняется действие о2.гЗ - выбор и запись в рабочую память фактов словарей в виде множеств дизъюнктов Г2, ..., Г*. В состоянии $е1Ргос15у8 выполняется действие о2.г4 - выбор активной системы продукций по аббревиатуре метода, которая задается в атрибуте £1юП_пате тега пате файла Соттоп1г{[Ме1Ъос1$.хт1. Подсистема продукций уточняется по сфере применения, которая задается в том же теге в атрибуте шеАгеа. Сформированное множество дизъюнктов Г[ дописывается в рабочую память.
SetActiveProdSystem •
frp* "] „ ( sclFartsEase ) , f sdProdSys
.enter/gZ.zl, c2.z2
„erter /с2.гЗ
e6[£4.x5l«l]
С
Seleclhtstuattais«
e![o3.
enter h3.zl ,
.enter/о3.г2, оЗ.гЗ
ScfectDiijijnctAncKasolLJtion.
I e2[c 4, xl «=«=!]
venter М.гЭ
IKonflict, f.¡¿Executed ^ „ fsstfewStuatlorj f searchMethPflP V f exsojtton
je4fb4.x3!=Ij
enter foj z6 J Renter /о4.г5 J [eriterJcA,24 J Renter jp4.?lQ J yentei /o4.zi 1
enter /о4.г7, о4.г8
e2foIxlj-lL
e3[o4.x2—1]
eS[o4 .хЗ==1&&04. x4!=1]
e3^o4.x2l=l]
s6[o4.x5==l]
enter /о4.г1, o4.z£, o4.z3_.
SolvaticmOfConfiictSet;
f sclvator ; ' геЕрясРтскйуз' • fa гт2л Situation1 • actwètiûn
.enter/з?.г! ,enter/oS.z2 .enter/оЗ.гЗ .enter Jo5,z4 ,
a7[oS.X[!=l] •
.enter fct.zl
Рис. б. Модель автомата модуля управления
Групповое состояние БеЫсМпЗНиаПоп.Ча. Оно включает два состояния. В первом состоянии гесиЮМаМеШ выполняется действие оЗ.г! - считывание
информации об объекте анализа выполняемого метода из XML-файла InpMethUInf.xml. При достижении конца файла генерируется событие el[o3.xl=l], и осуществляется переход в состояние Input группового состояния SetActiveProdSystem. Если конец файла не достигнут, то генерируется событие еЦоЗ.х!!=!], и выполняется переход в состояние sellnSituatlonSel. Этому состоянию соответствуют следующие действия: o3.z2 - выбор множества входных ситуаций d0; оЗ.гЗ - запись множества входных ситуаций в буфер. За одно обращение к состоянию в рабочую память загружается множество входных ситуаций.
В основном все переходы между состояниями групповых состояний SelectlnSituationSet и SetActiveProdSystem носят безусловный характер. По окончании работы группового состояния SetActiveProdSystem управление передается в состояние readDataMeth, а группового состояния SelectlnSituationSet — в состояние selNewRule автомата SelDisjunctAndResolution.
Таблица 2. Пометки переходов модели автомата ActivationMachine
Пометки переходов Пояснение
elfo3.xl!=l] Не достигнут конец файла 1прМеШ#1п/хт1
el fo3.xI ==I ] Достигнут конец файла ¡прМе№1п/хт1
e2[o4.xl!=l] Резолюция выполнена не для всех входных ситуаций
e2[o4.xl=l] Резолюция выполнена для всех входных ситуаций
e3[o4,x2!=l] Условие применимости правила ложно
e3[o4.x2=l] Условие применимости правила истинно
е4[о4.хЗ!=1] Резолюция выполнена не для всех дизъюнктов текущей входной ситуации
е4[о4.хЗ=П Резолюция выполнена для всех дизъюнктов текущей входной ситуации
e5[o4.x4!=l] Не для всех дизъюнктов входной ситуации получен пустой дизъюнкт
e5jo4.x4=l"| Для всех дизъюнктов текущей входной ситуации получен пустой дизъюнкт
e6[o4.x5!=lJ Конфликтное множество пустое и получен корректный результат
еб(о4.х5—1] Конфликтное множество не пустое
e7[o5.xl!=l] Средством разрешения конфликтного множества является классическая система продукций
e7[o5.xl=l] Средством разрешения конфликтного множества является нечеткая система продукций
Групповое состояние 8е1Ъ'щипс1АпйК.е$о1ийоп. Оно включает восемь состояний. В состоянии зеШем>Яи1е реализуются следующие выходные воздействия:
1) o4.zl - выборка нового правила из активной системы продукций;
2)o4.z2- чтение файла InpMethiïlnf.xml, выборка из тегов paramscondition значений параметров условия применимости С;
3) o4.z3 - вычисление условия применимости С правила. Если Citrus, то генерируется событие еЗ[о4.х2=1], и осуществляется, переход в состояние selNewSituation, в противном случае — выполнение выходных воздействий o4.zl и o4.z2, и вычисление условия применимости (петля при генерации события еЗ[о4.х2!=1]>.
В состоянии selNewSituation осуществляется действие o4.z4 - выбор новой ситуации из множества ситуаций, находящихся в рабочей памяти. В состоянии isExecuted проверяется, все ли возможные ситуации доказаны для текущего правила (действие o4.z5). Если это истинно, то управление передается в состояние ifConflict (событие e2[o4.xl==l]), если нет (событие e[o4.xl!=l] ), то в состояние selNewDis, В состоянии selNewDis выбирается новый дизъюнкт из текущей ситуации, и если не все
дизъюнкты перебраны, то генерируется событие е4[о4.хЗ!=1], и происходит переход в состояние Resolution. В этом состоянии осуществляется вызов системы линейного резолютивного вывода DedLogRes (действие o4.z9), которая осуществляет линейный резолютивный вывод. Переходы между состояниями selNewDis и Resolution выполняются до тех пор, пока не будут доказаны все дизъюнкты текущей ситуации (при генерации события е4[о4.хЗ!=1]). Если на всех дизъюнктах одной ситуации получен пустой дизъюнкт, то гипотеза, заложенная в текущем правиле и текущей входной ситуации, доказана. Таким образом, действие o4.z7 заключается в подсчете к, для которых получен пустой дизъюнкт, и его сравнении с числом дизъюнктов в текущей входной ситуации. Если они совпали, то генерируется событие е5[о4.хЗ=1 && о4.х4=1], и осуществляется переход в состояние searchMethPAP, иначе генерируется событие е5[о4.хЗ=1 && о4.х4!=1], и осуществляется переход в состояние selNewSituation. Если пустой дизъюнкт получен для нескольких входных ситуаций, то формируется конфликтное множество (выходное воздействие o4.z8). В состоянии searchMethPAP осуществляется поиск метода, указанного в постдсйствии Н текущего продукционного правила (действие o4.zl 0). В состоянии execution осуществляются вызов и выполнение найденного метода - действие o4.zll. Затем осуществляется переход в состояние selNewRule.
В состоянии ifConßict проверяется конфликтное множество (действие o4.z6). Если оно непустое, то генерируется событие е6[о4.х5=1], и управление передается групповому состоянию SolvationOfConflictSet. Если конфликтное множество пустое, то генерируется событие е6[о4.х5!=1], и выполняется переход в состояние readDataMeth группового состояния ConstructlnSituationSet.
Групповое состояние SolvationOfConflictSet. Оно включает четыре состояния. В состоянии solvator происходит определение средства разрешения конфликтного множества (действие o5.zl). В качестве средства разрешения может быть применена либо классическая система продукций, либо нечеткая система продукций, и, соответственно, должен выполняться либо логический резолютивный вывод (состояние selNewRule группового состояния SelDisjunctAndResolution), либо нечеткий логический вывод (состояние fuzzyLogic). После определения одного из вышеназванных средств осуществляется переход в состояние selSpecProdSys. В нем осуществляется поиск специальной системы продукций (классической или нечеткой), предназначенной для разрешения данного конфликтного множества (действие o5.z3). Затем выполняется безусловный переход в состояние formlnSituation, в котором осуществляется формирование входной ситуации (действие o5.z2). Далее осуществляется безусловный переход в состояние activation. В нем специальная система продукций и входные ситуации помещаются в рабочую память, и если сгенерировано событие e7[o5.xl=l] управление передается в состояние selNewSituation группового состояния SelDisjunctAndResolution, иначе по событию e7[o5.xl !=1] управление передается в состояние fuzzyLogic.
В состоянии fuzzyLogic осуществляется вызов системы нечеткого логического вывода FiizzyRegulator. Из этого состояния управление передается снова в состояние readDataMeth группового состояния ConstructlnSituationSet на цикл обработки следующего или нового объекта анализа.
Таким образом, в модели наряду с классическим логическим выводом реализован нечеткий логический вывод, так как задачам естественно-языковой обработки научного текста свойственна нечеткость. Для повышения эффективности поиска решения при разработке системы резолютивного логического вывода использованы технологии генетического и автоматного программирования. Для каждого метода в
процессе эволюции строится собственная модель автомата, настроенная на множество дизъюнктов данного метода. Таким образом, система логического вывода, состоящая из множества конечных автоматов, модели которых построены на основе эволюций, а реализация - по технологии автоматного программирования, обладает действительно эффективными алгоритмами поиска решения.
Заключение по работе содержит перечень научных и практических результатов, полученных при решении поставленной в работе проблемы.
В приложениях приведены: прототипы базовых знаков-фреймов; примеры словарных статей терминосистемы и номенклатуры в формате XML; примеры систем продукций методов естественно-языковой обработки научного текста; пример XML-описания спецификации методов морфологического анализа, извлечения знаний о семантическом отношении «Часть-Целое»; результаты испытаний программного компонента «Генератор продукционных правил ProdGem (пятая серия); множества конструктов методов естественно-языковой обработки текстов; примеры конфигурационного файла ConfigTask.xml и XML-документов Input.xml и Etalon.xml; результаты испытаний программного компонента «Генератор модели преобразователя продукционных правил FSTPSGen» (третья серия); результаты испытаний автоматной модели системы резолютивного логического вывода (первая серия); акты об использовании результатов диссертационного исследования.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ
В диссертационном исследовании решена научная проблема разработки теоретических основ создания моделей и методов для автоматического построения онтологий, которая позволяет, в свою очередь, решить техническую проблему, связанную с проектированием и разработкой технологии создания методов для автоматического построения онтологий. Основные научные и практические результаты работы состоят в следующем:
1. Разработан и исследован категориальный аппарат онтологии, являющийся основой ее концептуализации и способствующий категориальному анализу предметной области по разрабатываемой онтологии.
2. Разработаны и исследованы декларативные методы построения онтологий в виде систем продукций, которые отличаются высокой степенью общности их обработки.
3. Разработана и исследована модель генератора систем продукций на основе генетического программирования.
4. Разработана и исследована модель преобразования продукционных правил на основе генетического программирования.
5. Разработана и исследована модель аппарата активации продукций, предназначенная для управления продукционными знаниями и отличающаяся использованием сочетания классического и нечеткого логического вывода.
Итак, в работе для решения задач естественно-языковой обработки научных текстов и построения онтологий выбраны декларативные методы в виде систем продукций, являющихся наиболее распространенным методом представления знаний в системах, основанных на знаниях. Продукционные правила обеспечивают естественный способ описания процессов в сложной изменяющейся внешней среде. В программах традиционного типа схема передачи управления предопределена в самой программе, а ветвление происходит только в заранее выбранных точках. Для интеллектуальных задач, где ветвление скорее норма, чем исключение, этот способ малоэффективен. В таких задачах правила дают возможность на каждом шаге решения
оценить ситуацию и предпринять соответствующие действия. Применение продукционных правил обеспечивает следующие преимущества: простоту и высокое быстродействие, модульность, удобство модификации, ясность, прозрачность, возможность постепенного наращивания, высокую степень общности правил обработки данных.
Генерация моделей решения, основанная на использовании технологии генетического программирования, осуществляется во всех случаях, где уместно и оправдано её применение. Подход формализации и представления конструктивных знаний эксперта о методе решения задачи позволяет автоматически генерировать системы продукций. Для генерации моделей автоматов и преобразователей эволюционные вычисления используются давно, поэтому они применены для этих же целей в работе. Однако трудоемкость построения автоматов с требуемыми свойствами остается достаточно высокой. Указанная проблема решается за счет учета специфики автоматов, другими словами, за счет учета специфики той прикладной задачи, которую решает автомат, для описания которой используется XML-описание предметной области прикладной задачи. В работе язык XML используется как средство внутренней и внешней коммуникации программных систем.
Реализация моделей решения выполнена на основе применения автоматного программирования, что значительно повышает степень автоматизации процесса кодирования с целью получения корректного кода программ и существенно упрощает процесс модификации программы по сравнению с традиционным программированием.
Таким образом, в работе технологии генетического и автоматного программирования используются совместно в случаях, если возможно представить решение в виде модели автомата или преобразователя. Так, эти технологии применены при решении задач линейного резолютивного вывода, преобразования продукционных правил из естественно-языкового представления в формулы предикатов первого порядка, предикатов во множество дизъюнктов. Технологии генетического программирования требуются при создании только моделей решения задачи, например, при генерации систем продукций. Если модель известна, и необходимо разработать программное обеспечение, то следует применять чистые технологии автоматного программирования, например, как при создании аппарата активации продукций или процедуры постдействия продукций.
Реализация решения задач естественно-языковой обработки научного текста с применением технологий генетического и автоматного программирования позволила создать технологию решения задач построения онтологий с почти полной автоматической обработкой, что делает полученные в диссертационном исследовании результаты значимыми для теории и практики.
СПИСОК ОСНОВНЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ:
а) статьи в изданиях, рекомендованных перечнем ВАК РФ
1. Найханова, J1.B. Технология решения задач естественно-языковой обработки монологического текста на основе использования генетического и автоматного программирования [Текст] / Л.В. Найханова // Научно-технические ведомости СПбГПУ. Информатика. Телекоммуникации. Управление: науч. журн. - СПб.: Изд-во СПГПУ. - 2008. -№2.-С. 67-74.
2. Найханова, Л.В. Применение методов нечеткого регулировании в соединении онтологий предметной области [Текст] / Л.В. Найханова // Программные продукты и системы: междунар. журн. - Тверь: НИИ ЦПС. - 2008. - №2. - С. 41-44.
3. Найханова, Л.В. Основные типы семантических отношений между терминами предметной области [Текст] / Л.В. Найханова // Известия высших учебных заведений.
Поволжский регион. Технические науки: науч.-практ. журн. - Пенза: Информационно-издательский центр ПензГУ. - 2008. - № 1. - С. 62-71.
4. Найханова, Л.В. Технология генетического программирования для генерации конечных преобразователей [Текст] / Л.В. Найханова // Системы управления и информационные технологии: науч.-техн. журн. - М.; Воронеж: Научная книга - 2007. -№4.1 (30).-С. 174-178.
5. Найханова, Л.В. Методика построения конечного преобразователя продукционных правил [Текст] / Л.В. Найханова, Н.Б. Хаптахаева // Системы управления и информационные технологии: науч.-техн. журн. - М.; Воронеж: Научная книга. - 2008. - Вып. 1(31). - С. 83-88.
6. Найханова, Л.В. Применение генетического программирования при построении автоматной модели резолютивного вывода [Текст] / Л.В. Найханова, Г.А. Хомонов // Вестн. СибГАУ им. акад. М.Ф. Решетнева. - Красноярск: Изд-во СибГАУ, 2008. - Вып. 2(19). -С.78-82.
7. Найханова, Л.В. Технология интеграции генератора модели конечного преобразователя с инструментальной средой UniMod [Текст] / Л.В. Найханова, Г.А. Хомонов // Системы управления и информационные технологии: науч.-техн. журн,- М.; Воронеж: Научная книга -2008. - Вып. 1(31). — С. 88-92.
8. Найханова, Л.В. Построение семантической сети предметной области на основе извлечения знаний из научного текста [Текст] / Л.В. Найханова, Н.Б. Хаптахаева, H.H. Аюшеева // Известия высших учебных заведений. Поволжский регион. Технические науки: науч.-практ. журн. - Пенза: Информационно-издательский центр ПензГУ. - 2007. - №4.-С. 51-61.
9. Найханова, Л.В. Генерация множества ядер продукционных правил в задаче автоматического построения библиотеки декларативных методов [Текст] / Л.В. Найханова // Информационные технологии. - М.: Новые технологии. - 2008. - №10. - С. 37-42.
б) монографии
10. Найханова, Л.В. Получение знаний для формирования информационных образовательных ресурсов [Текст] / А.Н.Тихонов, А.Д.Иванников, В.П.Кулагин, Л.В.Найханова и др. - М.: Изд-во «Московская типография №2», 2008. - 440 с.
11. Найханова, Л.В. Технология создания методов автоматического построения онтологий с применением генетического и автоматного программирования: монография [Текст] / Л.В. Найханова. - Улан-Удэ: Изд-во БНЦ СО РАН, 2008. - 244 с.
12. Найханова, Л.В. Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы: монография [Текст] / Л.В. Найханова, И.С. Евдокимова - Улан-Удэ: Изд-во ВСГТУ, 2004. - 148 с.
13. Найханова, Л.В. Методы и алгоритмы принятия решений в управлении учебным процессом в условиях неопределенности: монография [Текст] / Л.В. Найханова, C.B. Дамбаева. - Улан-Удэ: Изд-во ВСГТУ, 2004. - 164 с.
в) статьи, опубликованные в научных и технических изданиях
14. Найханова, Л.В. Генерация модели автоматического конечного преобразователя на основе генетического программирования [Текст] / Л.В. Найханова // Информационные технологии моделирования и управления: науч.-техн. журн. - Воронеж: Научная книга -2007. - Вып. 9(43). - С. 1046-1054.
15. Найханова, Л.В. Построение семантической сети научного текста на основе аппарата расширенных семантических сетей. [Текст] / Л.В. Найханова // Вестн. ВСГТУ: науч. журн. -Улан-Удэ: Изд-во ВСГТУ. - 2008. -№ 1. - С. 6-12.
16. Найханова, Л.В. Механизм сопряжения генетического алгоритма с инструментальной системой UniMod [Текст] / Л.В. Найханова, Г.А. Хомонов // Информационные технологии моделирования и управления: науч.-техн. журн. - Воронеж: Научная книга - 2008. -Вып. 1(44).-С. 86-91.
17. Найханова, Л.В. Способ построения онтологической модели предметной области на основе ситуационного моделирования [Текст] / Л.В. Найханова // Вестн. ВСГТУ: науч. журн. - Улан-Удэ: Изд-во ВСГТУ. - 2007. -К» 4. -С. 17-27.
18. Найханова, Л.В. Основные аспекты обработки поискового запроса на основе онтологического подхода [Текст] / Л.В. Найханова H.H. Аюшеева // Вестн. ВСГТУ: науч. журн. - Улан-Удэ: Изд-во ВСГТУ. - 2007. - № 4. - С. 59-67.
19. Найханова, Л.В. Подход к моделированию тестовых заданий с открытыми по форме вопросами [Текст] / Л.В. Найханова, С.Д. Данилова, С.А. Базарон // Вестн. ВСГТУ: науч. журн. - Улан-Удэ: Изд-во ВСГТУ. - 2007. - № 4. - С. 68-72.
20. Найханова, Л.В. Разработка конечного преобразователя продукционных правил на основе автоматного программирования [Текст] / Л.В. Найханова, Н.Б. Хаптахаева // Информационные технологии моделирования и управления: науч.-техн. журнал. - Воронеж: Научная книга, 2007. - Вып. 9(43).- С. 1082-1090.
21. Найханова, Л.В. Основные аспекты построения онтологий верхнего уровня и предметной области [Текст] / Л.В. Найханова // Интернет-порталы: содержание и технологии: сб. науч. ст.; вып. 3 / редкол.: А.Н. Тихонов (пред.) [и др.]; ФГУ ГНИИ ИТТ «Информика». -М.: Просвещение, 2005. -С.452-479.
22. Найханова, Л.В. Формирование библиотеки методов анализа научных текстов в виде систем продукций [Текст] / Л.В. Найханова, Н.Б. Хаптахаева // Открытое и дистанционное образование. - Томск: Изд-во ИДО ТГУ. -2005. - №4(20). - С. 13-24.
23. Найханова, Л.В. Модель решателя для интеллектуальных систем, применяемых в сфере образовательной деятельности [Текст] / Л.В. Найханова, Д.В. Трофимов // Сб. науч. ст. Серия: Технические науки. - Улан-Удэ: Изд-во ВСГТУ, 1994. - Вып.1. - С. 205-210.
24. Найханова, Л.В. Описание базы знаний экспертной системы формирования учебного плана специальности [Текст] / Л.В. Найханова, C.B. Дамбаева, С.Д. Данилова // Сб. науч. ст. Серия: Технические науки. - Улан-Удэ: Изд-во ВСГТУ, 1994. - Вып. 1. - С. 199-205.
25. Найханова, Л.В. Функциональная структура процедур распознавания вопросов и ответов экспертной системы контроля [Текст] / Л.В. Найханова, Л.П. Бильгаева // Сб. науч. ст. Серия: Технические науки. - Улан-Удэ: Изд-во ВСГТУ, 1994. - Вып.1. - С. 205-210.
г) свидетельства об официальной регистрации программ для ЭВМ
26. Свидетельство об официальной регистрации программы для ЭВМ № 2008623271. «Генератор базового множества ядер продукционных правил для формирования библиотеки методов естественно-языковой обработки данных» / Л.В. Найханова, К.Ю. Васильцов. - М.: Федеральная служба по интеллектуальной собственности, патентам и товарным знакам. -2008.
27. Свидетельство об официальной регистрации программы для ЭВМ № 2008613501. «Эволюционный генератор конечных автоматов для задач резолютивного вывода» / Л.В. Найханова, Г.А. Хомонов. - М.: Федеральная служба по интеллектуальной собственности, патентам и товарным знакам. - 2008.
28. Свидетельство об официальной регистрации программы для ЭВМ № 2008614247. «Генератор модели конечного преобразователя продукционных правил» / Л.В. Найханова, Н.Б. Хаптахаева, Б.М. Хандажапов, Н.Г. Кравцов, В.В. Дармахеев. - М.: Федеральная служба по интеллектуальной собственности, патентам и товарным знакам. - 2008.
29. Свидетельство об официальной регистрации программы для ЭВМ № 2005612976. «Интеллектуальная информационная система нечеткого логического вывода» / Л.В. Найханова, С.Д. Данилова, С.С. Хомосов. - М.: Федеральная служба по интеллектуальной собственности, патентам и товарным знакам. - 2005.
30. Свидетельство об официальной регистрации программы для ЭВМ №2004612383. «Программный комплекс по трансляции естественно-языковых запросов к базе данных в SQL-запросы» / Л.В. Найханова, И.С. Евдокимова. - М.: Всероссийское агентство по патентам и товарным знакам, 2004.
32. Свидетельство об официатьной регистрации программы для ЭВМ № 2004612385. «Комплекс программ «Индексирование полнотекстовых документов и кластеризация релевантных поисковому запросу документов»» / Л.В. Найханова, H.H. Аюшеева, A.B. Шаманаев. -М.: Всероссийское агентство по патентам и товарным знакам, 2004.
32. Свидетельство об официальной регистрации программы для ЭВМ N 2004612384. «Программный комплекс по автоматизации формирования учебного плана специальности/ направления вуза» / Л.В. Найханова, C.B. Дамбаева, С.С. Хомосов. - М.: Всероссийское агентство по патентам и товарным знакам, 2004.
г) материалы конференций
33. Найханова, Л.В. Применение генетического и автоматного программирования в решении задач естественно-языковой обработки монологического текста [Текст] / Л.В. Найханова//Управление созданием и развитием систем, сетей и устройств телекоммуникаций: Труды науч.-практ. конф. - СПб.: НОД «Перспектива», 2008. - С. 292-309.
34. Найханова, JI.B. Разрешение конфликтного множества графов зависимостей синтаксического анализатора на основе нейронной сети [Текст] / Л.В. Найханова, U.C. Евдокимова // Теоретические и прикладные вопросы современных информационных технологий: материалы всерос.науч.-тех.конф.- Улан-Удэ: Изд-во ВСГТУ, 2008. - С. 140-145.
35. Найханова, Л.В. Конструкция знака концептуальных объектов и способ построения термикосистемы [Текст] I Л.В. Найханова // The Second Conference on Cognitive Science: материалы II Междунар. конф. по когн. науке. - СПб, 2006. - С. 592-593.
36. Найханова, Л.В. Интерпретационная модель лингвистического транслятора [Текст] / Л.В. Найханова, И.С. Евдокимова // Теоретические и прикладные вопросы современных информационных технологий: материалы всерос. науч.-техн. конф. - Улан-Удэ: Изд-во ВСГТУ, 2007.-С. 173-180.
37. Найханова, Л.В. Средства формализации методов естественно-языковой обработки информации [Текст] / Л.В. Найханова // Информационные системы и модели в научных исследованиях, промышленности и экологии: докл. всерос. науч.-техн. конф. -Тула: Изд-во ТулГУ, 2007. - С. 67-68.
38. Найханова, Л.В. Поиск по смыслу в текстовой информации на основе онтологического подхода [Текст] / Л.В. Найханова, H.H. Аюшеева // Теоретические и прикладные вопросы современных информационных технологий: материалы всерос. науч,-тех. конф. - Улан-Удэ: Изд-во ВСГТУ, 2007,- С. 164-172.
39. Найханова, Л.В. Технология автоматического реферирования текста [Текст] / Л.В. Найханова, C.B. Машанова // Информационные системы и модели в научных исследованиях, промышленности и экологии:докл.всерос.науч.-техн.конф.-Тула'Изд-воТулГУ, 2007.-С.69-70.
40. Найханова, Л.В. Основные аспекты понимания текста на естественном языке [Текст] / Л.В. Найханова // Теоретические и прикладные вопросы современных информационных технологий: материалы всерос науч.-техн.конф. - Улан-Удэ Изд-во ВСГТУ 2006. - С. 126-130.
41. Найханова, Л.В. Выделение словосочетаний для индексирования полнотекстовых документов [Текст] / Л.В. Найханова, H.H. Аюшеева, A.B. Шаманаев // Единая образовательная информационная среда: Проблемы и пути развития: материалы всерос. науч,-практ. конф .-выставки. - Омск: Изд-во ОмГУ, 2004. - С. 283-285.
42. Найханова, Л.В. Методологические основы отраслевой поисковой системы [Текст] / Л.В. Найханова, H.H. Аюшеева, И.С. Евдокимова // Российская школа и Интернет: сб. тр. всерос. науч.-практ. конф. - СПб: Изд-во ФИО, 2002. - С. 23.
43. Найханова, Л.В. Метод разбора структуры внутренних групп сложных предложений ЕЯ-текста [Текст] / Л.В. Найханова, И.С. Евдокимова, В.А. Лубсанов il Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и СИИ: материалы междунар. науч.-техн. конф. - Вологда: ВоГТУ, 2001. - С. 273-275.
Подписано в печать 04.02.2009 г. Формат бумаги 60x84 1/16. Усл.печ. л. 1,86. Тираж 100 экз. Заказ № 23.
Издательство ВСГТУ, г.Улан-Удэ, ул.Ключевская 40в, строение 1
Оглавление автор диссертации — доктора технических наук Найханова, Лариса Владимировна
Часть
Введение.
1 Обзор технологий, методов и средств автоматического создания онтологий.
1.1 Основные понятия и определения.
1.2 Основные задачи, решаемые с помощью онтологии.
1.3 Методики построения онтологии.
1.3.1 Модель «Аристотеля».
1.3.2 Стандарт онтологического исследования IDEF5.
1.3.3 Методология METHONTOLOGY.
1.3.4 Методология Build Domain Ontologies.
1.3.5 Способы конгломерации онтологий.
1.3.5.1 Интеграция онтологий.
1.3.5.2 Соединение онтологий.
1.3.5.3 Конгломерация онтологий в процессе их создания.
1.4 Анализ методов и средств создания онтологий.
1.5 Обзор методов автоматического построения онтологий.
1.5.1 Построение онтологий в автоматическом и полуавтомашческом режимах.
1.5.2 Автоматическое решение локальных задач построения онтологии.
1.5.3 Анализ методов и средств, предназначенных для построения онтологий в автоматическом режиме.
1.6 Обзор и анализ методов и средств технологий генетического и автоматного программирования.
1.6.1 Обзор методов генерации моделей решения.
1.6.2 Обзор методов генерации автоматов на основе генетических алгоритмов.
1.7 Выводы по разделу и описание проблемы.
1.7.1 Выводы по разделу.
1.7.2 Описание проблемы.
2 Концептуализация знаний онтологий.
2.1 Конструкция знаков.
2.1.1 Простая схема представления знака.
2.1.2 Треугольник Фреге.
2.1.3 Квадрат Д.А. Поспелова.
2.1.4 Пятиугольник С.Е. Никитиной.
2.1.5 Единая интерпретация метапонятий И. Дальберг.
2.1.6 Конструкция термина как знака.
2.2 Структуры словарных статей.
2.2.1 Структура словарной статьи «Понятие».
2.2.2 Структура словарной статьи «Действие».
2.2.3 Структуры словарных статей «Состояние» и «Событие».
2.2.4 Структуры словарных статей «Свойства» и «Величины».
2.3 Модель представления знаний онтологии.
2.3.1 Знак —фрейм.
2.3.2 Базовые фреймы-прототипы.
2.4 Ситуационный подход в решении задач естественно-языковой обработки монологического текста.
2.5 Типизация семантических отношений.
2.5.1 Концептуальные отношения.
2.5.1.1 Квалитативные отношения.
2.5.1.2 Квантитативные отношения.
2.5.2 Типы предикатов и семантические отношения.104,
2.6 Выводы по разделу.
3 Методы построения онтологий на основе продукционной модели знаний.
3.1 Обобщенная схема естественно-языковой обработки монологического текста.
3.2 Традиционные методы естественно-языковой обработки монологического текста.
3.2.1 Морфологический анализ.
3.2.2 Выделение устойчивых словосочетаний.
3.2.3 Синтаксический пофразный анализ.
3.3 Специальные методы построения онтологий.
3.3.1 Построение терминосистемы предметной области.
3.3.1.1 Терминологические словари как источники знаний.
3.3.1.2 Построение семантической сети знаков-фреймов как модели представления терминосистемы.
3.3.2 Построение номенклатуры предметной области.
3.3.3 Соединение онтологий.
3.4 Выводы по разделу.
4 Модели генерации систем продукций и моделей преобразователей продукционных правил-.;.'.
4.1 Конструктивные знания эксперта и формирование спецификации предметной области прикладной задачи.
4.1.1 Конструктивные знания. 4.1.Г. 1 Понятия и конструкты.
4.1.1.2 Взаимосвязь конструктов. . 4.1.1.3 Пример конструктов и их взаимосвязей;.
4.1.2 ХМЬ-описание спецификации метода.
4.1.2.1 Определение структуры ХМЬ-докумснта и грамматики описания данных.
4.Г.2.2 Пример ХМЬ-документа.:.„.190^
4.2 Генетическое программирование в решении задачи генерации.ядер продукционных'правил.
4.2. Г. Основные положения генетического,алгоритма;.:.
4.2.2 Генетический алгоритм.генерации ядер продукционных правил.
4.2.3 Оценка достоверности; сгенерированных систем продукций;.„ 199 ■
4;2.4 Окончательная оценка совокупности особей.!.200<;
4.3 Преобразование продукционных правил. 4.3 . Г Обобщенная схема генерации модели автоматического » :: преобразователя:.1.
4.3.2 Интерфейс пользователя ОепХЛ.
4.3.3 Генетический, алгоритм генерации модели преобразователя.21:
4.33.1 Основные положения генетического алгоритма.
4.3.3.2 Генетические операторы.
4.3.4 Оценка надежности генетического алгоритма для преобразования продукционных правил.
4.3.5 Модель сопряжения 1Т.
4.4 Выводы по разделу.220 ■
5 Модель аппарата активации, как модуля управления продукционными знаниями;.;.
5.ГОпределение механизма активации систем продукций.;.'.„ 223\
5.2 Автоматная модель аппарата активации систем продукций.
5.2.1 Спецификация автомата.
5.2.1.1 Внутреннее представление ядра продукционных правил.
5.2.1.2 Описание данных автомата.2285.2.2 Модель автомата модуля управления.^.
5.2.3 Модель системы резолютивного вывода.
5.2.3.1 Основные положения генетического алгоритма.
5.2.3.2 Генетический алгоритм.
5.2.3.3 Конечный автомат системы резолютивного вывода.
5.2.4 Нечеткий логический вывод.
5.2.4.1 Нечеткие продукции.
5.2.4.2 Методы нечеткого вывода.
5.2.4.3 Этапы нечеткого логического вывода.
5.2.4.4 Основные алгоритмы логического вывода.
5.2.4.5 Система нечеткого логического вывода.
5.3 Выводы по главе.
Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Найханова, Лариса Владимировна
Актуальность исследования. Понятие онтологии, заимствованное из философии (введено немецким философом Л. воскшив в 15-И 6 веках), в настоящее время активно применяется в искусственном интеллекте и информатике. Все больше интеллектуальных задач, решение которых связано с обработкой знаний, решаются с применением онтологий [28, 40, 41, 44, 50, 55, 75, 80, 138 и др.]. По всей вероятности в недалекой перспективе онтологии будут использоваться при решении очень многих интеллектуальных задач.
Самым распространенным определением онтологии на данный период является определение Т.Я. ОгиЬег [202], согласно которому онтология является точной спецификацией концептуализации. С этой точки зрения для каждой из баз данных или баз знаний, или систем, основанных на знаниях, или агентов знаний должны быть построены спецификации, основанные на некоторой концептуализации. Множества объектов и отношений между ними должны быть описаны в некотором словаре, в котором система, основанная на знаниях, представляет свои знания. Таким образом, считается, что ядро онтологии составляют множества представленных в ней терминов [126].
М. изсЬоМ [271] также полагает, что онтология является спецификацией концептуализации, но только в той ее части, которая зависит от определенной^ области интересов. Независимо от вида онтологии в нее необходимо включить словарь терминов и некоторые спецификации их значений, что позволяет ограничивать возможные интерпретации терминов и отражать взаимодействие понятий, включенных в структуру данной области. Необходимо заметить, что при таком подходе понятие онтологии сильно пересекается с уже давно принятым в информатике и лингвистике понятием тезауруса [81, 89, 105, 106].
Н. Такес1а [265] ставит онтологии в центр проблемы организации знаний, так как в каждой области могут существовать различные понимания одних и тех же терминов. В этом случае онтология используется для структурирования информации, являясь посредником между человеко- и машинно-ориентированным уровнем представления информации. Здесь онтология определяется как соглашение о некоторой области интересов для достижения определенных целей. Для установления соглашения о знаниях, представленных на некотором языке, в частности, на логическом языке, по мнению N. Guarino [205], онтология должна характеризовать концептуализацию, ограничивая возможные значения предикатов и функций. В этом понимании онтология - это логическая теория, аксиомы которой ограничивают интерпретации нелогических символов языка.
К первым средствам создания онтологий относятся системы Ontolingua [186, 187], Protégé [240], OntoEdit [262], OilEd [164], Web-Deso [130] и другие. Система Ontolingua создана в Стенфордском университете и стала первой средой разработки онтологий. Она состоит из сервера и языка представления знаний и предназначена для коллективного использования системы базовых знаний при разработке собственных онтологий. Она предоставляет разработчику библиотеку модулей, на основе которой осуществляется расширение онтологий. Система Protégé разработана группой медицинской информатики Стенфордского университета и представляет собой локальную Java-программу, обеспечивающую построение онтологий предметной области. Система OntoEdit разработана в институте AIFB университета Karlsruhe и предназначена для проектирования, приспособления и импорта/экспорта моделей знаний в форматах RDF, DAML+OIL, Flogic для или из прикладных систем. Система OntoEdit также является автономной Java-программой. Редактор онтологий OilEd, разработанный в Манчестерском университете, в большей степени используется для проверки разработанных онтологий на согласованность, чем для создания онтологий. Созданная в Санкт-Петербургском институте информатики и автоматизации РАН система интеграции знаний Web-Deso предназначена для создания онтологий некоторой предметной области, которые соединяются в одну результирующую онтологию предметной области и помещаются в библиотеку вместе с источниками знаний. Такая же операция выполняется для онтологий задач. Сформированные в библиотеке онтологии интегрируются в онтологию-приложение, которая тоже хранится в библиотеке и обеспечивает поддержку многократного доступа к представленным знаниям. В работах [81, 130] приведены сравнительные оценки перечисленных средств с точки зрения их внешней и внутренней организации.
К настоящему времени на основе этих и других систем созданы различные онтологии, многие из которых размещены в сети Интернет. Например, поисковой системой SWOOGLE [264] проиндексировано свыше 10 тысяч онтологий и словарей, доступных в Веб. В России к наиболее известным и качественным онтологиям относятся лингвистическая онтология по естественным наукам и технологиям (предназначена для информационного поиска) [40], многоуровневая онтология химии [5], онтология по медицинской диагностике [55] и другие.
Переход от экспериментальных лабораторных исследований по созданию качественных онтологий к использованию их в решении прикладных задач реального мира мог бы происходить значительно быстрее, если бы существовала возможность построения таких онтологий в автоматическом режиме. На наш взгляд, автоматическое построение онтологий необходимо выполнять при условии, заключающемся в том, что источники знаний должны быть качественными и заранее выбранными.
Естественно, что любая научная дисциплина постепенно вырабатывает свои основные положения, понятия и средства их наименования. Результатом их анализа, состоящем в выявлении терминологии, её упорядочении, доведении до уровня, делающего эту терминологию доступной для освоения людьми, желающими приобрести соответствующие профессиональные знания [68], являются терминологические и/или толковые словари, которые и должны быть источниками знаний при формировании ядра онтологии. А извлечение знаний из научных текстов позволит расширить ядро онтологии.
Таким образом, необходимо разработать методы, которые позволили бы в автоматическом режиме извлекать знания из научных текстов. Но прежде чем разрабатывать такие методы, необходимо решить, как представить извлеченные знания. Это означает, что, в первую очередь, необходимо определиться с категориальным аппаратом онтологии. Чем точнее структура онтологии, тем проще её формировать и понимать. Поэтому методы построения онтологии нужно строить такие, которые будут необходимы для распознавания в тексте того или иного компонента категориального аппарата онтологии.
В основе данных методов лежит естественно-языковая обработка научного текста, которая, как известно, находится в настоящее время в состоянии совершенствования и пока далека от завершения [18, 77]. Этот факт приводит к выводу о том, что методы построения онтологий должны иметь декларативное представление, значительно легче модифицируемое, чем процедурное. Лингвисты
51] утверждают, что единицы текста (предложение, лексема, морфема и т.д.) создают ситуационный контекст, который отражает форму и содержание текста, если его единицами является предложение; предложения, если его единицами являются лексемы; лексемы, если ее единицами являются морфемы. По мнению A.A. Залевской, ситуационный подход, акцентирует внимание на том, что для пользующегося языком человека значение слова реализуется через включение его в некоторую более объемную единицу - пропозицию. А это значит, что анализ языковых ситуаций в научном тексте лучше всего выполнять с помощью продукционных правил, ядром которых и будет являться пропозиция.
Кроме того, применение продукционных правил позволит обеспечить следующие преимущества методов построения онтологий: простоту и высокое быстродействие; модульность - каждое правило описывает небольшой, относительно независимый блок знаний; удобство модификации - старые правила можно изменять и заменять на новые достаточно независимо от других правил; прозрачность - использование правил облегчает реализацию способности системы к объяснению принятых решений и полученных результатов; возможность постепенного наращивания - добавление правил в базу знаний происходит независимо от других правил.
Создание продукционных правил, формируемых экспертом, является очень трудоемкой работой, порождающей возникновение другой проблемы, связанной с тем, что при ее выполнении можно так углубиться в решение, что достичь окончательного результата будет практически невозможно. Трудоемкость работы экспертов заключается в том, что им достаточно трудно сформулировать правила, которыми они пользуются при решении задач, поскольку экспертное знание в большинстве случаев является подсознательным. Именно подсознательный характер экспертного знания вызывает трудности при построении систем, основанных на знаниях, а извлечение экспертных знаний считается «узким местом» искусственного интеллекта [8, 242].
Решением обозначенной выше проблемы является автоматическое формирование правил решения задачи. При этом необходимо основываться на конструктивных знаниях эксперта. Тогда можно сформировать библиотеку декларативных методов, обладающую свойствами долговечности и масштабируемости. В работах A.A. Асанова и О.И Ларичева [8, 64] для выявления экспертных решающих правил в базах знаний использована методология эволюционного моделирования. Предложенный A.A. Асановым генетический алгоритм позволяет восстановить решающие правила, которые подсознательно или осознанно использовались экспертом при решении задач классификации. Хотя в данной работе решалась задача генерации не продукционных правил и при этом задавалось исходное множество правил, тем не менее, результаты этой работы косвенно подтверждают такую возможность.
В связи с тем, что конструктивные знания эксперта могут быть выражены на естественном языке, то и продукционные правила должны генерироваться на этом языке. Поэтому существует необходимость их перевода на формальный язык. Кроме того, декларативные методы всегда требуют некоторой системы вывода, которая обеспечивала бы обработку правил.
В настоящее время все большее развитие получают технологии генетического и автоматного программирования [31, 37, 116, 141, 143-156, 224, 227, 229, 232, 243, 249], которые могут использоваться как по отдельности, так и в симбиозе. В том случае, когда они используются в симбиозе, обычно с помощью генетического программирования генерируется модель решения задачи в виде модели автомата, а технологии автоматного программирования позволяют по сгенерированной модели построить автомат. При этом ручной труд, используемый при создании программного обеспечения, минимален.
Таким образом, существует техническая проблема, заключающаяся в разработке технологии создания методов автоматического построения онтологий, позволяющей сформировать библиотеку методов, которую достаточно просто развивать и совершенствовать. Решение данной проблемы позволит в автоматическом режиме извлекать знания о терминах и отношениях между ними из терминологических словарей и научных текстов, что, в свою очередь, повысит эффективность построения онтологии.
Научная проблема заключается в необходимости разработки теоретических основ для решения выявленной технической проблемы. Разработка теоретических основ состоит в создании моделей и методов, необходимых для автоматического построения онтологий.
Работы А.Е. Ермакова, И.А. Минакова, Е.А. Рабчевского, S.Lynn и D.W. Embley, J.Völker, D.Vrandecic и Y.Sure, М. Sabou и других исследователей в области автоматического построения онтологий частично решают научную проблему. Однако в работе А.Е. Ермакова термины предметной области и связи между ними первоначально автоматически выявляются при помощи методов статистического и синтаксического анализа коллекции текстов. Для автоматического поиска связей используются шаблоны синтаксических конструкций. Построение онтологии осуществляется вручную. Настоящая работа более близка к работе А.Е. Ермакова, так как методы построения онтологий основываются на естественно-языковой обработке научного текста, в которую включены наряду с другими методами методы статистического и синтаксического анализа, а продукционные правила ориентированы на анализ синтаксических и семантических конструкций предложения. Существенным отличием настоящей работы является разработка специальных методов автоматического построения онтологий, которые совместно с традиционными методами естественно-языковой обработки научного текста обеспечивают более полную автоматизацию процесса построения онтологий.
Объект исследований - естественно-языковая обработка научных текстов для построения онтологий.
Предмет исследований — методы и модели автоматического построения онтологий.
Целью работы является разработка и исследование методов и моделей автоматического построения онтологий, позволяющих ускорить процесс создания онтологий и повысить их качество.
Для достижения поставленной цели в работе решаются следующие задачи:
1. Обзор и анализ существующих решений в области автоматического построения онтологий.
2. Разработка категориального аппарата, как результата концептуализации знаний онтологий, на основе исследования языка научного текста и семиотического моделирования.
3. Разработка декларативных методов построения онтологий с использованием продукционной модели знаний.
4. Разработка и исследование модели генерации систем продукций на основе генетического программирования.
5. Разработка и исследование модели генерации преобразователя продукционных правил с применением генетического и автоматного программирования.
6. Разработка и исследование модели аппарата активации, как модуля управления продукционными знаниями, с применением генетического и автоматного программирования.
7. Апробация разработанных моделей и методов.
Основная идея диссертации. В основе автоматического построения онтологий находится естественно-языковая обработка научного текста, в большей мере связанная с методами извлечения и представления знаний. Однако такие методы невозможно построить без понимания того, какими именно знаниями необходимо оперировать. В связи с этим необходимо заранее решить, какой подход будет использован при концептуализации онтологии. Концептуализация, обеспечивая структурирование предметных знаний в рамках эксплицитной модели, предопределяет задачу построения категориального аппарата онтологии. При решении данной задачи выполняется классификация понятий и отношений между ними, которая чётко определяет семантику компонентов онтологии и возможные диагностические семантические конструкции, позволяющие в итоге извлечь знания из предложений научного текста. Компоненты онтологии и семантические конструкции, в свою очередь, оказывают значительное влияиие не только на содержание методов извлечения и представления знаний, но и на принципы их построения.
Анализ трудов в области естественно-языковой обработки научного текста выявил существенное преобладание использования различных правил при решении задач в данной области. Этот факт и декларативный характер представления методов автоматического построения онтологий обуславливают применение систем продукций в качестве модели представления знаний о методе. Вместе с тем, продукционный подход имеет одно отрицательное качество, связанное с тем, что в истории использования продукций при решении интеллектуальных задач они всегда создавались экспертами. Однако известен, по крайней мере, один случай, когда правила создавались на основе генерации методами эволюционных вычислений. В связи с этим при решении задачи разработки методов построения онтологий необходимо исследовать вопросы генерации продукционных правил на основе применения технологий генетического программирования.
Такой подход к созданию систем продукций как методов автоматического построения онтологий обуславливает решение задач, связанных с преобразованием продукционных правил в формальный вид и последующим определением их корректности. Достаточно распространенное применение симбиоза технологий генетического и автоматного программирования для создания систем со сложным поведением при решении широкого спектра задач определяет направление исследований, связанное с разработкой моделей преобразователя и аппарата активации продукций.
Таким образом, для создания методов автоматического построения онтологий необходимо разработать модель генерации систем продукций на основе применения генетического программирования, модель генерации преобразователей на основе генетического и автоматного программирования, модель генерации систем логического вывода на основе генетического и автоматного программирования и модель аппарата активации продукций на основе применения автоматного программирования. Аппарат активации может быть использован как для проверки систем продукций на корректность, так и для функционирования в реальном режиме. Предложенная технология обеспечит наиболее доступное совершенствование разработанных методов и моделей, что очень важно для новых направлений исследований, к которым относятся и исследования, связанные с созданием онтологии.
Методы исследований. Методологической и теоретической основой выполненного исследования послужили положения теории искусственного интеллекта, логики предикатов первого порядка, нечеткой логики, семиотического и ситуационного моделирования, генетического программирования, формальных грамматик и автоматов, математической лингвистики.
Для исследования понятий и отношений использованы методы анализа естественно-языковых текстов, рассмотренные в работах N. Chomsky, I. Dalberg, W. Humboldt, Ch. Fillmore, R. Schank, Н.Д. Арутюновой, C.E. Никитиной, Ю.С.
Степанова, В.А. Тузова и других. Построение методов извлечения и представления знаний базировалось на трудах М. Minsky, Т.А. Гавриловой, Е.П. Куршева, Г.С. Осипова, Д.А. Поспелова, В.Ф. Хорошевского и других. Для представления терминосистемы, являющейся ядром онтологии, использована фреймовая модель. Моделирование понятий и отношений в виде сети знаков-фреймов базируется на применении аппарата семиотического моделирования как одного из наиболее приемлемых для символьной системы моделирования. Теория семиотического моделирования, предложенная Д.А. Поспеловым и его учениками, позволяет наилучшим образом представить комплекс понятий через их связь между собой. В качестве методов построения системы продукций использована теория предикатов первого порядка. Для логического вывода на ядрах четких продукций применяется эвристический метод линейной резолюции Д.Лавленда, Р.Ковальского и Д. Кюнера; логический нечеткий вывод на ядрах нечетких продукций - метод нечеткого регулирования A.Kaufmann, Е. Mamdani, L.A. Zadeh. Создание методов построения онтологии базировались на трудах И.Л. Артемьевой, Т.А. Гавриловой, Б.В. Доброва, А.Е. Ермакова, Ю.А. Загорулько, A.C. Клещева, Н.В. Лукашевич, A.C. Нариньяни, В.Ш. Рубашкина, A.B. Смирнова, В.Ф. Хорошевского, T.R. Gruber, N. Guarino, J.F. Sowa, M. Uschold, B.J. Wielinga и многих других. Построение модели генератора систем продукций основывалось на трудах М.Л. Кричевского, В.М. Курейчика, Л.Д. Гладкова, A.A. Шалыто, J. Holland, D. Goldberg, J. Koza, M. A. Lankhorst, S.M. Lucas. В основе построения модели преобразователя находятся труды A.A. Шалыто, М. А. Lankhorst, S.M. Lucas, А. Naidoo и других.
Научная новизна. Научная новизна работы заключается в развитии теоретических основ проектирования и разработки технологии создания методов автоматического построения онтологий с применением генетического и автоматного программирования, что позволило автоматизировать процесс создания программного обеспечения.
Данное утверждение формируется из следующих положений.
1. Новизна разработанных методов создания онтологий в виде классических и нечетких продукционных баз знаний заключается в развитии методов извлечения знаний о терминах и семантических отношений между ними, построения семантической сети знаков-фреймов, соединения онтологий, которое состоит в уточнении представления ядра продукционного правила за счет использования простой ядерной конструкции языка ситуационного моделирования, в структуризации компонентов простой ядерной конструкции, что позволило выделить динамическую часть, содержание которой зависит от конкретного метода, и статическую часть - одинаковую для всех методов. Такой способ построения методов обеспечивает возможность их автоматической генерации. Кроме того, продукционные модели знаний обладают простотой, модульностью, возможностью постепенного наращивания и модификации.
2. Новизна предложенной модели генерации продукционных баз знаний заключается в том, что в ней с одной стороны, продукционные правила как любые выражения представляются в виде деревьев. С другой стороны, конструктивные знания эксперта, выявленные на основе анализа научного текста и разработанных систем продукций, формализованы в виде конструкций, состоящих из отдельных конструктов, также представляются в виде деревьев. Это определило структуру хромосомы и РНпезз-функцию, что позволило применить технологию генетического программирования для генерации продукционных правил. Разработанный генетический алгоритм обладает свойством универсальности по отношению к методу, настраиваясь на него на основе построенной спецификации, описывающей конкретный метод посредством конструктивных знаний эксперта.
3. Новизна предложенной модели генерации преобразователя продукционных правил состоит в том, что она позволяет порождать модели конечных преобразователей, способных отображать классические и нечеткие продукции, представленные на ограниченном подмножестве естественного языка, в формулы логики предикатов первого порядка, а их, в свою очередь, во множества дизъюнктов. Особенностью данной модели генератора является то, что порожденный преобразователь может переводить символы входного алфавита в символы выходного алфавита без явного задания грамматики перевода. При этом символы алфавитов могут иметь сложную синтаксическую конструкцию. Грамматики перевода определяются неявно посредством задания исходных объектов, описанных в символах входного алфавита, и эталонных объектов, описанных в символах выходного алфавита. Достижению такой универсальности генетического алгоритма в рамках класса задач преобразования с неявно заданной грамматикой способствовали направленный поиск и симбиоз генетических операторов, типовых по выполняемому действию. Кроме того, для получения кода конечных преобразователей применены технологии автоматного программирования.
4. Новизна разработанной автоматной модели аппарата активации, как модуля управления продукционными знаниями, состоит в том, что следование единообразию представления методов в виде классических и нечетких продукций определило необходимость реализации нечеткого логического вывода на основе применения методов нечеткого регулирования, которые хорошо вписались в предложенную технологию. Задачам естественно-языковой обработки научного текста свойственна нечеткость, поэтому в модели наряду с классическим логическим выводом реализован и нечеткий логический вывод. Это позволяет разрешать конфликтные ситуации, возникающие при использовании классического логического вывода, а также решать задачи в условиях неопределенности. Реализация аппарата активации выполнена на основе применения технологий генетического и автоматного программирования.
Значение для теории. Разработанные модели и методы построения* онтологий составляют теоретическую основу для разработки технологий автоматизированного решения различных задач, для которых в качестве моделей 1 решения можно использовать продукционные базы знаний. Кроме этого, появилась возможность дальнейшего их развития с точки зрения объективизации категориального аппарата, уточнения множества типов предикатов, типов семантических отношений и исследования их свойств, необходимых для анализа онтологий.
Значение для практики. Разработка онтологий по предложенной технологии позволит облегчить процесс их создания, повысить доверие к хранилищам знаний и информации, снизить издержки на разработку программного обеспечения, обеспечить дальнейшее развитие информационных и интеллектуальных технологий. Кроме того, результаты, полученные в работе, окажут положительное влияние на реализацию возможности интеграции частных онтологий в систему знаний, поскольку в настоящее время средств, позволяющих создать полную систему знаний («модель мира»), не существует.
Достоверность полученных результатов. Достоверность выводов работы определяется использованием теоретических и методологических положений ведущих специалистов в области инженерии знаний М. Minsky, Д.А. Поспелова, Г.С. Осипова, В.Ф. Хорошевского, Э.В. Попова, Т.А. Гавриловой, А.С. Нариньяни; в области классического логического вывода В.Н. Вагина, J.R. Slagle, D. Kuehner, D. W. Loveland, R. Kowalski; в области нечеткой логики L.A. Zadeh, E. Mamdani; в области разработки онтологий T.R. Gruber, N. Guarino, A. Gangeni, G. Steve, D.M. Pisanelli, А.Е.Ермакова, Ю.А. Загорулько, H.B. Лукашевич; в области исследований генетического и автоматного программирования М.Л. Кричевского, В.М. Курейчика, Л.Д. Гладкова, А.А. Шалыто, J. Holland, D. Goldberg, J. Koza, M. A. Lankhorst, S.M. Lucas, A. Naidoo; в области исследований языка науки Ю.Д. Апресяна, Н.Д. Арутюновой, Л.А. Беловольской, А.А. Залевской, С.Е. Никитиной, Ю.С. Степанова, I. Dalberg и др., корректным использованием математического аппарата, вычислительными экспериментами предложенных моделей и методов.
Личный вклад автора. Все основные результаты диссертации получепы лично автором.
Рекомендации по использовании результатов диссертации. Результаты работы могут быть использованы при разработке программных средств технологии автоматического построения онтологий.
Апробация результатов диссертации. Основные положения и результаты диссертационной работы докладывались и обсуждались на Всероссийской научно-практической конференции «Управление созданием и развитием систем, сетей и устройств телекоммуникаций» (г.Санкт-Петербург, 2008 г.); Всероссийской научно-технической конференции «Информационные системы и модели в научных исследованиях, промышленности и экологии» (г.Тула, 2007 г.); Второй Международной конференции по когнитивной науке «The Second Conference on Cognitive Science» (г.Санкт-Петербург, 2006 г.); Международной научной конференции «Information Technologies and Telecommunications in Education and Science (IT@I ES'2005)» (г.Москва, 2005 г.); Общероссийском постоянно действующем семинаре «Интернет-порталы. Содержание и технологии» (г.Москва,
2005 г.), девятой Всероссийской научно-пракггической конференции «Проблемы информатизации региона» (г.Красноярск, 2005 г.); Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (г.Улан-Удэ, 2000-2008 гг.); Всероссийской научно-технической конференции «Проблемы качества, безопасности и диагностики в условиях информационного общества» (г.Сочи, 2004 г.); Всероссийской научно-практической конференции-выставке «Единая образовательная информационная среда: Проблемы и пути развития» (г.Омск, 2004 г.); Всероссийской научно-практической конференции «Российская школа и Интернет» (г. Санкт-Петербург, 2002 г.); Международной научно-технической конференции «Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и СИИ» (г.Вологда, 2001 г.); Третьей Международной выставке-конференции «Информационные технологии и телекоммуникации в образовании» (г.Москва, 2001 г.); Международном семинаре «Искусственный интеллект в образовании» (г.Казань, 1996 г.) и на ежегодных конференциях преподавателей, сотрудников и аспирантов ВСГТУ.
Кроме того, результаты исследования вошли в материалы отчетов по госбюджетным научно-исследовательским работам «Теоретические и прикладные вопросы разработки интегрированных интеллектуальных информационных систем» (ГР № 01.200.205060; Инв. № 02.200305099, 2002 г.), «Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в БС^Ь-запросы» (ГР № 01.200.205060; Инв. № 0320.0501291, 2004 г.), «Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов» (ГР № 01.200.205060; Инв. №0320.0603814, 2005 г.) и «Исследование проблем моделирования знаний и разработка методологии создания онтологий со встроенной семантикой и прагматикой» (ГР №01.2006.10552; Инв. №03200802713, 2007 г.), научно-исследовательской работы по теме: «Разработка генератора автоматов, основанного на использовании генетических алгоритмов», шифр «2007-4-1.4-1801-037» (ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы», ГК № 02.514.11.4047 от 18.05.2007 г.).
Публикации. По теме диссертации опубликовано 80 работ, из них: 4 -монографии; 9 - статьи в изданиях по списку ВАК; 12 - статьи в сборниках; 48 -работы, опубликованные в материалах всесоюзных, всероссийских и международных конференций и симпозиумов. Автором получены 7 свидетельств об официальной регистрации программ для ЭВМ, разработанных в рамках тематики работы.
Результаты исследования были использованы при выполнении госбюджетных НИР «Теоретические и прикладные вопросы разработки интегрированных интеллектуальных информационных систем», НИР «Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в БСД,-запросы», НИР «Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов», НИР «Исследование проблем моделирования знаний и разработка методологии создания онтологий со встроенной семантикой и прагматикой», НИР «Исследование проблем организационного управления в вузе и разработка методов их решений с использованием онтологий», научно-исследовательских работ по единому заказ-наряду.
Основные результаты работы получены в рамках научно-исследовательских работ по теме: «Разработка генератора автоматов, основанного на использовании генетических алгоритмов», шифр' «2007-4-1.4-18-01-037», выполняемой по Государственному контракту № 02.514.11.4047 от 18 мая 2007 года в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы» по лоту «№ 12 - Разработки в области языков программирования и моделирования программного обеспечения, технологий и инструментальных средств проектирования программ».
Общая характеристика диссертации. Диссертация состоит из введения, 5 разделов, заключения, списка использованных источников, содержащего 280 наименований, 10 приложений. Основная часть работы содержит 288 страниц, включая 34 рисунка, 14 таблиц.
Заключение диссертация на тему "Методы и модели автоматического построения онтологий на основе генетического и автоматного программирования"
5.3 Выводы по главе
Модель аппарата активации, рассмотренная в работе, необходима для апробации сгенерированных методов естественно-языковой обработки научного текста. Принципиально аппарат активации построен как модуль управления продукционными знаниями, особенностью которого является то, что в-его состав* входят как классический, так и нечеткий логический выводы. Следование единой* линии представления методов обеспечило описание нечетких моделей решения с помощью продукционных систем. Это обусловило применение методов нечеткого регулирования, которые хорошо согласуются с принципами предложенной а технологии. Нечеткие модели решения применяются в случаях, когда с помощью классических продукций сложно решить проблему, обладающую свойством неопределенности. В большинстве методов, описанных классическими продукциями, они используются для разрешения конфликтных ситуаций.
Модуль управления реализован с применением автоматного программирования, которое предоставляет широкие возможности по модификации и совершенствованию автоматных моделей с минимальным объемом прямого программирования. Ядром модуля является система резолютивного логического вывода, которая, как правило, обладает эффективными алгоритмами поиска решений, что обусловило применение в работе эволюционной стратегии для обеспечения эффективной эвристики. Для каждого метода в процессе эволюции строится собственная модель автомата, настроенная на множество дизъюнктов данного метода. Таким образом, система логического вывода, состоящая из множества конечных автоматов, модели которых построены на основе эволюций, а реализация — по технологии автоматного программирования, обладает эффективными алгоритмами поиска решений.
Итак, в модели наряду с классическим логическим выводом реализован нечеткий логический вывод, так как задачам естественно-языковой обработки научного текста свойственна нечеткость. Кроме того, следование политике единообразия представления методов в виде классических и нечетких продукций определило необходимость реализации нечеткого логического вывода на основе применения методов нечеткого регулирования, которые хорошо вписываются в предложенную технологию.
Заключение
В диссертационном исследовании решена научная проблема разработки теоретических основ создания моделей и методов для автоматического построения онтологий, которая позволяет, в свою очередь, решить техническую проблему, связанную с проектированием и разработкой технологии создания методов для автоматического построения онтологий.
Основные научные и практические результаты работы состоят в следующем:
1. Разработан и исследован категориальный аппарат онтологии, являющийся основой ее концептуализации и способствующий категориальному анализу предметной области по разрабатываемой онтологии. При этом на основе анализа логико-философских и лингвистических работ, работ по семиотике и информатике:
- определены шесть категорий понятий на основе глобальных классификаций объектов И. Дальберг и соглашения, принятого в искусственном интеллекте; построены схемы знаков для выявленных категорий понятий на основе семиотического моделирования. Разработанные схемы знаков в отличие от существующих знаков понятий обладают лучшей структурированностью, что способствует более точному описанию понятий и отношений между ними и, как следствие, лучшему их пониманию людьми и машинами;
- построена иерархия семантических отношений на основе глобальных классификаций отношений И. Дальберг, позволяющая значительно упростить процесс анализа онтологии;
- разработана структура словарных статей тезауруса на основе построенных схем знаков глобальных объектов, что позволило определить состав и структуру слотов знака-протофрейма, образующие фундамент модели представления онтологии в виде семантической сети знаков-фреймов. Это обеспечивает возможность представления активной семантики и прагматики понятия;
- определены типы предикатов как ядер продукционных правил на основе выявленных категорий семантических отношений. Продукционные правила образуют системы продукций, являющиеся декларативными методами построения онтологий.
2. Разработаны и исследованы декларативные методы построения онтологий в виде систем продукций, которые отличаются высокой степенью общности их обработки:
- показано, что методы естественно-языковой обработки научного текста, являющиеся базой для методов построения онтологий, могут быть представлены в виде классических систем продукций. Для разрешения возможных конфликтных ситуаций предложено использовать нечеткие продукционные правила;
- разработаны методы построения понятийного базиса онтологии в виде семантических сетей знаков-фреймов, представляющих собой терминосистему и строящихся на основе извлечения знаний из качественных терминологических словарей;
- предложен метод соединения онтологий с применением аппарата нечеткого регулирования. Метод обеспечивает соединение онтологий, создаваемых из нескольких терминологических словарей путем анализа интенсионалов понятий, позволяя получить объективную терминосистему. Метод осуществляет соединение терминосистемы с номенклатурой, построенной на основе извлечения знаний из научных и учебных изданий и представляющей собой проекцию терминосистемы на некоторую конкретную подобласть знаний предметной области или на некоторую задачу, которая описывается в научной статье по данной предметной области. Главное достоинство этого метода заключается в том, что он позволяет строить иерархию онтологий по предметной области.
3. Разработана и исследована модель генератора систем продукций на основе генетического программирования:
- построены конструкты на основе анализа разработанных систем продукций, определены способы их представления в виде дерева, приняты схемы формального описания деревьев для формирования спецификации метода на языке XML. Приведение конструктов, также как и продукций, к графовому представлению позволяет придерживаться единого подхода их представления, который создает основу для операций оценки, скрещивания и мутации;
- предложен направленный поиск решения, основанный на знаниях конструктов, который позволяет ускорить получение результата, что подтверждается вычислительными экспериментами.
4. Разработана и исследована модель преобразования продукционных правил на основе генетического программирования. Модель позволяет порождать модели преобразователей продукций на ограниченном подмножестве естественного языка в формулы логики предикатов первого порядка, предикатных формул во множества дизъюнктов. Особенность модели генератора заключается в способности перевода символов входного алфавита в символы выходного без явного задания грамматики перевода; символы могут иметь достаточно сложную синтаксическую конструкцию. Разработанный генетический алгоритм является универсальным за счет настройки на спецификацию задачи, которая используется как для направленного поиска, так и симбиоза типовых по выполняемому действию генетических операторов. Алгоритм обладает высокой надежностью и достаточной скоростью вычислений, что подтверждается вычислительными экспериментами.
5. Разработана и исследована модель аппарата активации продукций, предназначенная для управления продукционными знаниями и отличающаяся использованием сочетания классического и нечеткого логического вывода: построена система резолютивного логического вывода на основе применения генетического и автоматного программирования, представляющая собой множество автоматов. Генерация конечного автомата для каждого метода приводит к тому, что каждый автомат настроен на конкретную выборку дизъюнктов, что обеспечивает высокую эффективность поиска решения; разработана система нечеткого логического вывода на основе применения методов нечеткого регулирования, в связи с тем, что нечеткие модели решения представлены системами нечетких продукций с целью поддержки единой линии представления методов.
Итак, в работе для решения задач естественно-языковой обработки научных текстов и построения онтологий выбраны декларативные методы в виде систем продукций, являющихся наиболее распространенным методом представления знаний в системах, основанных на знаниях. Продукционные правила обеспечивают естественный способ описания процессов в сложной изменяющейся внешней среде. В программах традиционного типа схема передачи управления предопределена в самой программе, а ветвление происходит только в заранее выбранных точках. Для интеллектуальных задач, где ветвление скорее норма, чем исключение, этот способ малоэффективен. В таких задачах правила дают возможность на каждом шаге решения оценить ситуацию и предпринять соответствующие действия. Применение продукционных правил обеспечивает следующие преимущества: простоту и высокое быстродействие, модульность, удобство модификации, ясность, прозрачность, возможность постепенного наращивания, высокую степень общности правил обработки данных.
Генерация моделей решения, основанная на использовании технологии генетического программирования, осуществляется во всех случаях, где уместно и оправдано её применение. Подход формализации и представления конструктивных знаний эксперта о методе решения задачи позволяет автоматически генерировать системы продукций. Для генерации моделей автоматов и преобразователей эволюционные вычисления используются давно, поэтому они использованы для этих же целей в работе. Однако трудоемкость построения автоматов с требуемыми свойствами остается достаточно высокой. Указанная проблема решается за счет учета специфики автоматов, другими словами, за счет учета специфики той прикладной задачи, которую решает автомат, для описания которой используется XML-описание предметной области прикладной задачи. В работе язык XML используется как средство внутренней и внешней коммуникации программных систем.
Реализация моделей решения выполнена на основе применения автоматного программирования, что значительно повышает степень автоматизации процесса кодирования с целью получения корректного кода программ и существенно упрощает процесс модификации программы по сравнению с традиционным программированием.
Таким образом, в работе технологии генетического и автоматного программирования используются совместно в случаях, если возможно представить решение в виде модели автомата или преобразователя. Так, эти технологии применены при решении задач линейного резолютивного вывода, преобразования продукционных правил из естественно-языкового представления в формулы предикатов первого порядка, предикатов во множество дизъюнктов. Технологии генетического программирования требуются при создании только моделей решения задачи, например, при генерации систем продукций. Если модель известна, и необходимо разработать программное обеспечение, то следует применять чистые технологии автоматного программирования, например, как при создании аппарата активации продукции или процедуры постдействия продукций.
Реализация решения задач естественно-языковой обработки научного текста с применением технологий генетического и автоматного программирования позволила создать технологию решения задач построения онтологий с почти полной автоматической обработкой, что делает полученные в диссертационном исследовании результаты значимыми для теории и практики.
Библиография Найханова, Лариса Владимировна, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Айдукевич, К. Язык и смысл Текст. / К. Айдукевич; пер. с нем. Б. Домбровского // Философия и логика Львовско-Варшавской школы. М.: Российская политическая энциклопедия, 1999. - С. 309-348.
2. Андреев, В.В. Конструктор онтологий мультиагентных систем Электронный ресурс. / В.В. Андреев [и др.]. Электрон, текстовые дан. - Самара: MagentA Corporation,Pic., [2001]. - Режим доступа: http://www.kg.ru/Publish/artic31.htm.
3. Апресян, Ю.Д. Лингвистический процессор для сложных информационных систем Текст. / Ю.Д. Апресян. М.: Наука, 1992. - 498 с.
4. Артемьева, И.Л. Многоуровневая онтология химии Текст. / И.Л. Артемьева, Н.В. Рештаненко, В.А. Цветников // Знания онтологии - теории: тр. Всерос. конф. - Новосибирск: Ин-т математики, 2007. - Т.1. - С. 138-146.
5. Арутюнова, Н.Д. Язык цели Текст. / Н.Д. Арутюнова // Логический анализ языка: модели действия. М.: Наука, 1992. - С. 14-30.
6. Асаи, К. Прикладные нечеткие системы Текст. / К. Асаи [и др.]; под ред. Т. Тэрано. М.: Мир, 1993. - 344 с.
7. Асанов, A.A. Генетический алгоритм построения экспертных решающих правил в задаче многокритериальной классификации Элекгронный ресурс. / A.A. Асанов // Исследовано в России. Режим доступа: http://zhurnal.ape.relarn.ru/articles/2002/155.pdf.
8. Ахманова, О.С. Словарь лингвистических терминов Текст. / О.С. Ахманова. М.: Советская энциклопедия, 1969. - 490 с.
9. Аюшеева, H.H. Исследование и разработка моделей и методов' поиска информационных образовательных ресурсов в электронной библиотеке Текст.: автореф. дис. . канд. техн. наук: защищена 21.01.2005: утв. 10.06.2005 / H.H. Аюшеева. Улан-Удэ, 2005. - 16 с.
10. Багудина, Е. Г. Экономический словарь Текст. / Е.Г. Багудина [и др.]; отв. ред. А.И. Архипов. М.: Изд-во Проспект, 2005. - 624 с.
11. Бахмутова, И.В. $£$-граммные азбуки для дешифровки знаменных песнопений Текст. / И.В. Бахмутова, В.Д. Гусев, Т.Н. Титкова // Сиб. жури, индустр. матем. Новосибирск: Ин-т математики, 1998. -Т.1. -№ 2 - С.51-66.
12. Башмаков, А.И. Интеллектуальные информационные технологии: учеб. пособие Текст. / А.И. Башмаков, И.А. Башмаков. М.: Изд-во МГТУ им. Н.Э.Баумана, 2005. - 304 с.
13. Беловольская, Л.А. Синтаксис словосочетания и простого предложения Электронный ресурс. / Л.А. Беловольская. — Электрон, текстовые дан. — Режим доступа: ttp://www.philology.ru/ linguistics2/belovolskaya-01.htm.
14. Вениаминов, Е. М. Система представления знаний Ontolingua принципы и перспективы Электронный ресурс. / Е.М. Вениаминов, Д.М. Болдина. -Электрон. текстовые дан. - Режим доступа: http:^eniaminov.rsuh.ru/Stanford.pdf.
15. Вин, Дж. XML для проектировщиков Текст. /Дж. Бин. М.: Кудиц-Образ, 2004.-256 с.
16. Бирюков, Б.В. О взглядах Г.Фреге на роль знаков и исчисления в познании Текст. / Б.В. Бирюков // Логическая структура научного знания: сб. науч. ст. -М.: Наука, 1965. С. 91-108.
17. Бобровский, С. Перспективы и тенденции развития искусственного интеллекта Текст. / С. Бобровский // PC Week/RE. 2001. - №32. - С. 32.
18. Босс, В. Лекции по математике: перебор и эффективные алгоритмы Текст. / В. Босс. М.: ЛКИ, 2008. Т. 10.-210 с.
19. Булыгина, Т.В. Грамматические и семантические категории и их связи Текст. / Т.В. Булыгина // Аспекты семантических исследований: сб. науч. ст. -М.: Наука, 1980. С. 320-355.
20. Вагин, В.Н. Знание в интеллектуальных системах Текст. / В.Н. Вагин // Новости искусственного интеллекта: журн. М.: Изд-во РАИИ, 2002. - №6 (54).-С. 8-18.
21. Вагин, В.Н. Достоверный и правдоподобный вывод в интеллектуальных системах Текст. / В.Н. Вагин, Е.Ю.Головина, A.A. Загорянская; под ред. В.Н. Вагина, Д.А. Поспелова. -М.: Физматлит, 2004. 704 с.
22. Валгина, Н.С. Современный русский язык Текст. / Н.С. Валгина, Д.Э. Розенталь, М.И. Фомина-М.: Логос, 2002. 528 с.
23. Вежбицкая, А. Русский язык Текст. / Вежбицкая А. // Язык. Культура. Познание: пер. с англ. М.: Рус. словари, 1997. - С. 33-88.
24. Верников, Г. Стандарт онтологического исследования IDEF5. Электронный ресурс. / Г. Верников. Электрон, текстовые дан. - Режим доступа: http:// www. interface .ru/ca/idef5 .htm.
25. Гаврилова, Т.А. Базы знаний интеллектуальных систем Текст. / Т.А. Гаврилова, В.Ф. Хорошевский. СПб: Питер, 2000. - 384 с.
26. Гаврилова, Т.А. Использование онтологий в системах управления знаниями Электронный ресурс. / Т.А. Гаврилова. — Электрон, текстовые дан. Режим доступа: http://kmsoft.ru/ publications/library/authors/ useontoIogyinsuz.html.
27. Гаврилова, Т.А. Формирование прикладных онтологий Текст. / Т.А. Гаврилова// КИИ-2006: тр. X нац. конф. по искусственному интеллекту, Обнинск, 26-28 сентября 2006 г. М.: Физматлит, 2006. - Т. 2.
28. Гак, В.Г. Высказывание и ситуация Текст. / В. Г. Гак // Проблемы структурной лингвистики. 1972. М.: Наука, 1973. - С. 349-372.
29. Гладков, Л.Д. Генетические алгоритмы Текст. / Л.Д. Гладков, В.В. Курейчик, В.М. Курейчик; под. ред. В.М. Курейчика. 2-е изд., перераб. и доп. - М.: Физматлит, 2006. - 320 с.
30. Гладун, А.Я. Онтологии в корпоративных системах Электронный ресурс. / А.Я. Гладун, Ю.В. Рогушина // Корпоративные системы: журн. М.: Комиздат, 2006. — №1. — Режим доступа: http://www.management.com.ua/ims/ im si 16.html?print.
31. Грибова, B.B. Автоматизация проектирования, реализация и сопровождения пользовательского интерфейса на основе онтологического подхода Текст.: автореф. дис. . докг. техн. наук / В.В. Грибова. Владивосток, 2007. - 41 с.
32. Дальберг, И. Организация знаний: ее сфера и возможности Текст./ И. Дальберг // Организация знаний: проблемы и тенденции: программа и тез. докл. конф.-М., 1993.-С. 14.
33. Дамбаева, C.B. Методы и алгоритмы принятия решений в управлении учебным процессом в условиях неопределенности Текст.: автореф. дис. . канд. техн. наук: защищена 14.01.2005: утв. 10.06.2005 / C.B. Дамбаева. -Улан-Удэ, 2005. 23 с.
34. Данилов, В.Р. Метод генетического программирования для генерации автоматов, представленных деревьями решений Электронный ресурс. / В.Р. Данилов, A.A. Шалыто. Электрон, текстовые дан. - Режим доступа: http://is.ifmo.ru/download/2008-03-07-danilov.pdf.
35. Дейтел, П. Как программировать на XML Текст. / П. Дейтел, П. Садху, X. Дейтел. М.: Бином: Лаборатория знаний, 2008. - 944 с.
36. Добров, Б.В. Онтологии и тезаурусы: учеб.-метод. пособие Текст. / Б.В. Добров [и др.]. Казань: Изд-во Казанского ГУ, 2006. - 190 с.
37. Евдокимова, И.С. Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы Текст.: автореф. дис. . канд. техн. наук: защищена 25.11.2004: утв. 21.01.2005 / И.С. Евдокимова. Улан-Удэ, 2004. - 20 с.
38. Ершов, А.П. Терминологический словарь по основам информатики и вычислительной технике Текст. / А.П. Ершов [и др.]. М.: Просвещение, 1991.- 159 с.
39. Загоруйко, Н.Г. Система ONTOGRID для автоматизации процессов построения онтологий предметных областей Текст. / Н.Г. Загоруйко [и др.] // Автометрия. -, 2005. Т.41. - № 5. - С. 13-25.
40. Загоруйко, Н.Г. Меры расстояния в пространстве знаний Текст. / Н.Г.Загоруйко, М.В. Бушуев // Анализ данных в экспертных системах. -Новосибирск: [б.и.], 1986. Вып. 117: Вычислительные системы. - С. 24-35.
41. Залевская, A.A. Некоторые проблемы теории понимания текста Текст. / A.A. Залевская // Вопросы языкознания. 2002. - № 3. - С. 62-73.
42. Искусственный интеллект: справочник Текст. В 3 кн. Кн. 2. Модели и методы / под ред. Д.А. Поспелова. М.: Радио и связь, 1990. - 304 с.
43. Казарина, В.И. Предложение. Текст. Речевое функционирование языковых единиц Текст. / В.И. Казарина // Межвуз. сб. науч. тр. Елец: Изд-во ЕГУ им. И. А. Бунина, 2002. - 214 с.
44. Клещев, A.C. Онтология и модель онтологии предметной области "медицинская диагностика" Текст. / A.C. Клещев, М.Ю. Черняховская, Ф.М. Москаленко. Владивосток: Изд-во ИАПУ ДВО РАН, 2005. - 44 с.
45. Ковальский, Р. Логика в решении проблем Текст. / Р. Ковальский. М.: Наука, 1990.-277 с.
46. Кричевский, М.Л. Интеллектуальный анализ данных в менеджменте Текст.: уч. пособие / М.Л. Кричевский. СПб.: Изд-во СПбГУАП, 2005. - 208 с.
47. Курейчик, В.М. Генетические алгоритмы: монография Текст. / В.М.Курейчик. Таганрог: ТРТУ, 1998. - 241с.
48. Курейчик, В.М. Генетические алгоритмы и их применение Текст. / В.М.Курейчик. Таганрог: ТРТУ, 2002. - 242с.
49. Курейчик, В.М. Параллельные архитектуры генетического поиска Текст. / В.М. Курейчик, В.В. Курейчик // Информационные технологии в науке, образовании, телекоммуникации и бизнесе: XXX межд. конф. Ялта-Гурзуф: [б.и.], 2003.-С.142-144.
50. Курейчик, В.М. Эволюционные вычисления: генетическое и эволюционное программирование Текст. / В.М. Курейчик, С.И. Родзин. Режим доступа: http://vvww.masters.donntu.edu.Ua/2007/kita/l obacheva/library/ st6 .htm62
-
Похожие работы
- Автоматное программирование для среды языково-ориентированного программирования
- Верификация автоматных программ в контексте синхронного программирования
- Методы реализации автоматных объектно-ориентированных программ
- Автоматизация проектирования аппаратно-зависимых программных реализаций автоматных диаграмм
- Метод автоматизированного построения онтологии предметной области
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность