автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Структурированная семантическая модель контента текстов научно-теоретического характера
Автореферат диссертации по теме "Структурированная семантическая модель контента текстов научно-теоретического характера"
На правах рукописи
ЯРНЫХ Юлия Анатольевна
СТРУКТУРИРОВАННАЯ СЕМАНТИЧЕСКАЯ
МОДЕЛЬ КОНТЕНТА ТЕКСТОВ НАУЧНО-ТЕОРЕТИЧЕСКОГО ХАРАКТЕРА
I
Специальность 05.25.05 - Информационные системы и процессы,
правовые аспекты информатики
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
#
Москва - 2005
Работа выполнена на кафедре информатизации структур государственной службы Российской академии государственной службы при Президенте Российской Федерации, г. Москва
Научный руководитель: доктор технических наук, профессор
Данчул Александр Николаевич
Официальные оппоненты: доктор технических наук, профессор
Ефремов Владимир Александрович,
кандидат технических наук, доцент Кононенко Александр Васильевич
Ведущая организация: Московский автомобильно-дорожный
институт (государственный технический университет)
Защита состоится « »_2005 г. в_часов на заседании диссертационного совета Д 502.006.17 Российской академии государственной службы при Президенте Российской Федерации по адресу: 119606, Москва, пр-т Вернадского, д. 84,2-й учебный корпус, ауд._
С диссертацией можно ознакомиться в библиотеке Российской академии государственной службы при Президенте Российской Федерации (119606, г. Москва, проспект Вернадского, д.84)
Автореферат разослан «_»_2005 г.
Ученый секретарь диссертационного совета, доктор пед. наук, кандидат физ.-мат. наук, доцент
Митин А.И.
а/г г *
Щ/МП
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследования. В настоящее время тексты на естественном языке являются основным способом хранения и передачи знаний. В связи с усиливающейся тенденцией к хранению текстов в цифровом виде и с быстрым ростом объема текстовой информации актуальной является проблема автоматизации обработки подобной информации, в частности проблема машинного анализа текста.
Системы, автоматизирующие обработку текста с целью выявления его смысла и структуризации контента, крайне немногочисленны, что объясняется в первую очередь сложностью объекта моделирования, разнородностью используемых методов и т.д.
Существуют различные методы структуризации текста, такие как: гипертекст, семантические сети, методы массированной онтологии концептуальных значений, частотно-вероятностные и логико-статистические модели и методы, метод рубрицирования, метод автоматического нелингвистического анализа неструктурированной текстовой информации, реализованный на основе нейросетевых алгоритмов и т.д.
Существующие методы структуризации текста не ставят задачу выделения структуры описываемой ими предметной области по нескольким аспектам описания и рассмотрения систем, а, следовательно, не предоставляют эффективный механизм структуризации информационного содержимого предметной области.
В связи с этим актуальным остается вопрос разработки эффективного механизма структуризации контента документа (текста), отражающего предметную область, основанного на выделении определенного класса взаимосвязанных аспектных описаний, каждое из которых имеет собственную структуру - механизм систематизации контента.
Разрабатываемый механизм систематизации контента должен основываться на существующем механизме структуризации текста, удовлетворяющем требованиям доступности, простоты, возможности описания широкого класса понятий для любой предметной области, возможности решения ряда задач, возникающих в предметной области, и в то же время предусматривать возможность доработки существующего механизма с целью повышения эффективности процесса систематизации контента.
В качестве существующего механизма структуризации текста в работе выбран аппарат семантических сетей. Поскольку данный механизм
достаточно часто используется при структурировании небольших массивов информации, требующими своей разработки остались вопросы выделения укрупненных единиц семантической сети, создания отдельных типовых блоков из семантической сети (семантических микроструктур), использования принципов абстрагирования и укрупнения для семантической сети - вопросы разработки нового механизма систематизации контента на основе укрупненных семантических микроструктур (структурированной семантической модели).
Недостаточная проработанность указанных выше вопросов свидетельствует об актуальности темы диссертационного исследования.
Степень разработанности проблемы.
В отечественной и зарубежной научно-технической литературе представлено достаточно много работ, связанных с:
- вопросами в области систематизации контента, основанными на различных методах и средствах систематизации и используемыми в различных предметных областях (Р. Абельсон, В.А. Ефремов, Е.В. Мячина, Т.Н. Нельсон, Д.А. Поспелов, Й. Уилкс, С.А. Холодова, Э. Черняк, Р. Шенк и др.);
- вопросами в области семантического моделирования, описывающего модели структур данных, опираясь на смысл этих данных (Т.Р. Грубер, Т.А. Гаврилова, Т.В. Левашова, Г.С. Осипов, М.П. Пашкин, A.B. Смирнов, В.Ф. Хорошевский, Ю.И. Шемакин, Н.Г. Шилов и др.);
- использованием механизмов систематизации контента в учебной деятельности (С.А. Бешенков, А.Г. Гейн, P.C. Гиляревский, Т.А. Кувал-дина, A.C. Лесневский, Е.А. Ракитина, В.Ю. Строганов и др.).
Менее разработанным остаются вопросы использования семантического моделирования как механизма систематизации контента для структурирования учебных дисциплин и решения задач учебно-методического характера в учебной деятельности.
Данное обстоятельство предопределило выбор темы, постановку цели и задач исследования.
Цель диссертационной работы заключается в разработке концепции систематизации контента и решении задач учебно-методического характера на основе построения структурированной семантической модели.
Объектом исследования является процесс систематизации контента текстов научно-теоретического характера, описывающих сложные активные системы.
Предметом исследования являются методы и средства систематизации контента текстов научно-теоретического характера, предполагающие использование её результатов в учебной деятельности.
Задачи исследования:
1 Провести анализ существующих направлений автоматизации работы с текстовой информацией с целью формулировки обобщенной задачи систематизации контента, а также проанализировать существующие подходы к её решению с целью выделения требований к аппарату моделирования контента текстов научно теоретического характера, используемых в учебной деятельности.
2. Выделить в исследуемой предметной области устойчивые семантические микроструктуры, являющиеся инвариантами при описании сложных активных систем, а также порождаемые ими типы отношений.
3. Путем сравнительного анализа предложенного и существующих наборов типов отношений в семантических сетях охарактеризовать степень их целостности и полноты.
4. Выделить задачи учебно-методического характера, решаемые с помощью структурированной семантической модели, и дать рекомендации по их реализации; провести апробацию построения структурированной семантической модели и построения обучающе-тестирующего комплекса на его основе.
5. На основе сравнительного анализа существующих инструментальных средств автоматизированной обработки информации сформировать требования, предъявляемые к инструментальным средствам автоматизации процесса систематизации контента и дать рекомендации по выбору программных средств, реализующих основные этапы этого процесса.
Теоретической и методологической базой диссертационного исследования послужили труды российских и зарубежных ученых в области компьютерной лингвистики, семантического моделирования, инженерии знаний, а также работы по искусственному интеллекту.
Методы исследования базируются на различных аспектах концеп-
туального моделирования. В той или иной степени в работе использовались методы инженерии знаний, методы и модели структуризации, методы теории графов для формального описания модели предметной области.
Научная новизна. При выполнении диссертационного исследования получены следующие результаты, отражающие и характеризующие его научную новизну:
1. Сформулирована обобщенная задача систематизации контента, сущностью которой является переход от вербальной формы представления информации к структурной форме на основе построения её архитектуры, учитывающей многоаспектность и иерархичность описания сложных систем.
2. Сформированы требования к аппарату моделирования контента текстов научно теоретического характера в учебной деятельности, отвечающие свойствам полноты, целостности, доступности, простоты и др.
3. Выделены устойчивые семантические микроструктуры, являющиеся инвариантами при описании сложных активных систем и порождающие новые наборы типов отношений в семантических сетях.
4. Выделен новый набор типов отношений в семантических сетях; путем сравнительного анализа с существующими наборами установлена его целостность и полнота.
5. Предложен способ построения модели предметной области на основе выделенных устойчивых семантических микроструктур.
Практическая ценность исследования заключается в построении структурированной семантической модели для фрагмента учебного пособия по информатике, разработке на основе семантических микроструктур обучающе-тестирукяцего комплекса по дисциплине «Информатика».
Апробация работы. Результаты исследования докладывались на: межвузовской научно-практической конференции молодых ученых, посвященной 130-летию со дня рождения A.A. Богданова (Москва, 2003 г.), на совместной междисциплинарной аспирантской конференции РАГС-СЗАГС (Санкт-Петербург, 2003 г.), на Международной научно-практической конференции «Экономико-организационные проблемы проектирования и применения информационных систем» (Ростов, 2003 г.), на межвузовской научно-практической конференции молодых ученых, посвященной творчеству В.Г. Афанасьева (Москва, 2004 г.), на научно-
техническом семинаре кафедры информатизации структур государственной службы. По результатам диссертационного исследования опубликовано 5 печатных работ общим объемом 2 п. л.
Структура диссертационной работы. Работа состоит из введения, трех глав, заключения, списка литературы, приложений. Общий объем работы составляет 179 стр., в работе содержится 52 рисунка, 6 таблиц. Список литературы содержит 109 источников.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, выделены объект и предмет исследования, сформулированы цели и задачи исследования, научная новизна и практическая ценность диссертационной работы.
В первой главе сформулированы понятия «систематизация контента», «структурированная семантическая модель», проведен анализ существующих направлений автоматизации работы с текстовой информацией, выделена обобщенная задача систематизации контента, выполнен анализ существующих подходов (методов и средств) к её решению. На основе анализа особенностей задач систематизации контента текстов научно-теоретического характера, решаемых в учебной деятельности, сформированы требования к аппарату моделирования контента текстов.
В современной литературе под систематизацией понимают процесс выделения структуры предметной области по одному из аспектов рассмотрения и описания систем. Так как в качестве предметной области в работе рассматриваются сложные активные системы, характеризующиеся много-аспектностью и иерархичностью описания, то такое понимание процесса систематизации приводит к построению модели предметной области в одной из возможных плоскостей описания и рассмотрения систем, что явно недостаточно для адекватного отражения контента рассматриваемой предметной области.
Указанные выше особенности, а также специфика сложных активных систем, рассматриваемых в работе в качестве предметной области, требуют нового понимания процесса систематизации. В работе введено понятие «систематизация контента», под которым понимается выделение определенного класса взаимосвязанных аспектных описаний, каждое из которых имеет собственную структуру.
Анализ различных направлений (сфер жизнедеятельности), связанных с автоматизированной обработкой информации, показал, что задача
систематизации контента является актуальной задачей современных информационных технологий.
На основе проведенного исследования была сформулирована обобщенная задача систематизации контента - задача построения архитектуры (логической организации) контента, определяемой её конфигуратором (перечнем аспектов), иерархическими аспектными подсистемами и принципами их взаимодействия.
Анализ существующих подходов к систематизации контента, показал, что такие технологии систематизации контента как гипертекст, семантические сети, методы массированной онтологии концептуальных значений, частотно-вероятностные и логико-статистические модели и методы, метод рубрицирования и т.д., являясь мощным средством структуризации контента, задачу систематизации контента не ставят, но могут быть при некоторых условиях использованы для её решения.
Анализ существующих подходов к систематизации текстов научно-теоретического характера, а также анализ задач учебно-методического характера, решение которых зависит от механизма систематизации, позволил выделить ряд требований, которым должен отвечать аппарат моделирования контента текстов научно-теоретического характера, используемых в учебной деятельности, отвечающих свойствам полноты, целостности, доступности, простоты, модифицируемости и др.
В работе сделан вывод, что данным требованиям удовлетворяет аппарат семантических сетей, в частности, используемая в работе иерархически организованная семантическая модель с выделенными устойчивыми инвариантными микроструктурами - структурированная семантическая модель.
Во второй главе выделены устойчивые семантические микроструктуры, являющиеся инвариантами в различных классах предметных областей и порождающие новые наборы типов отношений в семантических сетях. Путем сравнительного анализа предложенного и существующих наборов типов отношений установлена его целостность и полнота.
Анализ эффективности применения семантических сетей показал, что с помощью проанализированных в работе операций над семантическими сетями, таких как создание, редактирование, пересечение и объединение семантических сетей, декомпозиция и агрегирование, сравнение и оценка семантической сети, поиск элементов семантической сети и др.,
можно устранить основной недостаток семантических сетей - избыточность модели при создании сложной семантической сети.
Применение операций декомпозиции и агрегирования и приводит к появлению новых, укрупненных структур семантической сети - семантических микроструктур, являющихся инвариантами в классе нескольких областей, позволяющих типизировать семантическую структуру предметной области и порождающих новые наборы типов отношений в семантических сетях.
В работе выделены два вида семантических микроструктур: содержательная микроструктура (стереотип) и формальная микроструктура, которые служат основой для построения семантической модели предметной области и позволяют оптимизировать процесс создания модели и унифицировать его.
Под стереотипом в работе понимается семантическая микроструктура предметной области, отражающая некоторый из её аспектов. Стереотип является семантической микроструктурой, соответствующей некоторому классу фрагментов семантической сети, который позволяет обобщить отношения внутри фрагмента, не отказываясь от их семантической интерпретации.
С целью выделения стереотипов, позволяющих унифицировать процесс создания модели предметной области, в работе были проанализированы различные аспекты рассмотрения и описания сложных активных систем: морфологический, функциональный, процессный, технологический.
Поскольку для сложных активных систем, описывающих технологию деятельности, основным является технологический аспект, первоначально в работе был выделен стереотип, отражающий технологический аспект процесса передачи продукта от источника к потребителю (рис. 1).
Под формальной микроструктурой в работе понимается семантическая микроструктура, соответствующая некоторому классу фрагментов семантической сети и позволяющая обобщать отношения внутри фрагмента, отказавшись от их семантической интерпретации и используя только структуру. Наиболее распространенной формальной микроструктурой является одноуровневая иерархия семантической сети. В работе формальная микроструктура рассматривалась как основа создания иерархически организованной семантической сети.
Рис. 1. Графическое представление стереотипа
Фрагмент конкретной предметной области, структура которого является подструктурой семантической микроструктуры с тождественностью соответствующих отношений и который возникает при использовании семантической микроструктуры для представления информационного содержимого предметной области будем называть модулем семантической сети.
Семантическая и формальная микроструктуры служат основой для построения семантической модели предметной области и позволяют усовершенствовать процесс создания модели за счет его унификации.
На рис. 2 представлен пример фрагмента предметной области, структурированный на основе семантических микроструктур.
Типы отношений между концептами в модели фрагмента предметной области:
1. Отношение «субъект - процесс».
2. Отношение «процесс - выход».
3. Отношение «источник - продукт».
4. Отношение «продукт - потребитель».
5. Отношение «объект, вход - процесс».
6. Отношение «процесс - средство процесса».
7. Отношение «требование - процесс».
8. Отношение «иерархии», включающее в себя отношение «часть -целое», «общее - частное» и т.д.
Рис. 2. Модель фрагмента предметной области на основе семантических микроструктур
Между выделенными модулями семантической сети возникают различные связи, которые можно обобщить и для семантических микроструктур.
В работе были выделены следующие типы связей:
1. Концептуальные связи, устанавливаемые между микроструктурами по концепту, используемому в нескольких микроструктурах.
2. Ассоциативные связи, устанавливаемые между микроструктурами через отношения (связи) между концептами, принадлежащими различным микроструктурам.
3. Смешанные связи, сочетающие в себе концептуальные и ассоциативные связи.
При необходимости построения более подробной модели предметной области возможна детализация концептов исходной модели.
При необходимости построения более адекватной модели предметной области дополнительно используются семантические микроструктуры для систематизации новых фрагментов семантической сети.
При дальнейшем расширении семантической модели за счет добавления новых фрагментов может возникнуть ситуация, при которой в процессе структуризации информационного содержимого предметной области с использованием семантических микроструктур остаются неструктурированные фрагменты. Невозможность построения семантической модели предметной области только на основе семантических микроструктур связана с выделением некоторых нетиповых, уникальных для моделируемой предметной области концептов и отношений. Данные концепты и отношения образуют один или несколько связных фрагментов семантической сети, которые в дальнейшем мы будем называть уникальными микроструктурами.
На рис. 3 представлена модель предметной области на основе как семантических микроструктур (выделено сплошной линией) так и уникальных микроструктур (выделено пунктирной линией).
Рис. 3. Модель фрагмента предметной области на основе семантических и уникальных микроструктур В результате получаем, что процесс систематизации информационного содержимого рассматриваемой предметной области будет включать в
себя процесс выделения и построения модели как на основе семантических микроструктур, так и на основе уникальных микроструктур. При этом между выделенными микроструктурами, как в случае с семантическими микроструктурами, возникают связи тех же типов: концептуальные, ассоциативные, смешанные.
Противоположной к задаче построения подробной модели является задача построения укрупненной модели предметной области, которая решается за счет укрупнения микроструктур (как семантических, так и уникальных) в результате «стягивания» микроструктур в соответствующий концепт, центральное понятие микроструктуры.
В работе предложено следующее определение центрального понятия:
- в случае с модулем семантической сети как центральное из соответствующего стереотипа или высшее по иерархии в соответствующей формальной микроструктуре;
- в случае с уникальными микроструктурами центральное понятие определяет эксперт предметной области, строящий укрупненную семантическую сеть в соответствии со своими потребностями и с учетом решаемых задач за счет укрупнения семантической сети.
При «стягивании» микроструктур в концепт происходит поглощение связей между концептами, которые не находят отражения в укрупненной модели» остаются связи более высокого уровня по сравнению с поглощаемыми между центральными концептами (рис. 4).
Рис. 4. Фрагмент укрупненной семантической сети Данная семантическая сеть характеризуется наличием не только концептов, но и отношений, которые возникают между ними. Так как эти отношения строго определены, то, вероятно, с расширением структурируе-
мого фрагмента предметной области, и между укрупненными микроструктурами возникнут определенные ранее семантические микроструктуры.
Процесс построения структурированной семантической модели для описываемой предметной области можно вести в нескольких направлениях, в частности от построения семантической сети всей предметной области до рассмотрения понятий предметной области в результате укрупнения процесса систематизации (рис. 5).
Создание семантических микроструктур, уникальных микроструктур, применение процесса укрупнения микроструктур, все это позволяет определить последовательность построения структурированной семантической модели на любом уровне подробности.
При построении семантических сетей для предметной области одной из центральных задач является задача формирования базисного набора отношений, которая была решена в результате анализа существующих классификаций типов отношений в семантических сетях и анализа выделенных в работе семантических микроструктур.
В работе был проведен сравнительный анализ существующих классификаций (наборов отношений), таких как классификация Г.С. Осипова (А), классификация из государственного стандарта «Тезаурус информационно-поисковый одноязычный» (В), классификация Ю.И. Шемакина (С), и классификации, выделенной в работе (О), а также была проведена проверка данных классификаций на целостность и полноту.
При этом под полнотой набора отношений в работе понимается относительная характеристика достаточности набора отношений для описания предметной области.
Семантическая сеть с выделенными укрупненными микроструктурами
Семантическая сеть с выделенными микроструктурами
Семантическая сеть с простыми концептами
Рис. 5. Процесс построения структурированной семантической модели
Сравнение классификаций типов связей в семантических сетях на взаимную полноту было проведено исходя из соотношений имеющихся типов связей в рассматриваемых классификациях, для чего в работе были построены структурные модели взаимосвязи типов отношений в семантических сетях (рис. 6).
На рис. 6 область, ограниченная сплошной линией, - общеструктурированная часть, в которой наблюдается замыкание (взаимное соответствие) типов связей из рассматриваемых классификаций; область, ограниченная сплошной и пунктирной линией, - частично-структурированная часть, в которой наблюдается попарное соответствие типов связей из различных классификаций; неограниченная область - неструктурированная часть, в которой расположены типы отношений, не находящие соответствия с типами отношений других классификаций.
Типы связей рассматриваемых классификаций, соответствующие типам связей классификации, предложенной в работе, помечены жирными кружочками.
Анализ структурных моделей, а также анализ построенных графов соответствий между концептами (типами связей) из различных классификаций (попарное сравнение классификаций), показали, что существующие классификации и классификация, предложенная в работе, не являются взаимно полными.
Для сравнения выделенных классификаций в работе были введены числовые характеристики, позволяющие количественно отразить степень полноты рассматриваемых классификаций типов отношений в семантических сетях: частная и интегральная полнота.
Частная полнота отражает полноту одной классификации по отношению к другой и вычисляется как отношение числа элементов ¡-той классификации, входящих в анализируемую, к общему числу отношений в анализируемой классификации.
Интегральная полнота отражает полноту одной из классификаций по отношению к объединению всех остальных классификаций и вычисляется как сумма всех элементов ¡-той классификации, входящих в анализируемую, к сумме всех элементов остальных классификаций.
Результаты вычисления частной и интегральной полноты доказывают полноту классификации, выделенной в работе, относительно существующих классификаций (таблица 1).
_Таблица 1. Частная и интегральная полнота
Частная полнота Инте-граль-ная полнота
Классификация А и, =9 Классификация В "с =" Классификация С п„=9 Классификация О п0= 8
Классификация А 1 9 10 — = 0,909-^ 11 ^^ 10 5 9 5 8 7 — » 0,661 18
Классификации В - = 0,555^^^ 9 ^^ 5 9 5 5 ^ - = 0,625^^ 8 5 -«0,5 16
Классификация С — =0,333^^^ 9 ^^ 3 6 ^^ И 6 - =0,25 8 3 — « 0,4 15
Классификация О 6 ^^ 9 ^^ 6 9 — = 0,818/^ 11 9 4 9 4 1 / « —*о,бз: 19
Где, и, - количество типов связей в /-той классификации.
Под внутренней целостностью набора отношений в работе понимается качественная характеристика набора отношений, определяемая: а) существованием некоторой метамодели, позволяющей выделить типы отношений; б) соответствием набора отношений, используемых в предметной области, типам отношений, определяемых метамоделью.
Для оценки внутренней целостности была введена качественная шкала, содержащая следующие качественные характеристики:
1. Низкая целостность (метамодель описания предметной области, позволяющая выделить типы отношений в семантических сетях, для данной предметной области отсутствует).
2. Средняя целостность (метамодель описания предметной области, позволяющая выделить типы отношений в семантических сетях, для данной предметной области существует, но описана неявно или неадекватно (без учета специфики предметной области)).
3. Высокая целостность (существует метамодель описания предметной области, позволяющая выделить типы отношений в семантических сетях для данной предметной области).
Поскольку ни в одной из существующих классификаций типов отношений в явном виде метамодель не задана, внешняя целостность классификаций типов отношений в семантических сетях рассматривалась относительно метамодели, выделенной в работе, как примера метамодели, отражающей архитектуру предметной области, и определялась возможностью построения метамодели предметной области для рассматриваемых классификаций и соответствием построенных метамоделей стереотипу, выделенному в работе.
Для оценки внешней целостности была введена качественная шкала, содержащая следующие качественные характеристики:
1. Низкая целостность (метамодель построить невозможно).
2. Средняя целостность (построение метамодели возможно, но она не находит соответствия стереотипу, выделенному в работе).
3. Высокая целостность (возможно построение метамодели соответствующей стереотипу, выделенному в работе.).
Результаты проверки существующих классификаций и классификации предложенной в работе на внутреннюю и внешнюю целостность приведены в таблице 2.
Таблица 2. Оценка внутренней и внешней целостности
Характеристика Классификация А Классификация В Классификации С Классификация О
Целостность внутренняя средняя — средняя высокая
Целостность внешняя низкая высокая высокая высокая
Таким образом, анализ полноты и целостности рассматриваемых классификаций позволяет оценить классификацию, предложенную в работе, как классификацию, обладающую высокой целостностью и полнотой; следовательно, для рассматриваемой предметной области типы отношений из классификации, выделенной в работе, могут быть использованы в качестве базисного набора типов отношений в семантических сетях, описывающих сложные активные системы.
Говоря о формальных микроструктурах, которые наряду с содержательной микроструктурой являются основными для унификации процесса построения модели предметной области, рассмотрим одну из основных групп отношений в семантических сетях — иерархические отношения. Выделить иерархические отношения в семантических сетях позволяет
формальная микроструктура, которая также позволяет выявить нарушения в иерархии семантической сети.
В работе были выделены следующие нарушения в иерархической организации семантической сети:
- ситуация, когда часть класса описываемых объектов принадлежит тому же классу, что и все объекты;
- ситуация, когда неоднозначная интерпретации концептов внутри сети (класс объектов и объект класса) влечет разную интерпретацию дуг.
Семантическая сеть, как средство структуризации контента рассматриваемой предметной области, может быть определена и формально описана при помощи теории графов, которая дает простой, доступный и мощный инструмент построения моделей. В работе представлено формальное описание основных операций, производимых над семантическими сетями, а также операции выделения семантических микроструктур и укрупнения микроструктур.
При построении модели предметной области в зависимости от цели и решаемых задач следует использовать один или несколько аспектов рассмотрения системы.
Анализ основных аспектов описания сложных активных систем показал, что технологический аспект рассмотрения системы является наиболее подробным и включает в себя процессный аспект, который в свою очередь включает в себя функциональный аспект рассмотрения системы. Морфологический аспект представления системы и технологический аспект представления системы содержат общие концепты (рис. 7).
При построении семантической модели предметной области такая межаспектная связь позволяет рассматривать и анализировать систематизируемый контент в различных плоскостях, каждая из которых соответствует одному из аспектов описания системы.
систем
В третьей главе выделены задачи учебно-методического характера, решение которых может быть основано на использовании структурированных семантических моделей, и предложены методы их решения на этой основе.
С целью автоматизации процесса решения задач учебно-методического характера проанализированы существующие средства автоматизации процесса систематизации контента, сформированы требования, предъявляемые к ним, и даны рекомендации по выбору программных средств, реализующих основные этапы этого процесса.
Процесс систематизации контента на основе структурированной семантической сети требует наличия программных средств визуализации данных.
Под визуализацией данных в работе понимается задача наглядного представления структурированных данных.
В работе проведен анализ существующих средств визуализации данных, а так же анализ задач, решаемых за счет визуализации семантической сети, что позволило выделить и обосновать требования, предъявляемые к подобным средствам, такие как возможность настройки на произвольную предметную область, простота в использовании, гибкость в настройке, удобство и наглядность интерфейса, полнота инструментов, универсальность отображения, наличие средств анализа.
Проведенный в работе анализ наиболее распространенных средств визуализации данных (пакет прикладных программ Microsoft Office, Microsoft Office Visio 2003, LightOntos Business Edition, Decision Explorer, Невод, RCO Semantic Network, RCO TopNet Win) показал, что ни одно программное средство визуализации данных не удовлетворяет всему набору предъявляемых к ним требований, а, следовательно, при построении модели предметной области требуется интегрированное использование нескольких программных продуктов (таблица 3).
Процесс решения задач возникающих при работе со структурированной семантической моделью требует наличия программных средств проектирования данных.
Под проектированием данных в работе понимается задача автоматизированного структурирования данных и задача автоматизированного решения задач учебно-методического характера.
В работе проведен анализ существующих средств проектирования данных, а так же анализ задач учебно-методического характера, решаемых при помощи средств проектирования данных, что позволило выделить и обосновать требования, предъявляемые к подобным средствам: возможность автоматического структурирования данных, полнота инструментов визуализации, возможность автоматического укрупнения фрагментов сети, простота и удобство интерфейса, наличие дидактической базы знаний, а также средств генерации вопросов и средств статистического анализа.
Проведенный в работе анализ наиболее распространенных средств проектирования данных (системы ОЛИМП, EXTRA, НЕВОД, программные продукты Ontos Miner и Macromedia Author Ware 6.0.) показал, что ни одно программное средство проектирования данных не удовлетворяет всему набору предъявляемых к ним требований (Таблица 4).
Таблица 3. Требования к программным средствам визуализации данных
Средства визуализации Требования ^^^^ Microsoft Office Microsoft Office Visio 2003 Light-Ontos BE Decision Explorer Невод RCO Semantic Network, RCO TopNet Win
Возможность настройки на произвольную предметную область + + + + + +
Простота в использовании + + - - - -
Гибкость в настройке - + + + + +
Удобство и наглядность интерфейса - + + - - -
Наличие (полнота) инструментов визуализации - + + + + +
Наличие средств анализа - - - + + +
Универсальность отображения - - + - + +
Таблица. 4. Требования к программным средствам проектирования данных
'—^^ Средства —_____ проектирования Требования ~ — ОЛИМПЮ КС EXTRA НЕВОД Ontos Miner Macromedia AuthorWare 6.0.
Возможность автоматического структурирования данных - + + + -
Наличие полнота инструментов визуализации - + - + -
Возможность автоматического укрупнения фрагментов сети; - + - + -
Простота интерфейса + - + +
Наличие дидактической базы знаний + - ■ +
Наличие средств создания программных продуктов на естественном языке + - - + +
Наличие средств генерации вопросов + - +
Наличие средств статистического анализа + - - - +
Следует заметить, что все программные продукты проектирования данных делятся на программные продукты, осуществляющие автоматическое структурирование данных, и на продукты, решающие задачи учебно-методического характера.
Следовательно, при построении модели предметной области требуется интегрированное использование нескольких программных продуктов визуализации и проектирования данных.
Рассмотренные средства визуализации и проектирования данных позволяют автоматизировать процесс решения задач учебно-методического характера, возникающих в предметной области.
К таким задачам можно отнести:
- построение теоретического курса (отбор содержания);
- представление теоретического материала (последовательность изложения);
- создание обучающе-тестирующего комплекса.
В работе предложены основные пути и методы решения данных задач, основанные на выделенной в работе последовательности построения структурированной семантической модели.
Наиболее подробно в работе рассмотрена задача построения обучающе-тестирующего комплекса и предложены механизмы её решения.
В отличие от стандартного подхода, предполагающего выделение в комплексе обучающих средств блока требований, предъявляемых к знаниям обучаемого, теоретического и тестирующего блоков, в работе предлагается введение нового обучающе-тестирующего блока, построенного на основе семантических микроструктур в соответствии с механизмом последовательности систематизации контента.
Обучающе-тестирующий блок предназначен для организации самообучения слушателя по изучаемой теме на основе тестирующих вопросов и самоконтроля знаний по выбранной теме, разделу, курсу в целом, с возможностью изучения только тех теоретических материалов, которые вызывают затруднения у обучаемого в процессе ответов на поставленные в тесте вопросы.
Разработка тестирующих вопросов основывается на семантических микроструктурах, выделенных в работе.
Процесс обучения на основе тестирующих вопросов ведется в нескольких плоскостях: плоскость работы с внешними связями семантиче-
ских микроструктур и плоскость работы с внутренними связями семантических микроструктур (рис.8).
Рис. 8. Структура методики постановки вопросов на основе микросемантических структур
Тестирование на понимание внутренних связей семантической микроструктуры ведется на следующих уровнях:
1.1. Вопросы на связи стереотипа, связи опосредованные.
1.1.1. Вопросы на связи стереотипа, связи непосредственные.
1.1.1.1. Вопросы на определение понятий.
При правильном ответе на вопрос (вопросы) каждого из уровней осуществляется переход на более высокий уровень вопроса, в противном случае движение идет в обратном направлении, к большему уровню подробности рассматриваемого стереотипа. При этом незнание ответа на вопросы из самого низшего по уровню иерархии вопроса приводит слушателя к теоретическому материалу, позволяющему восстановить знания по тестируемой теме. Определение границ теоретических блоков, которые предлагается изучить обучаемому самостоятельно, в соответствии с вопро-
сами, которые вызвали затруднения при тестировании, осуществляется преподавателем - разработчиком изучаемого курса и обучающе-тестирующего комплекса.
Такая методика самостоятельного обучения позволяет обучаемому рационально использовать время обучения, так как предполагает изучение только тех блоков теоретического материала, знания по которым не сформированы у обучаемого.
В заключении подведены итоги выполненных исследований и перечислены основные научные и практические результаты, полученные автором:
1. Сформулирована обобщенная задача систематизации контента, сущностью которой является переход от вербальной формы представления информации к структурной форме на основе построения её архитектуры, учитывающей многоаспектность и иерархичность описания сложных систем.
Сформированы требования к аппарату моделирования контента текстов научно теоретического характера в учебной деятельности, отвечающие свойствам полноты, целостности, доступности, простоты и др.
2. Выделены устойчивые семантические микроструктуры, являющиеся инвариантами при описании сложных активных систем и порождающие новые наборы типов отношений в семантических сетях.
3. Построена структурная модель соответствия типов отношений в семантических сетях для предложенного и существующих наборов типов отношений, позволяющая дать качественную и количественную характеристики их целостности и полноты.
4. Построена структурированная семантическая модель контента раздела учебного пособия по информатике.
5. Выделены задачи учебно-методического характера, решение которых может быть основано на использовании структурированных семантических моделей, предложены методы их решения на этой основе.
6. Предложен метод построения обучающе-тестирующего комплекса, основанный на использовании структурированной семантической модели; программная реализация комплекса выполнена в объеме раздела учебного пособия по информатике.
7. Сформированы требования, предъявляемые к инструментальным средствам автоматизации процесса систематизации контента, и даны рекомендации по выбору программных средств, реализующих основные этапы этого процесса.
Основное содержание работы отражено в публикациях:
1. Ярных Ю.А. Структурирование информационного содержимого некоторых учебных дисциплин в процессе обучения государственных служащих // Государственность и государственная служба России: пути развития: Материалы совместной междисциплинарной аспирантской конференции РАГС-СЗАГС. Выпуск 3 / Под общ. Ред. В.К. Егорова, В.А. Ша-мова, В.М. Герасимова. - СПб.: Изд-во СЗАГС, 2003. С. 529-530.
2. Ярных Ю.А. Системный подход к структуризации контента // Идеи A.A. Богданова и современность: Материалы третьей межвузовской научно-практической конференции молодых ученых, посвященной 130-летию со дня рождения A.A. Богданова. - М.: Изд-во РАГС, 2004. С.252-
3. Данчул А.Н., Ярных Ю.А. Использование семантических микроструктур для построения моделей предметной области // Информационные технологии в управлении организационными системами: Сб. статей. - М.: Изд-во РАГС, 2004. С.43-55.
4. Ярных Ю.А. Подходы к структуризации информационного содержимого некоторых учебных дисциплин в процессе обучения государственных служащих // Регион в условиях перехода к устойчивой модели развития современного Российского общества: Материалы межрегиональной научно-практической конференции. Часть 1. - Брянск: изд-во БФ ОРАГС,
2004. С. 233-242.
5. Ярных Ю.А. Формализация и анализ понятийного аппарата социальных теорий // Научное наследие В.Г. Афанасьева и современные проблемы государственного управления и государственной службы: Материалы четвертой межвузовской научно-практической конференции молодых ученых, посвященной творчеству В.Г. Афанасьева. - М.: Изд-во РАГС,
2005. С.199-212.
257.
Автореферат
Диссертация на соискание ученой степени кандидата наук Ярных Юлия Анатольевна
Структурированная семантическая модель контента текстов научно-теоретического характера
Научный руководитель Данчул Александр Николаевич, доктор технических наук, профессор
Изготовление оригинал-макета Ярных Юлия Анатольевна
Подписано в печать.//'.. ¿Р В, 2005 г. Тираж экз. Усл. п.л.
Российская академия государственной службы при Президенте Российской Федерации
Отпечатано ОПМТ РАГС. Заказ
119606, Москва, пр-т Вернадского, 84
Р 1 9 7 4 1
РНБ Русский фонд
2006-4 21524
Оглавление автор диссертации — кандидата технических наук Ярных, Юлия Анатольевна
ВВЕДЕНИЕ.
ГЛАВА 1. АНАЛИЗ МЕТОДОВ И ТЕХНОЛОГИЙ СИСТЕМАТИЗАЦИИ КОНТЕНТА.
1.1. Систематизация контента в работе с текстовой информацией.
1.2. Существующие подходы к систематизации контента.
1.3. Задача систематизации на основе структурированной семантической модели (ССМ) контента текстов научно-теоретического характера в учебной деятельности.
Выводы по главе 1.
ГЛАВА 2. СТРУКТУРИРОВАННАЯ СЕМАНТИЧЕСКАЯ МОДЕЛЬ
2.1. Использование семантических микроструктур для построения моделей предметной области.
2.2.Семантические микроструктуры и порождаемые ими новые типы отношений в семантических сетях. Базисный набор отношений.
2.3. Иерархические отношения в семантических сетях.
2.4. Межаспектные связи.
2.5. Формальное описание структурированной семантической модели.
Выводы по главе 2.
ГЛАВА 3. АВТОМАТИЗАЦИЯ ПРОЦЕССОВ СИСТЕМАТИЗАЦИИ КОНТЕНТА И РЕШЕНИЯ ЗАДАЧ УЧЕБНО-МЕТОДИЧЕСКОГО ХАРАКТЕРА НА ОСНОВЕ СТРУКТУРИРОВАННОЙ СЕМАНТИЧЕСКОЙ МОДЕЛИ.
3.1. Основные задачи инструментальных средств автоматизации процесса систематизации контента и требования предъявляемые к ним.
3.2. Обзор инструментальных средств автоматизации процесса систематизации контента.
3.3. Использование аппарата структурированной семантической модели при решении задач учебно-методического характера.
Выводы по главе 3.
Введение 2005 год, диссертация по документальной информации, Ярных, Юлия Анатольевна
Актуальность темы исследования. В настоящее время тексты на естественном языке являются основным способом хранения и передачи знаний. В связи с усиливающейся тенденцией к хранению текстов в цифровом виде и с быстрым ростом объема текстовой информации актуальной является проблема автоматизации обработки подобной информации, в частности проблема машинного анализа текста.
Системы, автоматизирующие обработку текста с целью выявления его смысла и структурирования информационного содержимого, крайне немногочисленны, что объясняется в первую очередь сложностью объекта моделирования, разнородностью используемых методов и т.д. [26].
Существуют различные методы структуризации текста, такие как: гипертекст, семантические сети, методы массированной онтологии концептуальных значений, частотно-вероятностные и логико-статистические модели и методы, метод рубрицирования, метод автоматического нелингвистического анализа неструктурированной текстовой информации, реализованный на основе нейросетевых алгоритмов и т.д.
Существующие методы структуризации текста позволяют выделить структуру модели предметной области по одному из аспектов описания и рассмотрения систем, но не дают механизма структурирования информационного содержимого предметной области по нескольким аспектам рассмотрения и описания систем.
Следовательно, с целью автоматизации процессов обработки информации, требуется разработка эффективных подходов к структуризации контента (информационное содержимое документа (текста), отражающего предметную область), основанного на выделении определенного класса взаимосвязанных аспектных описаний, каждое из которых имеет собственную структуру - систематизация контента.
Среди актуальных задач современных информационных технологий особое место занимают проблемы разработки эффективных подходов к систематизации контента, которые затрагивают многие сферы человеческой жизнедеятельности, работа в которых основывается на информационных ресурсах. К таким областям можно отнести: СМИ, Интернет, библиотечные системы, законодательно-правовые документы, образовательные системы и т.д.
В настоящее время все большее распространение получают полнотекстовые базы данных. Крупные образовательные центры организуют в Интернете для студентов и сотрудников базы научных статей, авторефератов, многие организации предоставляют доступ к ресурсам электронных библиотек, оргкомитеты конференций публикуют тысячи полных текстов докладов и т.п. Таким образом, в последние годы количество текстовой информации в электронном виде возросло настолько, что возникает угроза ее обесценивания в связи с трудностями поиска требуемых сведений среди множества доступных текстов.
Поэтому для структурирования информационного содержимого в сети Интернет, для обеспечения эффективных механизмов фильтрации, информационного поиска и навигации требуются механизмы систематизации, работающие с различными корпоративными приложениями, позволяющие анализировать любые данные - Web-страницы, документы Microsoft Word, файлы Adobe Acrobat, динамически генерируемый контент и т.д.
Проблема систематизации контента возникает и при работе с библиотечными ресурсами. В последнее время возрастают полнотекстовые базы данных, создаваемые библиотекой как часть электронного фонда библиотеки, возникает задача смыслового поиска и экспертного статистического анализа данных с целью предоставить пользователю возможность правильно ориентироваться в среде электронных фондов большого объема, а эксперту - возможность выделять подклассы текстов по заданной тематике. Наряду с этим, возникает необходимость использования лингвистического обеспечения с целью перевода содержания поступающих в информационно-поисковую систему текстов с естественного языка на информационно-поисковый язык для решения задач информационного поиска и структурирования информационного содержимого библиотечных баз данных.
Все больше к вопросам систематизации контента обращаются и в законотворческой деятельности, с целью создания механизмов автоматизированного анализа и обработки текстов законопроектов.
В системах высшего звена организационного управления на основе технологий комплексной аналитической обработки разнородной информации, решают проблемы глубины обработки информации, достоверности получаемых результатов, своевременности и оперативности представления информации.
Задача систематизации контента остро встает и в сфере образования, при структурировании учебной информации при её компьютерном представлении, и связано это в первую очередь с тем, что характерной особенностью информационной культуры педагога в настоящий момент является необходимость осмысления большого объема информации, выраженной в различных видах, например, в виде временных диаграмм, логических функций, таблиц, электрических схем, алгоритмов функционирования и микропрограмм. Кроме того, при работе со средствами вычислительной техники имеет место множество разнообразных проявлений человеческих знаний о реальных объектах. Все это предполагает применение новых обучающих технологий, современных методов представления учебной информации, ее использование при логическом выводе.
Таким образом, любая деятельность, связанная с большими объемами информации, требует решения вопросов систематизации контента.
Актуальными остаются задачи определения методов и средств систематизации контента, разработка методики систематизации контента на основе анализа семантической сети и её использование для систематизации текстов научно-теоретического характера в учебной деятельности.
Возникает необходимость создания такого механизма систематизации контента на основе семантической сети, который бы позволял выделять более укрупненные единицы, создавать отдельные типовые блоки из семантической сети (семантические микроструктуры), использовать принципы абстрагирования и укрупнения для семантической сети. Таким средством систематизации контента является структурированная семантическая модель - семантическая модель фрагмента предметной области, построенная на основе укрупненных семантических микроструктур.
Все это определяет актуальность темы диссертационного исследования - «Структурированная семантическая модель контента текстов научно-теоретического характера».
Степень разработанности проблемы.
Представляемое исследование основывается на работах российских и зарубежных ученых, которые условно можно поделить на три группы:
- работы в области систематизации контента, основанные на различных методах и средствах систематизации и используемые в различных предметных областях, принадлежат Р. Абельсону, В.А. Ефремову, Е.В. Мячиной, Т.Н. Нельсону, Д.А. Поспелову, Й. Уилксу, С.А. Холодовой, Э. Черняку, Р. Шенку и др.
- работы в области семантического моделирования, представляющего моделирование структуры данных, опираясь на смысл этих данных, принадлежат Т.Р. Груберу, Т.А. Гавриловой, Т.В. Левашовой, Г.С. Осипо-ву, М.П. Пашкину, А.В. Смирнову, В.Ф. Хорошевскому, Ю.И. Шемакину, Н.Г. Шилову и др.
- работы, связанные с использованием механизмов систематизации контента в учебной деятельности, принадлежат С.А. Бешенкову, А.Г. Гей-ну, Р.С. Гиляревскому, Т.А. Кувалдиной, А.С. Лесневскому, Е.А. Ракити-ной, В.Ю. Строганову и др.
Менее разработанными остаются проблемы использования семантического моделирования как механизма систематизации контента для структурирования учебных дисциплин и решения задач учебно-методического характера в учебной деятельности.
Данное обстоятельство предопределило выбор темы, постановку цели и задач исследования.
Цель диссертационной работы заключается в разработке концепции систематизации контента и решении задач учебно-методического характера на основе построения структурированной семантической модели.
Объектом исследования является процесс систематизации контента текстов научно-теоретического характера, описывающих сложные активные системы.
Предметом исследования являются методы и средства систематизации контента текстов научно-теоретического характера, предполагающие использование её результатов в учебной деятельности.
В соответствии с выделенными целью, объектом и предметом исследования были поставлены следующие задачи исследования:
1. Провести анализ существующих направлений автоматизации работы с текстовой информацией с целью формулировки обобщенной задачи систематизации контента, а также проанализировать существующие подходы к её решению с целью выделения требований к аппарату моделирования контента текстов научно-теоретического характера, используемых в учебной деятельности.
2. Выделить в исследуемой предметной области устойчивые семантические микроструктуры, являющиеся инвариантами при описании сложных активных систем и порождаемые ими типы отношений.
3. Путем сравнительного анализа предложенного и существующих наборов типов отношений в семантических сетях охарактеризовать степень их целостности и полноты.
4. Выделить задачи учебно-методического характера, решаемые с помощью структурированной семантической модели, и дать рекомендации по их реализации; провести апробацию построения структурированной семантической модели и построения обучающе-тестирующего комплекса на его основе.
5. На основе сравнительного анализа существующих инструментальных средств автоматизированной обработки информации сформировать требования, предъявляемые к инструментальным средствам автоматизации процесса систематизации контента, и дать рекомендации по выбору программных средств, реализующих основные этапы этого процесса.
Теоретической и методологической базой диссертационного исследования послужили труды российских и зарубежных ученых в области компьютерной лингвистики, семантического моделирования, инженерии знаний, а также работы по искусственному интеллекту.
Методы исследования базируются на концептуальном моделировании, использовались методы инженерии знаний, методы и модели структуризации, методы теории графов для формального описания модели предметной области.
Научная новизна результатов исследования. Элементы научной новизны содержат все основные результаты диссертационного исследования:
- Сформулирована обобщенная задача систематизации контента, сущностью которой является переход от вербальной формы представления информации к структурной форме на основе построения её архитектуры, учитывающей многоаспектность и иерархичность описания сложных систем.
- Сформированы требования к аппарату моделирования контента текстов научно-теоретического характера в учебной деятельности, отвечающие свойствам полноты, целостности, доступности, простоты и др.
- Выделены устойчивые семантические микроструктуры, являющиеся инвариантами при описании сложных активных систем и порождающие новые наборы типов отношений в семантических сетях.
- Выделен новый набор типов отношений в семантических сетях; путем сравнительного анализа с существующими наборами установлена его целостность и полнота.
- Предложен способ построения модели предметной области на основе выделенных устойчивых семантических микроструктур.
Практическая ценность исследования заключается в построении структурированной семантической модели для фрагмента учебного пособия по информатике, разработке на основе семантических микроструктур обучающе-тестирующего комплекса по дисциплине информатика.
Диссертация состоит из введения, трех глав, заключения, списка используемой литературы, приложений.
Заключение диссертация на тему "Структурированная семантическая модель контента текстов научно-теоретического характера"
Выводы по главе 3.
1. Анализ задачи визуализации данных, а также существующих средств визуализации данных, позволил выделить и обосновать требования, предъявляемые к подобным средствам, такие как: возможность настройки на произвольную предметную область, простота в использовании, гибкость в настройке, удобство и наглядность интерфейса, полнота инструментов, универсальность отображения, наличие средств анализа.
2. Проведенный анализ наиболее распространенных средств визуализации данных, таких как: пакет прикладных программ Microsoft Office, Microsoft Office Visio 2003, LightOntos Business Edition, Decision Explorer, Невод, RCO Semantic Network, RCO TopNet Win, показал, что ни одно программное средство визуализации данных не удовлетворяет всему набору предъявляемых к ним требований, а, следовательно, при построении модели предметной области требуется интегрированное использование нескольких программных продуктов.
3. Анализ существующих средств проектирования данных, а также задач учебно-методического характера, решаемых при помощи этих средств, позволил выделить и обосновать требования, предъявляемые к средствам проектирования данных, такие как: возможность автоматизации процесса структурирования данных, полнота инструментов визуализации, возможность автоматизации процесса укрупнения фрагментов сети, простота и удобство интерфейса, наличие дидактической базы знаний, а также средств генерации вопросов и средств статистического анализа.
4. Проведенный анализ наиболее распространенных средств проектирования данных, таких как: обучающе-контролирующая система ОЛИМП, системы EXTRA и НЕВОД, программные продукты Ontos Miner и Macromedia AuthorWare 6.О., показал, что ни одно программное средство проектирования данных не удовлетворяет всему набору предъявляемых к ним требований.
Более того, все программные продукты проектирования данных делятся на программные продукты, позволяющие автоматизировать процесс систематизации контента, и на продукты, позволяющие автоматизировать процесс решения задач учебно-методического характера. Следовательно, при построении модели предметной области требуется интегрированное использование нескольких программных продуктов проектирования данных.
5. Предложенный в работе метод систематизации контента на основе построения структурированной семантической модели позволил расширить возможности обучающее-контролирующей системы ОЛИМП за счет добавления созданных на его основе средств автоматизации процесса систематизации контента.
6. Предложены основные методы решения задач учебно-методического характера, такие как построение теоретического курса (отбор содержания), представление теоретического материала (последовательность изложения), создание обучающе-тестирующего комплекса.
7. Предложенный метод построения обучающее-тестирующего комплекса, основанный на использовании структурированной семантической модели был программно реализован для структурированной семантической модели раздела учебника по информатике средствами программного продукта ОЛИМПЮКС.
162
ЗАКЛЮЧЕНИЕ
В заключении приведены основные результаты и выводы, полученные в результате исследования, намечены основные направления дальнейших исследований.
Основными результатами по проведенному диссертационному исследованию являются следующие:
1. Сформулирована обобщенная задача систематизации контента, сущностью которой является переход от вербальной формы представления информации к структурной форме на основе построения её архитектуры, учитывающей многоаспектность и иерархичность описания сложных систем.
Сформированы требования к аппарату моделирования контента текстов научно теоретического характера в учебной деятельности, отвечающие свойствам полноты, целостности, доступности, простоты и др.
2. Выделены устойчивые семантические микроструктуры, являющиеся инвариантами при описании сложных активных систем и порождающие новые наборы типов отношений в семантических сетях.
3. Построена структурная модель соответствия типов отношений в семантических сетях для предложенного и существующих наборов типов отношений, позволяющая дать качественную и количественную характеристики их целостности и полноты.
4. Построена структурированная семантическая модель контента раздела учебного пособия по информатике.
5. Выделены задачи учебно-методического характера, решение которых может быть основано на использовании структурированных семантических моделей, предложены методы их решения на этой основе.
6. Предложен метод построения обучающе-тестирующего комплекса, основанный на использовании структурированной семантической модели; программная реализация комплекса выполнена в объеме раздела учебного пособия по информатике.
7. Сформированы требования, предъявляемые к инструментальным средствам автоматизации процесса систематизации контента, и даны рекомендации по выбору программных средств, реализующих основные этапы этого процесса.
Вышеизложенные выводы позволяют считать, что основная цель исследования — разработка концепции систематизации контента и решение задач учебно-методического характера на основе построения структурированной семантической модели, достигнута.
Практической ценностью работы является построенная структурированная семантическая модель для фрагмента учебного пособия по информатике и разработанный на основе семантических микроструктур обучающе-тестирующий комплекс по дисциплине информатика.
Результаты данной работы могут быть использованы при построении моделей и решении задач учебно-методического характера в других предметных областях.
Следует отметить, что проведенное исследование позволило выявить те вопросы, решение которых не относилось к задачам исследования, но требующие в дальнейшем тщательной проработки и уточнения. Их решение потребует отдельного самостоятельного исследования.
К основным направлениям дальнейших исследований можно отнести выделение всех классов семантических микроструктур для автоматизированной обработки текстовой информации, исследование вопросов интеграции программных средств визуализации данных и программных средств проектирования данных.
Библиография Ярных, Юлия Анатольевна, диссертация по теме Информационные системы и процессы, правовые аспекты информатики
1. Азларов Т.Р. Методическая система совершенствования обучения курсу ОИВТ в национальных школах: Автореф. дис. . канд. пед. наук. Ташкент: Ташк. гос. пед. ин-т им Низами, 1993. 17 с.
2. Алексеев С.С. Проблемы теории права. Курс лекций в двух томах. Т. II. Свердловск, 1973. - 127 с.
3. Апатова Н.В. Информационные технологии в школьном образовании. М.: Ин-т общеобразовательной школы РАО, 1994. - 228 с.
4. Бешенков С.А. Развитие содержания обучения информатике в школе на основе понятий и методов формализации: Автореф. дис. . д-ра пед. наук. М.: Ин-т общеобразовательной школы РАО, 1994. 35 с.
5. Бешенков С.А., Ракитина Е.А. Информатика. Систематический курс: Учеб. для 10-го кл. М.: ЛБЗ, 2001. - 432 с.
6. Бидайбекова Е.Ы., Билялов Ш.В., Григорьев С.Г. Термины информатики. (англо-русско-казахский терминологический словарь). Алматы: Билим, 1998.-224 с.
7. Блюменау Д.И. Проблемы свертывания научной информации. — Л.: Наука, 1982. 166 с.
8. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2000. - 384 с.
9. Гейн А.Г. Изучение информационного моделирования как средства реализации межпредметных связей информатики с дисциплинами естественнонаучного цикла: Автореф. дис. . д-ра пед. наук. М.: ИОСО РАО, 2000. 35 с.
10. Гендина Н.И. Лингвистические средства автоматизации документального поиска. СПб., 1992. - 188 с.
11. Георгиев В.О. Модели представления знаний предметных областей диалоговых систем//Изв. АН СССР. Техн. Кибернетика. -1991. №5.
12. Георгиев В.О. Модели представления знаний предметных областей диалоговых систем//Изв. АН СССР. Техн. Кибернетика, 1993. №5.
13. Гиляревский Р.С. Основы информатики: Курс лекций. М.: Экзамен, 2003.-320 с.
14. Годфруа Ж. Что такое психология: В 2-х т. Т.1. М., 1996. - 496 с.
15. Гончаренко В.В., Шингарева Е.А. Фреймы для распознавания смысла текста. Кишинев: Изд-во «Штиинца», 1984. - 200 с.
16. ГОСТ 7.25-2001. Система стандартов по информации, библиотечному и издательскому делу. Тезаурус информационно-поисковый одноязычный.
17. Гультяев A. Macromedia Authorware 6.0. Разработка мультимедийных учебных курсов. СПб.: «Корона принт», 2002. - 400 с.
18. Данчул А.Н. Декомпозиционные методы в проектировании автоматизированных систем организационного управления: Дис. д-ра техн. наук. М., 1997.-260 с.
19. Данчул А.Н. Корнеенко В.П. Системный анализ управления экономическими процессами. М.: Изд-во РАГС, 2001. - 140 с.
20. Данчул А.Н., Ярных Ю.А. Использование семантических микроструктур для построения моделей предметной области: Сб. статей. М.: Изд-во РАГС, 2004. С.43-55.
21. Данчул. А.Н. Введение в информатику: Учебно-методическое пособие. М.: Изд-во РАГС, 2003. - 115 с.
22. Демин И.С. Проблемы развития гипертекстовых сред//Вестник ОГУ. 2004. №4.
23. Ермаков А.Е., Плешко В.В. Семантическая сеть текста в задачах ана-литика//Информатизация и информационная безопасность правоохранительных органов: XI Международная научная конференция. Сборник трудов. -Москва. 2002. С. 343-347.
24. Ермаков А.Е., Плешко В.В. Тематическая навигация в полнотекстовых базах данных //Мир ПК. 2001. №8.
25. Ефремов В.А. Разработка методологии комплексной аналитической обработки разнородной информации в системах высшего звена организационного управления: Дис. . д-ра техн. наук. М. 2000.
26. Заболеева-Зотова А.В. Естественный язык в автоматизированных системах. Семантический анализ текстов: Монография / ВолгГТУ. Волгоград, 2002.-228 с.
27. Загорулько Ю.А., Попов И.Г. Описание сложных предметных областей на основе интеграции средств представления знаний//Труды международного семинара Диалог'97 по компьютерной лингвистике и ее приложениям.-М., 1997. С. 110-115.
28. Информатика и компьютерные технологии: Основные термины: 3-е изд., испр. и доп. / А.Я. Фридланд, Л.С. Ханамирова, И.А. Фридланд. М.: ООО «Изд-во Астрель» — ООО «Изд-во ACT», 2003. - 272 с.
29. Информатика: Учеб. пособие для студ. пед. вузов/А.В. Могилев, Н.И. Пак, Е.К. Хеннер / Под ред. Е. К. Хеннера. М.: Изд. центр «Академия», 1999. -816 с.
30. Искусственный интеллект. В 3-х кн. Кн.2. Модели и методы: Справочник / Под. ред. Д.А. Поспелова. М.: Радио и связь, 1980. - 304 с.
31. Клещев А.С. Фреймы//Представление знаний в человеко-машинных и робототехнических системах. -М.: ВИНИТИ, 1984.
32. Колесов А. Извлекая знания из хаоса информации//РСАУеек. 2003. №43.
33. Кречман Д.Л. HyperMethod подход к проектированию гипертекстовых систем // Всесоюзное совещание разработчиков и пользователей гипертекста и гипермедиа. - М., 1992.
34. Кувалдина Т.А. Применение методов искусственного интеллекта для анализа и проектирования тезаурусов учебных дисциплин: Монография. -Волгоград: Перемена, 2003. 195 с.
35. Куприна Е.В. Структуризация знаний и технология разработки гипертекстовых документов / Е.В. Куприна, Н.В. Кузьмина // 5-ые Державин-ские чтения: Материалы науч. конф. Тамбов, 2000.
36. Левашова Т.В., Пашкин М.П., Смирнов А.В., Шилов Н.Г. Управление онтологиями (базами знаний) I. // Известия академии наук. Теория и системы управления. -2003. №4. С. 132-146.
37. Левашова Т.В., Пашкин М.П., Смирнов А.В., Шилов Н.Г. Управление онтологиями II// Известия академии наук. Теория и системы управления. 2003. №5. С. 89-101.
38. Лезин Г.В., Боярский К.К, Каневский Е.А., Попова А.И. Анализ текстов: представление и обработка концептуальной информации // Труды Международного семинара Диалог'97 по компьютерной лингвистике и ее приложениям. М.: Рос. НИИ ИИ, 1997. С. 170-174.
39. Лесневский А.С. Становление системы понятий информатики в школьном образовании: Автореф. дис. . д-ра пед. наук. М.: Ин-т общ. сред, образования РАО, 1996. - 39 с.
40. Литвак С.Р., Роосмаа Т.А., Салувеэр М.Э. и др. О распознавании интерсобытий в системе понимания связанного текста//Учен. Зап. ТГУ. Труды по ИИ. Диалоговые системы и представления знаний. 1981. -Вып. 4.
41. Марксистско-ленинская общая теория государства и права. Социалистическое право. М.: «Юридическая литература», 1973. - 323 с.
42. Марусева И.В. Методические основы подготовки будущего учителя информатики к использованию технологии компьютерного обучения: Дис. . д-ра пед. наук. СПб.: РГПУ им. А.И. Герцена, 1993. 434 с.
43. Методика преподавания информатики: Учеб. пособие для студ. пед. вузов/М.П. Лапчик, И.Г. Семакин, Е.К. Хеннер; Под общ. ред. М.П. Лап-чика. М.: Изд. центр «Академия», 2001. - 624 с.
44. Минский М. Фреймы для представления знаний. М.: Мир, 1979. -152 с.
45. Михайлов О.В. Систематизация нормативно-правовых актов как способ их совершенствования. М.: Изд-во РГТЭУ, 2003. - 112с.
46. Морозова В.П., Тихомирова В.П., Хрусталева Е.Ю. Гипертексты в экономике. Информационная технология моделирования: Учеб. пособие. -М.: Финансы и статистика, 1997. 256с.
47. Мячина Е.В. Автоматизированный анализ текста на основе вероятностно-статистической модели и его применение в региональном законотворчестве. Дис. канд. техн. наук. М., 2002.
48. Нариньяни А.С. Кентавр по имени ТЕОН: Тезаурус + Онтология// Сб. «Межд. семинар ДИАЛОГ'2001» Том 1. Аксаково, 2001. С. 199 - 154.
49. Нельсон Т. Информационные системы будущего//Информационный поиск/Пер. с анг. Под ред. К.Н. Трофимова. М.: Воениздат, 1970.
50. Общая теория государства и права / Под ред. В С. Петрова, Л.С. Явича. -М., 1974.-285 с.
51. Осипов Г.С. Исследовательский центр искусственного интеллекта ИПС РАН. Разрабатываемые технологии и системы // Проблемы обработки больших массивов неструктурированных текстовых документов: Материалы научно-практической конференции М., 2001.
52. Осипов Г.С. Приобретение знаний интеллектуальными системами. -М.: Наука. Физматлит, 1997. 112 с.
53. Основы теории государства и права / Под общ. ред. Н.Г. Александрова. М.: «Юридическая литература», 1968. - 474 с.
54. Пак Н.И. Нелинейные технологии обучения в курсах информатики и информационных технологий: Автореф. дис. . д-ра пед. наук. М.: МГОПУ, 2000. 35 с.
55. Попов Э.В. Общение с ЭВМ на естественном языке. — М.: Наука, 1982.-360 с.
56. Попов Э.В. Экспертные системы: Решение неформализованных задач в диалоге с ЭВМ. М.: Наука. Гл. ред. физ.-мат. лит., 1987. - 288 с.
57. Правовая реформа: концепции развития российского законодательства.-М., 1995.
58. Пустобаев В.П. Теория и технология использования средств формализации для информационного моделирования учебного материала: Автореф. дис. . д-ра пед. наук. М.: ИОСО РАО, 2000. 35 с.
59. Ракитина Е.А. Теоретические основы построения концепции непрерывного курса информатики. М.: Информатика и образование, 2002. - 88 с.
60. Резник Ю.М. Введение в социальную теорию: Социальная системо-логия / Ю.М. Резник; Ин-т человека. М.: Наука, 2003. С.380-398.
61. Россеева О.И., Загорулько Ю.А. Организация эффективного поиска на основе онтологий. //Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. М., 2001.
62. Садовский В.Н. Некоторые принципиальные проблемы построения общей теории систем // Системные исследования. Ежегодник 1971. М., 1972. С. 51-53.
63. Селезнев К., Борисов В. Визуализация семантической сети //Открытые системы. — 2001. №11.
64. Семакин И.Г., Вараксин Г.С. Информатика. Структурированный конспект базового курса. М.: ЛБЗ, 2001. - 168 с.
65. Семакин И.Г., Шеина Т.Ю. Преподавание базового курса информатики в средней школе: Метод, пособие. М.: ЛБЗ, 2000. - 496 с.
66. Сивицкий В.А Систематизация конституционно-правовых актов Российской Федерации. Дис. . канд. юрид. наук. М., 1999.
67. СмирновА.В., Пашкин М.П., Шилов Н.Г. и др. Онтологии в системах искусственного интеллекта: способы построения и организации // Новости искусственного интеллекта. 2002. №1,2.
68. Строганов В.Ю. Комплексная автоматизация и моделирование адаптивных процессов тестового контроля и обучения в системе аттестации и подготовки кадров предприятий промышленности и транспортного комплекса: Автореф. дис. д-ра техн. наук. М., 2005.
69. Субботин М.М. Новая информационная технология: создание и обработка гипертекстов//НТИ, серия 2. 1988. №5. С. 2-7.
70. Тернер Дж. Структура социологической теории. М.: Прогресс, 1985.
71. Тюрганов, А.Г., Инструментальные средства семантического моделирования для разработки программного обеспечения автоматизированных систем : Дис. канд. техн. наук. Уфа, 1994.
72. Хендрикс. О расширении применяемости семантических сетей введением разбиений // Труды IV Международной объединенной конференции по искусственному интеллекту. T.I. Тбилиси, 1975. С. 190-206.
73. Холодова С.А. Автоматизация построения гипертекстовых систем на основе текстовой информации тезаурусным методом. Дис. . канд. техн. наук. М., 2002.
74. Шамурин Е.И. Очерки по истории библиотечно-библиографической классификации: В 2 т. М.: Изд-во Всесоюз. кн. палаты, 1955.
75. Швецкий М.В. Методическая система фундаментальной подготовки будущих учителей информатики в педагогическом вузе в условиях двухступенчатого образования: Дис. . д-ра пед. наук. СПб.: РГПУ им. А.И. Герцена, 1994. - 446 с.
76. Шемакин Ю.И. Введение в информатику. М.: Изд. «Финансы и статистика», 1985.-200 с.
77. Шемакин Ю.И. Начала компьютерной лингвистики. М.: Изд.МГОУ А/О «Росвузнауча», 1992. - 113 с.
78. Шемакин Ю.И. Основы информатики и вычислительной лингвистики. М.: МИНХ им. Г.В. Плеханова, 1983. - 224 с.
79. Шемакин Ю.И. Тезаурус в автоматизированных системах управления и обработки информации. М.: Воениздат, 1974. - 188 с.
80. Шемакин Ю.И. Теоретическая информатика. М.: Изд-во Рос. экон. акад., 1997.- 114 с.
81. Шемакин Ю.И., Романов А.А. Компьютерная семантика. М.: МОЦ «Школа Китайгородской», 1995. - 343 с.
82. Шемакин Ю.И., Романов А.А. Машинный поиск и сортировка информации. М.: МИНХ им. Г.В.Плеханова, 1989. - 166 с.
83. Шенк Р. Обработка концептуальной информации. М., 1980.
84. Шенк Р., Абельсон Р. Сценарии, планы и знания// Труды 4-й Международной объединенной конференции по искусственному интеллекту. -М., 1975.
85. Ыйм X., Салувеэр М. Фреймы и понимание языка. — Учен. зап. ТГУ//Труды по ИИ. T.I. 1978, вып. 472.
86. Энциклопедия кибернетики.- Т.2. Киев, 1975. - 620 с.
87. Эпштейн B.JI. Гипертекст и гипертекстовые системы / РАН. Институт проблем управления. М., 1998.
88. Charniak E. Jack and Janet in Search of a Theory of Knowledge. In: 3rd International Joint Conference on Artificial Intelligence. Stanford, 1973.
89. Gruber T.R. Toward Principles for the Design of Ontologies Used for Knowledge Sharing // International Journal of Human and Computer Studies. -1993. -No. 43(5/6). P. 907-928.
90. Guarino Nicola (1999) OntoSeek: Content-Based Access to the Web, IEEE Intelligent Systems, May/June. P. 70-80.
91. Longley D., Shain M. Makmillan Dictionary of Information Technology. 3rd. ed. London, 1989.
92. Nelson, T.N. A file structure for the complex, the changing, and the indeterminate // in: ACM 20th National Conference Proceedings (Clevelend, Ohio, 1965). P. 84-100.
93. Nelson, T.N. As we we will think in Online 72 // Proceedings of the International Conference on Online Interactive Computing. Uxbridge, UK: Online Computer Systems Ltd, 1983. P. 439-454.
94. Quillian M.R. Semantic Memory // Report AFCRL-66-89-Cambridge: MIT Press, 1966. P. 251-259.
95. Takeda H., Takaai M., and Nishida T. (1998) Collaborative development and Use of Ontologies for Design, Proceedings of the Tenth International IFIP WG 5.2/5.3 Conference PROLAMAT 98, September 9-10-11,12,Trento, Italy.
96. Ushold M., Gruninger M. Ontologies: Principles, Methods and Applications // Knowledge Engineering Review, 1996. V. 11, J^2.
97. Wilks Y. Methodology in Artificial Intelligence and Natural Language Understanding. In: Theoretical Issues in Natural Language Processing. Cambridge, Mass., 1975.
-
Похожие работы
- Программное обеспечение для многоуровневого структурирования контента информационного пространства по системной модели
- Семантическая модель контента образовательных электронных изданий
- Технология интеграции данных в гетерогенных корпоративных программных комплексах
- Формирование контента реферата при автоматическом реформировании научного текста
- Методы и технология построения программируемых инфокоммуникационных систем