автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов
Автореферат диссертации по теме "Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов"
На правах рукописи
Воронина Ирина Евгеньевна
Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов
05.13.17 - Теоретические основы информатики
Автореферат диссертации на соискание ученой степени доктора технических наук
28 ноя т
005541123
Воронеж-2013
005541123
Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Воронежский государственный университет» (ФГБОУ ВПО «ВГУ»)
Научный консультант
Львович Яков Евсеевич, доктор технических наук, профессор, заведующий кафедрой систем автоматизированного проектирования и информационных систем Воронежского государственного технического университета
Официальные оппоненты:
Минаев Владимир Александрович, доктор технических наук, профессор Российского нового университета
Вишняков Юрий Муссович, доктор технических наук, профессор Таганрогского технологического института Южного федерального университета
Валеев Сагит Сабитович, доктор технических наук, профессор, заведующий кафедрой информатики Уфимского государственного авиационного технического университета
Ведущая организация Федеральное государственное бюджетное
образовательное учреждение высшего профессионального образования «МАТИ - Российский государственный технологический университет имени К.Э. Циолковского»
Защита состоится « 24 » декабря 2013 г. в 10.00 час. на заседании диссертационного совета Д 212.038.24 при федеральном образовательном бюджетном учреждении высшего профессионального образования «Воронежский государственный университет» по адресу: 394006, г. Воронеж, Университетская пл., д.1, ауд. 226.
С диссертацией можно ознакомиться в Зональной научной библиотеке Воронежского государственного университета. Автореферат разослан //» 2013 г.
Ученый секретарь диссертационного совета
Т.М. Леденева
Общая характеристика работы
Актуальность проблемы. В условиях информационного общества требуется взаимодействие разных пользователей, государственной службы и социальной сферы с виртуальными ресурсами. Стоимостные и качественные характеристики такого взаимодействия существенным образом зависят от адекватности лингвистической среды, общение в которой происходит на естественном языке (лингвистическая среда - вид коммуникативного социокультурного пространства, в котором реализуется общение). На принятие решений в современном обществе сильнейшее влияние могут оказывать информационные воздействия, реализуемые средствами массовой информации, особенности современного законодательства, уровень образования, доступность мировых информационных ресурсов. В то же время невозможно отрицать стремительный рост объемов самой информации, причем налицо преобладание неструктурированных данных и высокая динамика распространения неструктурированной информации. Кроме того, информация доступна на многих языках. Понимая под лингвистическим обеспечением информационных процессов совокупность языковых средств общения и технологий их реализации, можно с уверенностью утверждать, что будущее за развитием естественно-языковых технологий со всеми вытекающими проблемами формализации естественного языка.
Формализация естественного языка является нетривиальной задачей и обладает всеми особенностями слабоструктурированных проблем. Исследованием этой проблемы занимались как отечественные, так и зарубежные ученые, среди которых Н.Хомский, Т. Виноград, A.C. Нариньяни, Бодуэн де Куртене, A.C. Гердт, А.Г. Белоногов, В.В. Налимов, Д.А. Поспелов, H.H. Перцова, Р.Г.Пиотровский, P.C. Гиляревский, Ю.И. Шемакин, А.И Кузнецова, Г.П.Мельников, A.A. Кретов. Прикладные научные исследования в области формализации естественного языка характеризуются тем, что обычные способы сбора и обработки информации не обеспечивают необходимой быстроты, полноты и качества ее переработки. Отсутствие диагностического инструментария, позволяющего количественно оценить степень приближения получаемых результатов к реальности, также не способствует повышению эффективности и качества исследований. Рассматривая в качестве системы-объекта естественный язык, необходимо проанализировать подходы, проблемы и достижения на пути построения теоретической системы и представить развитие методологии исследовательского процесса, разработав математическое, алгоритмическое и программное обеспечение его поддержки.
Создание удобного и эргономичного пользовательского интерфейса, реализация эффективного поиска в телекоммуникационных сетях, совершенствование далеко не идеальных систем машинного перевода, обработка неструктурированной информации, развитие образовательных возможностей за счет не только пополнения электронного контента, а путем создания автоматизированных обучающих систем, опирающихся на анализ и принятие решения, - все это требует фундаментальных исследований в области естественного языка.
Степень формализации естественного языка, необходимая для создания программ, не обеспечивается традиционными лингвистическими знаниями.
Объемные базы данных, содержащие электронные словари и морфологические таблицы, в сочетании с методами работы с ними не решили проблему естественно-языкового общения с ЭВМ. Для синтеза и анализа текстов необходимо наличие знаний и правил, которые пока не сформулированы. Попытка от чисто лингвистических моделей перейти к созданию математической модели естественного языка для использования в компьютерных программах не привела к желаемому результату, натолкнувшись на ограничения, характеризующие формальную модель. Поэтому необходимо искать разумное соединение математических и лингвистических моделей для исследования проблем формализации и выявления знаний и правил, пригодных для компьютерной реализации. Компьютерные методы могут помогать обеспечивать верификацию выявленных знаний и правил.
Актуальность темы диссертационного исследования определяется необходимостью развития теоретических основ и аппарата исследования лингвистической среды как вида коммуникативного социокультурного пространства, в котором реализуется общение, для обеспечения процессов государственного управления и информационного обслуживания населения на основе комплекса математических средств формализации лингвистических объектов, а также методов интеллектуального анализа данных, ориентированных на принятие управленческих решений в социокультурной среде.
Объектом исследования являются лингвистические процессы в информационном обществе.
Предмет исследования: методология формализации и исследования лингвистических объектов на основе моделирования лингвистической среды.
Цель и задачи исследования. Целью диссертации является развитие методологии исследования, включающей комплекс модельных и алгоритмических решений, а также программный инструментарий формализации лингвистической среды информационных ресурсов и генерации процедур для обработки лингвистической информации.
Для достижения поставленной цели необходимо решить следующие задачи:
проанализировать влияние лингвистической среды на развитие информационных процессов современного общества и разработать подходы к моделированию лингвистического обеспечения информационных ресурсов;
разработать методологию проведения лингвистических исследований на основе единообразного подхода к последовательному полному или частичному решению проблем формализации предметной области, в том числе структуризации знаний;
разработать процедуры формирования параметров лингвистических объектов в задачах моделирования языковых систем;
разработать алгоритмы моделирования и принятия решений в задачах анализа и синтеза лингвистических объектов с использованием модели качественного оценивания, ориентированной на учет индивидуальности исследователя в ситуации, когда невозможно реализовать выбор на базе точных расчетов;
осуществить программную реализацию алгоритмов анализа и синтеза для построения средств автоматизации исследования; разработать процедуры интеграции алгоритмической, обучающей и исследовательско-диагностирующей функций на единой методологической основе в рамках задач словообразования;
проанализировать возможности лингвистической среды как средства развития информационных процессов социокультурной системы, для этого провести исследования с использованием разработанных моделей и методов влияния лингвистической среды на информационную, когнитивную, правовую и образовательную составляющие социокультурной системы.
Методы исследования. В работе использованы методы теории нечетких множеств, теории информации, теории вероятностей и математической статистики, математического моделирования, детерминационного анализа, системного анализа; в качестве методологической основы использован метод лингвистического эксперимента.
Научная новизна. В диссертации получены следующие основные результаты, характеризующиеся научной новизной:
методология моделирования лингвистической среды, позволяющая реализовать единый подход к проведению исследований по выявлению и формализации правил формирования лингвистических объектов, основанная на гипотезе о сочетаемости языковых единиц соответствующего уровня иерархии;
процедуры формирования параметров моделирования языковой системы, обеспечивающие интеграцию качественного оценивания сочетаний структурных единиц лингвистических объектов на основе расчета взвешенной интенсивности правил и возможности настройки весовых коэффициентов;
модель словообразовательной системы, пригодная для компьютерной реализации, отличающаяся универсальностью по отношению к этапам моделирования и выбору метода обработки лингвистических средств, характеризующаяся возможностью своего пополнения по мере накопления и анализа информации;
алгоритмические средства выделения ключевых слов, отличающиеся возможностью анализировать лингвистическую среду и выявлять тематически маркированную лексику посредством статистического взвешивания слов по функциональным параметрам и построения семантического пространства с использованием алгоритма Гинзбурга для пользователей информационных ресурсов;
эволюционная модель анализа и синтеза процесса словообразования в едином ключе с разработанной методологией моделирования, отличающаяся способом последовательной фильтрации в виде расширяющейся системы правил, реализующих запреты на определенные сочетания структурных составляющих лингвистических объектов;
энтропийная оценка адекватности словообразовательной модели реальному лингвистическому объекту, позволяющая осуществить поэтапную диагностику процесса словообразования в лингвистической модели;
процедура формирования онтологий на основе моделирования лингвистической среды, обеспечивающая поддержку новых возможностей в автоматизации управления социокультурным развитием и реализацию подходов
к решению задач в области организации эффективного поиска пользователями социальной сферы в Интернет и создания справочно-правовых систем;
процедуры интеграции разработанных моделей и алгоритмов с информационной, когнитивной, образовательной и правовой составляющими социокультурной системы.
Практическая значимость и реализация результатов работы.
В результате диссертационного исследования разработаны математическое, программное и алгоритмическое обеспечение комплекса программных средств моделирования и алгоритмизации лингвистических исследований, в том числе и программный инструментарий для поддержки обучения различных групп пользователей, использующий в качестве методологической основы метод лингвистического эксперимента.
Результаты работы внедрены и используются при проведении исследований в Научно-методическом центре компьютерной лингвистики ФГБОУ ВПО «ВГУ», в учебном процессе ФГБОУ ВПО «ВГУ», при разработке программного обеспечения в ЗАО НПП «РЕЛЭКС», при организации научно-исследовательской работы для обработки лингвистической информации и в учебном процессе кафедры информационных систем экономического факультета Санкт-Петербургского государственного университета, в учебном процессе ФГБОУ ВПО «Московский государственный технический университет им. Н.Э. Баумана».
В Государственном фонде алгоритмов и программ РФ зарегистрированы 5 программных продуктов и 7 - в Государственном информационном фонде неопубликованных документов ФГНУ «Центр информационных технологий и систем органов исполнительной власти».
Результаты исследования могут быть использованы при разработке лингвистического и программного обеспечения информационных систем и процессов нового поколения.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на 17 международных, 11 Всероссийских и 3 региональных конференциях, среди которых Всероссийской научно-методическая конференция «Компьютерные технологии в высшем образовании» (Санкт-Петербург, 1994), Межвузовская науч.-метод. конференция «Фундаментальные и специальные дисциплины в системе университетской образовательно-профессиональной подготовки филологов и журналистов» (Ростов, 1994), 2-я Международная конференция по квантитативной лингвистике «С2иаНсо-94» (Москва, 1994), Международная конференция «Лингвистика на исходе 20 века» (Москва, 1995), Всероссийская научная конференция «Русский язык: прошлое, настоящее, будущее» (Саратов, Сыктывкар, 1996), Всероссийское совещание-семинар «Математическое обеспечение информационных технологий в технике, образовании и медицине» (Воронеж, 1997), Всероссийская научно-практическая конференция «Новые информационные технологии в образовании» (Воронеж, 1997), Всероссийское совещание-семинар «Высокие технологии в региональной информатике» (Воронеж, 1998), Всероссийская научно-практическая конференция «Черноземье-98» (Воронеж: ВОИПКРО, ВГПУ, 1998), Всероссийская конференция «Интеллектуальные информационные системы», (Воронеж, 1999),
Международная научная конференция «Проблемы и перспективы интеграции высшей школы России в мировую систему образования и науки» (Воронеж, 2001), Международный конгресс исследователей русского языка «Русский язык: исторические судьбы и современность» (Москва, МГУ, 2001), Международная конференции «Диалог 2003» (Москва, 2003), Международной научно-методической конференция «Информатика: проблемы, методология, технологии» (Воронеж 2006-2013), Воронежская межвузовская науч.-практ. конференция «Формирование и самоформирование профессиональной ментальности студентов в педагогическом процессе вуза» (Воронеж, 2009), Международная конференция «Актуальные проблемы прикладной математики, информатики и механики» (Воронеж, 2009), Международная научная конференция «Проблемы компьютерной лингвистики» (Воронеж, 2007, 2009,
2011), Всероссийская научно-техническая конференция «Перспективные исследования и разработки в области информационных технологий и связи» (Воронежский межрегиональный форум инфокоммуникационных технологий
2012).
Публикации. По теме диссертации опубликовано 67 работ, 18 из которых в изданиях, рекомендованных ВАК, две монографии.
Структура и объем работы. Диссертация состоит из введения, шести глав, заключения, пяти приложений, списка литературы из 375 наименований и 72 юридических источников. Основная часть работы изложена на 298 страницах, содержит 59 рисунков и 21 таблицу.
Соответствие паспорту специальности. Область исследования и полученные результаты соответствуют п.п. 1,2,4,5,6,12 паспорта специальности 05.13.17 — Теоретические основы информатики.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы исследования, определены цель и задачи работы, методы решения сформулированных задач, отмечены основные результаты исследования, выносимые на защиту; определена их научная новизна и практическая значимость; приведены сведения об апробации и внедрении результатов работы.
В первой главе анализируется развитие социокультурных процессов в контексте информационного общества и роль лингвистической среды в условиях интенсификации информационных потоков и создания единого информационного пространства (рис. 1).
Особая роль лингвистической среды в условиях информационного общества заключается в том, что она оказывает влияние на такие управляемые процессы развития системы как культура, наука, образование, право (рис. 2).
С системных позиций рассматривается роль языка в социокультурных процессах, а также цепочки в концептуальных взаимосвязях язык-текст-культура-социум-управление; социум - язык - текст; текст - язык -информация - социум; социум - культура - текст - язык - информация -управление - социум.
Значительную долю информационных ресурсов современных информационных систем составляет текстовая информация.
язык
вид
средство общения
Социокультурное пространство
Лингвистическая среда
И
область развития котором реализуется общение)
(вид коммуникативного социокультурного пространства, в
ИНФОРМАЦИОННОЕ ОБЩЕСТВО
(общество знаний)
I
характеристика
Информационное пространство
(совокупность информационных ресурсов, информационных систем и коммуникационной среды)
ресурсообразующий компонент
I
область существования
Информация
Информационная среда (совокупность технических и программных средств хранения, обработки и передачи информации, а также социально-экономических и культурных условий реализации процессов информатизации)
Рис. 1. Лингвистическая среда в контексте современного развития общества
Круг проблем в области текстового поиска, помимо развития конкретных моделей поиска, методов кластеризации и классификации текстовых документов, оценки эффективности обработки запросов и т.п., включает в себя обработку естественного языка. Интернет сегодня — это сфера функционирования естественного языка и универсальная платформа для сращивания различных видов контента. В решении вопросов электронного взаимодействия техническая, алгоритмическая, программная составляющие информационных систем далеко не в полной мере отвечают за успех создания единой системы электронного взаимодействия. Большую долю определяет содержательная составляющая, в значительной степени представляемая семантическим, информационным и лингвистическим обеспечением, которая может складываться из семантической интероперабельности, инструментариев онтологии, естественно-языкового интерфейса и других компонентов (например, экспертной системы).
Семантическая интероперабельность необходима для установления соответствия между смыслами терминов, используемых в передаваемых данных, что требует морфологического, синтаксического и семантического анализа электронных документов и сообщений, установления формального и субъективного соответствия формы электронных документов и сообщений, а также характера и стиля взаимодействия их содержанию. Вопросы обеспечения семантический интероперабельности при межведомственном электронном взаимодействии возникают при учете и использовании официально-деловых документов.
В главе проведен обзор и анализ подходов к формализации естественного языка (ЕЯ). Вводится понятие лингвистического объекта как элемента определенного уровня языковой структуры (рис. 3).
Рис. 2. Структурная схема информационного процесса социокультурного развития на основе моделирования лингвистической среды
Рис. 3. Лингвистические объекты
Лингвистический объект - единица определенного структурного уровня языка, исследуемая как относительное самостоятельное, но всё равно во всех его взаимосвязях.
Глобальная цель всех проводимых лингвистических исследований — разобраться в структуре языка. Уровни структуры языка - это синтаксические предложения, слова, морфемы, фонемы. Все языковые уровни характеризуются наличием базовых элементов. Для исследования и максимальной формализации каждой языковой подсистемы необходимо создавать программный инструментарий, реализующий процесс изучения путем выявления и проверки правил анализа и синтеза. Фиксация правил анализа и синтеза приведет к созданию анализаторов и синтезаторов каждого уровня иерархии (рис. 4). На рис. 5 представлено то, как происходит исследование лингвистического объекта в процессе его моделирования и создание фильтра.
Предлагается единообразный подход к проведению лингвистических исследований и к последовательному полному или частичному решению проблем формализации, позволяющий выявлять и подтверждать правила синтеза для системы порождения правильных цепочек (сочетания языковых единиц) на заданном языковом уровне с привлечением специалистов предметной области (рис. 6). Правила формулируются в виде запретов на сочетаемость языковых единиц (ЯЕ). Правила составляют основу фильтра, позволяющего отсекать отрицательный, с точки зрения данного фильтра, материал. Использование фильтра приводит к формулировке правил и созданию фильтра следующего уровня. Процесс в идеале имеет столько циклов, сколько потребуется для достижения полной формализации. На этапе создания фильтра можно продиагностировать наличие отклонения модели от реальной системы (подсистемы) и получить необходимые количественные оценки. Диагностический инструментарий не обязательно должен порождать количественные оценки с абсолютной степенью точности, поскольку имеет своей целью скорее обозначение тенденций, подтверждение или опровержение правильности хода исследовательского процесса.
Во второй главе предложены модели для реализации качественного оценивания сочетаемости лингвистических объектов заданного уровня.
СИНТЕЗ
Рис. 4. Методология проведения лингвистических исследований
На каждом языковом уровне возникает задача порождения правильных языковых цепочек. В терминологии формальных грамматик Хомского «правильная» означает соответствие правилам грамматики, а цепочки образуются путем конкатенации базовых элементов. В нашем случае в качестве базовых элементов выступают языковые единицы (объекты) заданного уровня, а цепочки образуются путем сочетания этих единиц, результатом чего является порождение объекта следующего уровня. Для формирования правил в виде запретов на сочетаемость базовых единиц каждого уровня привлекаются эксперты и наблюдаемые статистические данные. Принятие решений обычно предполагает, что информация, используемая для их обоснования, достоверна и надежна. Но для задач, которые по своему характеру являются качественно новыми, это предположение зачастую не выполняется. Основные трудности обусловлены неполнотой имеющейся информации или ее недостаточно высоким качеством. Для проблем, в отношении которых информационный потенциал недостаточен для уверенности в истинности выдвигаемых гипотез, должны использоваться модели, ориентированные на обработку качественной информации. В сложных ситуациях каждый эксперт должен определить возможность сочетания тех или иных структурных единиц, используя качественные оценки, основанные на используемом понятии лингвистической переменной.
Базовое множество модели - набор языковых единиц соответствующего ; уровня
Настройка базового
множества - выбор
варианта генерации
объекта
Е
Положительный материал
... I
АНАЛИЗ
ш
Генерация объекта
ОБ Г ЪЕКТ
Процедура фильтрации с использованием формируемой иерархии фильтров
Создание фильтра следующего уровня
пополнение модели
Первичная обработка
материала -
экспертное
оценивание
Формирование гипотезы
Лингвистический материал, полученный ' с различными порогами
Формирование гипотезы (фильтра)
Рис. 5. Эволюционная модель лингвистического объекта
В рамках исследования водится лингвистическая переменная Comp = (СОЧЕТАЕМОСТЬ, Т, [0, 1 ], G, F), где T = {Tj}i=j— — упорядоченное терм-множество значений лингвистической
переменной, которое, по сути, образует лингвистическую шкалу.
Рис. 6. Концептуальная схема исследований лингвистических объектов
В рамках проведенного исследования предполагается, что шкала имеет следующий вид:
Т={(1= нет; 12= скорее нет; 1з= не знаю; 14= скорее да; 15= да].
Каждому терму /, ставится в соответствие весовой коэффициент </„ так что
е[0,1]).
Для лингвистических объектов оценка сочетаемости осуществляется в процессе коммуникации. Если из п объектов выделяется подгруппа таких, которые обладают некоторым свойством а, и К объектов данной группы демонстрирует тип поведения Ь, то будем считать, что правило а —> Ь имеет интенсивность 1(а —>Ь) - К.
При исследовании проблемы моделирования и принятия решений в задачах анализа и синтеза лингвистических объектов в правилах сочетаемости в
качестве объекта выступает единица, которая стоит на более высоком уровне иерархии, нежели единицы, рассматриваемые на предмет совместимости: если объект - это текст, то составляющими текста будут предложения, на уровне предложений составляющими являются слова, на уровне слова - морфемы. В результате исследования формируется множество правил, каждому из которых ставится в соответствие степень, которой можно придать различную
интерпретацию. Правила сочетаемости задаются в виде: Ri = Ej —'j—> Ек, где Ej, Ек - ЕЯ, tj - значение лингвистической переменной «СОЧЕТАЕМОСТЬ», или Ej—о Ек. Интерпретация правила: СОЧЕТАЕМОСТЬ( фиксированная единица (объект) Ej уровня п — 1 > И < единица (объект) Е^ уровня п - 1 >) ИМЕЕТ МЕСТО СО СТЕПЕНЬЮ /,.
Для принятия решения в случае неочевидной сочетаемости ЯЕ предложен метод интуитивной оптимизации, при этом под оптимизацией будем понимать сокращение числа шагов, необходимых для принятия решения.
Суть метода заключается в следующем. Рассматриваются объекты уровня п. Выделим Efaed - ЯЕ уровня п-1, сочетаемость которой предстоит исследовать. Эксперты оценивают возможность сочетания Е^хец с ЯЕ ее уровня. Метод заключается в усреднении лингвистических оценок сочетаемости ЯЕ на основе интенсивности каждого правила и соответствующего весового коэффициента и включает следующие шаги.
Шаг 1. В процессе экспертизы каждый эксперт speck{k = \,е) заполняет матрицу
оценок сочетаемости Eflxej с каждой из языковых единиц Ej (j = 1, m) (строки
соответствуют термам а столбцы - Ej). При наличии сочетаемости с
оценкой элемент экспертной матрицы полагается равным 1, иначе 0.
s
Шаг 2. Вычислить обобщенную матрицу spec= ^speck , в результате чего
*=1
получим, что элемент specy =N(tj), где N(lj) — количество экспертов, которые
оценили сочетаемость Efaed с Ej оценкой /,.
Шаг 3. Сформировать множество активных оценок:
Sel(Ej)={tj: N (ti)^0) = ,--4\Г) )> rj ~~ количество активных оценок для Ej. Шаг 4. Для каждой единицы Ej вычислить взвешенную интенсивность
сочетаемости с Er,xej\io формуле SF =— ^лрес,.- чу,- .
' ™{i:tleSe(Ej)}J
Шаг 5. Задать пороговые значения на сочтаемость/несочетаемость bound* и ЪоипсГ и сформировать множества положительных и отрицательных правил.
Результаты работы предложенного алгоритма позволяют сформировать исходный материал для исследования возможностей формирования правил фильтрации в виде запрета на сочетаемость.
Следует заметить, что и отрицательный материал может быть подвергнут исследованию. Визуализация распределения по значимости каждого правила, то есть взвешенных интенсивностей SEj, позволяет получить профиль
сочетаемости Ef,xej с Ej, которая может косвенно быть полезна при принятии
решения о выборе предпочтительного сочетания и формализации правила выбора.
Предложенный алгоритм был программно реализован и апробирован на тестовых примерах. Например, для выбора предпочтительных сочетаний с заданными порогами было обработано 4810 словосочетаний со словом «свобода» (источник информации: «Морфемно-морфонологический словарь языка А. С. Пушкина» - около 23000 слов).
Третья глава посвящена моделированию лингвистических объектов и разработке методологии принятия решений при проведении исследований на материале русского словообразования. Слово является важнейшей структурно-семантической единицей русского языка, которая служит для обозначения предметов, процессов, свойств. В структурном отношении слово состоит из морфем. Разработанная модель является инструментом изучения русского словообразования. Цель - ответ на вопрос, почему генерируемое слово является русским словом. Для достижения цели необходимо построить систему правил, по которым формируется слово. Наличие правил позволит исключить из рассмотрения так называемый отрицательный материал. Отсечение отрицательного материала происходит с помощью фильтрации. Процесс фильтрации осуществляется с помощью системы фильтров, которые имеют вид правил, реализующих запреты на определенные сочетания структурных составляющих слова - морфем. Набор фильтров не закрыт. Он предполагает добавление новых фильтров в их систему, которая имеет иерархическую структуру. Программная реализация моделирования словообразования предоставляет средства, необходимые для получения и накопления словообразовательного материала и его анализа, для того чтобы сформулировать правила нового, более высокого уровня для их проверки и подтверждения. Поэтому модель является расширяемой. Она спроектирована таким образом, что подразумевает свое расширение в процессе эксплуатации добавлением новых компонентов в виде фильтра очередного уровня. Конечным этапом эволюции является полнота набора фильтров, что и приведет к главной цели модели - будут сформулированы и программно реализованы правила построения русского слова.
Базовым множеством модели является исходный конечный набор морфем, из которых будет строиться слово. Инвентарный набор делится на четыре непересекающихся класса: корневые морфемы, префиксы, суффиксы и набор окончаний (флексий). Под настройкой базового множества понимается его сужение (в случае необходимости, если это способствует выявлению закономерностей). На процесс порождения слова накладываются следующие ограничения: слово должно содержать не более 7 ± 2 морфем, не считая корня и окончания (рассматриваются только слова с одним корнем), не может быть более трех приставок, шести суффиксов и всегда присутствует окончание (может быть пустым)ю Следовательно, предельная формула русского слова -ПЗ-П2-П1-К-С1-С2-СЗ-С4-С5-С6-Ф, где П - приставка, К - корень, С -суффикс, Ф - окончание (флексия).
Система фильтров включила в себя фонетический, дередупликативный, флективный и частеречный фильтры. Для того чтобы оценить степень
расхождения модели с реальностью, был разработан инструмент диагностирования с использованием вероятностно-статистических методов теории информации, в частности, применена энтропийная модель. Диагностический инструментарий является внешним по отношению к модели словообразования. Модель словообразовательного процесса играет роль инструмента для накопления, анализа, изучения материала, выполняя функцию обучения, а набор диагностических средств используется в исследовательских работах, осуществляя функцию оценки. Задав направление генерации слова, выбрав его вид (формулу), имея в наличии правила, описывающие формирование слова, при разработанной на момент исследования системе фильтров, которые составляют основу для диагностирования, можно выявлять закономерности словообразовательного процесса, поставить вопросы о причинах поведения словообразовательной системы тем или иным образом при переходе из одного состояния в другое, тем самым получая новые знания.
Известно, что во всяком языке накоплена информация, создающая в чередовании звуков и букв определенный сложный порядок. Такой же порядок, очевидным образом, существует и при чередовании более крупных языковых единиц - морфем. Этот порядок приводит к порождению осмысленного слова. При произвольном соединении морфем друг с другом велика степень неопределенности. Таким образом, появление порядка — результат ограничений и условий, накладываемых на процесс порождения слова. Математическое подтверждение возрастания порядка можно найти, применив энтропийную модель для дискретного источника информации. Выявим тот смысл, который приобретает известная формула вычисления энтропии Н = в
/
применении к диагностике процесса словообразования.
Рассмотрим первоначальную ситуацию, когда известна предельная формула слова и морфемы подставляются в эту формулу безо всяких ограничений. В этой ситуации можно вести речь об энтропии нескольких независимых дискретных источников, и формула для ее вычисления примет следующий вид:
ЩП3П2П,КС,С2С3С4С5С6Ф) =Н(П3) +Н{П2) +Н(П,)+Н(К)+Н(С,)+ ... +Н{С6)+Н(Ф).
0)
При этом, если предположить равную вероятность употребления каждой морфемы при генерации слова (то есть вероятность употребления для каждой морфемы соответствующего класса будет равна где к — количество морфем
данного класса), мы получим максимальную энтропию.
Первым шагом к уменьшению энтропии может стать предположение о том, что каждая морфема имеет свою частоту употребления и, следовательно, характеризуется собственной вероятностью появления. Известно, что одни морфемы являются более употребительными, другие - менее.
Таким образом, можно иметь дело с ансамблями следующего вида:
и А щ - . где щ - морфема из заданной совокупности, а
\Р(щ)-Р(щ)-Р{и„))
п
p(uj) - вероятность ее появления, при этом )= ' ■
/=1
Заметим, что разным типам формул слова соответствуют разные вероятности встречаемости в текстах, что подтверждается отчасти тем, что известны наиболее продуктивные модели русских слов.
Использование фильтров может стать важным шагом в увеличении порядка и уменьшении неопределенности. В этой ситуации приходится иметь дело с энтропией зависимых источников (условной): п m
при этом Hu(V) = -'£p(tij)Ylp(.Vi/Uj)\ogp(vi/Uj), где С/ и V - ансамбли j=1 /=1 исходных источников U и V.
Предложенные фильтры не затрагивают приставочных стыков (кроме запрета на удвоение префиксов), поэтому исследованы представленные ниже сочетания. На основании правил, формирующих фильтры (правила предложены специалистами предметной области), получены следующие результаты.
1. Сочетаемость корень-окончание (К-Ф).
Н{КФ)=Н{К) + Нк(ф) = -^р{к>)log /К*,-)-£>(*,-)£/>(*>; /¿,)log/;(«*, /к,), (2)
M /=1 у=1
где к-, - корневая морфема, a <j>j - флективная морфема; р(к: ) - вероятность
употребления /-й корневой морфемы, p{(j)j jкt ) - вероятность появления /-го
окончания из флективного набора при употреблении i-й корневой морфемы; г -количество корневых морфем, е - количество окончаний в наборе.
2. Сочетаемость корень-суффикс (К-С).
Н(1СС) = Н(к)+НК(С) = -^р{к,) log p(kj ) - ^ p(kj p(cj/к,) log Picjlk,),( 3) ¿=1 i=i j=i где kj - корневая морфема, a Cj - суффиксальная морфема; p{kt ) - вероятность употребления /-й корневой морфемы, a p[cj Jkj ) - вероятность появления j-го суффикса из суффиксального набора при употреблении /'-й корневой морфемы; г - количество корневых морфем, s — количество суффиксов в наборе.
3. Сочетаемость суффикс-суффикс и суффикс-окончание.
Н(СФ) = Н(с)+НС(ф) = p{Cj)log p(ci)-^p(ci)f4p(4j /с;)log р(ф1 le,), (4)
i=1 M y=l
где Cj - суффиксальная морфема, a фj - флективная морфема; p{cj)-
вероятность употребления i-й суффиксальной морфемы; p[<f>j /с, ) - вероятность
появления /-го окончания из флективного набора при употреблении г-й суффиксальной морфемы; s - количество суффиксальных морфем, е -количество окончаний в наборе.
Для сочетаемости суффиксов в диссертации предложен представленный ниже алгоритм. Алгоритм (ENTROPY).
Вход: Набор активных суффиксов, полученных в результате анализа стыка корень-суффикс; количество суффиксов в исследуемой формуле (count). Шаг 1. Положить Н=0.
Шаг 2. Если count> 1, то перейти к шагу 4; если count= 1, то перейти к шагу 3. Шаг 3.
3.1. Получить активный набор для данного суффикса (activejset);
3.2. count = count-1;
3.3. H = H + вероятность употребления данного суффикса * И (С) + ENTROPY(active_set, count), причем вероятности употребления суффиксальных морфем будут отличны от нуля лишь для тех из них, которые входят в активный набор (в этом и проявляется зависимость от предыдущего состояния системы);
3.4. Перейти к шагу 5. Шаг 4.
4Л.Н = Н + вероятность употребления данного суффикса * Н(СФ)\ 4.2. Перейти к шагу 5. Шаг 5. Завершить работу.
Алгоритм вычисления энтропии для Формул вида К —{С,}, j-т —Ф.
Вход: Наборы корневых и суффиксальных морфем. Шаг 1. Положить Н=0.
Шаг 2. Для каждого корня из имеющегося инвентаря корневых морфем найти активный набор суффиксов (first_active_set).
Шаг 3. Н = Н(С) • вероятность употребления данной корневой морфемы + ENTROPY(i, first_acti\e_set), где Сеfirst_active_set. Шаг 4 .H(K-{C}i=T-b —Ф) = Н ■ Рформ.
Шаг 5. Завершить работу.
Языковые фильтры были разработаны с использованием этимологической транскрипции, предложенной A.A. Кретовым. Проведен вычислительный эксперимент иллюстрирующий эффективность фильтрации (рис. 7), который продемонстрировал возможность применения энтропийной модели для диагностики процесса словообразования. Представленные средства диагностики могут применяться для того, чтобы при разработке и применении новых фильтров можно было оценить их действенность, то есть степень приближения к реальной ситуации, когда на выходе получается то, что мы считаем русским словом. Кроме того, при развитой системе фильтров можно оценить «вес» каждого фильтра, что приведет, в свою очередь, к выяснению степени влияния тех или иных правил на процесс порождения слова и, следовательно, к выявлению тенденций, имеющих место в словообразовательном процессе.
Эффективность системы фильтров
EJ Реальная энтропия Е1 Экспериментальная энтропия □ Полная энтропия
о
К-Ф К-С-Ф П-К-Ф К-С-С-Ф П-К-С-Ф П-П-К-Ф К-С-С-С-Ф
Рис. 7. Эффективность фильтрации
Четвертая глава посвящена разработке программных средств моделирования лингвистических объектов и их использованию в исследовательской практике.
Объектом исследования является слабоструктурированная предметная область с высоким уровнем неопределенности. В условиях отсутствия возможности применения стандартных математических и алгоритмических методов решения задачи, любой подход, реализованный в виде набора инструментальных средств для проведения исследований, позволяющий получить приближение к правильному результату, имеет значение.
Применение средств автоматизации в исследовательской работе необходимо для получения порождаемого материала, который используется исследователем для наблюдения, анализа и принятия решения на основании диагностики.
На рис. 8 представлены программные средства в рамках программного комплекса проведения исследований лингвистических объектов разного уровня.
Сами по себе средства автоматизации не могут быть эффективны, если еще на этапе их проектирования, а затем и на этапе создания прототипа системы не происходит глубокое погружение в предметную область и отсутствует тесное взаимодействие с исследователем. Модель проведения исследований, основанная на эволюционном подходе, предполагает выявление новых знаний в виде правил путем наблюдения и эксперимента, программное подтверждение этих правил и пополнение системы.
Предполагая, что между объектами предметной области, как правило, существуют различные отношения, можно обобщить рассмотренный ранее подход СЕМАНТИЧЕСКОЕ ОТНОШЕНИЕ( <объект, > И < объектк >) со
степенью или, в другой нотации, SemR ( Object • —,J—^Ohjectk )•
ИНВАРИАНТНАЯ ЧАСТЬ
ПРОБЛЕМНО-ОРИЕНТИРОВАННАЯ ЧАСТЬ
Программа для формирования словаря рифм русского языка
Программный инструментарий для реализации анализа фонетической значимости слова
Программа анализа русских стихотворных текстов «AVERS»
Автоматический
македонско-русский
словарь
Программа для формирования словаря рифм русского языка
Программный инструментарий для реализации анализа фонетической значимости слова
Алгоритм членения буквенного потока для систем распознавания речи
Рис. 8. Программные средства
Семантический анализ невозможен без использования результатов анализа отдельных слов, для чего в качестве общей основы для всех методов анализа может быть использован тезаурус языка. Тематика документа определяется его словарным запасом. Ключевые слова или фразы дают высокоуровневое описание содержания документа, отражают специфику текста и позволяют выявить его тематику. Выделение ключевых слов и словосочетаний необходимо при решении задачи классификации документов по заданному набору тематик, является базовой процедурой поисковых алгоритмов, автоматического реферирования и т.д.
Следующей, и весьма нетривиальной задачей, является задача определения слов, близких по значению заданному слову (получение семантического поля слова). В диссертации реализован набор инструментальных и алгоритмических средств, который позволяет анализировать текст на русском языке и выявлять тематически маркированную лексику путем «взвешивания» слов по функциональным параметрам (предложен A.A. Кретовым). Проведен вычислительный эксперимент на базе списка ключевых слов, полученных при ручной обработке, подтвердивший эффективность метода, что позволяет применять его в средствах автоматизации.
Для формализации семантического пространства предлагается использование алгоритма Гинзбурга, для чего строится граф, вершинами которого являются ключевые слова; инцидентные ребра графа определяются словами-спутниками, притянутыми ключевым словом по алгоритму Гинзбурга. Каждому ребру приписывается вес, определяющий силу связи между ключевыми словами. Данному семантическому графу однозначно соответствует
система правил СВЯЗЬ (KCj ——> КСк) , где /,• - сила связи. В диссертации
предложены различные способы определения силы связи. Представленный подход является основой дальнейших исследований по автоматизированному выделению ключевых слов и словосочетаний и построения семантического пространства текста, что актуально при выявлении кластеров слов-понятий, которые семантически близки между собой. Для построения когнитивных структур в памяти компьютерной системы это означает, что близко располагается информация, относящаяся к некоторой типовой ситуации.
В пятой главе рассматривается применение предложенного подхода в педагогической практике. Без моделирования языковой среды нельзя в полной мере обеспечить эффективность реализации электронных образовательных процессов. Адекватное моделирование языковой среды, в свою очередь, невозможно без выявления правил организации естественного языка в том виде, при котором мы можем говорить о вероятности максимально допустимой на текущий момент его формализации.
В структуре образовательной системы актуальна разработка инструментов познания. Средства автоматизации, применяемые при проведении исследований на этапе технологической цепочки, могут рассматриваться как набор инструментальных средств, реализующий модель обучения, в которой обучаемые активно действуют и сами конструируют свои знания, а сами средства как инструмент познания помогают упорядочить действия обучаемого в процессе организации и представления своих знаний (рис. 9).
Рис. 9. Средства автоматизации как инструмент приобретения знаний
Данный подход относится к методам активного обучения, который дает возможность принятия решений с последующим диагностированием их последствий. Разработан программный комплекс (ПК), структура которого приведена на рис. 10.
Реализованные программные средства исследования задач словообразования можно рассматривать в качестве не только средств моделирования словообразовательного процесса, но и в качестве средств обучения решению задач словообразования. Функции обучения и исследовательско-диагностирующая тесно связаны между собой благодаря тому, что в качестве методологической основы создания программного комплекса моделирования словообразовательного процесса выбран метод лингвистического эксперимента. Выполняя роль многоуровнего генератора положительного и отрицательного материала, программа выдает информацию, подводящую
обучаемого к открытию и познанию правил словообразования, делая его активным участником процесса обучения, а значит, и исследователем.
Объект исследования - русское слово - представляет собой последовательность морфем, которые стыкуются друг с другом по определенным правилам. Основная цель ПК - выявление, подтверждение и фиксация этих правил. ПК и модель, на сновании которой он был реализован, могут применяться для выявления тенденций, имеющих место в словообразовательном процессе, путем выяснения степени влияния на него выявленных правил и фильтров в целом.
К основным характеристикам ПК относятся универсальность, наличие визуализации исследуемого процесса, модифицируемость.
Универсальность обеспечивается широкими возможностями системы в области настройки на объект исследования в соответствии с его внутренними особенностями, связанными с фонетическим, морфологическим, морфемным, семантическим и синтаксическим своеобразием естественного языка, словообразовательная система которого подлежит моделированию.
Визуализация реализована для моделирования словообразовательных сетей, разработаны алгоритмы работы с сетью. Актуальность визуализации моделируемого процесса определяется необходимостью выявления закономерностей предметной области путем использования наглядно-образного механизма мышления человека.
Модифицируемость обеспечивается возможностью настройки ПК на работу с другим индоевропейским языком. В программной реализации модули генерации слова содержат процедуры, которые создают слово из морфем согласно заданным установкам - формуле слова и способу перебора. Если полагать набор морфем переменной частью, то при замене морфемного набора процедуры не претерпят практически никаких изменений. Изменения претерпят лишь процедуры, отвечающие за выдачу на экран правил, зафиксированных в фильтрах, в силу того, что изменятся сами фильтры, которым будут соответствовать новые правила. Сервис для задания и фиксации формулы будет изменен лишь в том случае, когда предельная формула слова языка, подлежащего рассмотрению, отлична от аналогичной формулы русского слова. Для аппарата диагностических средств иного индоевропейского языка идеи останутся теми же, что и в случае диагностики задач русского словообразования. В случае другой предельной формулы слова (например, она может отличаться по числу составляющих) изменится порождающая грамматика. Возможно усложнение вычислений в случае влияния корневой части на префиксальную часть слова.
Шестая глава посвящена моделированию лингвистических объектов и формированию правил принятия решения в области Уголовного права.
В рамках диссертационного исследования решались следующие задачи: выделение ключевых понятий предметной области; выявление и формализация отношений между ключевыми понятиями; количественная оценка степени неопределенности ключевых понятий; исследование влияния фактора неопределенности на принятие решения.
Рис. 10. Структура программных средств
Выделение ключевых понятий и отношений - основа построения онтологии отрасли, что необходимо в общем случае для автоматизации учебных задач, организации эффективного поиска в Интернет, а также при создании справочно-правовых систем.
Основная сложность на пути принятия решения в области Уголовного права - это наличие нечетких понятий. Поэтому вводится такая характеристика
как степень нечеткости ключевого понятия, а также признаки четкого понятия. Для характеристики степени нечеткости ключевых понятий (КП), используемых в области Уголовное право, были введены признаки = \,п, влияющие на четкость определения КП (например, если определение понятия есть в законе или подзаконном акте, то оно считается четко определенным и т.д.). Введенные признаки использовались для построения правил, идентифицирующих четкость КП. Фрагмент системы правил представлен на рис. 11.
4. Если к:=0 и к,фО, то если определение содержится в нескольких актах, и это одно и то же определение, и они дополняют друг друга, то кз=1, иначе к3=0.
10. Если к?=0 ,то если определение включает в себя неисчерпывающий перечень элементов, но его можно сделать исчерпывающим, позаимствовав элементы из другого закона или акта, то к8=1, то кц=0.
¡4. Если термин можно однозначно вычленить из определения и он не будет смешиваться с другим сходным термином, то к10=1, иначе кю=0...
Рис. 11. Фрагмент системы правил
На основе анализа выделенные КП были разделены на четко определенные и нечеткие; для нечетких КП вычислены значения признаков ¿¡■(г = 1,12)на основе системы правил. На рис. 12 представлен фрагмент таблицы значений признаков.
Для каждого нечеткого КП вычисляется коэффициент нечеткости (вес) путем усреднения. На этой основе определяются группы нечетких КП с близкими значениями коэффициентов нечеткости и формируется лингвистическая шкала для лингвистической переменной СТЕПЕНЬ НЕЧЕТКОСТИ (табл.). Рассматриваются только те понятия, среди значений признаков которого встречается хотя бы один 0 (такие понятия и будем считать нечетко определенными), значения признаков, которые не определены, обозначим *.
к, К, к, к, к, к6 к, к, А, кщ к„ кг
Хулиганские побуждения 0 0 * * * 1 1 0 * 1 1 0
Особая жестокость 0 0 * * * 0 0 0 * 1 \ 0
Рис. 12. Фрагмент таблицы значений признаков
Таблица. Лингвистическая шкала
Группа весов Значение терма лингвистической переменной
0,08 незначительный
0.17 малозначительный
0.25 небольшой значимости
0.33-0,42 средней значимости
0.5 Значительный
0,58 весьма значимый
0.67-0.75 особо значимый
На основе анализа полученных групп нечетких КП и таблицы значений признаков можно составить логические функции, описывающие каждую из групп, а следовательно, каждый терм. Ниже представлен пример такой функции, где /,■ - терм лингвистической переменной СТЕПЕНЬ НЕЧЕТКОСТИ.
¡1 = (^к, & ~^к2 & -к3 & & ^к6 & -кд & -к10 & -к,, & к!2) V к, & -к2 & -к3 & -к6 & -к7 & & -к10 & к,, & -к,2) V & -к2 & ~^к3 & ~-к4 & ~^к6 & -к7 &
к8 & -к,о & -кц & к,2) V к, & ~^к2 & ^к3 & -к4 & к5' & -к6 & -к7 & & -к9 & к,о & -'кц & к12).
В рамках исследования проблемы разработки программных средств обучения решению юридических задач приходится иметь дело с анализом текста развёрнутого ответа обучаемого, выявлением ключевых слов, рассмотрением и детальным поэтапным сравнением с верным ответом. Поскольку речь идет о неструктурированной информации, с одной стороны, могут быть два подхода к решению данного рода задач. Первый подход подразумевает обработку естественного языка со всеми вытекающими отсюда проблемами. Вторым вариантом может быть создание и использование специализированного языка моделирования. Но, с другой стороны, оба подхода тесно связаны между собой.
В диссертации предложено использовать методологию проведения исследований лингвистических процессов для моделирования области «Уголовное право» с целью решения задач квалификации преступлений. Эта идея может быть реализована при создании обучающих программ, оказать влияние на совершенствование юридической техники. Формализация принятия решений может также стать шагом к созданию принципиально иных автоматизированных юридических систем, которыми смогут пользоваться люди, не обладающие юридическими знаниями.
Была разработана базовая юридическая онтология для российской системы права, отрасли «Уголовное право», и исследована возможность использования онтологического моделирования для формализации принятия решений в уголовном праве. При этом были выявлены проблемы использования стандартных средств онтологического моделирования. Оказалось, что онтологии, дающие возможность ввести термины, типы, и соотношения (аксиомы) для описания фрагментов знаний, не решают проблему достаточной степени формализации, поскольку существует ряд ограничений на пути к полноценному представлению знаний. В рамках стандартных средств разработки онтологий эти ограничения оказались непреодолимыми, поскольку содержат неясность и нечеткость в определении ключевых понятий и их взаимосвязей. Для формализации такой предметной области также можно использовать предложенный выше подход. В данном случае целесообразно рассматривать правила вида
КЛЮЧЕВОЕ ПОНЯТИЕ {Е] '< > Степень нечеткости), то есть в простое определение принадлежности ключевого понятия к нечетким с указанием степени нечеткости).
С помощью предложенного варианта алгоритма квалификации преступлений на примерах решения учебных задач проиллюстрировано, как нечеткость определения влияет на принятие решения, что может повлиять на совершенствование юридической техники.
Таким образом, предложены элементы специализированного языка моделирования юридических процессов и явлений на базе автоматизированного выделения ключевых понятий и отношений.
В заключении рассмотрены основные результаты работы.
В приложениях приведены данные, иллюстрирующие первичный материал и результаты исследования
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Проведен анализ влияния моделирования лингвистической среды на развитие информационных процессов современного общества; разработаны подходы к моделированию лингвистического обеспечения информационных ресурсов. Разработана методология проведения лингвистических исследований на основе единого подхода к последовательному полному или частичному решению проблем формализации предметной области, в том числе, структуризации знаний, основанная на гипотезе о сочетаемости языковых единиц соответствующего уровня иерархии.
2. Разработаны процедуры формирования параметров лингвистических объектов в задачах моделирования языковых систем, обеспечивающие интеграцию качественного оценивания сочетаний структурных единиц лингвистических объектов на основе расчета взвешенной интенсивности правил и возможности настройки весовых коэффициентов.
3. Разработаны алгоритмы моделирования и принятия решений в задачах анализа и синтеза лингвистических объектов с использованием модели качественного оценивания, ориентированной на учет индивидуальности исследователя в ситуации, когда невозможно реализовать выбор на базе точных расчетов. Разработан и реализован комплекс алгоритмических и программных средств для прикладной задачи выбора предпочтительного словосочетания из заданного набора альтернатив, на базе которого проведен вычислительный эксперимент, позволяющий подтвердить адекватность инструментария для поддержки принятия решения.
4. Разработана модель словообразовательной системы, пригодная для компьютерной реализации, отличающаяся универсальностью по отношению к этапам моделирования и выбору метода обработки лингвистических средств, характеризующаяся возможностью своего пополнения по мере накопления и анализа информации. Выполнена программная реализация алгоритмов анализа и синтеза для построения средств автоматизации исследования; разработаны алгоритмы интеграции алгоритмической, обучающей и исследовательско-диагностирующей функций на единой методологической основе в рамках задач словообразования.
5. Проведен анализ возможностей лингвистической среды как информационного процесса развития социокультурной системы; для этого выполнены исследования и предложены процедуры интеграции разработанных
моделей и алгоритмов с информационной, когнитивной, образовательной и правовой составляющими социокультурной системы.
6. В рамках когнитивной составляющей, зависящей от лингвистической среды, разработан набор инструментальных и алгоритмических средств, позволяющий анализировать текст на русском языке и выявлять тематически маркированную лексику посредством использовании метода формального выделения тематически маркированной лексики статистическим посредством «взвешивания» слов по функциональным параметрам и построения семантического пространства с использованием алгоритма Гинзбурга.
7. В рамках правовой составляющей социокультурной системы, зависящей от лингвистической среды, сформирована модель предметной области (Уголовное право) для реализации эффективного взаимодействия различных групп пользователей с информационными ресурсами правовой сферы и учебных задач квалификации преступлений с использованием методологии проведения исследований лингвистических процессов.
8. Предложенные модели и алгоритмические решения, реализованные в программном комплексе, внедрены в учебный и научно-исследовательский процесс Санкт-Петербургского университета, ФГБОУ ВПО «ВГУ», ФГБОУ ВПО «Московский государственный технический университет им.
H.Э. Баумана», используются при разработке программного обеспечения в ЗАО Hl Ш «РЕЛЭКС», зарегистрированы в Государственном фонде алгоритмов и программ РФ и в Государственном информационном фонде неопубликованных документов ФГНУ «Центр информационных технологий и систем органов исполнительной власти».
Основные результаты диссертации опубликованы в следующих работах:
Публикации в изданиях, рекомендованных ВАК РФ
I. Воронина И.Е. Оценки сочетаемости структурных единиц в задачах формализации естественного языка / И.Е. Воронина // Вестн. Воронеж, гос. ун-та. Серия Системный анализ и информационные технологии. - 2006. - № 1. - С. 51 -57.
2. Воронина И.Е. Задачи словообразования как составная часть проведения исследований в области естественно-языкового общения / И.Е. Воронина // Вестн. Воронеж, гос. ун-та. Серия Системный анализ и информационные технологии. - 2006. -№2.-С. 135-141.
3. Воронина И.Е. Алгоритмы определения семантической близости ключевых слов по их окружению в тексте / И.В. Попова, И.Е. Воронина, A.A. Кретов // Вестн. Воронеж, гос. ун-та. Серия Системный анализ и информационные технологии. - 2010. - № 1. - С. 148153.
4. Воронина И.Е. Создание базовой онтологии для Российской системы права на основе онтологии LKIF_CORE / И.Е. Воронина, Е.А. Пигалкова // Вестн. Воронеж, гос. ун-та. Серия Системный анализ и информационные технологии. - 2010. - № 1. - С. 154-159.
5. Воронина И.Е. Компьютерное моделирование лингвистических объектов / И.Е. Воронина, Я.Е. Львович // Вестн. Воронеж, гос. техн. ун-та. - 2011. - Т.7, №1 - С.224-229.
6. Воронина И.Е. Алгоритмизация системного анализа языковой среды человека / И.Е.Воронина, Я.Е. Львович // Вестн. Воронеж, гос. техн. ун-та. - 2011.- Т.7, №2. -С.122-125.
7. Воронина И.Е.Структуризация управления социокультурного развития с использованием имитационной модели лингвистической среды / И.Е. Воронина, Я.Е. Львович// Вестн. Воронеж, гос. техн. ун-та. - 2011. - Т.7, №2. - С. 138-141.
8. Воронина И.Е. Интеграция знаний продукционного характера в правовую онтологическую модель с помощью SWRL-правил / И.Е. Воронина, Е.А. Пигалкова // Вести. Воронеж, гос. ун-та. Серия Системный анализ и информационные технологии. -2010. -№ 2. - С.139-144.
9. Воронина И.Е. Количественные оценки в задачах моделировании языковой системы И.Е. Воронина // Известия вузов. Приборостроение. - 2011. - Т.54, №5. - С. 5-10.
10. Воронина И.Е Автоматизация исследования лингвистической среды с использованием онтологической модели при управлении развитием социокультурной системы / И.Е. Воронина, Я.Е. Львович // Вестн. Воронеж, гос. техн. ун-та. - 2011. - Т.7, №6.-С. 70-73.
11. Воронина И.Е Выбор варианта управления процессом социокультурного развития на основе автоматизированного исследования эффективности с использованием моделирования словообразовательных систем / И.Е. Воронина, Я.Е. Львович // Вестн. Воронеж, гос. техн. ун-та. - 2011. - Т.7, № 9. - С. 49-52.
12. Воронина И.Е. Структуризация управления правовой составляющей социокультурной системы на основе автоматизированного исследования эффективности с использованием онтологии моделирования лингвистической среды / И.Е. Воронина, Я.Е. Львович // Вестн. Воронеж, гос. техн. ун-та. - 2011. - Т.7, № 9. - С. 16-19.
13. Воронина И.Е. Методология проведения лингвистических исследований с использованием метода лингвистического эксперимента / И.Е. Воронина // Вестн. Воронеж, гос. ун-та. Серия Системный анализ и информационные технологии. - 2011. -№ 1 - С. 189-194.
14. Воронина И.Е. Роль информационных технологий в исследованиях лингвистической среды / И.Е. Воронина, Я.Е. Львович // Вестн. Воронеж, гос. техн. ун-та. - 2011. - Т.7, № 11.3.-С. 116-120.
15. Воронина И.Е. Проблемы онтологического моделирования в уголовно-правовой сфере / И.Е. Воронина, П.В. Квасов // Вестн. Воронеж, гос. ун-та. Серия Системный анализ и информационные технологии. - 2011. - № 2. - С.154-163.
16. Воронина И.Е. Практические аспекты лингвистических исследований/ И.Е. Воронина // Вестн. Воронеж, гос. ун-та. Серия Системный анализ и информационные технологии. - 2012. - № 2. - С. 170-173.
17. Воронина И.Е. Прикладные аспекты моделирования языковой реальности (на примере уголовного права) / И.Е. Воронина // Вестн. Воронеж, гос. ун-та. Серия Системный анализ и информационные технологии. - 2013. - № 1. - С.182-186.
18. Воронина И.Е. Сочетаемость лингвистических объектов в проблеме обработки естественного языка/ И.Е. Воронина, Т.М. Леденева // Вестн. Воронеж, гос. ун-та. Серия Системный анализ и информационные технологии. - 2013. - № 2.
Монографии
1. Воронина И.Е. Компьютерное моделирование лингвистических объектов : монография / И.Е. Воронина - Воронеж: ИПЦ Воронеж, гос. ун-та, 2007. - 177 с.
2. Воронина И.Е. Моделирование и алгоритмизация исследования лингвистической реальности / И.Е. Воронина - LAP LAMBERT Academic Publishing GmbH & Co. KG,Saarbrücken, Germany, 2011. - 263 с.
Статьи и материалы конференций
1. Воронина И.Е. Автоматизация процесса обучения словообразованию / A.A. Кретов, И.Е. Воронина // Тез. докл. научно-практической конференции «Черноземье-94». -Воронеж, 1994. - С. 77.
2. Воронина И.Е. Использование программы синтеза русских слов в обучении словообразованию / A.A. Кретов, И.Е. Воронина // Тез. докл. Всероссийской научно-практической конференции по новым информационным технологиям в образовании «Черноземье-95». - С. 122-123.
3. Воронина И.Е. Лингвистическое обоснование программного синтеза слова (на материале русского языка) / A.A. Кретов, И.Е. Воронина // Тез. докл. 2-й Междунар. конф. по квантитативной лингвистике «Qualico-94». - Москва, 1994. - С. 187-188.
4. Воронина И.Е. Метод лингвистического эксперимента в образовательно-профессиональной подготовке филологов / A.A. Кретов, И.Е. Воронина // Тез. докл. межвузов, науч.-метод. конф. «Фундаментальные и специальные дисциплины в системе университетской образовательно-профессиональной подготовки филологов и журналистов». - Ростов, 1994. - С. 53-55.
5. Воронина И.Е. Русское слово как самоподобная рекурсивная структура / A.A. Кретов, И.Е. Воронина // Тез. докл. международной конференции «Лингвистика на исходе 20 века». - Москва, 1995. - С. 269-271.
6. Воронина И.Е. Автоматизация и диагностика задач словообразования на примере русского языка / И.Е. Воронина // Тез. докл. III Всероссийской научно-практической конференции «Новые информационные технологии в образовании». - Воронеж, 1997. -С. 85-96.
7. Воронина И.Е. Компьютерное моделирование словообразовательного процесса / И. Е. Воронина // Тез. докл. Всероссийского совещания-семинара «Математическое обеспечение информационных технологий в технике, образовании и медицине». -Воронеж, 1997.-С. 15.
8. Воронина И.Е. Математические оценки динамики словообразовательных процессов и сетей в лингвистической онтогностике / И. Е. Воронина // Проблемы лингвистической прогностики : сб. науч. трудов ; под ред. А. А. Кретова. - Воронеж, 2000. - Вып. 1. -С. 112-121.
9. Воронина И.Е. Математическое обеспечение диагностики для управления исследованиями в области словообразования / И.Е. Воронина // Тез. докл. Всероссийского совещания-семинара «Высокие технологии в региональной информатике». — Воронеж, 1998.-С. 112.
10. Воронина И.Е. Алгоритмы выделения ключевых слов на естественных языках / Е.В. Крештель, A.A. Кретов, И.Е. Воронина // Математическое обеспечение ЭВМ : межвуз. сб. науч. трудов. - Воронеж, 2001. - Вып. 3. - С. 35-39.
11. Воронина И.Е. Метод «интуитивной оптимизации» в лингвистических исследованиях / И. Е. Воронина // Математическое обеспечение ЭВМ : межвуз. сб. науч. трудов. -Воронеж, 2001. - Вып. 3. - С. 13-20.
12. Воронина И.Е. Моделирование словообразовательных процессов / И.Е.Воронина // Тез. докл. 20-й междунар. конф. «Системное моделирование социально-экономических процессов». - Воронеж, 1998. - С. 151.
13. Воронина И.Е. Применение современных информационных технологий в лингвистических исследованиях (на примере деятельности научно-методического центра по компьютерной лингвистике ВГУ) / И.Е. Воронина // Проблемы и перспективы интеграции высшей школы России в мировую систему образования и науки : мат-лы междунар. науч. конф. 20-21 февраля 2001 г. - Воронеж, 2001. - Ч. 2. - С. 122-124.
14. Кузнецова Е.С. Система лингвистического определения границ слога / Е.С. Кузнецова, A.A. Кретов, И.Е. Воронина // Математическое обеспечение ЭВМ : межвуз. сб. научных трудов. - Воронеж, 2001. - Вып. 3. - С. 39-46.
15. Воронина И.Е. Принятие решения в случае недостаточно определенной сочетаемости структурных единиц при создании лингвистического обеспечения информационных процессов / И.Е. Воронина // Математическое обеспечение ЭВМ : межвуз. сб. науч. тр. -Воронеж : Изд-во ВГУ, 2000. - Вып. 2. - С. 21-25.
16. Воронина И.Е. Проблема автоматизации диагностики задач словообразования / И.Е. Воронина // Тез. докл. 2 Республ. электронной науч. конф. «Современные проблемы информатизации». — Воронеж, 1997. — С. 86.
17. Воронина И.Е. Проблемы формализации русского языка / И.Е.Воронина// Русский язык: исторические судьбы и современность : междунар. конгресс исследователей русского языка (Москва, филол. фак. МГУ, 13-16 марта 2001) : труды и материалы ; под общ. ред. M.JI. Ремневой и A.A. Поликарпова. - М. : Изд-во МГУ, 2001. - С. 398-399.
18. Воронина И.Е. Технология «пассивного» управления обучением при решении словообразовательных задач / И.Е. Воронина // Сб. статей и докладов 4 Всерос. научно-практ. конф. «Черноземье-98». - Воронеж : ВОИПКРО, 1998. - С. 55.
19. Воронина И.Е. Языковая система как нетрадиционный объект управления/ И.Е. Воронина // Сб. трудов Всерос. конф. «Интеллектуальные информационные системы». - Воронеж : Изд-во ВГТУ, 1999. - С. 59.
20. Воронина И.Е. Информационные технологии в современных методах лингвистических исследований. Особенности проведения лингвистических исследований / И.Е. Воронина // Математическое обеспечение ЭВМ : межвуз. сб. науч. тр. - Воронеж : Изд-во ВГУ, 2002. -Вып. 4.-С. 31-37.
21. Воронина И.Е. Детерминационный анализ как инструмент лингвистической онтогностики / И.Е. Воронина // Проблемы лингвистической прогностики : сб. науч. трудов ; под ред. A.A. Кретова. - Воронеж, 2002. - Вып. 2. - С. 204-212.
22. Воронина И.Е. Компьютерное моделирование в лингвистике / И.Е. Воронина // Материалы семинаров научно-образовательного центра «Волновые процессы в неоднородных и нелинейных средах» ; отв. ред. А. С. Сидоркин. - Воронеж : Воронежский государственный университет, 2004. - С. 7-25.
23. Воронина И.Е. Автоматизация процесса экспликации языковых знаний на примере словообразования / И.Е. Воронина, A.A. Кретов // Тез. докл. Всероссийской научно-методической конференции «Компьютерные технологии в высшем образовании». - СПб., 1994.-С. F8.
24. Воронина И.Е. Автоматизация когнитивных процессов на примере словообразования / И.Е. Воронина, A.A. Кретов // Компьютеризация в медицине. - Воронеж : ВГТУ, 1994. -С. 104-109.
25. Воронина И.Е. Лингвистические аспекты компьютерного синтеза русского слова / И. Е. Воронина, A.A. Кретов // Мат-лы Всерос. науч. конф. «Русский язык: прошлое, настоящее, будущее». - Саратов, Сыктывкар, 1996. - С. 81-90.
26. Воронина И.Е. Метод последовательной фильтрации при разработке лингвистического обеспечения информационных процессов / И.Е. Воронина, A.A. Кретов // Математическое обеспечение ЭВМ : межвуз. сб. науч. тр.- Ворнеж : Изд-во ВГУ, 1999. -Вып. 1.-С. 17-21.
27. Воронина И.Е. Проблемы прикладной филологии в научно-исследовательском учебном процессе / И.Е. Воронина, A.A. Кретов // Тез. докл. науч.-практ. конф. «Черноземье-94». - Воронеж, 1994. - С. 34.
28. Воронина И.Е. Опыт автоматизации исследований силлабо-тонического стихосложения / И.Е. Воронина, A.A. Кретов, A.B. Суворов // Тез. докл. 2-й Международной конференции по квантитативной лингвистике «Qualico-94». - М., 1994. -С. 174.
29. Воронина И.Е. Естественный язык и компьютерное моделирование / И.Е. Воронина // Вестн. Елец. гос. ун-та. - 2006. - № 1. - С. 46-50.
30. Воронина И.Е. Программа для выявления контекста (алгоритм Е.Л. Гинзбурга) / И.Е. Воронина, О.С.Титова, A.A. Кретов // Мат-лы седьмой межд. научн.- метод, конференции «Информатика: проблемы, методология, технологии», 8-9 февраля 2007 г., Воронеж, ВГУ - 2007. - С. 420-423.
31. Воронина И.Е. Программные средства моделирования словообразования общения / И. Е. Воронина // Вестн. Воронеж, гос. ун-та. Серия Системный анализ и информационные технологии. - 2007. - № 1. - С. 75-80.
32. Воронина И.Е. Программные средства выявления семантического поля слов/ И. Е. Воронина, A.A. Кретов, О.С. Титова // Вестн. Воронеж, гос. ун-та. Серия Системный анализ и информационные технологии. - 2008. - № 2. - С. 111-122.
33. Воронина И.Е. Использование программных средств моделирования словообразовательных процессов в научно-исследовательской и педагогической практике / И.Е. Воронина // Проблемы компьютерной лингвистики: сб. науч. тр. ; под ред. A.A. Кретова. - Воронеж: Изд.-полиграф. центр Воронежского гос. ун-та, 2008. - Вып. 3. -С. 42-62.
34. Воронина И.Е. Применение метода статистического системного взвешивания слов по функциональным параметрам для выделения ключевых понятий / И.Е. Воронина, И.В. Попова, Л.В. Дудкина. // Мат-лы девятой межд. научн.- метод, конференции «Информатика: проблемы, методология, технологии», 12-13 февраля 2009 г., Воронеж, ВГУ. - 2009. - Т. 1. - С. 179-182.
35. Воронина И.Е. Элементарный лемматизатор «Элем-4» понятий / И.Е. Воронина, A.A. Кретов, С.Ю. Обушко. // Мат-лы девятой межд. научн,- метод, конференции «Информатика: проблемы, методология, технологии», 12-13 февраля 2009 г., Воронеж, ВГУ.-2009.- Т.2.-С. 154-158.
36. Воронина И.Е. Программные средства для снятия неоднозначности слов в тексте понятий / И.Е. Воронина, A.A. Кретов, Ю.В. Чеснокова // Мат-лы девятой межд. научн. -метод. конференции «Информатика: проблемы, методология, технологии», 12-13 февраля 2009 г., Воронеж, ВГУ. - 2009. - Т.2. - С. 425-429.
37. Воронина И.Е. Моделирование объекта познания как фактор формирования и самоформирования профессиональной деятельности студентов / A.A. Кретов, И.Е. Воронина // Мат.-лы Воронежской межвуз. науч.-метод. конференции «Формирование и самоформирование профессиональной ментальности студентов в педагогическом процессе вуза», 26 марта 2009 г., Воронеж, ВФ MOCA. - 2009. - 4.1. - С. 15-18.
38. Воронина И.Е. Функциональный подход к выделению ключевых слов: методика и реализация У И.Е. Воронина, A.A. Кретов, И.В. Попова, Л.В. Дудкина // Вестн. Воронеж, гос. ун-та. Серия Системный анализ и информационные технологии. - 2009. - № 1. -С. 68-72.
39. Воронина И.Е. Проблемы формализации принятия решений в юриспруденции. / И.Е. Воронина, Л.В. Дудкина // Сб. трудов межд. конференции «Актуальные проблемы прикладной математики, информатики и механики. Воронеж, 22-24 июня, 2009». -Воронеж: Изд.-полиграф. центр Воронежского гос. ун-та, 2009. - 4.1. - С. 98-100.
40. Воронина И.Е. Актуальность моделирования лингвистической среды / И.Е. Воронина // Сб. науч. трудов «Проблемы компьютерной лингвистики», Вып. 4. -Воронеж: Изд.-полигр. центр Воронежского гос. ун-та. - 2010. - С. 72-81.
41. Воронина И.Е. Проблемы онтологического моделирования в правовой сфере / И.Е. Воронина, Е.А. Пигалкова // Материалы десятой научн.- метод, конференции «Информатика: проблемы, методология, технологии», 11-12 февраля 2010 г., Воронеж, ВГУ.-2010.-Т. 2.-С. 104-108.
42. Воронина И.Е. Когнитивно-графическая модель лексико-семантической системы / И.Е. Воронина, Е.Г. Помитова // Материалы десятой научн.- метод, конференции «Информатика: проблемы, методология, технологии», 11-12 февраля 2010 г., Воронеж, ВГУ. - 2010. - Т. 2.-С. 116-119.
43. Воронина И.Е. Онтологическое моделирование в задачах квалификации преступлений / И.Е. Воронина, Ю.О. Журихина // Материалы десятой научн.- метод, конференции «Информатика: проблемы, методология, технологии», 11-12 февраля 2010 г., Воронеж, ВГУ.-2010.-Т. 1.-С. 173-176.
44. Воронина И.Е. Алгоритмы определения семантической близости слов по их окружению в тексте / И.Е. Воронина, И.В. Попова, A.A. Кретов // Материалы десятой
научн,- метод, конференции «Информатика: проблемы, методология, технологии», 11-12 февраля 2010 г., Воронеж, ВГУ. - 2010. - Т. 2. - С. 372-376.
45. Воронина И.Е. Программный комплекс для анализа качественных данных / И.Е. Воронина, О.С. Черепанова // Материалы одиннадцатой научн.- метод, конференции «Информатика: проблемы, методология, технологии», 10-11 февраля 2011 г., Воронеж, ВГУ. - 2011. - Т. 2. - С. 434-438.
46. Воронина И.Е. Система лингвистического определения границ слога / И.Е. Воронина, A.A. Кретов, D.B. Зобов // Материалы одиннадцатой научн.- метод, конференции «Информатика: проблемы, методология, технологии», 10-11 февраля 2011 г., Воронеж, ВГУ.-2011.-Т. 1.-С. 154-161.
47. Воронина И.Е. Программа СЛОГС-2 (полиязыковая версия) / И.Е. Воронина, A.A. Кретов, В.В. Зобов // Сб. науч. трудов «Проблемы компьютерной лингвистики», вып.5. - Воронеж: Изд.-полигр. центр Воронежского гос. ун-та. - 2011. - С. 121-127.
48. Воронина И.Е. Прикладные перспективы исследований Научно-методического центра компьютерной лингвистики ВГУ / И.Е. Воронина // Сб. науч. трудов «Проблемы компьютерной лингвистики», вып.5. - Воронеж: Изд.-полигр. центр Воронежского гос. ун-та. - 2011. - С. 52-61.
49. Воронина И.Е. Выделение тематически маркированной лексики в англоязычных текстах / М.А. Ефимова, И.Е. Воронина, A.A. Кретов // Материалы XIII Межд. научн.-метод. конференции «Информатика: проблемы, методология, технологии», 7-8 февраля 2013 г., Воронеж, ВГУ. - 2013. - Т. 1,- С. 461-464.
Подписано в печать 06.11.13. Формат 60x84 '/16. Усл. псч. л. 1,86. Тираж 100 экз. Заказ 1122.
Отпечатано с готового оригинал-макета в типографии Издательско-полиграфического центра Воронежского государственного университета. 394000, Воронеж, ул. Пушкинская, 3
Текст работы Воронина, Ирина Евгеньевна, диссертация по теме Теоретические основы информатики
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» (ФГБОУ ВПО «ВГУ»)
Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов
05.13.17 - Теоретические основы информатики
Диссертация
на соискание ученой степени доктора технических наук
05201450268
На правах рукописи
Воронина Ирина Евгеньевна
Научный консультант: доктор технических наук, профессор Львович Я.Е.
Воронеж - 2013
СОДЕРЖАНИЕ
ВВЕДЕНИЕ..............................................................................................................5
ГЛАВА 1.................................................................................................................13
Актуальность моделирования лингвистической среды в условиях
создания единого информационного пространства.......................................13
1.1 Процессы социокультурного развития и лингвистическая среда.........13
1.2. Язык как сложная подсистема социокультурной системы...................35
1.3. Анализ методов формализации естественного языка и возможностей их использования в задачах моделирования информационной среды информационных ресурсов.....................................50
1.4. Роль информационных технологий в исследованиях лингвистической среды.....................................................................................70
1.5. Управление процессом социокультурного развития в информационном обществе на основе моделирования и алгоритмизации обработки лингвистической среды..................................................................84
1.6. Методология моделирования лингвистической среды. Цель и задачи исследования..........................................................................................98
ГЛАВА 2...............................................................................................................107
Формирование моделей для реализации качественного оценивания
сочетаемости лингвистических объектов......................................................107
2.1. Формализация качественного оценивания...........................................107
2.1 Интуитивно-оптимизационное оценивание..........................................113
2.3.Оценивание на основе вычислительного эксперимента......................116
Выводы второй главы..........................................................................................128
ГЛАВА 3...............................................................................................................130
Моделирование словообразовательных процессов....................................130
3.1. Процедура формирования модели словообразования.........................130
3.2. Алгоритмизация диагностического процесса в задачах словообразования.............................................................................................142
3.4. Алгоритмическое обеспечение синтеза в задачах словообразования 144 3.4. Моделирование с использованием этимологической транскрипции 153
3.5. Разработка языковых фильтров.............................................................159
Выводы третьей главы........................................................................................166
ГЛАВА 4...............................................................................................................169
Разработка программных средств моделирования лингвистических объектов и их применение в исследовательской практике.........................169
4.1. Программная реализация подсистемы моделирования словообразовательных процессов..................................................................169
4.2. Компьютерное моделирование словообразовательных сетей............178
4.3. Программные средства моделирования лингвистической среды......200
4.4 Когнитивные проблемы моделирования лингвистической среды... 209
Выводы четвертой главы....................................................................................224
ГЛАВА 5...............................................................................................................231
Использование методологии моделирования лингвистических объектов в задачах обучения...........................................................................................231
5.1. Особенности развития образовательных технологий в условиях информационного общества...........................................................................231
5.2. Интеграция средств моделирования и обучения................................232
5.3 Управление в образовательной подсистеме.........................................237
5.4. Особенности использования инструментальных средств моделирования слова для русского и других языков...................................245
Выводы пятой главы...........................................................................................249
ГЛАВА 6...............................................................................................................252
Реализация процессов моделирования и управления правовой составляющей социокультурной системы.....................................................252
6.3. Проблемы построения онтологии отрасли...........................................252
6.2. Выделение ключевых понятий..............................................................260
6.3. Выделение отношений между понятиями............................................265
6.4. Проблема нечеткости ключевых понятий и ее формализованное
представление.................................................................................................267
6.5 Формализованное представление нечеткости.......................................275
6.6. Реализация управления на основе квалификации преступлений.......282
Выводы шестой главы.........................................................................................293
Заключение...........................................................................................................296
ЛИТЕРАТУРА.....................................................................................................299
Юридическая литература....................................................................................326
Приложение 1......................................................................................................332
Регистрация в государственном фонде алгоритмов и программ РФ(1-
5).......................................................................................................................332
Регистрация в Государственном информационном фонде неопубликованных документов ФГНУ «Центр информационных
технологий и систем органов исполнительной власти» (6-12)................332
Акты внедрения..............................................................................................332
Приложение 2......................................................................................................339
Этимологическая транскрипция..................................................................339
Приложение 3......................................................................................................341
Взаимосвязь между понятиями и отношениями.......................................341
Приложение 4......................................................................................................364
Элементы онтологии.....................................................................................364
Приложение 5......................................................................................................373
Правила квалификации преступлений..........................................................373
ВВЕДЕНИЕ
Актуальность проблемы. Термин «информационное общество» не только стал общеупотребительным, но и рассматривается в качестве составляющей экономического, социального и культурного развития. При этом изменяются и требования к управлению этими системами, которые зависят от развитости информационных ресурсов, информационной и телекоммуникационной инфраструктуры, систем массовой информации, рынка информационных технологий, средств связи, продуктов и услуг, сопряженности с мировыми открытыми сетями. Насыщенность информационной среды порождает проблемы накопления, производства, передачи и обработки информации в информационных подсистемах систем управления. Интернет-технологии лишь ужесточают требования к эффективности и оптимальности использования мировых информационных ресурсов. Отличительной особенностью Интернета как мощного источника информации являются несистематичность и стихийность организации данных, что повлекло за собой процесс реконструирования Web-пространства в пространство знаний путем переход к семантически значимому представлению в сети (Semantic Web). Новый этап развития Интернет потребовал адаптации методов и средств управления в социальных системах.
В отечественной и зарубежной научной литературе в большой мере уделяют внимание средствам хранения и обработки информационных ресурсов. В то же время, в условиях информационного общества требуется взаимодействие разных пользователей, государственного управления и социальной сферы с виртуальными ресурсами. Стоимостные и качественные характеристики такого взаимодействия существенным образом зависят от адекватности лингвистической среды.
Рассматривая в качестве системы-объекта естественный язык необходимо не только проанализировать подходы, проблемы
и достижения на пути построения теоретической системы, а скорее представить свой взгляд на математическое, алгоритмическое и программное обеспечение исследовательского процесса. В этом смысле значительную роль играет обоснование актуальности создания инструментальных средств для разработки, подтверждения и «настройки» лингвистической теории в условиях субъективных экспертных оценок. Этапы проведения исследований должны обеспечить движение теоретической системы к большей адекватности отражения системы-объекта. Для определения степени адекватности отражения системы-объекта теоретической системой необходим диагностический инструментарий.
Таким образом, актуальность темы диссертационного исследования определяется необходимостью развития теоретических основ и аппарата исследования лингвистической среды как вида коммуникативного социокультурного пространства, в котором реализуется общение, для обеспечения процессов государственного управления и информационного обслуживания населения на основе комплекса математических средств формализации лингвистических объектов, а также методов интеллектуального анализа данных, ориентированных на принятие управленческих решений в социокультурной среде.
Объектом исследования являются лингвистические процессы в информационном обществе.
Предмет исследования: методология формализации и исследования лингвистических объектов на основе моделирования лингвистической среды.
Цель и задачи исследования. Целью диссертации является развитие методологии исследования, включающей комплекс модельных алгоритмических решений, а также программный инструментарий
формализации лингвистической среды информационных ресурсов и генерации процедур для обработки лингвистической информации.
Для достижения поставленной цели необходимо решить следующие задачи;
проанализировать влияние лингвистической среды на развитие информационных процессов современного общества и разработать подходы к моделированию лингвистического обеспечения информационных ресурсов;
разработать методологию проведения лингвистических исследований на основе единообразного подхода к последовательному полному или частичному решению проблем формализации предметной области, в том числе структуризации знаний;
разработать процедуры формирования параметров лингвистических объектов в задачах моделирования языковых систем;
разработать алгоритмы моделирования и принятия решений в задачах анализа и синтеза лингвистических объектов с использованием модели качественного оценивания, ориентированной на учет индивидуальности исследователя в ситуации, когда невозможно реализовать выбор на базе точных расчетов;
осуществить программную реализацию алгоритмов анализа и синтеза для построения средств автоматизации исследования; разработать алгоритмы интеграции алгоритмической, обучающей и исследовательско-диагностирующей функций на единой методологической основе в рамках задач словообразования;
проанализировать возможности лингвистической среды как средства развития информационных процессов социокультурной системы; для этого провести исследования с использованием разработанных моделей и методов влияния лингвистической среды на информационную,
когнитивную, правовую и образовательную составляющие социокультурной системы.
Методы исследования. В работе использованы методы теории нечетких множеств, теории информации, теории вероятностей и математической статистики, математического моделирования, детерминационного анализа, системного анализа, лингвистического эксперимента.
Научная новизна. В диссертации получены следующие основные результаты, характеризующиеся научной новизной:
методология моделирования лингвистической среды, позволяющая реализовать единый подход к проведению исследований по выявлению и формализации правил формирования лингвистических объектов, основанная на гипотезе о сочетаемости языковых единиц соответствующего уровня иерархии;
процедуры формирования параметров моделирования языковой системы, обеспечивающие интеграцию качественного оценивания сочетаний структурных единиц лингвистических объектов на основе расчета взвешенной интенсивности правил и возможности настройки весовых коэффициентов;
модель словообразовательной системы, пригодная для компьютерной реализации, отличающаяся универсальностью по отношению к этапам моделирования и выбору метода обработки лингвистических средств, характеризующаяся возможностью своего пополнения по мере накопления и анализа информации;
алгоритмические средства выделения ключевых слов, отличающиеся возможностью анализировать лингвистическую среду и выявлять тематически маркированную лексику посредством статистического взвешивания слов по функциональным параметрам и построения семантического пространства с использованием алгоритма Гинзбурга для пользователей информационных ресурсов;
эволюционная модель анализа и синтеза процесса словообразования в едином ключе с разработанной методологией моделирования, отличающаяся способом последовательной фильтрации в виде расширяющейся системы правил, реализующих запреты на определенные сочетания структурных составляющих лингвистических объектов;
энтропийная оценка адекватности словообразовательной модели реальному лингвистическому объекту, позволяющая осуществить поэтапную диагностику процесса словообразования в лингвистической модели;
процедура формирования онтологий на основе моделирования лингвистической среды, обеспечивающая поддержку новых возможностей в автоматизации управления социокультурным развитием и реализации подходов к решению задач в области организации эффективного поиска пользователями социальной сферы в Интернет, и созданию справочно-правовых систем;
процедуры интеграции разработанных моделей и алгоритмов с информационной, когнитивной, образовательной и правовой составляющими социокультурной системы.
Практическая значимость и реализация результатов работы.
В результате диссертационного исследования разработаны математическое, программное и алгоритмическое обеспечение комплекса программных средств моделирования и алгоритмизации лингвистических исследований, в том числе и программный инструментарий для поддержки обучения различных групп пользователей, использующий в качестве методологической основы метод лингвистического эксперимента.
Результаты работы внедрены и используются при проведении исследований в Научно-методическом центре компьютерной лингвистики ФГБОУ ВПО «ВГУ», в учебном процессе ФГБОУ ВПО «ВГУ», при разработке программного обеспечения в ЗАО HI 111 «РЕЛЭКС», при
организации научно-исследовательской работы для обработки лингвистической информации и в учебном процессе кафедры информационных систем экономического факультета Санкт-
Петербургского государственного университета, в учебном процессе ФГБОУ ВПО «Московский государственный технический университет им. Н.Э. Баумана».
В Государственном фонде алгоритмов и программ РФ зарегистрированы 5 программных продуктов и 7 - в Государственном информационном фонде неопубликованных документов ФГНУ «Центр информационных технологий и систем органов исполнительной власти».
Результаты исследования могут быть использованы при разработке лингвистического и программного обеспечения информационных процессов нового поколения.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на 17 международных, 11 Всероссийских и 3 региональных конференциях, среди которых Всероссийской научно-методическая конференция «Компьютерные технологии в высшем образовании» (Санкт-Петербург, 1994), Межвузовская науч.-метод, конференция «Фундаментальные и специальные дисциплины в системе университетской образовательно-профессиональной подготовки филологов и журналистов» (Ростов, 1994), 2-я Международная конференция по квантитативной лингвистике «С2иаНсо-94» (Москва, 1994), Международная конференция «Лингвистика на исходе 20 века» (Москва, 1995), Всероссийская научная конференция «Русский язык: прошлое, настоящее, будущее» (Саратов, Сыктывкар, 1996), Всероссийское совещание-семинар «Математическое обеспечение информационных технологий в технике, образовании и медицине» (Воронеж, 1997), Всероссийская научно-практическая конференция «Новые информационные технологии в образовании» (Воронеж, 1997),
Всероссийское совещание-семинар «Высокие технологии в региональной информатике» (Воронеж, 1998), Всероссийская научно-практическая конференция «Черноземье-98» (Воронеж: ВОИПКРО, ВГПУ, 1998), Всероссийская конференция «Интеллектуальные информационные системы», (Воронеж, 1999), Международная научная конференция «Проблемы и перспективы интеграции высшей школы Ро
-
Похожие работы
- Функциональный анализ лингвистических средств библиотечной технологии
- Гипертекстовое лингвистическое пространство электронной библиотеки
- Технология разработки семантического словаря системы информационного мониторинга
- Методы оценок защищенности распределенных информационных сетей
- Модели и методы автоматической обработки неструктурированной информации на основе базы знаний онтологического типа
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность