автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска
Автореферат диссертации по теме "Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска"
На правах рукописи
Тригуб Наталья Александровна
СИСТЕМА ОБРАБОТКИ НЕСТРУКТУРИРОВАННОЙ ТЕКСТОВОЙ ИНФОРМАЦИИ НА ОСНОВЕ ОБЪЕКТНОГО ПОДХОДА ДЛЯ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ИНФОРМАЦИОННОГО ПОИСКА
Специальность 05.13.01 - «Системный анализ, управление и обработка информации (металлургия)»
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Москва - 2004
Работа выполнена на кафедре инженерной кибернетики в Московском Государственном Институте Стали и Сплавов (Технологическом университете)
Научный руководитель:
кандидат технических наук, профессор, Крапухина Н. В.
Официальные оппоненты:
доктор технических наук, профессор, Попов И. И.; кандидат технических наук, доцент, Поляков В. Н.
Ведущая организация: ФГУП ГИВЦмет «Центринформ»
■3 -3 (ГУЙ-^О уКиХОс. 2005 года в Ж
Защита состоится гря^о рЛЛАл-Я 2005 года в часов на заседании
диссертационного совета Д.212.132.07 в Московском Государственном Институте Стали и Сплавов по адресу: 119049 г. Москва, Ленинский проспект, 4.
С диссертацией можно ознакомиться в библиотеке Московского Государственного Института Стали и Сплавов (Технологического университета).
Автореферат разослан
Ученый секретарь диссертационного совета
профессор, Калашников Е.А.
Общая характеристика работы
Актуальность темы. В связи с бурным развитием информационных технологий происходит замена ранее самого популярного носителя информации -бумаги на современный носитель - хранение документов в виде файлов различных форматов. К настоящему времени на металлургических предприятиях сформировалась потребность использования накопленной документации в качестве источника для извлечения знаний в процессе принятия решений при решении задач с применением естественно языковых систем (ЕЯ-систем). Целью ЕЯ-систем является автоматический или автоматизированный анализ для извлечения знаний или смысла из текстов на естественном языке (ЕЯ). Несмотря на большое количество разработок в этой области, до сих пор не создано ЕЯ-системы, способной адекватно работать в любой предметной области (ПО), это связано с не-факторами русского языка и, как следствие, большим объемом и неоднозначностью лингвистических знаний требующих формализации.
Цель работы. Основной целью диссертационной работы является проведение анализа, разработка и реализация метода обработки неструктурированной текстовой информации для решения задачи повышения эффективности использования текстов на русском языке с помощью построения формальной объектной структуры. Для достижения поставленной цели было принято решение о последовательном движении по следующим основным направлениям:
1) определение теоретического базиса, использующегося для построения ЕЯ-систем;
2) принятие решения по выбору альтернативного варианта построения ЕЯ-системы;
3) разработка принципов эмпирического подхода, не использующих модели ПО на минимально необходимом объеме лингвистических знаний;
4) разработка алгоритмов, обеспечивающих процесс автоматического извлечения знаний - построения формальной объектной структуры из текстов на русском языке;
5) разработка программного обеспечения для анализатора текстов на естественном языке (АТЕЯ), выполняющего быструю обработку текстов. Методы исследования. Для достижения поставленной цели использовались следующие методы:
1) теория принятия решений - для формирования исходного множества альтернатив при выборе эффективной методологии разработки ЕЯ-систем, и сравнительного анализа подходов и моделей используемых при создании ЕЯ-систем;
2) теории искусственного интеллекта - для представления и обработки знаний в разработанном АТЕЯ;
3) теории лингвистики - для формирования базы знаний (БЗ), разработанного АТЕЯ;
4) теоретико-множественный подход для формального описания АТЕЯ;
5) оптимизации - для д о с т макс "" " мм б о -
6) объектно-ориентированного программирования - для практической реализации программного комплекса.
Научная новизна. Основными научными результатами, вынесенными на защиту, являются:
1) принципы разработанного объектного подхода (ОП), лежащего в основе АТЕЯ;
2) алгоритм объектного анализа (ОА), обеспечивающий в автоматическом режиме процесс извлечения знаний в АТЕЯ;
3) алгоритм формирования анафорических связей в рамках одного абзаца и предложения.
4) алгоритм морфологического анализа (МА), имеющий большую скорость сопоставления грамматических характеристик с исходным словом. Практическая ценность работы. Теоретические и практические результаты работы предназначены для использования в информационно-поисковых системах поддержки принятия решений, которые организует работу с хранилищем технической документации и подборку соответствующих документов по запросу пользователя. Использование разработанного АТЕЯ осуществляется на этапе помещения технического документа на русском языке в хранилище для построения формальной структуры знаний и в момент отправки запроса пользователя для поиска подборки документов.
Реализация результатов работы. Практическое апробирование производилось в следующих организациях: на корпусе текстов металлургической тематики информационной системы «Металлургическая отрасль России» (www.rusmet.ru); на статьях «Известия высших учебных заведений. Цветная металлургия», «Известия высших учебных заведений. Черная металлургия» и отчетах по госбюджетной работе в рамках единого наряд-заказа, предоставленных Научно Исследовательской частью МИСИС; в «ГМБХ САС Институт» (г. Москва) на текстовом массиве, содержащем техническую документацию сопровождения программного обеспечения; в ОАО «В/О «Авиаэкспорт» (г. Москва) на подборке документов коммерческой деятельности предприятия. Факты проведения указанных испытаний документально подтверждены соответствующими актами, что подтверждает работоспособность указанной системы. Апробация работы. Работа докладывалась на следующих конференциях:
1) Международная конференция Диалог 2003. Протвино 2003.
2) 5-ая Международная научно-техническая конференция «Интерактивные системы: Проблемы человеко-компьютерного взаимодействия». Ульяновск 2003.
3) Научная сессия МИФИ 2004 «Интеллектуальные системы и технологии». Москва 2004. ! Публикации. Основные результаты диссертационной работы отражены в
4 опубликованных работах.
Структура и объем работы. Диссертационная работа состоит из списка сокращений, введения, четырех глав и заключения, изложенных на 150 страницах, списка литературы, включающего 121 наименования и из приложений.
Общее содержание работы
В введении обоснована актуальность проблемы процесса автоматического извлечения знаний из текстовых электронных документов, написанных на русском языке; на концептуальном уровне кратко изложено содержание основных разделов диссертационной работы и определены направления исследования.
В первой главе произведена постановка задачи принятия решений по выбору эффективного метода построения ЕЯ-системы; сформулированы цели, критерии и ограничения; рассмотрен объект исследования; сгенерировано множество альтернатив, включающее методы и подходы, предлагаемые теорией искусственного интеллекта и лингвистики для построения ЕЯ-системы.
Позиционирование разработанной ЕЯ-системы осуществляется на стыке двух дисциплин теории искусственного интеллекта (ИИ) и теории лингвистики, что и является теоретическим базисом работы. Со стороны теории ИИ предлагается базисная методология разработки ЕЯ-систем обработки связных текстов, а теория лингвистики обеспечивает формальным аппаратом для описания сложного объекта исследования - текста на русском языке. Сложность объекта исследования связана с неоднозначностями, характерными для русского языка, что создает трудности при реализации автоматического анализа текста.
Подробный анализ проведен по программным реализациям трех лингвистических подходов, являющихся наиболее известными в области ЕЯ-систем, работающих с русским языком: вероятностно-статистический подход (ВСП) -Галактика-ZOOM, формально-грамматический подход (ФГП) - ЭТАП, объектно-ориентированный подход (ООП) - Экспресс-Досье.
Две из этих систем, а именно Галактика-ZOOM и Экспресс-Досье можно считать системами, находящимися в промышленной эксплуатации, а система ЭТАП, скорее всего, является экспериментальным образцом, причем до конца не завершенным. В связи с очень большим масштабом лингвистических знаний используемых при ФГП проблема полноты их формализации является трудно разрешимой с большим количеством противоречий. Поэтому рынок программных продуктов представлен в основном анализаторами, использующими ВСП и ООП.
Семейство продуктов Экспресс-Досье основано на объектной модели ПО, которая строится не автоматически, а экспертом при настройке системы. Таким образом, семейство продуктов Экспресс-Досье использует классический вариант практической реализации ООП и обладает узкой специализацией по ПО. Так как задача построения объектной модели окружающего мира является неразрешимой относительно полноты, то ЕЯ-система, построенная на основе классического ООП, имеет трудно устранимый недостаток для анализа текстов различных ПО.
Процесс обработки текстов в Галактика-ZOOM основывается на проведении статистического анализа закономерностей повторений словосочетаний в текстах с последующим их ранжированием. Исследовать возможности Галак-тика-ZOOM удалось на демонстрационной версии, находящийся в свободном доступе в Internet. В результате сделан вывод о недостаточной силе контекст-
ных связей, учитывающихся при поиске информации отвечающей запросу пользователя. Недостаток, связанный с поиском контекстного содержания запроса пользователя в информационном массиве является характерным для современных поисковых систем и устранен только на некоторых ПО при использовании объектной модели ПО.
Определив недостатки существующих ЕЯ-систем, для принятия решения по разработке АТЕЯ, были осуществлены шаги, схематично показанные на рис.1.
Схема процесса принятия решения
Рис.1
Исходное множество альтернатив (ШЛА) образовано из трех типов независимых переменных, образующих теоретический базис, в рамках которого могут реализовываться ЕЯ-системы:
X, ={хп,х!2,ха} - подходы к разработки ЕЯ-систем, где хп - формально-грамматический подход, хп - вероятностно-статистический подход, объектно-ориентированный подход; Х2 ={х11,ха,ха,х:л} - модели представления знаний (МПЗ), где
- логическая МПЗ, - продукционная МПЗ, - сетевая МПЗ, -фреймовая МПЗ;
- подходы к ПЗ, где хп - декларативный подход к ПЗ; х32 - процедурный подход к ПЗ.
Таким образом, ИМА Л = где и = 1..,24 формально состоит из всех комбинаций значений, которые могут принимать независимые переменные. Для оценок каждой альтернативы по выбранным критериям проведен следующий анализ.
Так ФПГ является потенциально наиболее полным, с точки зрения покрытия всех возможных конструкций русского языка. Но он настолько неформален, что фактически единственный вариант его реализации основан на большом массиве знаний, выраженных в виде продукционных моделей. А это приводит к продолжительному времени работы алгоритмов и как следствие к медленному отклику ЕЯ-системы на запрос пользователя. Кроме того, при реализации синтаксического анализа (СА) по данному подходу строится дерево-подчинений для фраз, но не для текста в целом.
Большинство разработанных к настоящему моменту ЛП для русского языка, основанных на ФГП, используют модель Мельчука Смысл-Текст. Эта теоретическая разработка предназначена для моделирования функциональной модели языка и не является его формальной моделью. Полной и формальной общепризнанной модели русского языка нет до сих пор. Модель Смысл-Текст основана на проведении последовательности лингвистических разборов: морфологического анализа (МА), СА и семантического анализа. Компьютерная реализация СА и семантического анализов в силу своей неформальности на сегодняшний момент полностью не завершена.
Проведенные исследования ЛП на модульном уровне модели Смысл-Текст показали, что при условии полноты морфологического словаря (МС) и адекватности алгоритма МА этот модуль способен обеспечить сопоставление каждого разбираемого слова с соответствующими грамматическими характеристиками. Но возникают неоднозначности между разбираемым словом и наборами грамматических характеристик, которых во время МА может быть найдено несколько для одного разбираемого слова или не найдено ни одного. На уровне машинной реализации для русского языка ни одна проблема морфологической неоднозначности, в том числе и омонимия, не решена до сих пор. Анализ таких не-факторов как омонимия, полисемия и анафоры, с которыми всегда сталкиваются разработчики ЕЯ-систем, приведен в данной главе. В примерах рассмотрены неоднозначности морфологического, синтаксического и семантического характера.
ВСП, наоборот, имеет строгость формализации близкую к математической, что отрицательно сказывается на полноте покрытия неформального русского языка. До недавнего времени, как среди лингвистов, так и специалистов в прикладных областях ИИ, большую популярность имели различные порождающие грамматики. В связи с невозможностью разрешить некоторые языковые проблемы в рамках классической теории порождающей грамматики были
разработаны ее модификации, которые тоже полностью не решили проблему формализации ЕЯ. Таким образом, наиболее полным по лингвистическим знаниям является ФГП в виде правил, описывающих все разнообразие конструкций русского языка.
Что касается ООП, то известны по крайней мере две его разновидности ориентированные на описание различных знаний:
1) построение объектной модели ПО экспертом, обладает эффективной формализацией и достаточной полнотой, но жесткой предметной ориентацией, а цель данной работы заключалась в создании именно предметно независимой системы;
2) определение языка записи правил анализа, основанного на использовании сети объектов, которые связаны бинарными отношениями и принадлежат классам, описываемым в терминах объектно-ориентированного программирования; и здесь невозможна независимость от ПО.
В данной работе предлагается третья разновидность объектного подхода, которая заключается в объектном описании анализируемого текста. Разработанным принципам ОП ближе первый вариант ООП, но существенным отличием является: автоматическое построение формальной объектной структуры исходного текста, без использования объектной модели ПО, а не ручное построение объектной модели ПО и использование ее при анализе текста.
Результатом рассмотрения значений переменной Х2 в теоретическом базисе стали выводы относительно достоинств и недостатков МПЗ с точки зрения оценки их эффективного применения в ЕЯ-системе. Итак, ничего более привлекательного для формализации правил вывода в виде продукционной МПЗ не выявлено, и самым удобным механизмом для отражения зависимостей и отношений является сетевая МПЗ.
Как показывают исследования независимой переменной Х3 выбор декларативного или процедурного подхода к ПЗ состоит в выделении частей БЗ, в которых оптимален тот или иной подход. Декларативный подход к представлению знаний дает принципиальное разделение уровней знаний и алгоритмов работы с ними, в то время как при организации БЗ процедурно никакой границы раздела нет. Декларативное представление знаний более привлекательно, с точки зрения возможности дальнейшей модификации. При этом коррекция БЗ не повлечет модификацию алгоритмов. Системы, основанные на представлении знаний в процедурном виде, как правило, работают быстрее именно за счет отсутствия границы раздела между областями: БЗ и обрабатывающих ее алгоритмов.
Во второй главе произведена оценка НМЛ выработаны пути достижения поставленной цели, формализованы цели, приведены все принципы разработанного ОП и рассмотрена организация АТЕЯ с позиций функциональных возможностей.
Согласно методологии принятия решений, при оценки ИМА, определено множество допустимых решений (МДР), которое формируется из ИМА путем определения соответствия альтернатив выдвинутым ограничениям. В результа-
те такой операции сформировано МДР Для
оценки альтернатив использовались нечеткие значение лингвистической переменной: неудовлетворительно, удовлетворительно и хорошо.
В результате построения Парето оптимального множества (ПОМ) количество рассматриваемых альтернатив сократилось до 14. Далее применена линейная свертка локальных критериев согласно весовым коэффициентам, которые соответствуют приоритетам локальных критериев. Так первые два наиболее значимых локальных критерия получили весовой коэффициент 0.4, а третий и четвертый локальные критерии - 0.1, как наименее значимые.
После введения количественной шкалы для оценок альтернатив в ПОМ, свертка критериев дала количественные значения для каждой альтернативы по глобальному критерию (ГК), обозначим его для альтернативы а^г^ как В результате анализа полученных значений ГК для
оказалось, что эти значения немного превышают среднее из возможных значений по ГК. Чтобы оценить выбранное решение, альтернативы с максимальным значением ГК были рассмотрены на качественном уровне. В качестве значения независимых переменных выбранные альтернативы и имеют: ВСП, сетевую МПЗ и отличаются подходом к ПЗ. В альтернативе а„ используется декларативный подход к ПЗ, а в а,5 - процедурный подход к ПЗ. Рассмотрение а11 и а15 на качественном уровне показало, что кроме низких значений по локальным критериям они частично не позволяют реализовать поставленную цель.
В связи с этим выводом исследованию были подвергнуты альтернативы, которые не попали в МДР. И оказалось, что большинство из них имеют значения по ГК лучше, чем для альтернатив Было принято решение о модификации лучшей из таких альтернатив - а22 (ООП, продукционная МПЗ, процедурный подход к ПЗ), так чтобы она удовлетворяла поставленным ограничениям и цели. Так возникла необходимость формализации новых принципов ОП, основанного на сочетании наиболее сильных сторон классических подходов: объектно-ориентированного и в меньшей степени формально-грамматического.
В основу разработанного АТЕЯ положено последовательное проведение МА и ОА (как в модели Смысл-Текст), которые и формируют процесс извлечения знаний из текстов русской научно-технической литературы. Под знаниями в работе понимается формальная объектная структура текста с образованными контекстными связями. В рамках АТЕЯ в классическом варианте модель Смысл-Текст реализована только до уровня МА, потому что на следующем уровне - СА - резко ухудшились показатели по всем критериям, а попытки решить проблему методами других подходов не удовлетворяли ограничениям.
В зависимости от практических задач, на решение которых рассчитана ЕЯ-система, различается глубина знаний, извлекаемых из текста. Для решения поставленных задач достаточно определение наличия связей между элементами внутри каждого предложения и текста в целом, а в определении синтаксических
категорий нет необходимости. Таким образом, разработанные принципы ОП не используют синтаксических категорий, но позволяют реализовать быструю автоматическую обработку текста с построением формальной объектной структуры текста на минимально необходимом объеме лингвистических знаний без использования объектной модели ПО. Выбранная наилучшая альтернатива, в которой в качестве значения независимой переменной вместо классического ООП используется разработанные принципы ОП полностью удовлетворяет ограничениям и реализует поставленную в работе цель.
Отказ от традиционного СА связан не только с большим временем проведения анализа и не соответствие целям работы, но и с рядом других причин, основные из которых:
• трудоемкостью подготовки полного массива правил для русского языка;
• невозможностью добиться стопроцентной точности СА из-за сложностей компьютерной реализации полного формализма;
• отсутствием оптимального подхода к СА, который позволяет определить формальную структуру не только предложения, но и объединить формальные структуры предложений в формальную структуру текста в целом. Разработанные принципы ОП, ив их рамках ОА позволили решить следующие задачи:
• обеспечение однозначной интерпретации формальной структуры относительно связей;
• определение конечного и минимально разнообразного числа типов узлов структуры, но охватывающих многообразие конструкций русского языка;
• предоставление простого средства объединения формальных структур мелких частей текста в более агрегированные структуры и в формальную структуру текста в целом;
• сохранение полной информации от слов и предложений до структуры текста, что позволяет развернуть без информационных потерь формальную структуру текста в формальные структуры, составляющих его предложений;
• построение осуществляется на столько быстро, что временная задержка между запросом пользователя и ответом ЕЯ-системы неощутима. Разработанные принципы ОП направлены на облегчение проведения анализа, для решения задачи построения формальной объектной структуры текста с простыми контекстными связями. Упрощения, принятые для ОА в принципах ОП, не касаются ограничений в большинстве случаев вводимых на ЕЯ
Теоретической основой принципов ОП являются:
• гипотезы теории лингвистики и ИИ, касающиеся процессов, происходящих у человека при анализе текстов на ЕЯ;
• принципы объектно-ориентированного подхода заимствованные из теории программирования;
• методология ключевых точек, используемая для проведения текстологических процедур извлечения знаний.
Для построения объектной модели текста принципы ОП используют минимальный набор лингвистических знаний:
• о порядке следования слов в предложении, интерпретируемые в правила;
• о подчинении слов, представленные в виде правил;
• о грамматических характеристиках слов.
Исходя из гипотезы о том, что в тестах на ЕЯ смысл передается путем описания образов некоторых объектов, разработанный АТЕЯ проводит процесс выделения объектов из текста и объединяет под каждым объектом информацию, касающуюся только этого объекта, формируя таким способом образ объекта. Тогда для извлечения знаний из текста необходимо провести как минимум две процедуры:
1) выделить объекты;
2) разделить множество остальных информационных единиц исходного текста на подмножества соответствующих объектов, что позволяет выделить
информацию, характеризующую конкретный объект.
Однако, простое деление информационных единиц текста на объекты и остальные информационные единицы - не-объекты - не обеспечивает формирования контекстных связей.
Для создания полноты формальной объектной структуры по тексту и извлечения знаний, в рамках разработанных принципов ОП, АТЕЯ выделяет не только объекты как сущность, но и делит множество не - объектов еще на три сущности: свойства описания, свойства принадлежности и функции. Разработанный АТЕЯ устанавливает связи уже между четырьмя сущностями при образовании объектной структуры предложения и текста в целом.
Для реализации АТЕЯ в работе сформулированы основные принципы ОП.
Основные определения сущностей ОП.
Объект (Object) - это одушевленный и неодушевленный предмет, явление, процесс, которые по смысловой составляющей являются основой повествования в предложении. Отличительной чертой объекта является действие, которое он производит сам или производят над ним. Критерием для выделения сущности объект является соответствие грамматических характеристик слова имени существительному, имени собственному или личному местоимению находящемуся в именительном или винительном падежах. Обозначим 0 = {0Д i~l...m - множество объектов выделенных, в процессе анализа из исходного текста.
Функция (Function) - это действие, совершаемое объектом или над объектом. Основным критерием определения функции является принадлежность информационной единицы текста к таким частям речи как глагол и деепричастие. Обозначим - множество функций, выделенных в процессе анализа из исходного текста.
Остальные две сущности: свойство описания и свойство принадлежности относительно количества информационных единиц их составляющих более многочисленны и существенно дополняют знания об объектах и функциях.
Свойство описания (Property description) - это информационные единицы текста, которые с качественной или количественной стороны характеризуют любую из остальных трех сущностей. В качестве свойства описания при анализе выделяются информационные единицы, удовлетворяющие критерию: грамматические характеристики соответствуют прилагательным, причастиям, и числительным, а также специальным символам и цифрам. Обозначим Pd~\Pd\ i = \...k - множество свойств описания, выделенных в процессе анализа из исходного текста.
Свойство принадлежности (Property pertain) - это информационные единицы не вошедшие в сущности: объект, функция и свойство описания. Как правило, свойство принадлежности составляют имена существительные, местоимения, имена собственные, не удовлетворяющие критерию объекта. Обозначим - множество свойств принадлежности, выделенных в процессе анализа из исходного текста.
В процессе установления связей между элементами классов сущностей свойствам принадлежности уделяется особое внимание. Это связано с тем, что существуют два случая, когда информационная единица текста, отнесенная первоначально к свойствам принадлежности, может изменить свое место в классификации и стать объектом.
Свойство принадлежности становится объектом:
1) если некоторый объект или функция прямо или косвенно указывают на конкретное свойство принадлежности FJt(PpJ) = 01 =>0, -*Ppj\
2) если само свойство принадлежности совершает действие над объектом или другим свойством принадлежности
Принципы связей и отношений в разработанном ОП.
1. Сущности ОП являются узлами, а связи - дугами в иерархической объектной структуре.
2. Связи между объектом и функцией являются верхнем уровнем в иерархической объектной структуре.
3. Связи между объектами образуются по двум принципиально различным сценариям:
• с использованием функций, тогда объекты являются зависимыми, такая связь фактически состоит из трех сущностей: объект, функция, объект, и объекты называются не однородными или не равнозначными; фактически это означает является функционально зависимым объектом относительно где стрелками обозначено направления связи.
• без участия функций, тогда объекты являются однородными, и происходит образование группы однородных объектов, каждый элемент которой не оказывает никакого влияния на остальные элементы группы О, -» F к ->0,=>0, <Г>0Р где FttF.
4. Связь между объектом и свойством описания или свойством принадлежности со свойством описания носят исключительно подчинительный характер, доминирующую роль здесь играют объект или свойство принадлежности по отношению к свойству описания О, —»Р<1)4,Рр1 —»Рйк.
5. Связь между объектом и свойством принадлежности, а также свойством принадлежности с другим свойством принадлежности являются связью доминирующей и управляемой сущности О,->Ррк",Рр) -»Рр„.
6. Функции помимо связей, названных функциональными зависимостями относительно объектов, образуют еще связи подчинения со свойством принадлежности и свойством описания ^ -» Рр/,Р1 Р(1к.
7. Свойство описания не может иметь свою ветвь в иерархической структуре или зависимую сущность кроме еще одного свойства описания. Другими словами свойство описания чаще всего не имеет исходящей дуги на более низкий уровень иерархии, либо эта дуга соединяется со свойством описания. Рёк
Принципы формирования иерархической структуры предложений и текста в разработанном ОП.
1. Из комбинаций сущностей, ограниченных принципами связей и отношений, образуется иерархическая объектная структура неограниченной вло-
женности О, -
уролииА 1 уравть! ~' * " уропчьк * ' '' * уроеетМ
2. Для предложения, на верхнем уровне иерархической структуры, всегда находятся объекты и функции либо их группы, и на более глубоких уровнях иерархии они не располагаются. Графически пример иерархической объектной структуры представлен на рис. 2.
-»..., где т = !...<*>.
Схема иерархии объектной структуры для предложения
Рис.2
3. При синтезе из отдельных формальных объектных структур предложений объектной модели целого текста формируется структура не иерархического характера, где дугами являются связи не только подчинения, но и ком-
позиции.
Принципы объединения иерархической структуры текста в разработанном ОП.
Формирование объектной модели целого текста на ЕЯ, разработанными принципами ОП, происходит на основе объектных структур предложений несколькими способами:
• путем объединений равных сущностей в одну с формированием общего множества свойств описания и свойств принадлежности, разделенного контекстами;
• поиском и образованием связи эквивалентности между эквивалентными сущностями;
• формированием композиционных связей с определением контекстов для различных групп подчиненных сущностей.
Равными называются сущности, которые составлены одной и той же информационной единицей. В этом случае не рассматриваются на равенство или не равенство сущности связанные с сущностями, признанными равными. При равенстве двух сущностей в объектной модели текста остается только одна. Иерархическая структура другой сущности с сохранением связей переносится под оставленную сущность с указанием в каждой перенесенной сущности уникального номера контекста, объединяющего все перенесенные сущности с первоначальной сущностью. Идентификатор контекста сохраняется при любом объединении сущностей, чтобы иметь возможность развернуть объектную модель текста в объектные структуры предложений и при видимом объединении атрибутов сущностей не смешать несовместимые атрибуты.
Эквивалентными называются сущности, которые обладают анафорической связью. Эквивалентные сущности не объединяются, а происходит образование нового вида связи между ними.
Если после выделения равных и эквивалентных сущностей, с соответствующим образованием связей между объектными структурами, остались объектные структуры, не вошедшие в объектную модель целого текста, то их включение производится путем образования связи с объектом вышестоящего фрагмента текста, а при его отсутствии - с функцией. Такую связь позволяет образовывать логико-смысловой принцип научно-технической литературы. В этом случае границы абзацев или других структур текста обозначают переход от одной микро-темы к другой. Следовательно, в рамках одного абзаца можно образовать смысловые связи между предложениями. Структура системы ЛТЕЯ.
Разработанный АТЕЯ состоит из нескольких модулей: лексического, морфологического и объектного, каждый из которых решает задачи соответствующего анализа. Только совокупность этих модулей обеспечивает процесс извлечения знаний из текстов на русском языке. С точки зрения уровневой иерархии системного подхода АТЕЯ реализует нижние два уровня:
• микро уровень - представлен функциональными модулями АТЕЯ, которые реализованы таким образом, чтобы использовать их как внешние мо-
дули других ЕЯ-систем при условии соблюдения форматов входных информационных потоков; • уровень системы - реализован в виде оболочки, управляющей всеми модулями АТЕЯ и выполняющей настройки пользователя. Подробная схема АТЕЯ приведена на рис. 3.
При настройке АТЕЯ пользователь может принять решение о кодирование и декодирование информационных потоков во внешние файлы, что замедляет скорость работы АТЕЯ, но дает в случае принятия такого решения возможность перенаправить информационные потоки или даже заменить их. Единственное ограничение - формальная запись информационного потока, предназначенного для замены, должна полностью соответствовать формату АТЕЯ.
Схема функциональных модулей АТЕЯ
Рис.3
Входным информационным потоком для АТЕЯ является текст на русском языке. Как любая сложная система, текст обладает системным свойством - зна-
ниями или смыслом. Элементами системы являются формальные структуры текста от глав до слов и единичных символов. Все эти элементы системы в разные временные интервалы анализируются в АТЕЯ. Текст как система обладает знаниями, которыми не обладает каждый его элемент в отдельности. И только совокупность элементов и связей отражает полный смысл текста.' От перестановки элементов текста и от изменения связей, напрямую зависит свойство целостности текста.
Сложность текста как системы определяется количеством элементов и связей, а также неоднозначностью, возникающей при позиционировании элементов и связей по соответствующим местам в формальной объектной структуре. Все процессы, связанные с работой по решению неоднозначностей, в АТЕЯ организованы продукционными правилами.
Практической задачей разработанного АТЕЯ является построить из входного информационного потока Xt технического текста на ЕЯ путем детерминированной последовательности преобразований Р выходной информационный поток формальную объектную структуру Yt. Последовательность преобразований представляет собой кортеж из трех элементов: - лек-
• сический анализ; - морфологический анализ; Оа - объектный анализ.
В формальной записи информационные потоки АТЕЯ представлены в виде множеств, соответственно их преобразования сформулированы как операции над множествами. Входной информационный поток Xt в АТЕЯ разбивается по формальным структурам исходного текста, то есть проходит декомпозицию от целого текста до предложений, а в процессе анализа наоборот агрегируется от предложений до целого текста. Таким образом, в АТЕЯ в разные моменты времени информационные потоки представляет собой объектные структуры с количеством 8у„-предложений, 5у0 -абзацев, 5уа -пункттов, 5ув -глав:
• объектные структуры предложений, образованные в АТЕЯ из Х(
• объектные структуры абзацев, образованные в АТЕЯ из (1)
• объектные структуры пунктов, образованные в АТЕЯ из (2)
• объектные^ структуры глав, образованные в АТЕЯ из (3) Выходной информационный поток У/ в формальной записи имеет вид:
Каждый элемент множества рассматривается как самостоятельное кортеж, состоящий из четырех элементов: У(0 = (р,,Р1,Р(11,Рр1), где для 1-ого предложения
О, = ]р{\где]=\...т - множество выделенных АТЕЯ объектов; Ь\ = {/\где ) = \...п - множество выделенных АТЕЯ;
- множество выделенных АТЕЯ свойств принадлежности; Рс1, = {ре1,\где ] = \...к - множество выделенных АТЕЯ свойств описания.
Если принять за количество слов в исходном предложении - Ж, тогда И7 =т + п + 1+к + с1, где т- количество сформированных ОА объектов; п -количество сформированных ОА функций; ь количество сформированных ОА свойств принадлежности; к - количество сформированных ОА свойств описания; 1 - количество сформированных ОА не-значимых сущностей.
К не-значимым сущностям ОА относит слова, которые не классифицированы как сущность исходя из принципов ОП. Они в объектной модели занимают место в подчинении к узлу, являющемуся доминирующим. В операциях по объединению равных и эквивалентных сущностей не-значимые сущности учитываются алгоритмом ОА. Все операции над множествами производятся только с элементами сущностей в следующих комбинациях:
В третьей главе сформировано полное описание всех модулей разработанных в рамках АТЕЯ, приведены содержательные и схематические описания разработанных алгоритмов, обозначены отличительные особенности СА и ОА.
Модуль МА, в представленном АТЕЯ, является первым блоком, реализующим последовательность анализов текста. Как и все остальные блоки в АТЕЯ он организован как замкнутая самодостаточная система с входным и выходным информационным потоком. Разработано два режима приема входящей информации модулем МА:
1) в виде текстового файла;
2) в виде динамической структуры.
Такие же два варианта формирования выходной информации возможны из блока МА. Структура текстового файла, и динамической структуры строго формальна и однозначна. В рамках АТЕЯ, по умолчанию, используются информационные потоки только в виде динамических структур.
Требования к входному информационному потоку со стороны модуля МА сводятся к явному выделению из текстовой последовательности отдельных слова и знаков препинания. Они являются единственными информационными единицами, с которыми работает блок МА.
В модуле МА предложено разделить МС и алгоритмы, осуществляющие процесс МА. В качестве МС для АТЕЯ можно использовать любой из существующих словарей русского языка, обеспечив заданный формат представления информации для входного потока модуля МА.
Однако, полностью декларативно описать лингвистические знания не представляется возможным, так как МС, используемый в данное время, не
обеспечивает полное словообразование. В работе это восполняется за счет знаний сформированных процедурно в виде константных списков. Для декларативного формирования лингвистических знаний в работе предложена процедура представления МС в виде дерева-поиска и динамической структура флексий, которые строятся на основе текстовых файлов.
Анализ организации динамической структуры по критерию скорости работы алгоритма МА выявил, что самой эффективной по скорости поиска на динамической структуре является бинарное дерево. В работе принято решение представить МС в виде n-арного дерева - дерева-поиска, которое можно привести к бинарному.
Корнем дерева-поиска является полный алфавит русского языка, таким образом, вершин верхнего уровня в дереве-поиска может быть не больше 32. В действительности их столько, сколько различных первых букв встречается среди представляемых основ. Распределение всех основ в алфавитном порядке по соответствующим веткам позволяет ускорить поиск, так как при этом возникает однозначность предсказуемости части дерева-поиска, в котором требуется просматривать вершины.
Все остальные вершины дерева-поиска представляют собой записи текстового файла основ. Расположены они в строгой закономерности, согласно которой каждая вершина, находящаяся на более низком уровне, состоит из вершин ей предшествующих. Все вершины дерева-поиска в рамках каждого уровня располагаются в алфавитном порядке.
Благодаря возможности просмотра дерева-поиска в любом направлении, как в глубину, так и в ширину, не имеет значение в прямом или обратном порядке отсортированы вершины, главное чтобы сортировка была. Алгоритм поиска в ширину и алгоритм поиска в глубину являются классическими базисными алгоритмами для обхода дерева. Эти алгоритмы являются оптимальными с точки зрения времени их работы, для достижения некоторой вершины по кратчайшему пути.
Движение по дереву-поиска осуществляется по следующему алгоритму, в котором £>УД - дочерняя вершина вершины А, РУВ - родительская вершина вершины В:
1) назовем текущую вершину дерева-поиска А;
2) смотрим на если она есть и значение ее соответствует началу исходного слова, то эта вершина становится текущей и алгоритм возвращается к шагу 1;
3) если у вершины А нет то это точка останова алгоритма движения в глубину дерева-поиска;
4) если Б¥Л есть, но ее значение не является началом для исходного слова, то эта вершина получает название В;
5) теперь начинается просмотр всех вершин для которых А является родительской вершиной, в этом случает алгоритм двигается в лево относительно вершины В не выходя за соответствующий уровень дерева-поиска. Итак, рассматривается ближайшая к В вершина слева;
6) если слева от В вершины нет, то алгоритм возвращается к РУВ и устанавливает ее название в В, и новую РУВ называет А, и возвращается к шагу
5;
7) если значение вершины, находящейся слева от вершины В соответствует началу исходного слова, то эта вершина получает название А и алгоритм возвращается к шагу 1;
8) если значение вершины, расположенной на одном уровне с В и левее вершины В, не является началом исходного слова, то эта вершина называется В и алгоритм продолжает свою работу с шага 5.
В результате работы алгоритма, обеспечивающего движение в глубину и в ширину по дереву-поиска, описанного выше, на шагах 2 и 7 происходит формирование списка вершин, значение которых является началом исходного слова. Все вершины дерева-поиска обладают связью с соответствующими узлами динамической структуры флексий, а если такой ссылки нет, то это означает, что значение вершины дерева-поиска не изменяемо с лингвистической точки зрения и соответствующие грамматические характеристики располагаются в дере-ве-поиска. Следующим этапом алгоритма МА является полная идентификация исходного слова.
В процессе идентификации исходного слова участвует список созданных вершин дерева-поиска на предыдущем этапе. В большинстве случаев вершины, попавшие в список последними, оказываются основами для разбираемого слова, поэтому просмотр списка начинается с последнего элемента. Последовательно все элементы списка объединяются с узлами динамической структуры флексий, на которые они имеют ссылки, что позволяет идентифицировать исходное слово.
Благодаря строгому правилу образования уровней и связей относительно вершин предыдущего уровня в дереве-поиска, количество просматриваемых вершин при алгоритме МА является минимальным. А сам алгоритм МА сводится к простому обходу дерева-поиска в глубину и в ширину с последующим просмотром соответствующих узлов динамической структуры флексий. Укрупненная схема алгоритма МА приведена на рис. 4 и рис. 5.
В неоднозначной ситуации, когда алгоритм МА не может найти ни одного набора грамматических характеристик для анализируемого слова, АТЕЯ может ожидать принятия решения от пользователя. В этом случае в рамках АТЕЯ предусмотрены три варианта настройки принятия решения пользователем графически представленных на рис. 5:
1) жесткая схема - АТЕЯ прекращает все этапы анализа и возвращается к состоянию приема на вход нового исходного текста;
2) средняя схема - АТЕЯ ставит специальные символы, которые используются в ОА для классификации слова;
3) гибкая схема - АТЕЯ ждет от пользователя исправления ошибки в слове или замены слова на другое и снова совершает для него МА. Выходной поток модуля МА, состоящий из слов с соответствующими
грамматическими характеристиками и служебной информацией, формируется в предложения перед входом в модуль ОА. Модуль ОА играет самую важную
роль в разработанном АТЕЯ. Именно с помощью ОА строится формальная объектная структура предложения, а затем по объектным структурам предложений строится объектная структура текста в целом. Фактически ОА является практической реализацией разработанных принципов ОП.
Схема алгоритма МА. Автоматическая часть
Алгоритм ОА делится на несколько этапов, которые принципиально различаются по решаемым задачам:
1) первичная классификация всех слов предложений по четырем классам сущностей разработанных принципов ОП;
2) анализ проведенной первичной классификации и, при необходимости, изменение принадлежности к классу сущности у конкретного слова;
3) выделение доминирующих и зависимых элементов сущностей, что позволяет определить связи;
4) установление связи между анафорическими местоимениями и эквивалентными объектами;
'5) формирование связей между равными объектами с образованием контекстов.
Схема алгоритма ОА приведена на рис. 6 и рис. 7.
В качестве критериев разделения слов входного информационного потока ОА использует грамматические характеристики слов и служебную информацию, полученные на этапе МА. Схема последовательности выделения сущностей приведена на рис. 6 а). В связи с не-факторами, которые присущи русскому языку, однозначно определить класс сущности для каждого слова при первом проходе по тексту не удается.
Схема частей алгоритма ОА основанных на принципах ОП
Во втором проходе по исходному тексту алгоритм ОА проверяет правильность первоначальной классификации. Этот этап обеспечивается правилами, которые используют первоначальную классификацию, учитывают знаки препинания, вспомогательные слова (предлоги и союзы), а также порядок следования слов в предложении. По трудоемкости и важности этот этап является основным в классификации ОА. От адекватности его результатов зависит правильность определения объектов и функций для каждого свойства описания и свойства принадлежности. Правила, которые используются на этапе формиро-
вания множеств для выделенных объектов и функций концептуально можно представить следующим образом:
1) все находящиеся слева от объекта или функции слова подчиняются ближайшим объекту или функции, которые стоят где-то справа;
2) все слова стоящие между объектом и функцией подчиняются объекту, стоящему слева от функции;
3) все слова, расположенные в отсутствие объекта после функции до знака препинания с сочинительным союзом, относятся к правому относительно функции объекту, а в случае его отсутствия к самой функции.
Точкой отсчета во всех выше перечисленных правилах являются начало предложения, знак препинания и союз. После того как весь входной поток поделен на множества, относящиеся к конкретному объекту и функции, происходит построение связей внутри этих множеств. Схема шагов этой части алгоритма ОА приведена на рис. 7.
Схема части алгоритма ОА основанной на лингвистических знаниях
Рис.7
Информационными единицами модуля ОА являются единицы текста на ЕЯ от минимальной - предложения, до максимальной - целого текста. На уровне абзацев, при объединении объектных структур предложений в объектные
структуры абзацев, решается проблема анафор, и только применительно к анафорическим местоимениям, образованным от местоимения «он». Правила, решающие задачу определения эквивалентных сущностей, содержательно выглядят следующим образом:
1) если при движения от местоимения к началу текста до специального разделителя встретилась сущность из классов объект или свойство принадлежности, то в качестве решения анафор взять ближайшую после специального разделителя сущность из классов объект или свойство принадлежности;
2) если при движения от местоимения к началу текста до специального разделителя не встретилась сущность из классов объект или свойство принадлежности, то в качестве решения анафор взять ближайшую после специального разделителя сущность из класса объект.
Правила, направленные на разрешение анафор, работают по одному принципу как для анафор внутри предложения, так и для анафор в рамках одного абзаца. С одной только разницей: для предложения специальным разделителем будет являться сочинительный союз, а для абзаца - знак препинания, означающий конец предыдущего предложения. При этом если местоимение участвовало в разрешении анафор внутри предложения и эта задача была успешно решена, то в алгоритме разрешения анафор в рамках абзаца такие местоимения не рассматриваются.
После определения эквивалентных сущностей алгоритм ОА проводит поиск равных сущностей. Последовательность образования связей такого рода представлена на рис. 6 б). Результатом работы модуля ОА является достижение основной цели АТЕЯ - формирование объектной структуры исходного текста, написанного на русском языке.
В четвертой главе сформулировано описания структур программного обеспечения, с выделением основных свойств и методов программного кода на языке Object Pascal; и на примерах рассмотрены результаты тестирования разработанного АТЕЯ с графическим изображением фрагментов экранных форм. Выводы по работе
В диссертации проведено исследование теоретического базиса для разработки ЕЯ-систем; разработаны метод, алгоритмы и программное обеспечение направленные на обработку неструктурированной текстовой информации для решения задачи повышения эффективности использования текстов на русском языке в процессе информационного поиска с помощью формальной объектной структуры. А также произведено апробирование разработанного АТЕЯ, обеспечивающего быстрое построение формальной объектной модели текста без использование модели ПО. Практическая значимость разработанного АТЕЯ заключается в построении формальной объектной структуры по исходному тексту для систем контекстного поиска. Достижению итогового результата способствовали научные и практические результаты, полученные на следующих этапах.
1. Произведена оценка исходного множества альтернативных вариантов теоретического базиса для разработки ЕЯ-систем и проанализированы осо-
бенности технических текстов на русском языке, создающие трудности при автоматической обработке. Исследование методов и подходов, образующих прикладное направление разработок систем на стыке теории ИИ и лингвистики привело к выбору альтернативы, имеющей наилучшие значения по сформулированным локальным критериям, но частично не удовлетворяющей ограничениям, поставленной задачи.
2. Разработан метод, который для выбранной альтернативы обеспечил выполнение поставленных в работе ограничений при сохранении лучших результатов по локальным критериям и способствовал реализации поставленной цели.
3. Разработаны алгоритмы лексического, морфологического и объектного анализа, обеспечивающие процесс извлечения знаний в АТЕЯ.
4. Разработано программное обеспечение на основе всех выше перечисленных результатах.
5. АТЕЯ прошел успешное апробирование на текстах металлургической тематики с высоким качеством результатов. На текстах авиационного предприятия качество результатов несколько ниже, что связано лишь с отсутствием специальной терминологии авиационной отрасли в дереве-поиска. Однако, на всех текстовых массивах, которые использовались при апробировании, АТЕЯ строил формальные объектные структуры, которые позволяли осуществить качественный полноценный контекстный поиск.
Основные положения диссертации отражены в следующих работах:
1. Крапухина Н. В., Кузнецов Д. Ю., Тригуб Н. А. Подход к созданию интеллектуальной системы извлечения знаний из текстов электронных документов на основе объектной семантической сети // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции Диалог'2003: - М.: Наука, 2003. - С. 327 - 337.
2. Krapuhina N, V., Trigub N. A. Object Analysis Of The Text As Alternative Of Syntactic Analysis // Interactive Systems : The Problems of Human - Computer Interaction. - Proceedings of the International Conference, 23-27 September 2003. - Ulyanovsk: U1STU, 2003. - P. 207 - 210.
3. Крапухина Н.В., Тригуб Н.А. Объектный подход к построению анализатора русскоязычных текстов // Экономика, информационные технологии и управление в металлургии: Сб. научных трудов./ Под ред. А.Г. Дьячко. -М.: МИСиС, 2003. - С. 105-109.
4. Крапухина Н. В., Тригуб Н. А. Особенности модуля морфологического разбора в системе анализа текстов на естественном языке в задаче извлечения знаний // Научная сессия МИФИ-2004: Сб. научных трудов. Т.З. Интеллектуальные системы и технологии. - М.: МИФИ, 2004. - С.116-117.
Соискатель
Тригуб Н.А.
Формат 60 х 90 1/16 Тираж 100 экз. Объем 1,56 п.л. Заказ 643
Отпечатано с готовых оригинал-макетов в типографии Издательства «Учеба» МИСиС, 117419, Москва, ул. Орджоникидзе, 8/9 ЛР№01151 от 11.07.01
$2 660 8
Оглавление автор диссертации — кандидата технических наук Тригуб, Наталья Александровна
СПИСОК СОКРАЩЕНИЙ.
ВВЕДЕНИЕ.
1 АЛЬТЕРНАТИВЫ ДЛЯ РАЗРАБОТКИ ЕЯ-СИСТЕМ.
1.1 Функционирующие ЕЯ-системы.
1.1.1 Галактика-200М.
1.1.2 Экспресс - Досье.
1.1.3 Этап.
1.1.4 Выводы.
1.2 Объект исследования.
1.2.1 Теория синтаксиса.
1.2.2 Порядок слов в предложении.
1.2.3 Теория текста.
1.2.4 Не-факторы, характерные для русского языка.
1.2.5 Выводы.
1.3 Постановка задачи по разработке ЕЯ-системы.зо
1.3.1 Знания.
1.3.2 Понимание ЕЯ как прикладная область ИИ.
1.3.3 Цели, критерии и ограничения.
1.3.4 Выводы.
1.4 Теоретический базис для разработки ЕЯ-систем.
1.4.1 Принципы и подходы к разработке ЯП.
1.4.1.1 Формально-грамматический подход.
1.4.1.2 Вероятностно-статистический подход.
1.4.1.3 Объектно-ориентированный подход.
1.4.2 Модели представления знаний.
1.4.2.1 Логическая модель ПЗ.
1.4.2.2 Сетевая модель ПЗ.
1.4.2.3 Фреймовая модель ПЗ.
1.4.2.4 Продукционная модель ПЗ.
1.4.3 Декларативный и процедурный подходы к ПЗ в модулях ЯП.
1.4.4 Выводы.
2 ПРИНЯТИЕ РЕЩЕНИЯ. РАЗРАБОТКА МЕТОДА.
2.1 Оценка исходного множества альтернатив.
2.2 Концептуальная постановка задачи построения АТЕЯ.
2.3 Принципы объектного подхода.
2.4 Функциональная организация АТЕЯ.
2.5 Математическая постановка задачи построения АТЕЯ.
3 АТЕЯ. АЛГОРИТМИЗАЦИЯ ОТДЕЛЬНЫХ МОДУЛЕЙ.
3.1 Ограничения входного информационного потока.
3.2 Модуль морфологического анализа.
3.2.1 Дерево - поиска.
3.2.2 Алгоритм морфологического анализа.
3.3 Модуль объектного анализа.
3.3.1 Сравнение синтаксического анализа с О А.
3.3.2 Алгоритм объектного анализа для каждого предложения.
3.3.2.1 Задача классификации.
3.3.2.2 Формирование связей внутри предложений.
3.3.3 Алгоритм объектного анализа для формирования связей и отношений между объектными структурами предложений.
4 АТЕЯ. КОМПЬЮТЕРНАЯ РЕАЛИЗАЦИЯ. у 4.1 Функция АТЕЯ предоставляемая DLL для вызова.
4.2 Описание программных структур модуля MA в АТЕЯ.
4.3 Описание структур объектного модуля АТЕЯ.
4.4 Примеры.
Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Тригуб, Наталья Александровна
Во все времена человек стремился оставить свои знания потомкам. До настоящего времени, самым надежным и распространенным способом хранения знаний являлись бумажные носители, а знания представлялись в текстовой форме на естественном языке (ЕЯ). В связи с бурным развитием компьютерной техники и информационных технологий, в течение короткого периода времени произошло накопление большого объема информации на металлургических предприятиях и в других отраслях народного хозяйства.
По причине большого объема информационного потока естественная обработка текстов человеком, на каждом рабочем месте в металлургической отрасли, становится все более трудоемкой и требует больших затрат времени, интеллектуальных ресурсов и памяти. Как следствие, стало принципиальным решение задачи автоматизированного извлечения знаний из текстовой информации на ЕЯ, чтобы облегчить человеку процесс принятия решения (ПР) по интересующей проблеме /114/. Возможности систем извлечения знаний, в настоящее время, не позволяют дать однозначного ответа на вопрос пользователя, но могут «разумно» сузить множество текстовых документов требующих анализа при ПР. Полное обоснование компьютерного анализа текстовых массивов на концептуальном уровне приведено в работе /104/.
Фактически, проблема извлечения знаний из текстов приобрела актуальность еще в XX веке /89/, однако, до настоящего времени, очень мало систем способных к анализу текста, включающему уровень семантического представления /79/. В первую очередь, это связано с трудоемкостью любого из предлагаемых подходов анализа текстов на русском языке (РЯ) и конечно с неформальностью самого РЯ. До сих пор не существует адекватной, полной и общепризнанной формальной модели РЯ.
Однако, на практике все же есть реально функционирующие системы, производящие обработку РЯ. Все известные в настоящее время системы, чтобы иметь возможность применить существующие формальные модели используют, как правило два подхода, обеспечивающих своего рода сужение исходной задачи:
1) накладывают существенные ограничения на ЕЯ, который обрабатывается системой, в таком случае язык уже считается ограниченным а не естественным;
2) сужают круг возможных конструкций ЕЯ путем ориентации системы на конкретную предметную область (ПО), такой подход в отличие от первого позволяет системе по-прежнему использовать ЕЯ.
Оба вышеперечисленных подхода, в равной степени часто, используются в современных реализациях как экспертных систем (ЭС) /38/, так и систем специализирующихся на анализе текстов на ЕЯ. Как правила ЭС объединяют в себе оба вышеперечисленных подхода что упрощает задачу реализации системы, но является недостатком, делающим ЭС не универсальным и неполным инструментом. В качестве еще одного существенного недостатка ЭС хочется отметить трудоемкость процесса создания и пополнения базы знаний (БЗ) экспертом, хорошо знающим предметную область предполагаемого использования ЭС /44/.
Однако ЭС не являются естественно-языковыми системами (ЕЯ-системами) в принятой классификации систем искусственного интеллекта (ИИ), и не предназначены для решения задачи анализа текста на ЕЯ в отличии от ЕЯ-систем. В связи с тем, что понятие ЕЯ-система является очень общим предлагается воспользоваться классификацией приведенной в работе /1/, согласно которой все ЕЯ-системы подразделяются на четыре класса:
1) интеллектуальные вопросно-ответные системы;
2) системы общения с базами данных (БД) /58,67,84/;
3) диалоговые системы решения задач;
4) системы обработки связных тестов /76/ (в том числе машинные переводчики /112 Г).
Разработанная в данной работе система - анализатор текстов на ЕЯ (АТЕЯ) является ЕЯ-системой ИИ, обеспечивающей процесс извлечения знаний из текстов на ЕЯ, и относящейся в приведенной выше классификации к четвертой группе. В связи с лингвистической направленностью системы обработки связных текстов на ЕЯ часто называют лингвистическими процессорами (ЛП) /56/. Представляемый АТЕЯ не является полноценной ЕЯ-системой, так как работает со знаниями только на уровне извлечения их из текстов на РЯ и не решает задачу хранения знаний и поиска по ним. Извлеченные АТЕЯ знания хранятся в системе хранилище знаний /90,91,92/, в которой АТЕЯ используется как внешний модуль.
Безусловно, большинство современных систем ИИ имеют в своем активе ЛП для обработки информации на ЕЯ. Глубина обработки ЕЯ в различных ЛП очень отличается. Так информационно-поисковые системы /110,111,113/, как правило, применяют морфологический анализ (МА), а самым высоким уровнем обработки текста на ЕЯ считается семантическое представление. Разработанный АТЕЯ заканчивает серию лингвистических анализов текста на уровне между МА и семантическим анализами.
Если по глубине и качеству обработки ЛП очень отличаются, то во внутренней организации больших отличий не наблюдается, так же как в задачах, решаемых ЛП. По большей части, современные ЛП организованы как последовательные анализаторы с похожими основными чертами. Все ЛП имеющие исторически сложившийся вид в дальнейшем будут называться с эпитетом традиционные или классические.
При решении интеллектуальных задач компьютерная программа призвана максимально облегчить труд человека: во-первых, обеспечить его ограниченной выборкой документов, отсеяв по предустановленным фильтрам лишнее, во - вторых, предоставить удобное автоматизированное место для проведения оценок.»/3/. Фактически АТЕЯ выполняет основную работу по анализу ЕЯ чтобы предоставить возможности эффективного поиска для максимального сужения подборки документов по запросу пользователя. Однако задача ПР на качественном уровне перед АТЕЯ не ставиться по той простой причине, что человеческий интеллект хотя несомненно медленнее, чем компьютерный, но безусловно гораздо качественней справиться с задачей ПР где необходимо учитывать эмоции, интуицию и т.д., то есть факты, которые не подвержены моделированию и формализации.
При сравнении разработанного АТЕЯ с традиционными ЛП выделяются ряд особенностей, во главе с объектным подходом (ОП), принципы которого разработаны в рамках данной работы и будут изложены в п. 2.3. Другие отличительные черты АТЕЯ:
1) увеличение скорости МА;
2) отказа от сложной и неполной системы правил, используемой при формально-грамматическом подходе (ФГП) к синтаксическому анализу (СА), путем замены СА на объектный анализ (ОА), который позволяет выполнять задачу построения объектной структуры с контекстными связями;
3) увеличение скорости построения формальной структуры для предложения на РЯ;
4) решение проблемы анафорических местоимений в рамках предложения и абзаца;
5) объединение объектных структур отдельных предложений в объектную модель текста в целом.
Теоретические исследование задачи машинного понимания текста на ЕЯ начались на рубеже 70-х годов XX века /41/. И привели к тому, что в настоящее время, созданы функционирующие ЕЯ-системы способных решать определенный круг задач направленных на интеллектуальную обработку текста на ЕЯ.
Однако, широкого распространения системы обработки ЕЯ на сегодняшний момент не получили. Причин этому несколько, главные из которых напрямую связаны с несовершенством формальных моделей ЕЯ, что в свою очередь приводит к невысокому качеству обработки ЕЯ, к не универсальности и большим затратам времени и ресурсов как человеческих, так и машинных. По крайней мере в двух последних проблемах удалось добиться положительных сдвигов в АТЕЯ.
Разработанный в рамках данной работы ОП позволил построить АТЕЯ, не использующий объектную модель ПО и заменить очень трудоемкий, плохо формализованный, с большим количеством неоднозначностей СА на ОА, который способен построить формальную объектную структуру по исходному тексту на РЯ и тем самым провести процесс извлечения знаний из текста. Полученные АТЕЯ знания представляются в виде специально разработанной древовидной структуры - объектной модели текста, которая отличается от семантической сети и от синтаксического дерева подчинении, формируемого в процессе СА классическим ЛП.
Кроме того, анализ производимый АТЕЯ после основной части ОА способен объединить по многокритериальной оценки объектные структуры отдельных предложений в объектные структуры абзацев, пунктов и других структур исходного текста. Таким образом происходит процесс агрегирования отдельных объектных структур предложений в объектную модель текста в целом.
Именно объектные структуры в АТЕЯ являются знаниями, извлечение которых есть главная задача разработанного анализатора. Соответственно целью АТЕЯ является не поиск «смысла» текста, как в некоторых классических ЛП, а извлечение знаний из текста. Разница в этих целях очень существенна и фактически сужает круг задач, в которых возможно применение АТЕЯ. Так, например АТЕЯ не может обеспечить исследования конструкций РЯ, но зато с успехом заменить традиционный ЛП в информационно-поисковой системе, а благодаря модульной архитектуре есть возможность использования любого из модулей АТЕЯ в рамках других задач.
Для обеспечения независимости модулей в рамках АТЕЯ каждый из модулей организован в виде системы черного ящика. Другими словами, каждый модуль АТЕЯ является отдельной системой со строгим форматом входного и выходного потоков. А для обеспечения связи отдельных модулей, каждый из которых производит свой анализ, в единое целое в рамках АТЕЯ выходной поток из предыдущего модуля приводится в формат входного потока следующего модуля. Кроме преимущества связанного с возможностью использовать некоторый модуль АТЕЯ в рамках другой системы модульная организация дает еще возможность в самом АТЕЯ без серьезных переработок подключать модули других систем как внешние.
Последовательность модулей, отвечающих за определенный лингвистический анализ, в АТЕЯ линейна и не имеет ни циклов не разветвлений. Основная идея МА и его особенности, реализованные в АТЕЯ изложены в работе /4/. ОА, реализованный в АТЕЯ, позволяет в упрощенном виде, не определяя синтаксических категорий получить формальную структуру, соответствующую принципам, описанным в статье 151.
Наиболее близким к ОА, по выполняемым функциям, из классических лингвистических анализов является СА. Под классическим или традиционным СА в дальнейшем будет пониматься СА реализованный по ФГП, использующий максимальное количество лингвистических знаний. Однако, точной аналогии между любой синтаксической категорией, определяемой в результате СА и структурой, выделяемой ОА, провести нельзя.
Хотя ОА имеет явные преимущества над традиционным СА говорить о нем как о решении всех проблем связанных с компьютерной реализацией СА нельзя. В первую очередь это связано с тем, что ОА не использует лингвистических знаний в таком объеме, в котором это может делать традиционный СА. И хотя ОА позволяет решить задачу извлечения знаний на том уровне, который требуется для информационно-поисковых систем, он имеет недостатки, который изложены в работе /6/. Но для получения успешно разработанного и апробированного АТЕЯ сначала был проведен процесс ПР по выбору оптимальной альтернативы и разработаны принципы ОП.
Заключение диссертация на тему "Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска"
1.4.4 Выводы
Такая дисциплина, как системный анализ позволяет на основе научных методов принять решение в условиях, когда выбор альтернативы требует анализа сложной информации различной природы.» /25/. Для успешной разработки ЛП проведены комплексные исследования на стыке двух научных дисциплин: лингвистики и теории ИИ. Междисциплинарный характер исследований - важная черта системного анализа. Именно на стыке нескольких дисциплин рождаются сложные многокритериальные задачи с множеством неизвестных.
Системный анализ считается наиболее распространенным направлением системных исследований, под которыми понимают методологию решения сложных задач и проблем, основанную на концепциях, разработанных в рамках теории систем. Согласно принципам и методам системного анализа все существующие подходы к созданию ЛП, работающих с РЯ, были подвергнуты исследованию и сравнению.
Руководствуясь методологией системного анализа, после изучения различных ЕЯ-систем, проводилась их декомпозиция, для исследования функциональных возможностей каждой компоненты в отдельности и их взаимосвязи как внутри системы, так и между собой. В результате анализа выяснилось, что компонента МА во всех системах ее использующих имеет устойчиво работающую модель, но не оптимальную реализацию и неудовлетворительное время обработки.
Компонента СА при ее применении в ЕЯ-системе совершенно не сопоставима с целями из-за невероятно большого времени, затрачиваемого на обработку одного предложения, и не возможности объединять структуры предложений в единую структуру по тексту в целом. Если с последней задачей можно справиться написав собственный модуль который бы на основе структур предложений после традиционного СА строил структуру текста, то бороться с временем работы СА можно только либо используя ВСП, что, как уже говорилось, не приемлемо для построения контекстных связей, либо сужать рамки, в которых вообще возможна работа СА, что не удовлетворяет выдвинутым удовлетворяет ограничениям.
Однако, рассмотренные теоретические подходы теории лингвистики и ИИ позволили сформировать теоретический базис для разработки ЕЯ-системы. На основе этого теоретического базиса образовано исходное множество альтернатив (ИМА) с использованием морфологического метода генерации альтернатив.
Согласно морфологическому методу для генерации ИМА формируются независимые переменные и рассматриваются все значения, которые они могут принимать. Таким образом ИМА генерируется как все возможные комбинации значений независимых переменных.
Итак, ИМА образовано из трех типов независимых переменных: X, = {*„,*12,*13} - подходы к разработки ЕЯ-систем, где *„- ФГП, х12- ВСП, х13 - ООП;
Х2 = {х2\,х22,х2Ъ,х24} -МПЗ, где х21 - логическая МПЗ, х22 - продукционная
МПЗ, х23- сетевая МПЗ, х24 - фреймовая МПЗ; Х3 = {х31,х32} - подходы к ПЗ, где х31 - декларативный подход к ПЗ; х32 - процедурные подход к ПЗ.
Таким образом, ИМА А = {а,}, где п = 1.24 формально состоит из 24 альтернативных варианта, применение которых возможно как основа для разработки ЕЯ-систем. Для формирования оценок каждой альтернативы по сформулированным критериям проведен анализ по каждому значению независимой переменной.
Так ФГП является потенциально наиболее полным, с точки зрения покрытия всех возможных конструкций РЯ. Но он настолько неформален, что фактически единственный вариант его реализации основан на большом массиве знаний, выраженных декларативно в виде продукционных моделей. А это приводит к продолжительному времени работы алгоритмов и как следствие к медленному отклику ЕЯ-системы на запрос пользователя. Кроме того, при реализации СА по данному подходу строится дерево-подчинений для фраз, но не для текста в целом.
ВСП, наоборот, имеет строгость формализации близкую к математической, что отрицательно сказывается на полноте покрытия неформального РЯ. До недавнего времени, как среди лингвистов, так и специалистов в прикладных областях ИИ, большую популярность имели различные порождающие грамматики, использующиеся при ВСП. В связи с невозможностью разрешить некоторые языковые проблемы в рамках классической теории порождающей грамматики были разработаны ее модификации, которые тоже полностью не решили проблему формализации ЕЯ. Что касается ООП, то все ЕЯ-системы такого типа используют при анализе объектную моделт ПО предварительно построенную эекспером.
Результатом рассмотрения значение переменной Х2 стали выводы относительно достоинств и недостатков МПЗ с точки зрения оценки их эффективного применения в ЕЯ-системе. Итак, ничего более привлекательного для формализации правил вывода в виде продукционной МПЗ не выявлено, и самым удобным механизмом для отражения зависимостей и отношений является сетевая МПЗ.
Как показывают исследования независимой переменной Х3 выбор декларативного или процедурного подхода к ПЗ состоит в выделении частей БЗ, в которых оптимален тот или иной подход. Декларативный подход в представлении знаний дает принципиальное разделение уровней знаний и алгоритмов работы с ними, в то время как при организации БЗ процедурно никакой границы раздела нет. Декларативное представление знаний более привлекательно, с точки зрения возможности дальнейшей модификации. При этом коррекция БЗ не повлечет модификацию алгоритмов. Системы, основанные на представлении знаний в процедурном виде, как правило, работают быстрее именно за счет отсутствия границы раздела между областями: БЗ и обрабатывающих ее алгоритмов.
Анализ теоретического базиса для разработки ЕЯ-систем позволил качественно определить значения предложенных в данной работе критериев для оценки каждой альтернативы.
2 ПРИНЯТИЕ РЕЩЕНИЯ. РАЗРАБОТКА МЕТОДА 2.1 Оценка исходного множества альтернатив
Каждый элемент множества альтернативных вариантов получает оценки с использованием нечетких значение лингвистической переменной: неудовлетворительно, удовлетворительно и хорошо /107,108,115/. Значения этих оценок приведены в табл. 1.
ЗАКЛЮЧЕНИЕ
К настоящему времени на металлургических предприятиях сформировалась потребность использования накопленной документации электронного формата в качестве источника для извлечения знаний в процессе ПР при решении задач с применением ЕЯ-систем. Целью ЕЯ-систем является автоматический или автоматизированный анализ для извлечения знаний или смысла из текстов на ЕЯ. Несмотря на большое количество разработок в этой области, до сих пор не создано ЕЯ-системы, способной адекватно работать в любой ПО, это связано с не-факторами русского языка и, как следствие, большим объемом и неоднозначностью лингвистических знаний требующих формализации.
В данной работе проведен анализ по программным реализациям трех лингвистических подходов, являющихся наиболее известными в области ЕЯ-систем, работающих с русским языком: ВСП - Галактика-700М, ФГП -ЭТАП, ООП - Экспресс-Досье. В результате этого исследования сделан вывод о том, что в настоящее время выделяется характерный для современных поисковых систем недостаток, связанный с поиском контекстного содержания запроса пользователя в информационном массиве, причем он устранен только на некоторых ПО при использовании объектной модели ПО. Определив недостатки существующих ЕЯ-систем, для ПР по разработке АТЕЯ, были осуществлены шаги, схематично показанные на рис. 16.
Основной целью диссертационной работы является проведение анализа, разработка и реализация метода обработки неструктурированной текстовой информации для решения задачи повышения эффективности использования текстов на РЯ с помощью построения формальной объектной структуры. Для достижения поставленной цели произведена реализация следующих подцелей:
1) определение и рассмотрение на качественном уровне теоретического базиса, использующегося для построения ЕЯ-систем и включающего в себя три подхода к организации ЕЯ-систем: ФГП, ВСП, ООП; четыре МПЗ: логическая, продукционная, сетевая, фреймовая; два подхода к ПЗ: декларативный, процедурный;
2) ПР по выбору альтернативного варианта построения ЕЯ-системы из сгенерированного на основе морфологического метода ИМА; как оказалось, лучшая по значению локальных критериев альтернатива требует модификации по причине не удовлетворения выдвинутому ограничению - не использованию модели ПО, что было принято осуществить с помощью разработки принципов ОП;
Схема проведенного процесса принятия решения
Рис. 16
3) разработка принципов эмпирического подхода, не использующих модели ПО на минимально необходимом объеме лингвистических знаний;
4) разработка алгоритмов, обеспечивающих процесс автоматического построения формальной объектной структуры из текстов на РЯ;
5) разработка программного обеспечения для АТЕЯ.
Ниже перечислены методы, используемые для реализации подцелей:
• теории искусственного интеллекта - подцель 1;
• теории лингвистики - подцель 1, подцель 3;
• теория принятия решений - подцель 2;
• теоретико-множественный подход - подцель 4;
• оптимизации - подцель 4;
• объектно-ориентированного программирования - подцель 5;
Теоретические и практические результаты диссертационной работы предназначены для использования в информационно-поисковых системах поддержки ПР, которые организует работу с хранилищем технической документации и подборку соответствующих документов по запросу пользователя. Использование разработанного АТЕЯ осуществляется на этапе помещения технического документа на русском языке в хранилище для построения формальной структуры знаний и в момент отправки запроса пользователя для поиска подборки документов.
Сравнение характеристик разработанного АТЕЯ с классическими ЕЯ-системами приведены в табл. 3, где приведены общие характеристики анализаторов ЕЯ-систем /1/ и АТЕЯ.
АТЕЯ можно условно классифицировать как «синтаксический» анализатор, но как это ни странно будет звучать, без СА. Вместо традиционного модуля СА, используемого в модели Смысл-Текст при анализе, в разработанном АТЕЯ после МА производится ОА. С точки зрения функциональных возможностей ОА похож на классический СА, но имеет принципиальные отличительные черты.
Так разработанной ОА строит объектную модель на сонове контекстных связей по предложению и не использует синтаксических категорий. Кроме того в отличии от СА результатом работы модуля ОА будет являться формальная объектная структура целого текста, который поступил на вход АТЕЯ (формальные структуры предложений объединяются в формальные структуры абзацев и т.д.). В условиях употребления синонимов одного и того же объекта, модуль ОА. В отличие от СА модуль ОА при замени некоторого объекта на анафорическое местоимение произведет поиск замененного объекта как в рамках предложения, так и в рамках абзаца. Однако, ОА не может быть применен в качестве испытательного полигона для лингвистических гипотез так полноценно как СА, потому что изначально строился на основе минимального набора лингвистических знаний, которые необходимы только для определения контекстных связей.
Библиография Тригуб, Наталья Александровна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Искусственный интеллект: Системы общения и экспертные системы: Справочник / Под ред. Э. В. Попова. В 3-х кн. М.: Радио и связь, 1990. -Кн. 1.-464 с.
2. Стефанюк В. Л. Представление знаний и рассуждений (сжатый обзор по материалам IJCAI-2001 США), пленарный доклад // Восьмая национальная конференция по искусственному интеллекту. КИИ'2002: Сб. тр. -М.: Физматлит, 2002. Т. 1. С. 33-41.
3. Опарин А. Системы мониторинга и анализа СМИ // PC Week № 47(413), 2003. 16-22 декабря. С. 36.
4. Крапухина Н. В., Тригуб Н. А. Особенности модуля морфологического разбора в системе анализа текстов на ЕЯ в задаче извлечения знаний // Научная сессия МИФИ-2004: Сб. тр. М.: МИФИ, 2004.-Т.З. С. 116-117.
5. Krapuhina N, V., Trigub N. A. Object Analysis Of The Text As Alternative Of Syntactic Analysis // Interactive Systems : The Problems of Human -Computer Interaction. Proceedings of the International Conference. - Ulyanovsk: U1STU, 2003. P. 207 - 210.
6. Лорьер Ж.-Л. Системы искусственного интеллекта. / Пер. франц. — М.: Мир, 1991.-568 с.
7. Люгер Джордж Ф. Искусственный интеллект: стратегии и методы решения сложных проблем, 4-е издание / Пер. с англ. М.: Издательский дом Вильяме, 2003. - 864 с.
8. Мельчук И. А. Опыт теории лингвистических моделей "Смысл Текст". Семантика, синтаксис. - М.: Шк. Яз. рус. культуры, 1999. - 345 с.
9. Лингвистический процессор для сложных информационных систем. / Ю. Д. Апресян, И. М. Богуславский, Л. Л. Иомдин, А. В. Лазурский, Л. Г. Митюшин, В. 3. Санников, Л. Л. Цинман М.: Наука, 1992. - 256 с.
10. П.Гаврилова Т. А., Хорошевский В. Ф., Базы знаний интеллектуальных систем. Спб.: Питер, 2001. - 384 с.
11. Файн В. С. Машинное понимание ЕЯ в рамках концепции реагирования // Интеллектуальные процессы и их моделирование: Сб. ст. / Под ред. Е.П. Велихова. -М.: Наука, 1987. С. 375-392.
12. Лурия А. Р. Язык и сознание. М.: Изд-во МГУ, 1998. - 336 с.
13. Кэрролл Л. Приключения Алисы в стране чудес. Алиса в зазеркалье. / Пер. англ. Н. Демурова, стихи в пер. С. Маршака, Д. Орловской, Л. Се-дакова. Пертазоводск.: Корелия, 1979. - 210 с.
14. Искусственный интеллект: Модели и методы: Справочник / Под ред. Д. А. Поспелова. В 3-х кн. М.: Радио и связь, 1990. - Кн. 2. - 304 с.
15. Тестелец Я. Г. Введение в общий синтаксис. М.: РГГУ, 2001. - 800 с.
16. Мельчук И. А. Курс общей морфологии: Учеб. пособие / Пер. с фр. В. А. Плунгяна / Под ред. Н. В. Перцова, Е. Н. Саввиной. М.: Языки русской культуры, 1998. - Т. 2. Ч. 2 - 544 с.
17. Валгина Н. С. Теория текста: Учебное пособие. М.: Логос, 2003.-280 с.
18. Бабайцева В. В., Чеснокова Л. Д. Русский язык. Теория 5-9 класс. -Спб.: Дрофа, 2002. 331 с.
19. Розенталь Д. Э., Джанджакова Е. В., Кабанова Н. П. Справочник по правописанию, произношению, литературному редактированию. М.: ЧеРо, 2001. - 400 с.
20. Антонов А. В., Курзинер Е. С. Новые возможности поисково-аналитической системы Галактика-ZOOM (ранжирование документов по значимости) // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2003: Сб. тр. М.: Наука, 2003. С. 25 - 32.
21. Хорошевский В. Ф. Обработка естественно-языковых текстов: от моделей понимания языка к технологиям извлечения знаний // Новости ИИ. N6(54), 2002г. С. 19-26
22. Тулупьев A. JI. Алгебраические байесовские сети. Логико-вероятностный подход к моделированию баз знаний с неопределенностью. СПб.: СПИИРАН, 2000. - 292 с.
23. Моисеев Н. Н. Математические задачи системного анализа. М.: Наука, 1981.-488 с.
24. Тарасов В. Б. Современные направления ИИ // Кибернетика ожидания и результаты. Политехнические чтения. - М.: Знание, 2002. - Вып. 2. С. 105-111.
25. Архипов Г. И., Садовничий В. А., Чубариков В. Н. Лекции по математическому анализу: Учебник для университетов и пед. вузов / Под ред. В. А. Садовничего М.: Высш. шк. 1999. - 695 с.
26. Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ.-М.: МЦНИО, 2000. 960 с.
27. Шевченко М. И., Егорушкин А. А. Технология распознавания сложных текстовых конструкций // Научная сессия МИФИ-2004: Сб. тр. М.: МИФИ, 2004. - Т.З. С. 110 - 112.
28. Бронников Г. К. Семантика без синтаксиса // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. -М.: Наука, 2002. Т.1. С. 27 - 34.
29. Перцов Н. В., Перцова Н. Н. О проекте лингвистического процессора для обработки информации из сети Интернет // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. -М.: Наука, 2002. Т.1. С. 339 - 342.
30. Поликарпов А. А. Лексическая полисемия в эволюционном аспекте // Lingüistica.: Учен. зап. Тарту: Тартусск. гос. ун-т, 1990. - Вып. 911. С. 76-86.
31. Энциклопедический словарь юного филолога (языкознание) / Сост. Панов М.В. М.: Педагогика, 1984. - 352 с.
32. Толковый словарь по искусственному интеллекту / Авторы-составители А. Н.Аверкин, М. Г. Гаазе-Раппопорт, JL А. Поспелов М.: Радио и связь, 1992.-256 с.
33. Кузнецов И. П. Семантические представления. М.: Наука, 1986.- 242 с.
34. Минский М. Фреймы для представления знаний.-М:Энергия, 1979.-151с.
35. Нильсон Н. Принципы искусственного интеллекта. М.: Радио и связь, 1985.-373 с.
36. Попов Э. В. Экспертные системы. М.: Наука, 1987. - 284 с.
37. Поспелов Д. А. Представление знаний о пространстве и времени в системах искусственного интеллекта. М.: Радио и связь, 1988. - 196 с.
38. Поспелов Д. А. Моделирование рассуждений: опыт анализа мыслительных актов. М.: Радио и связь, 1989. - 184 с.
39. Виноград Т. Программа понимающая естественный язык. М.: Мир, 1976.-294 с.
40. Представление знаний в человеко-машинных и робототехнических системах. / Под ред. Д. А. Поспелова. М.: ВИНИТИ, 1984. - Т. А. - 261 с.
41. Представление и использование знаний / Под ред. Х.Уэно, М. Исидзука М.: Мир, 1989.-220 с.
42. Приобретение знаний/Под ред.С.Осуги, Ю.Саэки.-М.: Мир, 1990.-330 с.
43. Филмор Ч. Фреймы и семантика понимания // Новое в зарубежной лингвистике: Сб. ст. М.: Прогресс, 1988. - Вып. 23. С. 52-90.
44. Кобозева И. М. Как мы описываем пространство, которое видим: форма объектов // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2000: Сб. тр. М.: Наука, 2000. - Т.1. С. 152-167.
45. Кобозева И. М. Как мы описываем пространство, которое видим: проблема выбора ориентира Н Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'1995: Сб. тр. Казань: Хэтер, 1995. С. 146-153.
46. Кобозева И. М. Как мы описываем пространство, которое видим: композиционные стратегии // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'1997: Сб. тр. М.: РосНИИ ИИ, 1997. С. 132-136.
47. Кобозева И. М. Представление знаний о физических объектах для систем типа «Рисунок Текст» // Категоризация мира: пространство и время: Сб. тр. - М.: МГУ, 1997. С. 117-123.
48. Кобозева И. М. Грамматика описания пространства//Языки пространств. Логический анализ языка: Сб. ст. М.: Яз. рус. культуры, 2000. С. 152-163.
49. Топоров В. Н. Пространство и текст//Текст: семантика и структура: Сб. ст. М.: Наука, 1983. С. 227-283.
50. Лингвистическое обеспечение системы ЭТАП-2 / Ю. Д. Апресян, И. М. Богуславский, Л. Л. Иомдин, А. В. Лазурский, Н. В. Перцов, В. 3. Санников, Л. Л. Цинман. М.: Наука, 1989. - 295 с.
51. Apresjan Ju.D., Boguslavskij I.M., Iomdin L.L., Lazurskij A.V., Sannikov V.Z. and Tsinman L.L. (1992). The linguistics of a Machine Translation System. Meta, 37(1). P. 97-112.
52. Волкова И. А., Проскурня M. О. Программный комплекс для лингвистической обработки текстов на русском языке // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. М.: Наука, 2002. - Т.2. С. 96-99.
53. Зализняк А. А. Грамматический словарь русского языка. М.: Русский язык, 1980. - 880 с.
54. Волкова И.А. Адаптация и обучение системы общения с ЭВМ на естественном языке: Автореф. дис. к.ф.-м. наук: 01.01.10 / И. А. Волкова. -М.: Изд-во МГУ, 1982. 21 с.
55. Волкова И.А., Головин И.Г., Кривнова О.Ф. Компьютерный словарь моделей управления русских глаголов. // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'1998: Сб. тр. М.: РосНИИ ИИ, 1998. - Т.1. С. 448-452.
56. Шаров С. А. Инструментальная система для разработки лингвистических процессоров: Автореф. к дисс. к. ф.-м. наук : 05.13.11 / С. А. Шаров.- М.: 1997.-27 с.
57. Шаров С. А., Использование объектно-ориентированного программирования для лингвистического моделирования. // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'1995: Сб. тр. -Казань: Хэтер, 1995. С. 332-339.
58. Боярский К. К., Каневский Е. А., Клименко Е. Н. Морфологический анализ текста в системе MAZE-32 // Информационные технологии в гуманитарных и общественных науках. СПб: СПбЭМИ РАН, 2001. -Вып. 11. С. 1-8.
59. Ермаков А. Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. М.: Наука, 2002. -Т.2.С. 180-185.
60. Жигалов В.А., Соколова Е.Г. InBASE: технология построения ЕЯ интерфейсов к базам данных // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2001: Сб. тр. М.: Наука, 2001. -Т.2. С. 123-135.
61. Kuznetsov I. P., Matskevich A. G. System for extracting semantic information from natural language text // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. М.: Наука, 2002. - Т.2. С. 577-581.
62. Коваль С. А. К унификации представления русской морфологии в системах обработки текстовой информации // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. М.: Наука, 2002. - Т.2. С. 269-275.
63. Антонов А.В., Курзинер Е.С. Вычисление значимой части текста (в поисково-аналитической системе «Галактика-ZOOM») // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2004: Сб. тр. М.: Наука, 2004. С. 8 -15.
64. Каневский Е. А., Саганенко Г.И., Гайдукова Л.М., Клименко Е.Н. Система анализа текстов // Социология: методология, методы, математические модели. 1997. - № 6. С. 198-216.
65. Антонов А. Информационно-поисковая система «Galaktika-ZOOM» с элементами анализа на гипермассивах информации // Научнотехническая информация. Серия. 1: Сб. ст. М.: ВИНИТИ, 2001. - №8. С. 12-21.
66. Антонов А. Большие Информационные Объекты // Научно-техническая информация. Серия. 1: Сб. ст. М.: ВИНИТИ, 2001. - №4. С. 11-13.
67. Максимов А. Аналитика на службе конкурентной разведки и защиты бизнеса. // PCWeek № 39(453), 2004. С. 12.
68. Смирнов Ю. М., Андреев А. М., Березкин Д. В., Брик А. В. Об одном способе построения синтаксического анализатора текстов на естественном языке // Изв. вузов. Приборостроение. СПб.: Приборостроение. -1997,-№5. С. 34-42.
69. Фостер Д. Автоматический синтаксический анализ.-М.: Мир, 1975.-70 с.
70. Попов Э. В.Общение с ЭВМ на ЕЯ. М.: УРСС, 2004. - 360 с.
71. Макаров И.М. и др. Теория выбора и принятия решений М.: Наука, 1987.-328 с.
72. Ларичев О.И. Теория и методы принятия решений.-М:Логос,2000.-296с.
73. Мушик Э., Мюллер П. Методы принятия технических решений. М.: Мир, 1990.-208 с.
74. Каневский Е.А., Колпакова Н.В. Опыт построения морфологического анализатора // Информационные технологии в гуманитарных и общественных науках. СПб.: СПбЭМИ РАН, 1998.- Вып. 7. С. 42-51.
75. Лезин Г. В., Боярский К.К., Каневский Е.А., Попова А.И. Программирование концептуальной обработки текстов // Информационные технологии в гуманитарных и общественных науках. СПб.: СПбЭМИ РАН, 1996.-Вып. 3.-С. 19-27.
76. Ulyanovsk: U1STU, 2003. P. 211-214.
77. Алексеева И.Ю. Человеческое знание и его компьютерный образ. М.: Наука, 1992. - 126 с.
78. Филлмор Ч. Дело о падеже // Новое в зарубежной лингвистике: Сб. ст. -М: Прогресс, 1981. Вып. 10. С. 400-444.
79. Шэнк Р. Обработка концептуальной информации.-М.: Мир, 1980.-360 с.
80. Хомский Н. Аспекты теории синтаксиса. / Пер. с англ. В.А. Звегинцева. Благовещенск: БГК им. И.А. Бодуэна де Куртенэ, 1999. - 257 с.
81. Баранов А. Н., Кобозева И. М. Семантические метаязыки для описания смысла предложения // Лингвистическое обеспечение информационных систем: Сб. ст. М.: Институт научной информации по общественным наукам АН СССР- 1989. С. 102-142.
82. Богуславский И. М. Исследования по синтаксической семантике. М.: Наука, 1985.- 176 с.
83. Мельчук И. А. Опыт разработки фрагмента системы понятий и терминов для морфологии (к формализации языка лингвистики) // Семиотика и информатика: Сб. ст. М.: ВИНИТИ, 1975. - Вып. 6. С. 16-58.
84. Хомский Н. Синтаксические структуры // Новое в зарубежной лингвистике: Сб. ст. М.: Прогресс, 1962. - Вып. 2. С. 23-138.
85. Филлмор Ч. Дело о падеже открывается вновь // Новое в зарубежной лингвистике: Сб. ст. М.: Прогресс, 1981. - Вып. 10. С. 496-530.
86. Мельчук И. А. Русский язык в модели «Смысл-Текст». М.: Языки русской культуры, 1995. - 682 с.
87. Квитко Е. С. Термин в научном документе. Львов: Высшая школа ЛГУ, 1976.- 125 с.
88. Саганенко Г.И., Каневский Е. А. Концептуальное обоснование компьютерного анализа массивов с текстами // Социология: 4М. 1997.- № 6. С. 65-81
89. Никитевич В. М. Грамматические категории в современном русском языке. М.: Государственное учебно-педагогическое издательство министерства просвещения РСФСР, 1963. - 246 с.
90. Галактика-ZOOM Автоматизированная система поиска и аналитической обработки информации Электронный ресурс. : описание системы на сайте компании-производителя, корпорации Галактика [2004].- Режим доступа: http://zoom.galaktika.ru/content.htm, свободный.
91. Ларичев О.И., Мошкович Е.М. Качественные методы принятия решений. М.: Физматлит, 1996. - 208 с.
92. Введение в системный анализ: Учеб. пособие /Под ред.В.А. Губанов, В.В. Захаров, А.Н. Коваленко. Ленинград: Изд-во ЛГУ,1988. -232 с.
93. Подиновский В.В, Ногин В.Д. Парето-оптимальные решения многокритериальных задач. М.: Наука, 1982. - 254 с.
94. Леонтьев В. П. Поиск в Интернет. М.: ОЛМА-Пресс Образование, 2004. - 47 с.
95. Информационный поиск в Интернете: Учеб. пособие / Под ред. В.И. Аверченков, С.М. Рощин, Ю.Т. Трифанков. Брянск: Изд-во Брян. гос. техн. ун-та, 2002. - 303 с.
96. Поминов А. В. Информационная система для переводчиков. // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. M.: Наука, 2002. - Т.2. С. 450-453.
97. Поисковые механизмы Google Электронный ресурс. публикация на сайте компании Master-IT, [2004]. - Режим доступа: http:// hosting.master-it.ru/articles/article.php?aid=10&acid=28, свободный.
98. Трахтенгерц Э.А. Компьютерная поддержка принятия решений. -М.: Синтег 1998.-376 с.
99. Эддоус М., Стэнсфилд Р. Методы принятия решений.- М.: ЮНИ-ТИ, 1997.-590 с.
100. Комплекс аналитической обработки текста Электронный ресурс. : общая информация о продукте [2004]. - Режим доступа: http://www.rco.ru/product.asp?obno=406, свободный.
101. Демонстрация технологий анализа и поиска текстовой информации RCO Электронный ресурс. : страница демонстрационных версий программных продуктов RCO [2004]. - Режим доступа: http://demo.rco.ru/, свободный.
102. Асанов М.О., Баранский В.А., Расин В.В. Дискретная математика: графы, матроиды, алгоритмы. Ижевск: НИЦ "Регулярная и хаотическая динамика", 2001. - 288 с.
103. Майника Э. Алгоритмы оптимизации на сетях и графах. М.: Мир, 1981.-323 с.
104. Тузов В.А. Система семантико-синтаксического анализа предложений на русском языке // Информационные технологии в гуманитарных и общественных науках. Семантический анализ текстов. СПб: СПбЭМИ РАН, 2002. - Вып. 12. С. 1-19.
105. Яблонский C.B. Введение в дискретную математику М.: Наука, 1986.-384 с.
106. Схема алгоритма МА. Автоматическая часть1. Есть еще флексии
107. Схема алгоритма МА. Автоматизированная часть
108. Схема первого этапа алгоритма ОА
109. Схема второго этапа алгоритма ОА
110. Формирование первого приближения множеств свойство описание и свойство принадлежности относительно объектов и Функций
111. Формирование групп и эквивалентных сущностей ОП
112. Схем третьего этапа алгоритма ОА 0
113. RObj: TObjectRazbor; MI: TMorfologylnfo; SONML: TStringList; Phrases: TPhrasesList; begin ErrMessage := "; Result := "; try
114. DoLog( 'TextToSONML (I)'); RObj := nil; MI := nil; Phrases := nil;try
115. RObj := TObjectRazbor.Create; MI := TMorfologylnfo.Create;
116. Phrases := TPhrasesListCreate;
117. DoLog( 'TextToSONML (2)'); ContextToWords( Text, Phrases, Startlndex, MI.mText);
118. MI.PhrasesList := Phrases;
119. DoLog( 'TextToSONML (3)');if not RMorf.MorfologyAnalis( MI, RObj ) thenraise Exception.Create( 'Морфологический анализ завершился ошибкой');
120. DoLog( 'TextToSONML (4)'); SONML := TStringList-Create; try
121. RObj.ObjectAnalis( MI, SONML, ContextPrefix, CommandText);1. Result := SONML.Text;
122. SONML. SaveToFile( 'C:\temp\SONMLDLL.txt'); finally1. SONML.Free;1. SONML := nil; end;1. DoLog( TextToSONML (5)');
123. MI.PhrasesList := nil; finallyif assigned(MI) then try FreeAndNil( MI ); except end;if assigned(RObj) then try FreeAndNil( RObj ); except end;if assigned(Phrases) then try FreeAndNil( Phrases ); except end; end;except on E:Exception do
124. DoLog( 'Start INIT ); Morf.ClearObject;
125. Morf.ChRech.LoadFromFile( StrPas( Path ) + •chrech.txf);
126. Morf.LN.LoadFromFile( StrPas( Path ) + 'ln.txt');
127. Morf.Rod.LoadFromFile( StrPas( Path ) + 'rod.txt');
128. Morf.Padeg.LoadFromFile( StrPas( Path ) + ■padeg.txt');работаем с файлом основ
129. RunBat('sort '+Trim(StrPas( Path))+ ' /о '+StrPas( Path)+' /1 "C'",True);
130. Morf.SlovarOs.LoadFromFile(Trim(StrPas( Path )+'slovar.txt'));
131. Morf.TreeOsn.BuildTreeOsn( Morf);
132. Morf.DeleteNullStrings(Morf.SlovarOs);работаем с файлом окончаний RunBatCsort '+Trim(StrPas( Path ))+' /о'+ StrPas( Path)+' /1 "C"',True); Morf.SlovarOk.LoadFromFile(Trim(StrPas(Path )+'fleksii.txt'));
133. Morf.TreeOsn.BuildStructOk( Morf); Moif.DeleteNullStrings(Morf.SlovarOk);
134. Result := constSTATEInited;
135. DoLog( 'Finish INIT); end;type1. TMorfologiRazbor=class;
136. RootNodes : PNode;//nepBbifl узел дерева-структурыprocedure ClearObject; procedure ClearTree(var TS:PNode); //работа с узлами дереваprocedure CreateData(Morf:TMorfologiRazbor;
137. TMorfologylnfo = class privatefunction GetContext(Index: Integer): TPhraseParams; publicmText: TStringList;//HcxoflHbitt текст для разбора
138. PhrasesList: TPhrasesList; property WordContext Index: Integer .: TPhraseParams read Get Context; constructor Create; destructor Destroy; override; end;
139. MorfDopOk: TStringList; // NotTrue:Boolean; // ZnakPrep : Integer; procedure ClearStruct; //работаем со строками из текстового файла function
140. DeleteZnakStrings(SS: String): String;//yflaneT точку после основы(окращения основы в словаре)procedure SearchOsn(str: String) ^/выделяет основуprocedure
141. SearchStandartForm(buf:String);//cTpoHT стандартную формуfunction
142. WIndex : Cardinal; ZnakPrep: Integer): Boolean; public
143. Rod,Padeg,ChRech: TStringList;
144. GramXar, Osn, Stand Forma: TStringList;1. TreeOsn : TTreeStruct;1. StructOk: TTreeStruct;
145. SlovarOs, SlovarOk: TStringList;procedure ClearObject;procedure
146. Morf.TreeOsn.AddNode(nil,nil,tnAlf,nil,Copy(Morf. Osn1.,l,l));if tnAlf о nil then
147. Morf.TreeOsn.UpdateNode(tnAlf,tnAlf.Child,tnAlf.P arent, tnAlf. Left, tnTemp) else
148. Morf.TreeOsn.RootNodes := tnTemp; tnAlf := tnTemp;tnNode :=
149. Morf.TreeOsn.AddNode(nil,tnTemp,nil,nil,Morf.Osn 1.);
150. CreateData(Morf,tnNode,0,i);
151. Morf.TreeOsn.UpdateNode(tnAlf,tnNode,tnAlf.Paren t,tnAlf.Left,tnAlf.Right); end else begin ch :=
152. Pos(Osn,Morf.DeleteZnakStrings(Morf.Osn1.)); if ch = 1 then begin tnTemp :=
153. Morf.TreeOsn.AddNode(nil, tnNode, tnNode.Child, nil ,Morf.Osn1.);
154. CreateData(Morf,tnTemp,0,i); if tnNode o nil then
155. Morf.TreeOsn.UpdateNode(tnNode,tnTemp,tnNode. Parent,tnNode.Left,tnNode.Right); tnNode := tnTemp; tnTemp := tnTemp.Left; if tnTemp o nil then
156. Morf.TreeOsn.UpdateNode(tnTemp,tnTemp.Child,tn Temp.Parent,tnTemp.Left,tnNode); end else beginwhile tnNode o nil do begin ch :=
157. Pos(Morf.DeleteZnakStrings(tnNode.Text),
158. Morf.DeleteZnakStrings(Morf.Osn1.)); if ch = 1 then begin tnTemp :=
159. Morf.TreeOsn.AddNode(nil,tnNode,tnNode.Child,nil ,Morf.Osn1.);
160. CreateData(Morf,tnTemp,0,i); if tnNode o nil then
161. Morf.TreeOsn.UpdateNode(tnNode,tnTemp,tnNode. Parent,tnNode.Left,tnNode.Right); tnNode := tnTemp; tnTemp := tnTemp.Left; if tnTemp o nil then
162. Morf.TreeOsn.UpdateNode(tnTemp,tnTemp.Child,tn Temp.Parent,tntemp.Left,tnNode); break; end;tnNode := tnNode.Parent; end;if tnNode = nil then begin tnTemp :=
163. Morf.TreeOsn.AddNode(nil,nil,tnAlf,nil,Copy(Morf. Osn1.,l,l));if tnAlf o nil then
164. Morf.TreeOsn.UpdateNode(tnAlf,tnAlf.Child,tnAlf.P arent,tnAlf.Left,tnTemp) else
165. Morf.TreeOsn.RootNodes := tnTemp; tnAlf := tnTemp; tnNode :=
166. Morf.TreeOsn.AddNode(nil,tnTemp,nil,nil,Morf.Osn '.);
167. CreateData(Morf, tnNode, 0,i);
168. Morf.TreeOsn.UpdateNode(tnAlf,tnNode,tnAlf.Paren t,tnAlf.Left,tnAlf.Right); end; end;if tnNode o nil then Osn := Morf.DeleteZnakStrings(Morf.Osn1.); end; end; end;procedure
169. Copy(str,ch,Length(str)-ch));end else
170. Morf.GramXar.Insert(i,str); prednum := num; tnTemp :=
171. Morf.StructOk.AddNode(nil,nil,tnFirst)nil,num); if tnFirst o nil then
172. Morf.StructOk.UpdateNode(tnFirst,tnFirst.Child,tnFi rst.Parent,tnFirst.Left,tnTemp)else begin
173. Morf.StructOk.RootNodes := tnTemp; end;tnFirst := tnTemp; if chl > 0 then tnChild :=
174. Morf.StructOk.AddNode(nil,tnFirst,nil,nil, Copy(str,chl + 3,ch-chl-3))elsetnChild :=
175. Morf.StructOk.AddNode(nil,tnFirst,nil,nil,"); Morf. StructOk.CreateData(Morf,tnChild, 1 ,i);
176. Morf.StmctOk.UpdateNode(tnFirst,tnChild,tnFirst.Pa rent,tnFirst.Left,tnFirst.Right);end else begin1. Morf.GramXar.Insert(i,
177. Copy(Morf.SlovarOk1.,ch 1 ,Length(Morf.SlovarO ki.)-ch)); tnTemp :=
178. Morf.StructOk.AddNode(nil,tnFirst,tnChild,nil,
179. Morf.SearchGramXar(Morf.GramXar1.,TNi6=',';'));
180. Morf.StructOk.UpdateNode(tnChild,nil,tnFirst,tnChil d.Left,tnTemp);tnChild := tnTemp; CreateData(Morf,tnChild, 1 ,i);
181. Morf.StructOk.UpdateNode(tnFirst, tnChild, tnFirst.Pa rent,tnFirst.Left,tnFirst.Right);end; end; end;function TMorfologiRazbor.LeksikalAnaIis(SIovo : String; OBAN: TObject;
182. WIndex : Cardinal; ZnakPrep: Integer) : Boolean; var
183. TObjectRazbor( OBAN ).ObjXar.Add(tN); result := True; end; end; end; end; end;function
184. SearchNodes.Add(tnTemp); tnTemp := taTemp.Child; result := True; end elsetnTemp := tnTemp.Left; end; end;function TTreeStruct.CompareNodeSlovo(Morf: TMorfologiRazbor; Node:PNode;Str:String):Boolean; varch: Integer; begin if Node o nil then begin ch :=
185. Pos(Morf.DeleteZnakStrings(Node.Text),Str); if ch = 1 then result := True elseresult := False; end elseresult := False; end;function
186. TObjectRazbor( OBAN ).ObjXar.Add(tNode); for i := 0 to TreeOsn.SearchNodes.Count -1 do begin
187. Node := TreeOsn.SearchNodes1.; pD := Node.Data; //если есть ссылка на окончания if pD.Okonchanie о nil then beginссылок на окончания может быть несколько for j := 1 to pD.OkonchaniefO. do begin
188. Temp := StructOk.RootNodes; //ищем эту ссылку в структуре окончаний while Temp о nil do if Temp.Text о IntToStr(pD.Okonchaniej.)then
189. MorfEkvOsn.Add(Node); MorfEkvOk.Add(Temp); end;if Temp.Child о nil then Temp := Temp.Child else
190. TTextNode = record Slovo : String;//cjiOBO в русском написании Osnova : Ро1шег;//ссылкак на соответствующий данной основе узел дерева-основ
191. Okonchanie : Pointer;//ccbuiica на соответствующее данному слову окончание из структуры
192. Znak : Integer;//oTMeTKa о знаке препинания после слова (см. файл znaki.txt)
193. Obj : Integer;//BHfl сущности 10,11 объект, 20,21 - функция, 30 - свойство описания, 40 - со-вйство принадлежности
194. Next : РТех1>^е;//следующий узел, состоящей из вышеперечисленного набора параметров, т.е. сссылка самого на себя
195. Pred : PTextNode;//предыдущий узел, состоящей и вышеперечисленного набора параметров, т.е. сссылка самого на себя
196. Child : PTextNode;//слово к-ое является зависимым от данного слова
197. Parent : PTextN0de;//an0B0 от к-ого является зависимым данное слово1.nk : PTextNode ¡//функция к-ая может иметь отношение к данному слову
198. Objet : PTextNode;//o6beKT к-ый может иметь отношение к данному слову
199. Prim : 1Ше§ег;//кодированные обозначения несущие вспомогательный характер: -20 причастие или деепричастие
200. Poradok : Integer;//nopHflKoebift номер слова внутри текста
201. None : Integer;//cneu. инф. по анализам: 100 -нет слова в морф, словаре; 110 цифра записанная цифрой;120 процент; 130 - не русское слово;140 имя собственное ObjEkv : PTextNode ¡//разрешенная анафоря ObjRav : TList;//paBHbie объекты (равенство по основе)
202. Context : TList;//^OBa, которое оказалось с чем то равным и объединяющее группу
203. Wordlndex : Cardinal;//HOMep слова внутри пре-ложений1. Phraselndex : Cardinal;end;type
204. ContextPrefix: String = "; CommandText: String = '^¡//формирование выходного текстового файла в специальном формате public ObjXar: TList; tvObjModel: TTreeNonView; Error : TStringList;procedure ObjectAnalis(MI: TMorfologylnfo; SONML: TStringList;
205. ContextPrefix: String = "; CommandText: String = "); end;procedure TObjectRazbor.Klassification; var i: Integer; tNode: PTextNode;
206. Node : PNode; pD: PDataNode; beginищем только им. падежи for i := 0 to ObjXar.Count -1 do begin tNode := ObjXar1.; if tNode о nil then begintNode.Poradok := i+1; tNode.Obj := -1; if tNode.Osnova о nil then begin
207. Node := tNode.Osnova; pD := Node.Data; case pD.CR of l,5:beginсклоняемое сущ., сущ./местоимениеif((pD.Okonchanie о nil)and(pD.Okonchanie0. > 0))then begin
208. Child(ParentNode,ChildNode:PTExtNode);procedure Try-DOSV(NodeDo,Trynext,TryPred,TryChild,TryP arent:PTextNode); beginif(((TryPred = nil)or((NodeDo.Next o TryPred)and
209. NodeDo.Parent o TryPred)and (NodeDo.Child o TryPred)))and ((TryNext = nil)or((NodeDo.Pred o TryNext)and
210. NodeDo.Parent o TryNext)and (NodeDo.Child o TryNext)))and ((TryParent = nil)or((NodeDo.Pred o TryParent)and
211. NodeDo.Next o TryParent)and (NodeDo.Child o TryParent)))and ((TryChild=nil)or((NodeDo.Pred o TryChild)and
212. TryDOSV(ParentNode,nil,nil,ChildNode,nil);
213. TryDOSV(ChildNode,nil,nil,nil,ParentNode); end else begintTempChild^:= ParentNode.Child;1. Try
214. DOSV(ChildNode,tTempChild,nil,nil,ParentNode) >
215. TryDOSV(ParentNode,nil,nil,ChildNode,nil);
216. TryDOSV(tTempChild,nil,ChildNode,nil,nil); end; end;varij,souz,flag: Integer; NotFound,Zamena,Oborot: Boolean; tNode, tTemp, tT, tObj, tParent, tLink, tTempObj PTextNode;
217. NodeListD := nil; NodeListL := nil; NodeListP := nil;try
218. NodeListD := TList.Create; NodeListL := TList.Create; NodeListP := TList.Create;
219. TryDoChild(tLink,tTemp); end; end; end;if NodeListD. Count > 0 then beginfor j := 0 to NodeListD.count 1 dobegintTemp :=NodeListDj.; if tObj o nil then begin
220. TryDoChild(tParent,tTemp); end; end else beginif tObj o nil then tTemp.Objct := tObj; if assigned(tObj) then begin
221. TryDoChild(tObj,tTemp); end; end; end;
222. TryDoChild(tParent,tLink); end; end; end;
223. NodeListL.Add(tNode); end; souz := 0; flag := 20; end;30,-1 :begin
224. NodeListD.Add(tNode); if NodeListL.Count > 0 then beginfor j := 0 to NodeListL.Count 1 do begintTemp := NodeListLj.; if((assigned(tLink))and(tTerap otLink))thenbegin
225. TryDoChild(tLink,tTemp); end;end;if(assigned(tLink))then begin
226. TryDoChild(tLink,tTemp); end; end;if assigned(tLink)then begin
227. TryDoChild(tParent,tTemp); end end else begin
228. TryDoChild(tNode,tTemp); end; end;1. NodeListD.Clear; end;if tParent = nil then beginif(tTempObj о nil)then begin
229. TryDoChild(tTempObj,tNode); tParent := tNode; end else begintParent := tNode; NodeListP.Add(tNode); end; end else beginif((tTempObj = tLink)and(tTempObj оnil))thenbegini£((tLink о nil)and(tLink.Child о tParent))thenbegin
230. TiyDoChild(tTempObj,tNode); tParent := tNode; end else beginif((tLink о nil)and(tLink.Child = tParent))thenbegintNode.Parent := tLink.Child; end; end; end else beginесли вперели не было союза if souz = 0 then begin
231. TryDoChild(tParent,tTemp); end end else begin
232. TryDoChild(tNode,tTemp); end; end;1. NodeListD.Clear; end;if NodeListP.Count > 0 then begintTemp := NodeListPNodeListP.Count-l.; TryDoChild(tTemp,tNode); end;
233. NodeListP.Add(tNode); tParent := tNode; end; end else beginесли это сочинительный союзif tNode.Osnova о nil then begin
234. Node := tNode.Osnova; pD := Node.Data; if(pD.CR = 21)thensouz := 1; end;
235. NodeListD.Add(tNode); end; end; end;
236. NodeListP.Clear; end; finally
237. N := tT.Okonchanie; p := N.Data;if tSysh.Okonchanie о nil then N := tSysh.Okonchanie else
238. N := tSysh.Osnova; pi := N.Data; //если падеж соответствуетif ComparePadeg(p,pl) then tSearch.Add(tT); end else begin
239. N := tT.Osnova; p := N.Data;if tSysh.Okonchanie о nil then N := tSysh.Okonchanie else
240. N := tSysh.Osnova; pi := N.Data; //если падеж соответствуетif ComparePadeg(p,pl) then tSearch.Add(tT); end; end; end;if(tSlovo о nil)then beginif(tT.Obj in 20,21.)then tSearch.Add(tT) else beginif tT.Okonchanie о nil then begin
241. N := tT.Okonchanie; p := N.Data;if tSlovo.Okonchanie о nil then N := tSlovo.Okonchanieelse
242. N := tSlovo.Osnova; pi := N.Data; //если падеж соответствуетif ComparePadeg(p,pl) then tSearch.Add(tT); endelse if tT.Osnova о nil then begin N := tT.Osnova; p := N.Data;if tSlovo.Okonchanie о nil then N := tSlovo.Okonchanie else
243. Node := tTemp.Okonchanie; pD := Node.Data; //деепричастиеif pD.CR = 15 then tNode.Obj := 11; end elseif tTemp.Osnova о nil then begin
244. Node := tTemp.Osnova; pD := Node.Data; //деепричастиеif pD.CR = 15 then tNode.Obj := 11; end; end; end; end; end; end; end;
245. Объектная иерархическая структура первого предложения:
246. Объектная иерархическая структура второго предложения:
247. Все приведенные объектные структуры предложений являются графическим изо бражением формальной записи, которая приведена ниже в экранных формах.
248. Экранные формы формальной записи первого и второго предложений соответственно:1. Тестирование АТЕЯ-1П1*1
249. Выпрямленное напряжение через емкостной фильтр, собранный на конденсаторах подается на однофазный транзисторный инвертор.1. АЖ ,|1. Rooi>1. Entities)
250. Entity I D=' '2" Value-"напряжение' '>
251. Object 1D="2" Context) D="1" N='*2">
252. Property? ID="5" Уа!ие="фильтр" N="5" h
253. Property D f0="3" Value=' 'через" Parent="5" N="3" h
254. Property D ID ="4" Value="емкостный" Parent="5" N="4" /> <Ргорег^РШ="8"УЫие="кошемсаггор"Р^еп1="5" N="9"/>
255. PropertyD ID="7"Value='WParent="8"N="8" /> </Object)1. Entity >i Entity ID ="13" Value=' инвертор")0bjectlD="13" ContextlD="1" N="14"> <PropertyD Ю="10"Уа1ие="на" N="11"/>
256. PropertyD ID -"1111 Value-"однофазный' 'N="12" />
257. PropertyD ID ="12" Value="транзисторный" N="13" /> </Qb|ect>
258. Entity> </Entities) <Links>1.nk ID="1" Context!D="1"Уа1ив-"выпрямить" 0bjectFrom="2" 0bjectTo="2" N="t7>1.nk ID="6" Context! D=*"1" Уа1ие="собрать" N="7" /> <Link ID="3" ContextlD="1" Value="подавать" 0bieotFrojri="2" N-"10" />1.nks>1. Context»
259. Context ID="1" Start! ndex="1 "> Выпрямленное напряжение через емкостной фильтр, собранный на конденсат ерах подается на однофазный транзисторный инвертора/Context;1. Contexts) </Root>1. Тестирование атеяjojxj
260. Он собран по однофазной мостовой схеме на транзисторах.1. АТЕЯ1. Root> <Entities>1. EntitylD='T'Vdue="0H">
261. Context ID="1" Start!ndex="V> Инвертор собран по однофазной мостовой схеме на транзисторах-:/Context) </Contexts) </Root>
262. Объектная иерархическая структура третьего предложения:
263. Так как объединение иерархических объектных структур предложений происходит последовательно, то сначала представлен результат объединения иерархических объектных структур первого и второго предложения:
264. Gbtecl !D-"1" ConlextlD-'T' N-"1">
265. Piopei tjiPID»"2"VaJ(je-1 инвертор'' N -"2" Лn(ity>
266. EriWy ID="6" Vakre^Vpancfpophtarop'^
267. Obtecl ID-"6" ContextlD-'T' N-"B"> (PropeityD D="4"Vatu e="cuno(ow" N="4" /> iPiopeityP ID ="8" Valrje-''вымм" N="9" /> iPropatyD ID-'T" Value-'на" Parent-"B" N-"8" /> ;PtopertyD ID="9" Value ^"который" Parent» "8" N-"10" h ;/0bject>1. Emily;
268. EnHly ID="13"VaKje="sCTpOHCTBO">cGbject Ю-'13" СйГг1ек№-"1" N="14">iPropertyD 10»' '11" Vakje="narpeBatejibHt>0'' N-"12"/>
269. Proper (yO I0»"1 ернический'' N-"13" Л0bject>rrir*y>
270. ЕгУйу ID="15" Уа!иб-"инодсгор">
271. Obiect ID-15" ConlentlD-"1" N-"18"v cPropMlyD ID -" 14" Value-''например'' N-"16" /> </0bject>1. EnUy>
272. Григорьев Евгений Владимирович начальник отдела развития и автоматизации внешнеэкономических операций ОАО «В\0 «Авиаэкспорт», председатель комиссии
273. Андреева Ирина Геннадьевна главный эксперт - экономист отдела планирования и валютного контроля ОАО «В\0 «Авиаэкспорт», член комиссии
274. Феоктистов Владислав Валентинович главный эксперт - системный администратор отдела развития и автоматизации внешнеэкономических операций ОАО «В\0 «Авиаэкспорт», член комиссии
275. Комиссия рассмотрела программное обеспечение диссертационной работы Тригуб Н. А.,производящее интеллектуальную обработку текстовых электронных документов нарусском языке с целью выделения знаний из теста, и определила следующее.
276. Подход к объектной трактовки текстовой информации в состоянии обеспечить обработку документов на качественном уровне достаточном для эффективного контекстного поиска по образованным формальным структурам.
277. Е. В. Григорьев И. Г. Андреева В. В. Феоктистов
278. Начальник службы технической поддержки Гмбх САС Институт А. Е. Гришель 11 ноября 2004 г.1. АКТапробации результатов диссертации на соискание ученой степени кандидата технических наук Тригуб Натальи Александровны1. Состав комиссии:
279. Гришель Андрей Евгеньевич начальник службы технической поддержки Гмбх САС Институт, председатель комиссии
280. Бутаев Кирилл Эдуардович руководитель проектной группы Гмбх САС Институт, член комиссии
281. Кацан Николай Владимирович технический консультант департамента консалтинга и сервиса Гмбх САС Институт, член комиссии
282. А. Е. Гришель К. Э. Бутаев Н. В. Кацан
283. Генеральный директор ООО "Интеллектуальные ресурсы" В. В. Ковшевный 9 ноября 2004 г.1. АКТапробации результатов диссертации на соискание ученой степени кандидата технических наук Тригуб Натальи Александровны1. Состав комиссии:
284. Ковшевный Виктор Викторович генеральный директор ООО "Интеллектуальные ресурсы", председатель комиссии
285. Дубков Алексей Михайлович директор аналитического отдела ООО "Интеллектуальные ресурсы", член комиссии
286. Косинов Андрей Анатольевич технический директор ООО "Интеллектуальные ресурсы", член комиссии
-
Похожие работы
- Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах
- Модели и методы автоматической обработки неструктурированной информации на основе базы знаний онтологического типа
- Методы принятия решений и управления в неструктурированных задачах на основе самоорганизующихся мультиагентных рекурсивных когнитивных архитектур
- Методы и алгоритмы повышения эффективности функционирования информационно-справочной подсистемы АСУП
- Исследование и разработка методов и программных средств классификации текстовых документов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность