автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров

доктора технических наук
Фомичев, Владимир Александрович
город
Москва
год
2005
специальность ВАК РФ
05.13.11
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров»

Автореферат диссертации по теме "Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров"

Министерство образования и науки Российской Федерации

Московский государственный институт электроники и математики (Технический Университет)

МЕТОД ФОРМАЛЬНОГО ОПИСАНИЯ СОДЕРЖАНИЯ СЛОЖНЫХ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ И ЕГО ПРИМЕНЕНИЕ К ПРОЕКТИРОВАНИЮ ЛИНГВИСТИЧЕСКИХ ПРОЦЕССОРОВ

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Автореферат диссертации на соискание ученой степени доктора технических наук

На правах рукописи

Фомичев Владимир Александрович

Москва - 2006

Работа выполнена на кафедре математического обеспечения систем обработки информации и управления факультета прикладной математики Московского государственного института электроники и математики (технический университет)

Официальные Оппоненты:

доктор физико-математических наук, старший научный сотрудник А.К. Петренко доктор технических наук, профессор Ю.П. Кораблин доктор технических наук, профессор В.П. Кулагин

Ведущая организация:

Факультет вычислительной математики и кибернетики МГУ им. М.В. Ломоносова

Защита диссертации состоится апреля 2006 г.

в ч- _00_мин. на засевании диссертационного Совета Д 212.133.01 при

МИЭМ (ТУ) по адресу:

109028, Москва, Б. Трехсвятительский переулок, д. 1-3/12 строение 8, зал Ученого Совета. С диссертацией можно ознакомиться в библиотеке МИЭМ. Автореферат разослан "2.Ц" и/арлю 2006 г. Ученый секретарь

диссертационного Совета С.Е. Бузников

Д 212.133.01 При МИЭМ (ТУ) к.т.н., доцент

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования. За последние два десятилетия научно-техническое направление "искусственный интеллект" получило значительное развитие и нашло целый ряд успешных применений. Основная часть информации хранится и передается людьми с помощью естественного языка (ЕЯ), т.е. совокупности русского, английского, японского и других языков. Один из главных классов компьютерных интеллектуальных систем (ИС) составляют программы, понимающие ЕЯ или синтезирующие выражения ЕЯ по некоторым внутренним представлениям. Такие программы называются системами обработки естественного языка, или лингвистическими процессорами (J111).

Несколько неформальных понятий, являющихся базовыми для теории смысловой обработки компьютером ЕЯ, многократно используются в диссертации: семантика ЕЯ, связный текст (дискурс), структурированное значение выражения на ЕЯ, семантическое представление ЕЯ-выражения и алгоритм семантико-синтзксического анализа.

Под семантикой ЕЯ будем понимать совокупность закономерностей передачи информации средствами ЕЯ. Связным текстом (или дискурсом) называется последовательность взаимосвязанных по смыслу выражений на ЕЯ. Если Т — некоторое выражение на ЕЯ (словосочетание, предложение, дискурс), то структурированным значением выражения Т является информационная структура, строящаяся мозгом человека, владеющего данным подъязыком ЕЯ (русским, английским или другим), независимо от контекста, в котором услышано или прочитано выражение Т, т.е. строящаяся на основе только знаний о значениях элементарных лексических единиц и правил их комбинирования в данном языке.

Под семантическим представлением (СП) ЕЯ-выражения Т понимается формальная структура, являющаяся либо образом структурированного значения этого выражения, либо отражением смысла (или содержания) данного выражения в определенном контексте - в ситуации диалога, в контексте знаний о мире или в контексте предшествующей части дискурса.

Таким образом, СП ЕЯ-выражения Т является формальной структурой, первичными элементами которой являются, в частности, обозначения понятий, конкретных объектов, множеств объектов, событий, имена функций и отношений, логические связки, обозначения чисел и цветов, а также обозначения смысловых отношений между значениями фрагментов текста или между объектами рассматриваемой предметной области. СП текстов могут являться, например, строками и размеченными ориентированными графами (семантическими сетями).

Алгоритм семантика-синтаксического анализа строит по тексту на ЕЯ его СП, используя для этого знания о морфологии и синтаксисе подъязыка ЕЯ (русского, английского и др.), информацию о взаимосвязях лексических единиц с единицами семантического уровня и знания о мире. Семантико-синпиассинескими анализаторами (ССА) называются прикладные компьютерные системы, реализующие алгоритмы семантико-синтаксического анализа ЕЯ-текстов (письменных или устных).

В настоящее время известно много областей применения ССА как преобразователей ЕЯ-текстов в их СП. В частности, СП ЕЯ-текста, являющееся выходом такого преобразователя, может поступить на вход подсистем ИС, формирующих по этому СП (в зависимости от назначения ИС): запрос на выполнение медицинской или технической диагностики, текст на языке перевода, схему электронного блока, запрос к интеллектуальной базе данных (БД) Интернет-магазина, управляющее воздействие на автономный интеллектуальный робот (например, транспортно-петрузочный робот), концептуальную схему реляционной базы данных, выражение языка представления знаний для пополнения или модификации базы знаний (БЗ), семантическую аннотацию электронного документа.

Основное содержание данной диссертации посвящспо развитию теории ССА в связи с существованием целого ряда недостаточно исследованных вопросов, касающихся формализации структуры выходного языка ССА, формализации структуры данных, используемых для преобразования ЕЯ-текстов в их СП и разработки системы формальных понятий, позволяющих описывать алгоритмы, реализуемые ССА. Новые области применения ССА усилили актуальность исследования этих вопросов.

Государственными и коммерческими организациями накоплены большие запасы информационных ресурсов, содержащих знания о предметных областях. Для повышения эффективности работы сотрудников с накопленными знаниями крупные компании в мире разрабатывают или уже разработали и используют системы управления знаниями. По имеющимся в литературе оценкам, более 70% ресурсов, накопленных в различных организациях, носит неструктурированный характер и образуется электронными текстовыми документами. Поэтому, по мнению ряда авторов, повышению эффективности работы сотрудников различных организаций с накопленными информационными ресурсами будет способствовать разработка интеллектуальных поисковых систем с ЕЯ-интерфейсами, способных осуществлять смысловой анализ естественно-языковых полей используемых электронных документов и, как следствие, давать ссылки на документы, интересующие пользователя, или формулировать ответы на поставленные вопросы.

Другой острой проблемой теории ИС является автоматизация формирования баз знаний ИС. Основная часть знаний, накопленных человечеством, хранится в виде естественно-языковых текстов (ЕЯ-текстов). Поэтому в последние годы реализован ряд проектов, направленных на автоматическое извлечение знаний из ЕЯ-текстов. Значительное внимание в Германии, США, Японии и некоторых других странах уделяется проблеме автоматизации извлечения знаний из биологических и медицинских документов (отчетов об исследованиях, статей в научных журналах и т.д.). Однако построенные системы извлечения знаний из ЕЯ-текстов обладают весьма узкими способностями понимания ЕЯ-текстов, особенно дискурсов. Это выражается в использовании разнообразных узкоспециализированных шаблонов для извлечения знаний. Центральной причиной этого положения является недостаточная проработанность вопросов формализации семантики ЕЯ.

Благодаря бурному прогрессу компьютерной сети Всемирная Паутина (the World Wide Web, WWW, W3) пользователи сети во всем мире получили быстрый доступ к огромному количеству ЕЯ-текстов, относящихся к различным областям деятельности. С середины 1990-х годов специалисты в самых разных областях работают не только с публикациями и БД своих организаций, но и стремятся использовать информационные ресурсы Паутины. Поэтому чрезвычайно актуальна задача организации взаимодействия на ограниченном естественном языке из различных предметных областей с огромным объемом накопленных информационных ресурсов Всемирной Паутины. ЕЯ-интерфейсы для взаимодействия с информационными ресурсами Паутины необходимы не только специалистам для решения профессиональных задач, но и конечным пользователям, перед которыми стоят задачи получения медицинской или юридической информации, расширения культурного кругозора и т.д.

В феврале 2001 г. консорциум сети Всемирная Паутина, обозначаемый в большинстве документов сокращением W3C (the World Wide Web Consortium), официально объявил о широком развертывании исследований по преобразованию существующей сети в Семантическую Всемирную Паутину (Semantic Web). Один из наиболее важных аспектов реализации этого крупномасштабного проекта заключается в том, что компьютерные интеллектуальные агенты (КИА) смогут анализировать информацию, представленную на Веб-сайтах, взаимодействуя между собой. Часть КИА сможет выполнять смысловой анализ ЕЯ-компонентов электронных документов, представленных в Веб-сайтах. Это даст возможность конечным пользователям осуществлять поиск информации в Паутине не по ключевым словам, а по смыслу, с помощью КИА. Важные дополнительные возможности

предоставят речевые браузеры.: они позволят использовать телефоны (в том числе мобильные) для взаимодействия с Семантической Паутиной на ЕЯ.

Развитие гражданского общества в нашей стране существенно зависит от степени доступности государственных информационных ресурсов. Обеспечение такой доступности является одной из центральных задач федеральной целевой программы "Электронная Россия (2002 - 2010 годы)". Огромную роль в обеспечении доступа общественности к государственным информационным ресурсам должны сыграть электронные библиотеки (ЭлБ). Для обеспечения подлинной широты доступа пользователей ЭлБ к информационным ресурсам необходимы интеллектуальные поисковые системы с ЕЯ-интерфейсами, способные отыскивать информационные источники или находить ответы на вопросы конечных пользователей на основе осуществления смыслового анализа (а) запроса пользователя, (б) естественно-языковых полей разнообразных хранящихся электронных документов и сравнения содержания запроса пользователя с содержанием анализируемых текстовых полей электронных документов. Поэтому одной из центральных научных задач, связанных с созданием ЭлБ, является автоматизация семантического анализа ЕЯ-текстов с целью смыслового поиска информационных источников.

Накопленный опыт исследований по созданию ЛП показал, что большое влияние на проектирование анализаторов ЕЯ-текстов оказывают используемые методы формального отображения содержания (или смысла) текстов, а также методы формального представления промежуточных результатов смыслового анализа текстов. Особую актуальность приобрела проблема формального представления содержания дискурсов.

Во-первых, основной объем информации в текстовых БД и сети Интернет представлен дискурсами. Во-вторых, сформулированная Э.В. Поповым современная концепция разработки систем общения с БД на ограниченном естественном языке (ОЕЯ) предполагает, что на вход системы поступают не только предложения, но и дискурсы. В-третьих, можно согласиться с высказанной Э.В. Поповым гипотезой о том, что повышению эффективности общения на ОЕЯ с большими БД будет способствовать реализация таких систем общения, когда активную роль в диалоге будет играть не только конечный пользователь, но и компьютер, располагающий моделью базы знаний, причем инициатива будет на протяжении диалога неоднократно переходить от одного участника общения к другому. Последовательность выражений на ОЕЯ (с указанием авторов выражений), сформированных участниками общения, образует дискурс.

Можно выделить несколько наиболее важных аспектов проблемы, формального представления содержания (или смысла) ЕЯ-текстов в компьютерных системах.

Идея использования в системах машинного перевода искусственного языка-посредника для представления смысла ЕЯ-текстов была высказана еше в 1960-м году А.К. Жолковским, Н.Н. Леонтьевой и Ю.С. Мартемъяновым. В 1960-е - 1970-е годы эта идея получила значительное развитие в работах А.К. Жолковского и И.А. Мельчука по лингвистической модели "Смысл - Текст". В 1970-е годы усилению внимания к идее семантического языка-посредника способствовала теория смысловой зависимости в ЕЯ Р. Шейка, нашедшая применение в нескольких экспериментальных ЛП.

Использование языка-посредника для представления содержания (смысла) ЕЯ-текстов позволяет перейти от неформализованного объекта, каким является ЕЯ-текст, к формальной структуре, что открывает возможности обработки этой структуры различными процедурами - "семантическими экспертами" в рамках базы знаний, представленных записями на формальном языке (языке представления знаний).

На протяжении 1980-х - 2000-х годов в проектировании ЛП наиболее часто использовались языки-посредники, предоставляемые теорией семантических сетей и фреймов, теорией концептуальных графов и эпизодической логикой. В нешей стране использовались также расширенные семантические сети, неоднородные семантические сети, семантический язык, разработанный в рамках направления "компьютерная семантика русского языка", стандартные К-языки, предложенные автором данной работы, и некоторые другие подходы.

В середине 1990-х годов возникла новая проблема, усилившая внимание исследователей к проблеме разработки языка-посредника для отображения содержания ЕЯ-текстов. С целью устранения языкового барьера между пользователями сети Интернет из разных стран мира в монографии (Uchida Н., Zhu М, Deila Senta Т. The UNL, А Giß for а Millennium. The United Nations University /Institute of Advanced Studies) был предложен новый язык-посредник, использующий слова английского языка для обозначения информационных единиц и несколько специальных символов. Этот язык, названный универсальным сетевым языком (UNL, the Universal Networking Language), базируется на идее отображения содержания фраз с помощью бинарных отношений. С конца 1990-х годов ООН финансировался комплексный проект, направленный на разработку системы ЛП, преобразующих фразы на различных естественных языках в выражения языка UNL, а также преобразующих выражения языка UNL в предложения на различных естественных языках; координатор проекта - Институт передовых исследований ООН Токийского университета. В проекте разрабатывались ЛП для шести официальных языков ООН и многих других языков. В течение нескольких последних лет исследования в этом направлении координируются Фондом универсального сетевого цифрового языка (the Universal Networking Digital Language Foundation).

Проблема создания широко применимых методов формального описания содержания (смысла) предложений и дискурсов (другими словами, описания структурированных значений ЕЯ-текстов) тесно соприкасается с потребностями развития таких бурно развивающихся направлений информатики, как многоагентные системы (МАО) и электронная коммерция. Взаимодействие компьютерных интеллектуальных агентов (КИЛ) осуществляется через обмен посланиями, которые могут выражать сообщения, вопросы и команды. Для формирования таких посланий разрабатываются специальные языки общения интеллектуальных агентов (Agent Communication Languages, или ACL). Дня координации деятельности исследовательских центров разных стран по разработке стандартных инструментальных средств в области МАС в 1996 г. образован международный Фонд интеллектуальных физических агентов (The Foundation for Intelligent Physical Agents, или FIPA), штаб-квартира которого находится в Женеве. В 1997 - 2000 годах в рамках этого фонда был разработан стандарт языка общения КИА, который в дальнейшем будет называться FIPA ACL. Часть этого языка, предназначенная для представления содержания посланий (в отличие от внешней информации - об отправителе, получателе и т.д.), названа семантическим языком (FIPA Semantic Language, или FIPA SL). Фондом поставлена задача разработки библиотеки языков представления содержания посланий КИА (Content Languages), совместимых с этим языком и охватывающих весь спектр применений МАС.

Многоагентные системы рассматриваются как ключевая технология для реализации электронной коммерции. Следовательно, выразительные возможности языка общения КИА должны быть достаточными для того, чтобы представлять содержание произвольных коммерческих переговоров и контрактов, заключенных в результате этих переговоров. Поэтому формальные языки для представления содержания коммерческих переговоров и контрактов являются предметами исследования в новых научных направлениях в области МАС, называемых электронными переговорами (e-negotiations) и электронным заключением контрактов (electronic contracting).

Между тем, выразительные возможности семантического языка FIPA SL довольно далеки от того, чтобы быть удобными для решения этой задачи. Поэтому актуальна задача создания методов разработки более совершенных формальных языков - таких, которые были бы удобны для представления содержания любых посланий КИА, в том числе и для представления содержания произвольных коммерческих переговоров и контрактов.

Проблема разработки формальных языков-посредников для отображения содержания (или смысла) ЕЯ-текстов (другими словами, языков семантических представлений, или семантических языков) исследуется специалистами разных стран в течение более трех десятилетий. В нашей стране ряд. аспектов этой проблемы в различные периоды

6

изучались ЮД. Апресяном, И.М. Богуславским, В.М. Брябриным, В.Н. Вагиным, Б.Ю. Городецким, А.К. Жолковским, И.М. Зацманом, А.П. Ершовым, Ю.И. Клыковым, О.С. Кулагиной, Е.С. Кузиным, JI.T. Кузиным, ИЛ. Кузнецовым, Д.Г. Лахути, H.H. Леонтьевой, Л.И. Литвинцевой, ЮЛ. Любарским, М.Г. Мальковским, А.Г. Мацкевичем, И .А. Мельчуком, Л.И. Микуничем, A.C. Нариньяни, Г.С. Осиновым, Г.С. Плесиевичем, Э.В. Поповым, ДА. Поспеловым, В.Ш. Рубашкиным, З.М. Шаляпиной, Г.С. Цейтиным, Л .Л. Цинманом и другими учеными. В последнее десятилетие особенно большой объем глубоких результатов по формализации семантики русского языка был представлен в монографии В.А. Тузова "Компьютерная семантика русского языка", 2004 г.

За рубежом наибольший вклад в разработку методов математического описания содержания (смысла) ЕЯ-текстов внесли Р. Монтегю (грамматики Монтегю), Дж. Барвайз и Р. Купер (теория обобщенных кванторов, ситуационная теория), М. Кресвелл (теория структурированных значений предложений), Й. Гронепдейк и М. Стокхоф (динамические грамматики Монтегю, динамическая предикатная логика), Дж. Сова (теория концептуальных графов), Л. К. Шуберт и Ч.Х. Хуан (эпизодическая логика), Г. Камп и У. Рейль (теория представления дискурсов). Несмотря на усилия, предпринимавшиеся в течение многих лет учеными разных стран, до последнего времени многие существенные аспекты проблемы формального описания содержания ЕЯ-текстов оставались мало изученными. Одна из основных причин этой ситуации заключается в том, что внимание уделялось, главным образом, формализации смысловой структуры отдельных фраз, а не дискурсов. Кроме того, недостаточно изученной является проблема формального описания смысловой структуры фраз, обозначающих высказывания н включающих описания множеств и/или придаточные цели и/или слова "понятие", "термин", а также структуры фраз, выражающих команды и вопросы.

Наконец, сегодня ясно, что понимание ЕЯ-текста осуществляется в контексте системы знаний о мире и о целях интеллектуальных систем. Однако выразительные возможности большинства известных подходов к математическому описанию смысловой структуры ЕЯ-текстов (а именно, грамматик Монтегю, теории обобщенных кванторов, ситуационной теории, теории структурированных значений предложений, динамических грамматик Монтспо, динамической предикатной логики) недостаточны для построения теорий компьютерного понимания ЕЯ в контексте системы знаний о мире и о целях интеллектуальных систем. Например, исследования по дескриптивным логикам, выросшие из работ по терминологическим языкам представления знаний (ЯШ), показали полезность включения в состав ЯПЗ составных обозначений понятий. Однако перечисленные непосредственно выше подходы не предоставляют такой возможности.

Проблема автоматизации формирования баз знаний ИС посредством извлечения информации из ЕЯ-текстов с помощью ЛП, проблема разработки семантического языка-посредника для устранения языкового барьера между пользователями сети Интернет и ряд других актульных научно-технических проблем требуют создания эффективных средств формального представления содержания произвольных ЕЯ-текстов, относящихся к деловой прозе (термин А.П. Ершова, ставший широко популярным в компьютерной лингвистике), т.е. ЕЯ-текстов, относящихся к технике, бизнесу, медицине и т.д.

Однако перечисленные наиболее популярные подходы к формальному представлению содержания ЕЯ-текстов имеют ограниченную сферу применения. В частности, не предоставляют адекватных формальных средств для представления содержания произвольных предложений с описаниями множеств ели составными обозначениями понятий, дискурсов со ссылками на смысл фраз и более крупных частей текстов, с обозначениями сложных целей, с косвенной речью.

Наибольшие трудности при разработке ЛП связаны с выполнением преобразования "ЕЯ-текст 4 Семантическое представление (СП) текста". Однако анализ как отечественных, так и зарубежных публикаций показывает, что при разработке преобразователей ЕЯ-текстов в СП текстов крайне недостаточно используются формальные средства. Это выражается в неформальном и фрагментарном описании структуры лингвистической базы данных (ЛБД), т.е. БД с морфологической и семантико-

синтаксической информацией о лексических единицах, а также методов обработки информации основными подсистемами преобразователя "ЕЯ-текст 4 СП текста".

Основная часть исследований по разработке ЕЯ-интерфейсов и ЛП других видов была реализована для английского языка, синтаксис которого существенно отличается от синтаксиса русского языка (РЯ). Чрезвычайно существенно то, что полные описания информационного и программного обеспечения таких ЛП, как правило, недоступны специалистам в нашей стране. Кроме того, одним из следствий экономической ситуации, сложившейся в 1990-е годы в нашей стране, является отсутствие даже в центральных библиотеках большого количества публикаций в области разработки ЛП, опубликованных за рубежом в 1990-е и 2000-е годы на английском и некоторых других языках. Все это серьезно затрудняет подготовку специалистов в нашей стране в области проектирования ЛП и сужает возможности принятия оптимальных проектных решений, приводит к дополнительным трудозатратам на разработку ЛП.

Учитывая сказанное, актуальной является проблематика разработки методов формального описания структуры ЛБД, а также таких методов семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков русского языка, которые более широко используют формальные средства описания входных, промежуточных и выходных данных по сравнению с известными методами.

Разработка ЛП многих видов, например, ЕЯ-интерфейсов больших БД, отличается высокой трудоемкостью. В связи с этим в данной диссертационной работе выдвигается гипотеза о том, что в долговременной перспективе сокращению затрат и времени на разработку семейства ЛП в рамках одной организации или нескольких взаимодействующих организаций будет способствовать реализация в проектировании информационного и алгоритмического обеспечения ЛП следующих двух принципов:

(1) принципа стабильности используемого языка семантических представлений (ЯСП) по отношению к многообразию решаемых задач, многообразию предметных областей и многообразию программных сред (стабильность понимается как использование единой системы правил для построения конструкций ЯСП и варьируемого набора первичных информационных единиц, определяемого предметной областью и решаемой задачей);

(2) принципа преемственности алгоритмического обеспечения ЛП на основе использования одной или нескольких совместимых формальных моделей лингвистической БД и единых формальных средств представления промежуточных и окончательных результатов семантико-синтаксического анализа ЕЯ-текстов по отношению к многообразию решаемых задач, предметных областей и программных сред (преемственность понимается как максимальное использование алгоритмов, реализуемых подсистемами ЛП).

В данной работе предпринята попытка создания значительной части предпосылок для реализации этих двух принципов при проектировании лингвистических процессоров. Целями работы являются:

1. Создание широко применимого метода формального описания содержания (смысла) предложений и связных текстов на естественном языке (в частности, на русском и английском языках), т.е. метода формального описания структурированных значений (СЗ) ЕЯ-текстов, базирующегося на принципиально новом подходе (по сравнению с подходами других исследователей) к описанию смысловой структуры ЕЯ-текстов.

2. Применение нового метода формального описания СЗ ЕЯ-текстов к расширению формального аппарата и языковых средств теории многоагентных систем.

3. Разработка метода проектирования семантико-синтаксическнх анализаторов (ССА) -компонентов естественно-языковых диалоговых систем с более широким использованием формальных средств представления входных, промежуточных и выходных данных по сравнению с известными методами.

4. Применение нового метода формального описания СЗ ЕЯ-текстов и нового метода проектирования ССА к разработке алгоритмического и программного обеспечения русскоязычных интерфейсов прикладных компьютерных систем.

8

Методы исследования. В работе использованы известные из математической логики, теории формальных языков и грамматик, теории систем искусственного интеллекта и разработанные автором методы определения формальных языков, а также разработанные автором метод формального описания структуры лингвистической БД естественноязыковой диалоговой системы и метод формального описания структуры входных данных ЛП и структуры промежуточных данных при выполнении преобразования "ЕЯ-текст Семантическое представление текста". Научная новизна диссертационной работы определяется:

1. Разработкой нового метода классификации сущностей из произвольных предметных областей с помощью формальных выражений, называемых типами; метод позволяет формально различать типы объектов и типы множеств объектов, типы понятий и типы объектов, характеризуемых этими понятиями, множества и упорядоченные наборы объектов, а также позволяет связать с объектом из предметной области несколько базовых понятий (сортов), характеризующих этот объект с нескольких возможных точек зрения.

2. Созданием нового метода формального описания содержания, т.е. структурированных значений, предложений и связных естественно-языковых текстов (дискурсов) из широкого многообразия текстов деловой прозы: предоставляются существенно более широкие выразительные возможности по сравнению с другими известными подходами к этой проблеме. Этот предложенный метод формального описания содержания ЕЯ-текстов назван методом К-представлений. Метод базируется на разработанном диссертантом определении нового класса формальных языков — класса стандартных концептуальных языков (СК-языков).

3. Разработкой новых (по отношению к современному состоянию теории представления знаний) способов построения составных обозначений понятий, пояснения смысла понятия с помощью других понятий, построения составных обозначений объектов, множеств объектов и сложных целей, представления фрагментов знаний, передаваемых фразами со словом "понятие", представления содержания дискурсов со ссылками на смысл фраз и более крупных фрагментов текста, построения модулей знаний, включающих метаданные о фрагментах знания.

4. Расширением возможностей проектирования языков представления содержания посланий компьютерных интеллектуальных агентов (КИА) в многоагентных системах, рассматриваемых в мире как ключевая технология, в частности, для реализации электронной коммерции; в том числе, возможностями использования аппарата СК-языков для построения протоколов коммерческих переговоров, осуществляемых КИА, и для формирования контрактов, заключаемых КИА в ходе таких переговоров.

5. Разработкой новой теории проектирования семантико-синтаксических анализаторов естественно-языковых текстов с использованием формальных средств представления входных, промежуточных и выходных данных, которая включает: (а) метод К-представлений; (б) формальную модель лингвистической базы данных, содержащей такую информацию о лексических единицах и их взаимосвязях с информационными единицами, которая достаточна для семантико-синтаксического анализа интересных для приложений подъязыков русского языка; (в) новый метод преобразования ЕЯ-текстов в их семантические представления; (г) структурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков естественного (русского) языка.

Все результаты диссертации являются новыми и получены полностью автором. На защиту выносятся следующие основные научные результаты и положения:

1. Разработана математическая модель, перечисляющая первичные единицы концептуального уровня, используемые лингвистическим процессором, а также

описывающая информацию, связанную с такими единицами и необходимую для соединения этих единиц в составные единицы, отображающие структурированные значения сколь угодно сложных (по гипотезе автора) ЕЯ-текстов. Модель включает определение нового класса формальных объектов, названных концептуальными базисами (к.б.), и исследование некоторых свойств к.б. К важным преимуществам этой модели относятся возможности формального различения обозначений понятий и объектов, характеризуемых этими понятиями, сущностей и множеств сущностей, множеств и упорядоченных наборов, а также учет существования функций, аргументами и/или значениями которых могут быть множества, в том числе множества СП текстов и множества понятий.

2. В развитие предыдущего результата построена математическая модель дня описания содержания, т.е. структурированных значений (СЗ), предложений и сложных связных текстов (дискурсов) на ЕЯ (в частности, на русском и английском языках). Модель включает определение нового класса формальных языков, названных стандартными концептуальными языками (стандартными К-языками, СК-языками), и может рассматриваться как формальная грамматика нового вида. Сущность модели в том, что она задает 10 частичных операций на концептуальных структурах, с помощью которых за конечное число шагов можно построить семантическое представление (т. е. формальное представление СЗ) предложения или дискурса из чрезвычайно широкого подъязыка деловой прозы. Проведено математическое исследование формальных объектов, задаваемых этой моделью - выражений (или цепочек) СК-языков. В частности, доказана однозначность структурного анализа таких выражений. Исследованы выразительные возможности класса СК-языков.

3. Главное отличие комплекса идей, лежащих в основе построенной модели, от центральных идей наиболее популярных зарубежных подходов к формальному описанию содержания ЕЯ-текстов (теории представления дискурсов, теории концептуальных графов, эпизодической логики) заключается в том, что модель построена не добавлением нескольких новых выразительных механизмов к языку логики предикатов первого порядка, а как математическая модель нового вида, предназначенная для отображения способов построения СЗ произвольно сложных текстов деловой прозы. Следствием этого главного отличия являются, в частности, такие преимущества предложенной модели, как возможность построения формальных аналогов (на семантическом уровне) структурированных значений составных обозначений целей интеллектуальных систем (и, как следствие, советов, пожеланий, команд), сложных составных обозначений понятий и множеств объектов, СЗ ЕЯ-тексгов со ссылками на смысл фраз и более крупных фрагментов текстов, СЗ предложений со словом "понятие", а также расширение числа способов использования логических связок "и", "или", "не". Указанные выразительные возможности можно интерпретировать и как основные преимущества построенной модели по сравнению с теорией расширенных семантических сетей, теорией неоднородных семантических сетей и компьютерной семантикой русского языка.

4. Совокупность научных результатов, полученных в главе 1 и главе 2, образует новый метод формального описания содержания (т.е. структурированных значений) предложений и связных естественно-языковых текстов (дискурсов) из широкого многообразия текстов деловой прозы, предоставляя новые возможности по сравнению с другими известными подходами к этой проблеме. Этот предложенный метод формального описания содержания ЕЯ-текстов назван методом К-представлений.

5. Аппарат СК-языков целесообразно использовать в качестве базового теоретического инструмента (а) автоматизированной разработки документации сложных технических систем (в частности, летательных, надводных и подводных аппаратов) и анализа такой документации на смысловую полноту и

ю

непротиворечивость, (б) разработки Интернет-систем нового поколения, сочетающих в себе черты информационно-поисковых (тематический поиск) и вопросо-ответных систем для представления результатов семантико-синтакси чсского анализа словосочетаний, предложений и дискурсов. Основные преимущества применения аппарата СК-языков по сравнению с известными подходами заключаются в расширении возможностей построения СП составных описаний объектов и множеств объектов, СП дискурсов со ссылками на смысл фраз и более крупных частей текста, обозначений составных целей и действий, построения СП выражений с однородными существительными.

6. Обоснована перспективность использования аппарата СК-языков для разработки семантического сетевого языка нового поколения с выразительными возможностями, превышающими возможности языка ШЛ-, который используется в ряде проектов, направленных на создание универсального языка-посредника с целью устранения языкового барьера между пользователями сети Интернет из разных стран. К потенциальным преимуществам такой новой версии относятся: (1) наличие теоретического подхода к построению семантических представлений сложных дискурсов, относящихся к произвольным предметным областям; (2) реализация способа построения обозначений составных концептов в виде выражений СК-языков, более адекватно отвечающего задаче компьютерной смысловой обработки ЕЯ-текстов по сравнению с комплексами языка ШЧЬ; (3) предоставление более широких выразительных средств формального отображения связей между определяемым понятием и понятиями, входящими в толкование его смысла; (4) разделение описания формы выражений семантического сетевого языка и введения конкретных информационных единиц; (5) создание предпосылок построения формальных моделей таких подсистем семантико-синтаксических анализаторов, которые обрабатывают промежуточные СП текстов для построения фрагментов целевого СП входного текста; (6) отсутствие привязки первичных информационных единиц к английскому языку.

7. По сравнению с известными подходами к разработке языков представления знаний о мире в прикладных интеллектуальных системах (в частности, терминологических языков представления знаний) предложенный в диссертации аппарат СК-языков вносит в теорию представления знаний новые способы построения составных обозначений понятий, пояснения смысла понятия с помощью других понятий, построения составных обозначений объектов, множеств объектов и сложных целей, представления фрагментов знаний, передаваемых фразами со словом понятие, представления содержания дискурсов со ссылками на смысл фраз и более крупных фрагментов текста, построения модулей знаний, включающих метаданные о фрагментах знания. Эти новые способы формирования конструкций из семантических единиц представляются перспективными для разработки онгологий предметных областей с выразительными возможностями, превышающими возможности существующих онтологий.

8. Показано, что аппарат СК-языков расширяет возможности проектирования языков представления содержания посланий компьютерных интеллектуальных агентов (КИА) в мпогоагентных системах, рассматриваемых в мире как ключевая технология, в частности, для реализации электронной коммерции. Обоснована возможность использования аппарата СК-языков для построения протоколов коммерческих переговоров, осуществляемых КИА, и для формирования контрактов, заключаемых КИА в ходе таких переговоров. К основным преимуществам СК-языков в этом отношении относятся возможность строить формальные аналоги (на семантическом уровне) (а) инфинитивных конструкций, выражающих цели, предложения (в том числе о выпуске продукции и поставке товаров), обязательства и (б) дискурсов со ссылками на смысл фраз и более

крупных фрагментов текста, а также возможность построения СП текстов, отражающих метаданные текста как информационного объекта.

9. Предложен метод формализации дополнительных предположений о первичных информационных единицах, используемых лингвистическими процессорами, с помощью понятия размеченного концептуального базиса. Суть этого понятия заключается во введении ряда обозначений для первичных единиц концептуального уровня и формальном описании свойств таких единиц с целью их единообразного использования при построении СП ЕЯ-текстов в разных предметных областях, в том числе при построении СП вопросов, команд, составных описаний множеств.

10. Предложено формальное понятие морфологического базиса. Это понятие дает оригинальную математическую интерпретацию морфологических систем многих естественных языков, включая русский, английский и немецкий языки. Преимуществом этой интерпретации является ее высокий уровень общности, позволяющий рассматривать морфологический анализ слов языка в качестве составной части семантико-синтаксического анализа текстов без углубления в детали морфологического анализа. Предложено формальное понятие морфологического базиса Р-типа (русскоязычного типа), отражающее особенности морфологии русского языка.

11. Разработана формальная модель лингвистической базы данных (ЛБД), содержащей такие сведения о лексических единицах и их взаимосвязях с информационными единицами, которые достаточны для семантико-синтаксического анализа интересных для приложений подъязыков русского языка. С этой целью определено формальное понятие лингвистического базиса. Главное отличие построенной модели от большинства известных подходов к описанию логической структуры ЛБД заключается в том, что ЛБД описывается не с помощью таблиц (или рисунков) и неформальных описаний характера данных в таких таблицах, а как представитель строго математически определенного класса объектов, называемых лингвистическими базисами.

12. Разработан новый метод преобразования ЕЯ-текстов в их семантические представления (СП). Метод предусматривает использование предложенного автором матричного семантико-синтаксического представления (МССП) входного текста как промежуточного представления при переходе от ЕЯ-текста к СП текста, являющемуся выражением некоторого СК-языка (т.е. К-представлением текста). При этом не используется традиционное синтаксическое представление текста. Важное преимущество метода заключается в том. что он позволяет уменьшить сложность изложения логики функционирования семантико-синтаксических анализаторов ЕЯ-текстов. Являясь формальной структурой, МССП текста оказывается значительно более удобной отправной точкой описания процесса построения СП ЕЯ-текста по сравнению с самим текстом.

13. Предложен новый метод формального описания предположений о структуре входных текстов ЛП на основе комбинированного использования аппарата бесконтекстных (или контекстно-свободных) грамматик и введенного в диссертации понятия лингвистического базиса. Преимуществами этого метода являются возможности использования в продукциях бесконтекстных грамматик (а) только базовой формы слова (лексемы) вместо совокупности слов с данной лексемой, (б) только обозначения части речи вместо множества всех словоформ, относящихся к данной части речи, (в) только обозначения подкласса части речи вместо множества всех словоформ, относящихся к данному подклассу части речи, (г) только сорта числового значения параметра вместо подмножества продукций, порождающих все цепочки, представляющие все числовые значения данного параметра.

14. Разработан сложный структурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков

12

естественного (русского) языка. Этот алгоритм является композицией двух построенных автором алгоритмов: (а) структурированного алгоритма преобразования текстов из представляющих практический интерес подъязыков естественного (русского) языка в их матричные семаитико-синтаксические представления; тексты могут выражать высказывания, вопросы и команды, включающие, в частности, составные обозначения множеств, причастные обороты и придаточные определительные предложения; б) структурированного алгоритма преобразования МССП входного текста в его K-представление - семантическое представление, являющееся выражением некоторого СК-языка.

Главное отличие и преимущество разработанного алгоритма по сравнению с другими существующими алгоритмами семантико-синтаксического анализа текстов заключается в том, что он описывается не средствами какокй-либо системы программирования, а полностью с помощью предложенной системы формальных понятий, что делает этот алгоритм независимым от прграммной реализации и предметной области.

Работоспособность предложенного структурированного алгоритма семантико-синтаксического анализа текстов из подъязыков естественного (русского) языка доказана успешным созданием на его основе семейства экспериментальных русскоязычных интерфейсов прикладных компьютерных систем, реализованных в программных средах Turbo Pascal 7.0, Delphi 4.0, Borland С++, Visual С++, PHP. 15. Совокупность научных результатов, полученных в главах 1, 2, 4, 5, и часть научных результатов главы 3 образуют новую теорию проектирования еемантико-синтаксических анализаторов естественно-языковых текстов с использованием формальных средств представления входных, промежуточных и выходных данных.

Совокупность теоретических положений, разработанных в диссертации на основании выполненных автором исследований, может быть квалифицирована как новое крупное научное достижение в области разработки математического и программного обеспечения вычислительных машин, комплексов и компьютерных сетей.

Достоверность результатов, полученных в диссертационной работе, обусловлена корректностью математических определений и доказательств; согласованностью результатов с известными подходами, представленными в отечественной и зарубежной литературе; работоспособностью разработанных компьютерных программ, реализующих предложенные алгоритмы и использующих предложенную в диссертации логическую структуру лингвистической базы данных (ЛБД); успешным использованием в учебном процессе определения класса СК-языков, формальной модели ЛБД и алгоритма семантико-синтаксического анализа ЕЯ-текстов, а также объективным анализом полученных результатов.

Практическая ценность н предложения по использованию результатов. Диссертация носит теоретический характер. Ее практическая ценность заключается в

- разработке определения нового класса формальных языков (класса СК-языков) и базирующегося на этом определении нового метода формального отображения содержания (смысла) ЕЯ-текстов (метода K-представлений), который впервые предоставляет проектировщикам ЛП формальные средства отображения содержания сложных связных ЕЯ-текстов, а также содержания фраз некоторых видов (в частности, фраз со словом "понятие", часто встречающихся в учебниках и энциклопедических изданиях);

- анализе перспектив, открываемых определением класса СК-языков для разработки семантического сетевого языка нового поколения с выразительными возможностями, превышающими возможности языка-посредника UNL;

- выявлении широкого спектра новых возможностей, которые определение класса СК-языков и метод K-представлений предоставляют разработчикам языков представления знаний о мире и разработчикам информационного обеспечения многоагентных систем, в том числе разработчикам языков отображения содержания посланий компьютерных интеллектуальных агентов (КИА) и

13

разработчикам языков представления содержания коммерческих переговоров, осуществляемых КИА в области электронной коммерции, а также языков формирования контрактов, заключаемых КИА в ходе переговоров;

- построении формальной модели лингвистической базы данных (ЛБД), которая в компактной форме, не зависящей от предметной области и среды программирования, задает логическую структуру широко применимых ЛБД ЕЯ-интерфейсов прикладных компьютерных систем;

- разработке новой формы представления промежуточных результатов семантико-сннтаксического анализа ЕЯ-текстов — матричного семантико-синтаксического представления текста;

- разработке широко применимого структурированного алгоритма семантико-синтаксического анализа предложений (высказываний, вопросов, команд) из представляющих практический интерес подъязыков русского языка.

Результаты диссертации могут быть использованы в работе организаций, занимающихся проектированием лингвистических процессоров, языков представления знаний в онтологиях (в частности, в онтологиях, предназначенных для реализации информационных образовательных технологий), электронных библиотек, семантических сетевых языков, а также созданием информационного обеспечения многоагентных систем, в том числе в области электронной коммерции.

Реализация результатов. Полученные в диссертации результаты нашли применение в проектировании информационного и программного обеспечения прикладных компьютерных систем, а также в учебном процессе.

Аппарат СК-языков был применен при разработке информационного обеспечения Машинного фонда русского языка в Институте русского языка РАН для создания широко применимого языка построения семантических представлений фраз и дискурсов.

Аппарат СК-языков, формальная модель ЛБД новый метод преобразования "ЕЯ-текст 4 Семантическое представление текста" и ряд базовых процедур, входящих в состав структурированного алгоритма семантико-синтаксического анализа ЕЯ-текстов, были использованы для разработки информационного обеспечения (языки для построения семантических представлений текстов, ЛБД) н программного обеспечения ЛП следующих прикладных компьютерных систем:

- экспертной системы технической диагностики и интеллектуальной базы данных автоматизированного склада в исследованиях по созданию гибких производственных систем механообработки, выполнявшихся в МИЭМ в соответствии с Комплексно-целевой программой "ЛОТОС";

- интеллектуальной базы данных, предназначенной для подбора вин и составления ресторанной винной карты в ходе взаимодействия конечного пользователя с Web-caйгoм Российской ассоциации сомелье (РАС) и \УеЬ-сайтом Интернет-магазина, разработанного при поддержке РАС;

- интеллектуальной консультационной системы, предназначенной для освоения прикладных компьютерных программ (ООО "ПРО-ИНВЕСТ-ИТ", Москва).

Указанные применения подтверждены актами внедрения, приведенными в Приложении 2 к данной диссертационной работе.

На- основе научных результатов, полученных в диссертационной работе, были разработаны и успешно апробированы в течение ряда лет семестровые курсы лекций по новым дисциплинам: "Лингвистические информационные технологии", "Глобальные информационные сети и дистанционное обучение" на факультете прикладной математики в МИЭМ, "Теоретические основы лингвистических информационных технологий", "Математическая лингвистика" и "Проектирование лингвистических процессоров" в "МАТИ" - Российском государственном технологическом университете им. К.Э.Циолковского; с 1994 г. по 2003 г. проводились занятия сначала спецсеминара "Математическая лингвокибернетика", а затем спецсеминара 'Теория текстовых баз знаний" для студентов и аспирантов механико-математического факультета МГУ им. М.В. Ломоносова; проводятся лабораторные работы в МАТИ, посвященные

14

проектированию ЕЯ-интерфейсов; защищено на "отлично" более 25 дипломных работ в МИЭМ, МАТИ и на мехмате МГУ им. М.В. Ломоносова, руководителем и консультантом которых был автор данной диссертационной работы; в МИЭМ осуществляется подготовка аспирантов в области теории и конструирования лингвистических информационных технологий.

Апробация работы и публикации. Результаты диссертации в 1983-2005 годах многократно докладывались на всесоюзных и московских научных семинарах, всесоюзных, всероссийских и международных конференциях, симпозиумах и конгрессах, в том числе на семинаре по искусственному интеллекту в Институте проблем управления (рук. акад. Г.С.Посиелов), на семинаре отдела когнитивных и компьютерных технологий Института системного анализа РАН (рук. чл.-корр. РАН В.Л. Арлазаров), на семинаре МИЭМ "Устойчивость и управление" (рук. акад. АН Высшей Школы В.Н.Афанасьев, проф. В.Б.Колмановский, проф. В.М.Носов), на Всероссийских семинарах общества "Знание" в Московском доме научной и технической пропаганды, на семинаре кафедры дискретной математики МГУ (рук. акад. РАН О.БЛупанов), на семинаре по искусственному интеллекту кафедры математической теории интеллектуальных систем МГУ (рук. акад. Академии технологических наук В.Б.Кудрявцев), на Всесоюзной конференции по информатике (Ереван, 1987), на Всесоюзной конференции по Машинному фонду русского языка (Москва, МГУ, 1987), на Международных семинарах по дискретной математике и ее применениям (Москва, механико-математический факультет МГУ, 1998, 2001), на XII и XIII Международных конференциях по теоретическим проблемам кибернетики (Нижний Новгород, 1999; Казань, 2002), на 1 Междун. симпозиуме ИФАК по искусственному интеллекту (Ленинград, 1983), на Междун. конференции "Алгебраические методы в обработке естественного языка" (Энсхеде, Нидерланды, 1995), на 1 Междун. симпозиуме но базам данных, Всб-системам и кооперативным системам (Германия, 1999), на Междун. конференции по компьютерно-ориентированной теории систем (Технический университет Вены, Австрия, 1999), на Междун. симпозиуме по интеллектуальным программным системам для новой инфоструктуры (Германия, 2004), на 5-й Междун. конференции по гибким вопросо-ответным системам (Копенгаген, Дания, 2002), на Междун. конференции Диалог'2004 по компьютерной лингвистике и интеллектуальным технологиям (Россия), на б-й Междун. конференции по электронной коммерции и Веб-технологиям (Копенгаген, Дания, 2005).

Все основные результаты диссертации опубликованы. По теме диссертации автором опубликовано 69 печатных работ (включая 27 работ на английском языке), в том числе одна монография Список основных публикаций приведен в конце автореферата. В каждой из работ, выполненных в соавторстве (таких работ 9), не менее половины результатов получено автором данной диссертации. Опубликованные материалы отражают основное содержание диссертации.

Структура работы. Диссертация состоит из введения, пяти глав, списка литературы и двух приложений. Приложение 1 содержит доказательства двух лемм и базирующегося на них доказательства одного из утверждений из Главы 2. Приложение 2 включает копии 7 актов об использовании результатов диссертационной работы в научно-технических исследованиях и учебном процессе. Глава 1 разбита на 10 параграфов, глава 2 - на 12 параграфов, глава 3 - на 7 параграфов, глава 4 - на 12 параграфов, глава 5 - на 15 параграфов. Список литературы содержит 301 наименование. Общий объем работы составляет 392 страницы текста (включая 29 страниц приложений). Работа содержит 22 рисунка и 2 таблицы. Нумерация утверждений сквозная внутри каждой главы (Утверждение 1.1, Утверждение 2.2 и т.д.).

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ. Во введении к диссертации обосновывается актуальность темы диссертации и аннотируются полученные научные результы. Основным результатом главы 1, является разработка математической модели, перечисляющей первичные единицы концептуального уровня, используемые ЛП, а также описывающей информацию, связанную с такими единицами и необходимую для

соединения этих единиц в составные единицы, отображающие структурированные значения сколь угодно сложных ЕЯ-текстов.

Па первом шаге (состоящем из серии вспомогательных шагов) определяется класс формальных объектов, называемых концешуальными базисами (к.б.). Каждый к.б. В является упорядоченным набором вида ((ci, С2, сз, С4), (cj,..., с8), (С9,..., C15)) с

компонентами ci, с2, ..., си, являющимися (главным образом) конечными или счетными множествами символов и выделенными элементами таких множеств. В частности, ci = St - конечное множество символов, называемых сортами и обозначающих наиболее общие рассматриваемые понятая, С2 = Р - выделенный сорт "смысл собщения", c¡ = X - счетное множество цепочек, используемых как "строительные блоки" для формирования модулей знаний и СП текстов, се = V - счетное множество переменных, es = F - подмножество множества X, элементы которого называются функциональными символами. Компонент сз = Gen является таким бинарным отношением (частичным порядком) на St, что если пара (s, и) входит в Gen, то либо s = и, либо понятие, соответствующее сорту и, является конкретизацией понятия, соответствующего сорту s. Компонент cy = tp является отображением из объединения множеств Я" и К в некоторое счетное множество Tps цепочек, называемых типами и характеризующих элементы из А' и V.

Пусть, например, X включает элементы интс , дин.физ.об, редсовет , Д.И.Менделеев, обозначающие сорт "интеллектуальная система", сорт "динамический физический объект", понятие "редакционный совет" и конкретного человека - выдающегося химика Дмитрия Ивановича Менделеева. Будем рассматривать стрелку t как индикатор почти всех типов, соотвествующих понятиям. Тогда значениями отображения tp для элементов редсовет , Д.И.Менделеев будут элементы Т (интс* дии.физ.об } и интс* дин.физ.об соответственно. Если же в качестве элемента множества X мы рассматриваем обозначение редакционного совета конкретного издания, то для такой информационной единицы отображение tp примет значение {интс*дин.физ.об} . Таким образом, типы помогают различать (а) объекты и понятия, характеризующие эти объекты, (б) множества и понятия, характеризующие эта множества.

Многие объекты могут быть охарактеризованы с разных точек зрения, у них есть «координаты» по разным «семантическим осям». Например, к конкретному университету можно подъехать или подойти, поэтому каждый университет имеет семантическую координату "пространственный объект". У университета есть руководитель (ректор) , поэтому университеты имеют семантическую координату "организация". Наконец, университет может разработать некоторую технологию или некоторый прибор; следовательно, представляется разумным считать, что университеты имеют семантическую координату "интеллектуальная система". Учитывая эти соображения, вводится бинарное отношение совместимости (толерантности) Toi на множестве St., интерпретируемое следующим образом: если (s,и) е Toi с St ж St, то найдется такая сущность х в рассматриваемой области, что с х можно связать сорт s по одной семантической оси и сорт и по другой оси, причем сорт s и сорт и не являются сравнимыми для Gen. Например, множества St и Toi могут быть определены так, что Toi включает, в частности, наборы (простр.объект, организация), (простр.объект, интел.система). Из рассмотренной интерпретации отношения Toi вытекают свойства антирефлексивности и симметричности этого отношения.

Сортовой системой (с. с.) называется произвольная упорядоченная четверка S вида (St, Р, Gen, Toi), где St - конечное множество символов, Ре St, Gen - непустое бинарное отношение на St, являющееся частичным порядком на St (т.е. Gen рефлексивно, транзитивно и антисимметрично), Toi - бинарное отношение на St, являющееся антирефлсксивным и симметричным, и выполняется несколько специальных условий.

Для каждой с.с. S определяется множество цепочек Tp(S), элементы которого называются танами системы S и понимаются как характеристики сущностей, рассматриваемых в рассуждениях о данной области. При построении типов используются сорта из S и несколько специальных символов. Символ «'»используется для соединения

нескольких совместимых сортов (т.е. сравнимых для отношения Toi) при построении цепочек из множества Tp(S). Символ 'Î* интерпретируется как индикатор типа понятия.

Например, найдется такая сортовая система So , что мы сможем связать с понятием "человек" тип Тинтс*дин.физ.об из TpfSo) , с каждым конкретным человеком - тип интс*дин.физ.об, с понятием "студенческая учебная группа" - тип Т{интс*дин.фиг.об} , с каждой конкретной студенческой группой МИЭМ — тип {иптс*дин.физ.об}.

Пусть S -произвольная сортовая система (с.с.). На множестве типов Tp(S) задается некоторое бинарное отношение, обозначаемое символом |— и называемое отношением конкретизации. На множестве сортов Si отношение {— совпадает с отношением общности —> . Доказано Утверждение 1.1. Пусть S - произвольная сортовая система. Тогда отношение конкретизации |- па множестве типов Tp(S) является частичным порядком.

В главе 2 на основании проведенного системного исследования поставлена задача построения такой модели, чтобы ее формальные средства, в частности, позволяли:

(1) Строить обозначения структурированных значений (СЗ) как фраз, выражающих высказывания, так и связных повествовательных текстов; такие обозначения обычно называют семантическими представлениями (СП) ЕЯ-выражений.

(2) Строить и различать формальными средствами обозначения СЗ повествовательных текстов, СЗ целей (выраженных неопределенными формами глаголов с зависимыми словами, таких как "окончить с отличием МГУ, подготовить и защитить кандидатскую диссертацию по биохимии") и СЗ вопросов.

(3) Строить и различать обозначения единиц, соответствующих (а) объектам, ситуациям, процессам в реальном мире и (б) понятиям, квалифицирующим (характеризующим) эти объекты, ситуации, процессы.

(4) Строить и различать обозначения: (3.1) объектов и множеств объектов; (3.2) понятий и множеств понятий; (3.3) СП текстов и множеств СП текстов.

(5) Различать формальным образом понятия, квалифицирующие объекты, и понятия, квалифицирующие множества объектов тех же видов.

(6) Строить составные обозначения понятий, т. е. строить формулы, отражающие поверхностно-семантическую структуру ЕЯ-выражений, подобных выражению "человек, окончивший МГУ имени М.В. Ломоносова и являющийся биологом или химиком".

(7) Строить объяснения более общих понятий с помощью менее общих; в частности, строить цепочки вида (a=Des(b)), где а обозначает некоторое понятие, которое необходимо объяснить, a Des(b) обозначает описание некоторой конкретизации известного понятия Ь.

(8) Строить обозначения л-местных наборов различных сущностей, где п > 1.

(9) Строить (9.1) формальные аналоги составных обозначений множеств ("эта группа, состоящая из 12 туристов, являющихся химиками или биологами" и т.п.), (9.2) обозначения множеств упорядоченных наборов сущностей.

(10) Описывать теоретико-множественные отношения и операции над множествами.

(11) Строить обозначения СЗ фраз, содержащих, в частности: (11.1) слова "произвольный", "некоторый", "все", "каждый", и т. д.; (11.2) выражения, полученные применением связок "и", "или" к обозначениям (11.2а) предметов, событий; (11.26) понятий; (11.2в) множеств; (11.3) выражения , где связка "не" стоит непосредственно перед обозначением предмета, события и т. д.; (11.4) косвенную речь;(11.5) причастные обороты и придаточные определительные предложения; (11.6) слова "понятие", "термин".

(12) Строить обозначения СЗ дискурсов со ссылками на упомянутые объекты.

(13)Указыватъ явно в СП дискурсов причинно-следственные и временные отношения между описываемыми ситуациями (событиями). (14) Описывать СЗ дискурсов со ссылками на смысл фраз и более крупных фрагментов рассматриваемых текстов.

(15) Выражать суждения о тождественности двух сущностей.

(16) Строить формальные аналоги формул логики предикатов первого порядка с кванторами существования и/или всеобщности.

(17) Строить концептуальные представления текстов как информационные объекты, отражающие не только смысл, но и значения внешних характеристик текста (метаданных): авторов, дату, области применения результатов и т. д.

В главе 2 произвольному концептуальному базису В поставлены в соответствие три множества формул Ls = Ls(B), Ts = Ts(B), Ys = Xs(B) (/-формулы, /-формулы, у-формулы). Объединение этих множеств обозначено через Forms(B). Множество Ls(B) названо стандартным концептуальным языком (стандартным К-языком, СК-языком) в базисе В. Базис В можно определить таким образом, что цепочки языка Ls = Ls(B) будет удобно использовать для описания структурированных значений (другими словами, смысловых структур) ЕЯ-текстов, представления знаний о мире и представления целей интеллектуальных систем. Другими словами, цепочки из языка Ls = Ls(B) окажется удобным использовать для построения СП текстов на ЕЯ. Формулы из первого класса, т.е. /-формулы, будут называться также К-цепочками.

Каждая формула из множества Ts(B) представима в виде d&t, где d е Ls(B), t - тип из Tps(B). Формулы из множества Ys(B) являются выражениями вида a¡& ...&a„&d, где a¡, ...,а„ d е Ls{B), п имеет разные значения для разных d, и цепочка d строится из а], ...,а„ как из элементарных информационных единиц (некоторые из них могут быть немного преобразованы) однократным применением некоторого правила построения.

В данной работе предлагается оригинальная схема подхода к определению трех класов выводимых формул; эта схема заключается в следующем. Сформулированы некоторые высказывания Р[0],...,Р[10]; они интерпретируются как правила построения СП ЕЯ-текстов из элементов первичного информационного универсума Х(В), переменных из V(B) и нескольких специальных символов при условии, что В является концептуальным базисом для рассматриваемой области.

Каждое из этих правил фактически задает некоторую частичную операцию на множестве всевозможных наборов, компоненты которых являются СП простых или составных выражений ЕЯ. Всего 10 операций достаточно (по гипотезе автора) для построения формул, отображающих смысл (или структурированные значения) сколь угодно сложных ЕЯ-текстов. Классы формул Ls, Ts, Ys для произвольного к.б. В

определяются совместной индукцией правилами Р[0] ,Р[1].....Р[Ю]. Для любого к.б.

В правило Р[0] задает начальный запас формул.

Определение. Обозначим через Р[0] высказывание "Если deX(B)uV(B), te Tp(S(B)), tp -tp(B), tp(d) = t, то de L(B), и цепочка вида d&t входит в 7°(В) ".

Пусть В — произвольный концептуальный базис, ЦВ) и Т°(В) — наименьшие множества, задаваемые утверждением Р[0], Lnro(B) = L(B) (обозначение "Lnr" расшифровывается как "L нумерованное"). Тогда, очевидно, Lnr0(B) - Х(В) и V(B), Т°(В) = {b\b = d&t, de X(B)uV(B), te Tp(S(B)), t = tp(d)}. Таким образом, в соответствии с правилом Р[0] информация о типах элементов первичного информационного универсума Х(В) и переменных из V(B) отображается в структуре формул из множества

Пример.. Можно построить такой к.б. В, что выполняются соотношения чел, П.Сомов, НПО_"Радуга", Друзьяе Lnr0(B), Персонал, Поставщики е Lnr<¡(B); чел &Тинтс * дин.физ.об е Т°(В), Л.Сомов & интс * дин.физ.об е Т°(В); НПО_"Радуга" & орг *простр.об*интс е 7°(В); Друзья <6 {(интс*дин.физ.об, {интс*дин.физ.об})}

е Io (В),

Персонал & {(орг, {интс*дин.физ.об})}. Поставщики & {(орг, {орг})} е f(B).

Правило Р[1] предназначено для присоединения информационных единиц, соответствующих словам "некоторый", "каждый" , "какой-нибудь", "все", "несколько", "большинство" (такие единицы в диссертации называются интенсиональными кванторами) к простым или составным обозначениям понятий. Поэтому правило Р[1] позволяет строить формальные аналоги выражений "некоторый человек", "все люди", "некоторый человек ростом 175 см", "все тридцатилетние люди", "все города Европы". Примерами К-цепочек для Р[1], как последнего примененного правила, являются цепочки нек чел, все чел * (Возраст, ЗО/год), все город * (Регион, Европа).

Правило Р[2] предназначено для построения цепочек вида ftai, ...,о„), где / -обозначение функции, и £ 1, ai, ...,а„ — /-формулы, построенные с применением каких-то правил из списка Р[0] , Р[1], ..., Р[10]. Например, после применения правила на последнем шаге вывода можно получить цепочки Города(Европа), Колич-зпем(Города(Еврогш)).

Правило Р[3] позволяет строить цепочки вида (ai — oj), где ai, 02 - /-формулы, полученные при помощи любых правил из Р[0], ..., Р[10], и a¡, a¡ обозначают сущности, являющиеся однородными в некотором смысле. Примеры К-цепочек для Р[3] как последнего примененного правила: (y¡ s иек город * (Название, 'Саратов')), (Циректор(АО_"Саяют") = П.Сомов).

Правило Р[4] позволяет строить К-цепочки вида tifit, ...,а„), где г - л-арное отношение, п £ 1, a¡, ...,а„ - К-цепочки, полученные при помощи некоторых правил из Р[0], ..., Р[10] . Примеры К-цепочек для Р[4] : Припадлеж(Намюр, Города(Бельгия)), Подмнож(Города(Бельгия), Города(Европа)).

Правило Р[5] предназначено для построения К-цепочек вида d : v, где d - К-цепочка, не включающая v, v - переменная, и выполнены некоторые условия. При помощи правила Р[5] можно помечать переменными в СП текстов на естественном языке: а) описания различных сущностей, встречающихся в тексте (физических объектов, событий, понятий и др.), б) семантические представления предложений, или более крупных фрагментов текста, на которые имеется ссылка в любой части текста. Примерами К-цепочек для правила Р[5], примененного на последнем шаге вывода, являются выражения все чел: Z1, Меныие(Возраст(П.Сомов), 30/год) : Р1. Это правило дает возможность создавать СП текстов таким образом, что они отражают референтную структуру ЕЯ текста

Правило Р[6] позволяет строить К-цепочки вида —\d, где d — К-цепочка, удовлетворяющая ряду условий. Примеры К-цепочек для Р[6] : -£иалог, —Лринадлеж(Бонн, Города(Белъгия)). Здесь -i обозначает связку "не".

При помощи правила Р[7] можно строить К-цепочки вида (a¡ л ...л а„) или (a¡ v ...v а„), где л >1, а/ , ...ja„ - К-цепочки, обозначающие однородные в некотором смысле сущности. В частности, ai,...-fin могут быть СП высказываний, описаниями физических объектов, описаниями множеств, состоящих из объектов одной природы, описаниями понятий. Следующие цепочки являются примерами К-цепочек (или /-формул) для Р[7] : (Финляндия v Норвегия v Швеция), (Принадлеж((Намюр и Гент), Города(Белъгия)) л —Лринадлеж(Бонн, Города( (Финляндия v Норвегия v Швеция)))).

Правило Р[8] позволяет строить, в частности, К-цепочки вида с *(ri,b¡),..., (r„,b„), где с — информационная единица из первичного универсума Х(В), обозначающая понятие, для i = 1, ..., п г/ - имя одноместной функции или бинарного отношения, b¡ обозначает возможное значение г( для объектов, характеризующихся понятием с. Например, если выбрать соответствующим образом первичные информационные единицы, то после применепия на последнем шаге вывода правила Р[8] можно получить К-цепочки город * (Страна, Россия), поворот * (Направление, левое).

Правило Р[9] дает возможность строить, в частности, К-цепочки вида Vv(des)D и Эv(des)D, где V - квантор всеобщности, 3 — квантор существования, des обозначает понятие ("человек", "город", "целое число" и др.) или составное понятие ("целое число, большее 200" и др.). D можно интерпретировать как СП высказывания с переменной v о любой сущности, характеризуемой понятием des. Примеры К-цепочек для Р[9] как правила, примененного на последнем шаге построения формулы: \А1(нат.ч.) Эх2(нат.ч.) Меньше(xl, х2), Эу(страна * (Регион, Европа))Больше(Колич(Города(у)), 15).

Правило Р[10] позволяет строить, в частности, К-цепочки вида <л/,...^л>, где п > 1, ал—А, - К-цепочки. Цепочки, получаемые с использованием правила Р[10] на последнем шаге вывода, интерпретируются как обозначения »-местных упорядоченных наборов. Компонентами такого набора могут быть не только обозначения чисел, объектов, но и СП выражений, обозначающих множества, понятия и т.д.

Рассмотрим более детально предлагаемую оригинальную схему подхода к определению трех класов выводимых формул.

Определение. Если В - произвольный концептуальный базис (к.б.), то пусть

(а)VfB) -XfB) иVfB) и{',', Т. ')'.':'.'*'. '<'.'>'}.

(б) Ds(B) = D(B) и {'&'} , (в) D+(B) и Ds+(B) — множества всех непустых конечных последовательностей элементов из D(B) и Ds(B), соответственно. □

Если 1 ^ i < 10, то для любого к.6. В и для к = l,...,i утверждения P[0],...,P[i] определяют совместной индукцией некоторые множества формул Ьпг,(В)с±)* (В), Т°(В), Trtr'fB),..., Tnr!(B), Ynr/fB),..., Ynr,'(B) cDs*ß). Множество Lnr,(B) рассматривается как главный подкласс формул, порождаемых правилами P[0],...,P[i]. Формулы из этого множества предназначены для описания содержания (смысловых структур) ЕЯ-текстов.

Пусть LsfB) = Lrmo (В), Ts(B) - объединение множеств Т°(В), TnrffB),..., Tnr'ß) для / -10, Ys(B) - объединение множеств Ynr/fB),..., Ynr/fB) для i =10.

Утверждение 2.1. Если ß-произвольный концептуальный базис (к.б.), то (а) множество Lrtro (В) не является пустым; (б) если 1< i < 10, то Lnr^fB) С Lnrt (В). Утверждение 2.2. Если В - к.б., то множества Ls(B), Ts(B), YsfB) ие являются пустыми. Утверждение 2.3. Если В - произвольный к.б., то: (а) Если г е Ts(B), тот - цепочка вида а & t, где аеLs(B), te TpfSfB)), и такое представление, зависящее от г, единственно для каждой цепочки г. (б) Если у е Ys(B), то найдутся такое п>1 и такие цепочки ai, аз, ..., а„ ß е Ls(B), что у - цепочка вида а) & аз & ... & а„ & Д кроме того, такое представление, зависящее от у, единственно для любого у.

Утверждение 2.4. Пусть В - к.б., d еХ(В) и VfB). Тогда не найдутся такие к, п , где 1 ¿к ¿10, л >1, и такие ai, а3,..., а„ е Ls(B), что а/ & аз &... & an & d е Ynrio(B). Интерпретация. Смысл утверждения в том, что для каждого элемента d, входящего в первичный информационный универсум Х(В) или являющегося переменной из VfB), нельзя получить этот элемент d с помощью каких-либо операций, задаваемых правилами Р[1]-Р[10].

Утверждение 2.5. Пусть В - произвольный к.б., z е Ls(B) \ fX(B) и VfB)). Тогда существует один и только один такой набор fk, n, уи yz — , Уа), где 1 £ к£ 10, n> 1, 'yt, Уз,.... Уп е LsfB), что у! & у2 &... & у„ & z е Ynr^fB).

Интерпретация: Если /-формула z не входит в fX(B) и VfB)), то тогда найдутся единственное правило Р[к], где 1 i к < 10, и единственный такой набор /-формул yi, уз,... , у„, что цепочка г построена из "блоков" уь у2, ... , у„ применением ровно один раз правила Р[к].

Доказательства Утверждения 2.5.и двух лемм, на которых оно базируется, изложены в Приложении 1 к данной диссертационной работе.

Исследованы выразительные возможности класса СК-языков, в том числе по сравнению с компьютерной семантикой русского языка, теорией расширенных семантических сетей, теорией неоднородных семантических сетей и наиболее популярными зарубежными подходами к формальному описанию содержания ЕЯ-текстов: теорией представления дискурсов, теорией концептуальных графов, эпизодической логикой.

Можно выделить следующие основные отличия и преимущества разработанного в главах 1 и 2 подхода к построению семантических представлений ЕЯ-текстов, базирующегося на аппарате СК-языков, по сравнению с компьютерной семантикой русского языка (КСРЯ) В.А. Тузова:

Во-первых, в то время, как КСРЯ рассматривает как предмет исследования только отдельные предложения, аппарат СК-языков ориентирован на построение СП не только отдельных предложений, но и сложных связных текстов (дискурсов), относящихся к деловой прозе.

Во-вторых, эта возможность аппарата СК-языков является следствием разработки в данной диссертации математической модели, описывающей систему из 10 частичных операций на упорядоченных наборах, компонентами которых могут быть первичные

информационные единицы, СП словосочетаний, СП фраз и СП дискурсов. Напротив, в рамках КСРЯ не строятся математические модели объектов концептуального уровня -фактически используется только математическое понятие суперпозиции функций.

В-третьих, выражение семантического языка (СЯ) В .Л. Тузова, строящееся по предложению на русском языке, является, по существу, обозначением суперпозиции функций, дающей конкретное значение предложения по аргументам Z/, Да..., Z* (к > 1). Например, по фразе "Рабочие мешают цемент с песком" будет построено выражение OperOI(Zl, СМЕШИВАНИЕ $15419 (And(Z2, Z3). Z4)). Однако этот СЯ не предназначен для построения СП слов и словосочетаний, описывающих те сущности, которым соответствуют переменные Zj, Zj,.... Z*. Термину семантическое представление предложения в том смысле, в каком он используется в данной диссертационной работе, в публикациях по КСРЯ соответствуют термины "шаблон семантической модели предложения" и "семантическая модель предложения". Последние два термина используют понятие М-языка — языка представления знаний в системе управления базой знаний MAZE. Важным преимуществом аппарата СК-языков является возможность построения выражений, равносильных (с позиций нашей языковой интуиции) шаблонам семантических моделей предложений и семантическим моделям предложений в смысле КСРЯ. Это обеспечивается тем, что СК-язьпси позволяют строить составные обозначения различных сущностей, в том числе множеств сущностей. В то же время в КСРЯ выразительных возможностей семантического языка дня этого недостаточно, и поэтому возникает необходимость использования М-языка.

В заключительной части главы 2 сделан вывод о том, что научные результаты, полученные в главе 1 и главе 2, образуют новый метод формального описания содержания (т.е. структурированных значений) предложений и связных естественноязыковых текстов (дискурсов) из широкого многообразия текстов деловой прозы, предоставляя новые возможности по сравнению с другими известными подходами к этой проблеме. Этот предложенный метод формального описания содержания ЕЯ-текстов назван методом К-представлений.

Глава 3 посвящена анализу ряда возможных применений аппарата СК-языков к проектированию прикладных интеллектуальных систем, в частности, многоагентных систем. Острой научно-технической проблемой является автоматизация контроля полноты и непротиворечивости документации разрабатываемых сложных технических систем (в частности, летательных, надводных и подводных аппаратов). В статье Б.В. Добро ва, Н.В. Лукашевича, О.А. Невзоровой, Б.Е. Федунова (Известия АН, Т и СУ, 2004, № 2) отмечается, что, в силу целого комплекса причин (календарных, профессионально-психологических), организационные мероприятия по обеспечению смысловой полноты и непротиворечивости документации сложных технических систем не дают желаемого эффекта. Как следствие, нередко документ передается на следующий этап разработки со значительным количеством смысловых пропусков и противоречий. Ситуации такого рода могут привести к гибели людей и большому экономическому и экологическому ущербу. В связи с этим актуальна разработка компьютерных систем, предназначенных для подготовки ЕЯ-текстов, описывающих сложную техническую систему, и анализа разработанной документации на смысловую полноту и непротиворечивость. В параграфе 3.1 показано, что аппарат СК-языков предоставляет широкий спектр выразительных механизмов, необходимых для построения СП словосочетаний, предложений и дискурсов из технических текстов. Поэтому аппарат СК-языков целесообразно применять в качестве базового теоретического инструмента автоматизированной разработки документации сложных технических систем и анализа такой документации на смысловую полноту и непротиворечивость.

Исследуются возможности разработки на основе аппарата СК-языков семантического сетевого языка (ССЯ) нового поколения по сравнению с языком UNL (Universal Networking Language, универсальный сетевой язык). Сделан вывод о том, что, подобно осуществляемому с конца 1990-х годов переходу от языка разметки гипертекстов HTML к новым, семантически-структурированным средствам представления информации в сети

21

Web, в области разработки ССЯ потребности практики должны в ближайшие годы привести к разработке ССЯ нового поколения по сравнению с языком UNL. Достигнутый уровень исследований по разработке языка UNL отражен в монографии (UNL 2005: Universal Networking Language (UNL) Specifications. Version 2005. UNL Center of UNDL Foundation), доступной по сети Интернет с тоня 2005 г. В первую очередь следует отметить, что не только в начальной версии UNL, но и в этой монографии отсутствует анализ особенностей смысловой структуры дискурсов, и, как следствие, пе даются рекомендации по построению СП дискурсов.

Один из наиболее важных шагов в направлении расширения возможностей применения языка UNL, сделанных в работе (UNL 2005) по сравнению с предыдущими публикациями авторов этого языка, заключается во введении понятия составного концепта, или комплекса. В оригинале вводится понятие "scope", переводимое как "объем", но выбранный автором диссертации для перевода термин "комнлекс"предстааляется более точно отражающим суть нового понятия. Комплекс определяется в (UNL 2005) как конечное множество бинарных отношений, сгруппированных для выражения сложного концепта. Анализ примеров, иллюстрирующих это определение, показывает, что авторы имеют в виду выделение множества формул вида r(c, d) , где г - имя бинарного отношения, с, d - обозначения атрибутов отношения. Средством выделения такого множества формул является метка комплекса v, вводимая в каждую выделенную формулу сразу после имени отношения.Таким образом, комплекс представляет собою некоторое множество формул вида формул вида {г/ : v (ci, dj), ..., r„ : v (c„ , d„ ) } , где n> 1. Например, в книге (UNL 2005) строится комплекс для обозначения множества, состоящего из женщин, носящих большие шляпы в некотором кинотеатре.

Однако предложенный способ введения обозначений составных концептов имеет принципиальные недостатки. Во-первых, форма комплекса не позволяет сказать, какой именно выделяется объект среди всех объектов, входящих в комплекс. Например, по комплексу из примера, рассмотренного в указанной книге, нельзя установить, обозначает ли метка 01 некоторое множество женщин или некоторое множество шляп. Показано, что аппарат СК-языков предоставляет средства построения составных концептов, позволяющие избежать указанного недостатка комплексов языка UNL.

Во-вторых, форма комплекса не позволяет отличить комплекс, обозначающий множество объектов, от комплекса, обозначающего содержание сложного высказывания. Между тем, в дискурсах часто встречаются ссылки на смысл предыдущих фраз или более крупных частей текста. СК-языки позволяют выражать такие ссылки в СП дискурса. Пример. Пусть Т1 - относящийся к биологии и медицине дискурс "Все гранулоциты являются полиморфонуклеарными. Это означает, что их ядра многодольны". Тогда дискурсу Т1 можно поставить в соответствие следующее К-представление Exprl: (Свойство (произвольн гранулоцит : xl, полиморфонуклеарный) : Р1~) л Пояснение (Р1, Следует-из (Ситуация (el, обладание 1 * (Агент], xl) (Объект!, нек ядро: х2)), Свойство (х2, многодольный)))).

Ключевую роль в построении К-представления Exprl сыграло правило Р[5 ], позволившее ввести метку х1 для обозначения произвольного гранулоцита, метку х2 для обозначения, ядра клетки, и метку Р1 для обозначения СП первого предложения из дискурса Т1. Метка Р1 позволяет в структуре СП текста Т1 эксплицировать ссылку на смысл первого предложения текста, даваемую сочетанием "Это означает".

В-третьих, возможны ситуации, когда среди атрибутов отношений, входящих в комплекс, есть два разных объекта, характеризуемых одним понятием (например, два разных корабля). Однако в работе (UNL 2005) не проанализированы такие ситуации и не дано рекомендаций о том, как формально различать обозначения разных объектов, характеризуемых одним понятием и входящих в состав одного комплекса.

СК-языки позволяют формально представлять значительно более сложные связи мевду объясняемым понятием С1 и понятиями, входящими в толкование смысла С1, по

сравнению с конструкциями языка UNL., примерами которых являются выражения башня (icl > здание), мурано (icl > вещъ-из-стекла, aoj > цветной).

Пример. Пусть Т2 — определение "A flock (английский язык) — это большое количество птиц или млекопитающих (например, овец или коз), собирающихся вместе с определенной целью, такой, как питание, миграция или оборона". Тогда Т2 может иметь следующее К-представление Ехрг2:

Определение1 (flock, англ-яз, динамич-группа * (Кач-состав, (птица v млекопитающее * (Примеры, (овца v коза)))), S1, (Оцеика(Колич-элем($1), большое) л Цель-формирования (51, Нек намерение * (Примеры, (питание эмиграция v оборона))))).

Анализ этой формулы позволяет сделать вывод о том, что при построении СП ЕЯ-текстов, являющихся определениями понятий, удобно использовать: (1) обозначение 5-арного отношения Определение!, (2) составные обозначения понятий (в примере использованы выражения млекопитающее * (Примеры, (овца v коза)) и динамич-группа * (Кач-состав, (птица v млекопитающее * (Примеры, (овца v коза)))) ), (3) имена функций, аргументами и/или значениями которых могут быть множества (в примере использовано имя одноместной функции Колич-элем, значением которой является количество элементов множества), (4) составные обозначения намерений, целей (в примере — выражение нек намерение * (Примеры, (питание v миграция v оборона)) ).

На основании проведенного анализа выразительных возможностей существующей версии языка UNL в главе 3 сделан вывод о перспективности разработки новой версии семантического сетевого языка на базе аппарата СК-языков и метода К-представлений. Разработка такой новой версии .на основе определения класса СК-языков, в частности, позволит: (1) строить не только СП предложений, но и СП сложных связных текстов за счет средств представления ссылок на ранее упомянутые объекты и на смысл фраз и более крупных фрагментов текстов; (2) формировать составные обозначения множеств, понятий, целей интеллектуальных систем и назначений объектов; (3) соединять с помощью логических связок "и" , "или" не только обозначения высказываний, но и обозначения понятий, объектов, множеств объектов; (4) отображать смысловую структуру фраз со словом "понятие"; (5) рассматривать нетрадиционные функции, аргументами и/или значениями которых могут быть множества объектов, множества понятий, СП текстов, множества СП текстов.

Показано, что аппарат СК-языков вносит в теорию представления знаний ряд новых способов построения составных обозначений понятий, пояснения смысла понятия с помощью других понятий, построения составных обозначений объектов, множеств объектов и сложных целей, представления фрагментов знаний, передаваемых фразами со словом понятие, представления содержания дискурсов со ссылками на смысл фраз и более крупных фрагментов текста, построения модулей знаний, включающих метаданные о фрагментах знания. Сделан вывод о перспективности применения этих новых способов формирования конструкций из семантических единиц к разработке онтологий предметных областей с выразительными возможностями, превышающими возможности существующих онтологий.

Серия публикаций Е.С. Кузина по технологии функционально-ориентированного проектирования (ФОП-технологии) программных систем, по существу, тесно связана с разработкой и применением онтологий (в публикациях используется термин модель проблемной среды, обозначающий целостную систему взаимосвязанных знаний о проблемной среде). На основании анализа сформулированных Е.С. Кузиным требований к языкам описания декларативных знаний (ЯОДЗ) для решения информационно-сложных задач, в отличие от алгоритмически-сложных задач, сделан вывод о том, что аппарат СК-языков открывает новые возможности для разработки таких ЯОДЗ.

Обоснована целесообразность использования аппарата СК-языков в качестве средства построения СП словосочетаний, предложений и дискурсов из текстовых полей электронных документов при разработке Интернет-систем нового поколения,

сочетающих в себе черты информационно-поисковых (тематический поиск) и вопросо-ответных систем.

Обоснована возможность использования аппарата СК-языков в качестве широко применимого теоретического аппарата проектирования языков представления содержания посланий компьютерных интеллектуальных агентов (КИЛ) в многоагентных системах, рассматриваемых в мире как ключевая технология, в частности, для реализации электронной коммерции.

Показаны широкие возможности использования аппарата СК-языков для построения протоколов коммерческих переговоров, осуществляемых КИА, и для формирования контрактов, заключаемых КИА в ходе таких переговоров.

В главе 4 разработан способ формализации дополнительных требований к СК-языкам с целью использования их для построения СП текстов из представляющих практический интерес подъязыков русского языка. Такие языки включают вопросы к БД и базам знаний, команды интеллектуальным автономным роботам, а также сообщения, вводимые в базу знаний. С этой целью введено понятие размеченного концептуального базиса. Суть этого понятия заключается во введении ряда обозначений для первичных единиц концептуального уровня и формальном описании свойств таких единиц с целью их единообразного использования при построении СП ЕЯ-текстов в разных областях, в том числе при построении СП вопросов, команд, составных описаний множеств.

Предложено формальное понятие морфологического базиса Р-тнпа (русскоязычного типа), дающее оригинальную математическую интерпретацию морфологической системы русского языка. Преимуществом интепретации является ее высокий уровень общности, позволяющий рассматривать морфологический анализ слов языка в качестве составной части семантико-синтаксического анализа текстов без углубления в детали морфологического анализа.

Одним из основных паучных результатов главы 4 является построение математической модели лингвистической базы данных (ЛЕД). Модель является определением класса формальных объектов, называемых лингвистическими базисами (л.б.); построению этого определения посвящены параграфы 4.2 - 4,8. Каждый л.б. является упорядоченным набором, состоящим из некоторого размеченного концептуального базиса, текстообразующей системы (упорядоченного набора, первым компонентом которого является некоторый морфологический базис Р-типа) и некоторых формальных объектов (конечных множеств, состоящих из упорядоченных наборов), называемых лексико-семантическим словарем, словарем глагольно-предложных семантико-синтаксических фреймов, словарем предложных семантико-синтаксических фреймов и системой ролевых вопросительных словосочетаний.

ЛБД, структура которых отображается построенной моделью, позволяют устанавливать возможные смысловые отношения, в частности в сочетаниях «(Глагол + Предлог + Существительное (Сущ)», «Глагол + Сущ», «Сущ1 + Предлог + Сущ2», «Число + Сущ», «Прилагательное + Сущ», «Сущ1 + Сущ2», «Причастие + Сущ», «Причастие + Предлог + Сущ», «Вопросительно-относительное местоимение или местоименное наречие, играющее роль вопросительного слова + Глагол», «Предлог + Вопросительно-относительное местоимение + Глагол».

Предложен новый метод преобразования ЕЯ-текста (в частности, вопроса, сообщения или команды) в СП текста. Эта метод предназначен для проектирования диалоговых систем и включает следующие три этапа преобразования: Преобразование!: Компонентно-морфологический анализ входного текста..

По ЕЯ-тексту Т строится одно или несколько компонентно-морфологических представлений (КМП) текста Т, т.е. один или несколько наборов вида (Ля, йс), где (а) Кт — морфологическое представление (МП) текста, т.е. представление возможных значений морфологических признаков для тех компонентов текста Т, которые являются лексическими единицами, (б) Же - классифицирующее представление (КМ) текста, являющееся двумерным массивом. Число строк Яс равно количеству элементарных значащих единиц текста ("город", "был получен", "650 км", "мастер спорта" и т.д.). В

24

столбцах представлены элементарная значащая единица текста unit, класс и подкласс (если подкласс определен) единицы unit , а также номер строки МП Rm , если unit -лексическая единица.

В большинстве случаев фразам из входного текста будет соответствовать единственное КМП. Если же либо входной текст Т неоднозначно разбивается на элементарные значащие единицы текста, либо неоднозначно определяется часть речи какой-либо единицы текста, то задаются уточняющие вопросы пользователю диалоговой системы, и неоднозначности снимаются после обработки ответов пользователя на эти вопросы. Преобразование 2: Построение матричного семантико-синтаксического представления (МССП) текста.

МССП ЕЯ-текста Т — это новая структура данных, предлагаемая в данной работе в качестве промежуточной формы представления результатов семантико-синтаксического анализа ЕЯ-текстов и являющаяся строково-числовой матрицей. Количество строк МССП Matr равно количеству выделенных элементарных значащих единиц текста., т.е. числу строк nt в классифицирующем представлении Rc. Пусть к - номер произвольной строки Matr, соответствующей лексической единице d. Тогда элементы строки к отражают следующие данные: (1) количество значений, которые могут соответствовать d. с учетом выполненных шагов семантико-синтаксического анализа; (2) наименьший номер строки массива Arls, которая соответствует какому-либо значению лексической единицы d, где Arts представляет все наборы из лексико-семантического словаря, содержащие информацию о лексических единицах из текста Т; (3) предлог (возможно, пустой предлог nil), относящийся к к-й лексической единице; (4) позиции лексических единиц текста Т, управляющих единицей с номером к-, (5) обозначения смысловых отношений, соответствующих "управляющим стрелкам", ведущим в позицию к; (6) метка сущности, обозначаемой единицей d., (7) обозначение числа, которое указывается в тексте перед существительным и относится к существительному; (8) количество прилагательных, относящихся к существительному, представленному в строке h, (9) в частности, позиция существительного, к которому "прикреплено" причастие (если d — причастие), и позиция причастия, которое "прнкреплено"к существительному (если d - существительное).

Цель преобразования заключается в том, чтобы связать с каждым словом какое-то одно из возможных нескольких значений и в том, чтобы установить смысловые отношения между различными единицами текста. Так как это делается шаг за шагом, то МССП сначала является недоопределенным. Чтобы снять неоднозначности, могут задаваться уточняющие вопросы пользователю. Но, главным образом, используются сведения из ЛБД о допустимых способах комбинирования разных единиц текста в лингвистически правильные сочетания.

Преобразование 3: Сборка семантического представления текста, являющегося К-представлением, по его МССП Matr.

Алгоритм, преобразующий МССП Matr входного текста в некоторую формулу Semrepr е Ls(B((Cb)) для размеченного концептуального базиса СЬ, назван алгоритмом семантической сборки.

Пример. Пусть В1 = " С какими зарубежными издательствами сотрудничает писатель Игорь Сомов?". Тогда для некоторого лингвистического базиса Lingb алгоритм семантической сборки построит по вопросу В1 его К-прсдставление (КП) в виде цепочки Semreprl= Вопрос (S1, (Кач-состав (S1, издательство * (Вид-географич, зарубежное)) л Описание(произв издательство* (Элем, SI) :yl, Ситуация(е1, сотрудничество * (Время, #сейчас#) (Агент!, нек чел* (Профессия, писатель)(Имя, 'Игорь')(Фамилия, 'Сомов'): х1)(Организаг{ия1, yl)))))).

Фрагментами цепочки Semreprl являются: (а) составное обозначение понятия издательство * (Вид-географич, зарубежное) , (б) семантическая характеристика произвольного элемента множества произв издательство* (Элем, SI) : yl, (в) составное обозначение объекта пек чел* (Профессия, писатель)(Имя, 'Игорь')(Фамилия, 'Сомов'): xl . Правило Р[5] позволило связать метку (переменную) yl с произвольным элементом

искомого множества 57 , а затем использовать только эту метку для последующих ссылок на эту характеристику.

Важным достоинством метода является то, что его изучение не требует владения обширной лингвистической терминологией - достаточно знать базовые математические понятия (множество, упорядоченный набор, л-арное отношение) и ряд понятий, предусмотренных программой средней школы по курсу русского языка.

Цель главы 5 заключается в разработке алгоритма семантико-синтаксического анализа текстов из подъязыков русского языка (РЯ), реализующего предложенный в главе 4 новый метод преобразования "ЕЯ-текст - Семантическое представление (СП) текста". При этом предложенное в предыдущей главе формальное понятие лингвистического базиса интерпретируется как описание структуры ЛЕД, используемой алгоритмом..

В соответствии с предложенным в главе 4 новым методом преобразования "ЕЯ-текст -> СП текста" ставится задача разработки алгоритма ЗешЗуп, являющегося композицией некоторых алгоритмов ВшЫМаО и ВшИБет, удовлетворяющих следующим условиям: ВшММац- - алгоритм преобразования текстов из некоторых практически интересных подъязыков русского языка в их матричные семантико-синтаксические представления (МССП); ВшкШет — алгоритм сборки семантического представления ЕЯ-текста по его МССП, причем построение СП текста базируется на методе К-представлений, а результат построения является выражением некоторого СК-языка (называемым К-представлением входного текста).

Отправной точкой для разработки алгоритма являлся анализ поверхностной и смысловой структуры текстов из следующих подъязыков русского языка и английского языка, представляющих практический интерес: (а) вопросы и сообщения на ЕЯ к вопросо-ответной Интернет-системе нового поколения, касающиеся научных публикаций и участия специалистов в научных конференциях; (б) команды и вопросы транспорта о-погрузочвому интеллектуальному роботу, в частности, роботу, действующему на автоматизированном складе, и роботу, действующему в аэропорту; (в) вопросы и сообщения для БД, касающиеся выпуска, экспорта и импорта продукции различными предприятиями, фирмами; (г) вопросы, с которыми оператор автоматизированного склада обращается к интеллектуальной БД; (д) вопросы потенциальных покупателей к интеллектуальной БД Интернет-магазина.

Предложен новый метод формального описания предположений о структуре входных текстов ЛП на основе комбинированного использования аппарата бесконтекстных грамматик и введенного в диссертации понятия лингвистического базиса.

Разработан структурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков естественного (русского) языка (алгоритм ЗетБуп). Этот алгоритм, базирующийся на построенной в главе 4 формальной модели ЛБД и на введенном понятии матричного семантико-синтаксического представления, устанавливает смысловые отношения между элементарными значащими единицами входного текста, отражая эти отношения посредством МССП, а затем строит семантическое представление текста, являющееся выражением некоторого СК-языка (К-представлением). Входные ЕЯ-тексты могут выражать высказывания (сообщения), команды, вопросы с вопросительными словами, вопросы с ответом «Да»/ «Нет» и могут, в частности, включать причастные обороты и придаточные определительные предложения.

Алгоритм Зетвуп позволяет устанавливать возможные смысловые отношения, в частности, в сочетаниях «Глагол + Предлог + Существительное (Сущ)», «Глагол + Сущ», «Сущ1 + Предлог + Сущ2», «Число + Сущ», «Прилагательное + Сущ», «Сущ1 + Сущ2», «Причастие + Сущ», «Причастие + Предлог + Сущ», «Вопросительно-относительное местоимение или местоименное наречие, играющее роль вопросительного слова + Глагол», «Предлог + Вопросительно-относительное местоимение + Глагол».

Ниже приведены примеры преобразований, выполняемых алгоритмом ветЗуп. Значением переменной Эетгерг является СП входного текста Т. Пример. Пусть Т1 = "Профессор Игорь Новиков преподает в Томске". Тогда Бетгерг =

Ситуация(е1, преподавание * (Время, #сейчас#)(Агент1, нек чел * (Квалиф, профессор)

(Имя, 'Игорь')(Фамилия, 'Новиков') : x2)(Mecmol, нек город * (Название, Томск') : хЗ)).

Пример. Пусть Т2 = ""Доставь ящик с деталями на склад № 3.". Тогда Semrepr = (Команда(#Оператор#, UИсполнитель#, #сейчас#, el) л Цель (el, доставка1 *(Объект1, нек ящик * (Содерж1, нек множ * (Кач-состав, деталь)): xl)(Mecmo2, нек склад * (Номер, 3) : х2)) .

Пример. Пусть ТЗ = "Какое издательство опубликовало роман «Ветры Африки»?". Тогда Semrepr = Bonpoc(xl, Ситуация(е1, опубликование * (Время, некмом * (Раньше, ПсейчасМ) : tl) (Агент2, нек издательство: xl) (ОбьектЗ, нек роман1 * (Название, 'Ветры Африки) :хЗ))) .

Пример. Пусть Т4 = "Кем выпускается препарат "Зиннат"?". Тогда

Semrepr = Вопрос (х 1, Ситуация (el, выпуск1 * (Время, #сейчас#) (Агент!, xl) (Продукция!, нек npenapaml * (Название, 'Зиннат') : х2))) .

Пример. Пусть Т5 = "Откуда и для кого поступил трехтонный алюминиевый контейнер?" Тогда Semrepr = Вопрос ((xl /\ х2), Ситуация (el, постушение2 *

(Время, некмом * (Раньше, #сейчас#) : tl) (Место!, xl) (Адресат, х2) (Объект!, нек контейнер * (Вес, 3/тонна)(Материал, алюминий) : хЗ)))). Пример. Пусть Тб = "Сколько человек участвовало в создании статистического сборника?". Тогда Semrepr = Bonpoc(xl, ((xl= Колич( S1)) л Кач-состав (S1, чел) л Описание(произв чел* (Элем, SI) : yl, Ситуация(е1, участие!* (Время, нек мам * (Раньше, #сейчас#) : tl) (Агент1, у1)(Вид-деятельности, создание 1* (Продукт1, нек сборник1 * (Область!, статистика): х2)))))).

Пример. Пусть Т7 = "Сколько раз Иван Михайлович Семёнов летал в Мексику?". Тогда Semrepr = Bonpoc(xl, ((х!= Колич(S1)) л Кач-состав (S1, сит) и

Описание (произв сит * (Элем, SI): el, Ситуация (el, полёт * (Время, некмом * (Раньше. #сейчас#) : 11)(Агент1, нек чел.*(Имя, 'Иван')(Отчество, 'Михайлович')(Фамилия, 'Семёнов'): х2)(Место2, нек страна* (Название, 'Мексика '):хЗ) )))). Пример. Пусть Т8 = "На каких предприятиях, для которых поставляет картон АО "Старт", выпускается мебель для кухни?". Тогда

Semrepr = Вопрос (S1, (Кач-состав (S1, предприятие) л Описание (произв предприятие * (Элем, SI) : yl,( Ситуация(е1, поставка! *(Время, #сейчас#) (Адресат, yl) (Агент1, нек орг *(Тип, АО)(Назв, "Cmapm") : xl) (Объект1, нек множ *(Кач-состав, дин.физ.об *(Вещество, картон)) : S2)))))) л Ситуация(е2, выпуск! *(Время, #сейчас#) (Агент!, у1)(Объект1, нек множ * (Кач-состав, дин. физ. об. * (Класс1, мебель) (Цел место, нек кухня)): S3))) .

Пример. Пусть Т9 = "Проходила ли в Азии международная научная конференция "COLING"?". Тогда Semrepr = Bonpoc(xl, (х1=Ист-знач (Ситуация (el, прохождение2* (Время, нек мом * (Раньше ,#сейчас#) : tl)(Co6umue, нек конф* (Budl, междун) (Вид2, научная) (Название, 'COLING'): х2) (Место, нек континент* (Название, 'Азия') :хЗ))))) .

Здесь цепочка Ист-знач интерпретируется как обозначение функции, аргументом которой является СП высказывания, а значением — величина Истина или Лозкь.

Вместе с результатами главы 4 алгоритм SemSyn выражает принципиально новый подход к семантико-сннтаксическому анализу ЕЯ-текстов. Чтобы продемонстрировать преимущества этого нового подхода по сравнению с большинством подходов, отраженных в современной научной литературе, можно сравнить алгоритм SemSyn с алгоритмом семантико-синтаксического анализа ЕЯ-текстов, изложенным в монографии Дж.Ф. Люгера "Искусственный интеллект. Стратегии и метода решения сложных проблем" (с. 580 - 584, процедура Sentence). 4-е издание этой монографии было опубликовано на английском языке в 2002-м году, перевод на русский язык опубликован

в 2004 г. В книге, в частности, отмечается, что 4-е издание содержит обновленный материал по вопросам обработки ЕЯ.

Процедура Sentence отражает основные характерные черты доминирующего как в отечественной, так и зарубежной научной литературе подхода к описанию алгоритмов семантико-синтаксического анализа ЕЯ-текстов. Этими характерными чертами являются отсутствие модели лингвистической базы данных (заменяемое отдельными неформальными примерами используемых данных), отсутствие формального или достаточно четкого неформального описания структуры входных текстов и, как следствие, отсутствие в большинстве публикациях реальных алгоритмов семантико-синтаксического анализа (ССА) текстов или даже подробных методов выполнения ССА.

По существу, текст с названием Процедура Sentence, приведенный в монографии Дж.Ф. Люгера, является не алгоритмом, а лишь пожеланием разработать такой алгоритм. Разные специалисты в области компьютерной обработки ЕЯ разработают по этому пожеланию разные алгоритмы. Это относится не только к приведенному выше фрагменту из монографии Дж.Ф. Люгера,- но и к подавляющему большинству публикаций, посвященных семантико-синтаксическому анализу ЕЯ-текстов.

Результаты данной диссертационной работы, изложенные в главах 4 и 5, дают не только продвижение вперед, но и качественный скачок в области разработки формальных средств и методов проектирования алгоритмов семантико-синтаксического анализа ЕЯ-текстов. Разработчики ЛП впервые получили широко применимые метод и алгоритм семантико-синтаксического анализа, базирующиеся на математической модели лингвистической базы данных, формальном описания структуры данных для представления промежуточных результатов анализа текстов и формальном описании структуры строящихся семантических представлений текстов.

Существенной чертой разработанного алгоритма SemSyn является явный учет многозначности слов, что важно для приложений.

Анализ построенного алгоритма SemSyn показывает работоспособность предложенного в главе 4 нового метода выполнения преобразования "ЕЯ-текст 4 СП текста". Важная особенность этого метода и алгоритма SemSyn заключается в том, что они не предусматривают использования синтаксического уровня представления (как результата выполнения синтаксического анализа) текста.

Ориентация на непосредственный поиск смысловых отношений между элементами предложения (минуя этап синтаксического анализа) на основе данных о семантике лексических единиц, представленных в словарях ЛЕД, является общей чертой алгоритма SemSyn и алгоритма семантического анализа предложений, изложенного в монографии В.А. Тузова "Компьютерная семантика русского языка" (2004 г.). Входной язык алгоритма Тузова шире входного языка алгоритма SemSyn. Однако степень экспликации процессов обработки информации в алгоритме SemSyn значительно выше, чем в алгоритме Тузова. Фактически последний алгоритм является описанием метода, которому может сответствовать многообразие алгоритмов, по разному реализующих одну систему принципов обработки предложений. Выходной язык алгоритма SemSyn значительно отличается от выходного языка алгоритма Тузова. Кроме того, алгоритм SemSyn использует оригинальную матричную форму (МССП) отображения промежуточных результатов семантико-синтаксического анализа. Наконец, в отличие от алгоритма Тузова, алгоритм SemSyn базируется на математической модели ЛБД.

Следует подчеркнуть, что алгоритм SemSyn не является детализацией какой-либо части алгоритма Тузова. Важным преимуществом алгоритма SemSyn является то, что его можно непосредственно запрограммировать при наличии процедуры морфологического анализа словоформ (что вполне реально). Поэтому алгоритм SemSyn может иепосредственуо использоваться разработчиками ЕЯ-интерфейсов, в частности, интеллектуальных баз данных (ИБД) Интернет-магазинов и ИБД автоматизированных складов гибких производственных систем.

Разработка аппарата СК-языков в главах 1, 2 и применение этого аппарата в модели ЛБД (глава 4) и в алгоритме SemSyn позволили преодолеть трудности принципиального

28

характера, касающиеся отображения содержания команд, а также вопросов нескольких видов: с вопросительными словами "какие", "каких" и т.д., со словом "сколько", относящимся к количеству предметов, и с ответом "Да /Нет". Расмотренные выше примеры показывают, что алгоритм семантической сборки BuildSem, являющийся частью алгоритма SemSyn, существенно использует ряд новых выразительных возможностей, предоставляемых определением класса СК-языков.

Одной из базовых процедур алгоритма BuildMatr (алгоритма построения матричного семантико-синтаксического представления входного текста) является алгоритм "Найти-множ-тематич-ролей" (параграф 5.7), существенно использующий в работе словарь семантико-синтаксических глагольных фреймов (параграф 4.S). Применяя известную терминологию, можно сказать, что работа алгоритма "Найти-множ-тематич-ролсй" основывается на применении семантических падежных фреймов. В связи с этим, учитывая данные научной литературы, сделано заключение о перспективности использования разработанного в главе 5 алгоритма семантико-синтаксического анализа ЕЯ-текстов (алгоритма SemSyn) при проектировании анализаторов устной речи, т.е. при решении одной из актуальных проблем разработки лингвистических информационных технологий.

Важное преимущество предложенного нового подхода к разработке алгоритмов семантико-синтаксического анализа заключается в создании предпосылок для облегчения подготовки специалистов в области лингвистических информационных технологий. Предложенный подход направлен на непосредственный поиск смысловых отношений между участниками ситуаций, и эти смысловые отношения понятны специалистам из рассматриваемой конкретной области (при этом область может меняться). Как следствие, разработанный подход не требует овладения обширной лингвистической терминологией, касающейся синтаксических отношений.

В заключительной части главы 5 содержится обзор применений алгоритма SemSyn к проектированию русскоязычных интерфейсов прикладных компьютерных систем (см. выше раздел "Реализация результатов") и даны краткие характеристики программных реализаций этого алгоритма. Рассмотренные реализации алгоритма выполнены в программных средах Turbo Pascal 7.0, Delphi 4.0, Borland С++, Visual С++, PHP.

К наиболее актуальным направлениям применения алгоритма SemSyn относится разработка ЕЯ-интерфейсов интеллектуальных консультационных надстроек над справочными системами технической документации, предназначенными для усвоения навыков работы с прикладными программами. Применение алгоритма SemSyn в этом направлении осуществляется аспирантом МИЭМ А.Д. Алексеевым в рамках подготовки диссертации на соискание ученой степени к.т.н. по специальности 05.13.11; научным руководителем А. Д. Алексеева является автор данной диссертации.

Сегодня новые информационные технологии появляются столь стремительно, что освоить их в сжатые сроки трудно даже специалистам в данной области. Хотя в современных электронных справочных системах технической документации существует возможность поиска по документации с использованием ключевых слов, поиск по ключевым словам сопряжен со многими сложностями. Поэтому возникла идея реализации автоматического поиска фрагментов текста документации, релевантных содержанию запроса.

Анализ вопросов пользователей нескольких электронных справочных систем технической документации показал, что основной подкласс вопросов касается способов выполнения различных операций. Например, в случае освоения технической документации электронных ключей защиты программного обеспечения пользователь может ввести вопрос В1 = "Как считать данные из пямяти ключа". Такие вопросы можно представить в виде Как + инфинитивная конструкция +?. Программа в среде Visual С++, разрабатываемая А.Д. Алексеевым, использует модификацию алгоритма SemSyn для преобразования инфинитивной конструкции в K-представление Semrepr и построения СП вопроса пользователя в виде выражения некоторого СК-языка Вопрос (yl, Способ1 (yl, Semrepr)).

В связи с тем, что постоянно появляются новые прикладные компьютерные системы и разрабатываются новые версии существующих систем, разработка интеллектуальных консультационных надстроек над справочными системами технической документации представляет собою актуальную научно-техническую задачу. Даже частичное решение этой задачи для определенного класса прикладных компьютерных систем обещает дать ощутимый экономический эффект за счет сокращения времени освоения новых прикладных компьютерных систем конечными пользователями.

В рамках проекта Семантической Паутины в течение нескольких последних лет был разработан язык формирования Web-онтологий OWL (Ontology Web Language). Цель формирования средствами этого языка распределенной онтологии заключается в создании базы знаний, позволяющей связать по смыслу запрос конечного пользователя с данными, хранящимися в сети Web, в случаях, когда традиционный поиск по ключевым словам не позволяет установит такую связь. Поскольку изучение языка OWL требует предварительной подготовки по интеллектуальным информационным технологиям, актуальной является задача автоматизированного формирования OWL-выражений на основе семантико-синтаксического анализа описаний фрагментов знаний на нормализованном ЕЯ.

В качестве прототипа решения данной задачи в рамках учебного процесса разработана компьютерная программа на языке PHP, объем которой превышает 3000 строк языка. Программа выполняет преобразование, состоящее из двух шагов. На первом шаге строится семантическое представление (СП) текста, на втором - это СП преобразуется в OWL-выражепие. Для реализации первого этапа используется алгоритм SemSyn. Для программной реализации алгоритма SemSyn и алгоритма, преобразующего К-представление фрагмента знаний на русском языке в выражение языка OWL, выбран инструментарий PHP+MySql. При выборе языка программирования учитывалось то, что PHP предоставляет удобный механизм поиска вхождения в строку подстрок, задаваемых шаблонами в виде регулярных выражений, и то, что PHP специально создан для Web-разработок. В качестве сервера баз данных выбран MySql как удобный для взаимодействия с PHP.

Реализация алгоритма SemSyn в современной среде Web-программирования PHP дает дополнительное обоснование вывода, сделанного в главе 3, о перспективности применения аппарата СК-языков к разработке ЕЯ-интерфейсов подсистем автоматизированного пополнения баз знаний интеллектуальных систем.

Основные публикации автора по теме диссертации (из 69 публикаций, перечисленных в тексте диссертации)

1. Фомичев В.А. Формализация проектирования лингвистических процессоров - М.: МАКС Пресс, 2005. 368 с.

2. Фомичев В .А. Математические основы представления смысла текстов для разработки лингвистических информационных технологий. Часть I. Модель системы первичных единиц концептуального уровня // Информационные технологии. 2002. № 10. С. 16-25.

3. Фомичев В.А. Математические основы представления смысла текстов для разработки лингвистических информационных технологий. Часть П. Система правил для построения семантических представлений фраз и сложных связных текстов // Информационные технологии. 2002. № 11. С. 34-45.

4. Фомичев В.А.Семантико-сиптаксические анализаторы вопросо-ответных Интернет-систем нового поколения как инструмент повышения качества высшего образования // Качество. Инновации. Образование. 2005. № 1. С. 67-72.

5. Фомичев В.А. Стандартные К-языки как универсальный и гибкий инструмент формирования контрактов и протоколов переговоров в области электронной коммерции // Информационные технологии. 2005. № 3. С. 26-29.

30

6. Фомичев ВА. Понятие текстообразующей системы как компонент нового формального аппарата для проектирования лингвистических процессоров // Информационные технологии. - № 8.2005. С. 22-27.

7. Фомичев В.А Класс формальных языков и алгоритм для построения семантических аннотаций Веб-документов // Вестник Ml ТУ имени Н.Э. Баумана. Сер. «Приборостроение». 2005. № 3 (60). С. 73-86.

8. Фомичев В .А. Новый метод преобразования естественно-языковых текстов в семантические представления // Информационные технологии. 2005. № 10. С. 2535.

9. Фомичев В.А. Новый класс языков для представления содержания посланий компьютерных интеллектуальных агентов // Качество и ИПИ (СА1Л>)-тсхиологии.

- № 1. 2005. С. 34-39.

10. Фомичев В.А. Формализация структуры основных словарей лингвистической базы данных // Качество и ИПИ (САЬ5>технологии. - № 3.2005. С. 30-38.

11. Фомичев В.А. Элементы подхода к математическому проектированию лингвистических процессоров на основе модельных грамматик // Математическое обеспечение и программирование для вычислительных и управляющих систем, Вып. 1.- М.: Моек ин-т электронного машиностроения (МИЭМ), 1979.- С. 219-227.

12. Фомичев В.А.К теории логико-алгебраического моделирования механизмов речеобразования смыслового уровня. I. Постановка задачи и идея подхода к ее решению.-М., 1981.-85 е.- Деп. в ВИНИТИ ГКНТ и АН СССР 27.10.81, № 4939 - 81 Деп.

- РЖ "Математика",1982, № 2, реферат 2В 1386 ДЕП.

13. Фомичев В.А.О разработке и применении теории логико-алгебраического моделирования ряда естественно-языковых механизмов текстообразования смыслового уровня // IX Всесоюзный симпозиум по кибернетике (Тезисы симпозиума. Сухуми. 10 - 15 ноября 1981 г.). Том 1. Представление знаний.-М., Науч. Совет по комплексной проблеме "Кибернетика" при Президиуме АН СССР, 1981,- С. 186-188.

14. Фомичев В.А. Формальные системы для моделирования человеко-машинного взаимодействия на естественном языке// Международный симпозиум по искусственному интеллекту ИФАК, Том I. - Ленинград, АН СССР, 1983.- С. 223-243. Одновременно этот доклад опубликован на английском языке: Fomitchov, V.A. Formal systems for natural language man-machine interaction modelling// International Symposium on Artificial Intelligence IFAC (Intern. Federation of Automatic Control), V.I.Leningrad, Ac. Sc. USSR, 1983.

15. Фомичев В. А. Математическая модель лингвистического процессора и её применение к проектированию обучающих комплексов// Автом. регулирование и управление. Матем. моделирование нестационарных процессов САУ. Под ред. Ю.А.Рязанова.-М., Всесоюз. заоч. . машиностр. ин-т, 1986. С. 110-114.

16. Фомичев В.А. О синтезе формальных спецификаций задач в диалоговой системе ТЕМП-1, //Матем. обеспечение и программирование для вычислит, и управляющих систем /Под ред. В.Н.Маркова. -М„ МИЭМ, 1986. С. 10-13.

17. Фомичев В.А. Аппарат К-исчислепий и К-языков как инструмент исследования ряда ключевых вопросов теории вычислительных систем 5-го поколения И ИНФОРМАТИКА-87. 2 Всес. конф. по актуальным проблемам информатики и выч.

техники. Тезисы докладов. Ереван, 20-22 окт. 1987.- Ереван, изд-воАрмянской ССР, 1987.- С. 182-183.

18. Фомичев В. А. Математический подход к разработке лингвистического процессора для автоматизации проектирования морских тренажеров// Всесоюз. конф. по автоматизации проектир. систем планирования и управления. Звенигород, 26-28 окт. 1987. Тезисы.докл.- М., Науч. Совет АН СССР по компл. проблеме "Кибернетика", 1987. С. 278-279.

19. Фомичбв В. А. Представление, информации средствами К-исчислений: Учебное пособие // М., Московский институт электронного машиностроения (МИЭМ), 1988,- 60 с.

20. Фомичбв В.А. О средствах построения математической теории естественно-языкового общения // Матем. обеспечение вычислительных, информационных и управляющих систем /Под ред. В.Н.Маркова.- М., МИЭМ, 1988.- С. 21-25.

21. Фомичбв В.А. К-исчисления, K-языки и проблематика создания фонда естественно-языковых процессоров //Вторая Всесоюз.конф. по созданию Машинного Фонда русского языка (Материалы конф.).- М., Институт русского языка АН СССР, 1988.- С. 99-106.

22. Фомичев В.А. Перспективы проектирования экспертных систем на основе аппарата K-исчислений и K-языков //Вопросы применения экспертных систем / Под ред. В.В.Соломатина и Е.В.Марковой.- Минск, НПО "Центрсистем", 1988.- С. 65-72.

23. Фомичев В.А. Язык входных спецификаций переносимого семантико-синтаксического анализатора // Автоматическое регулирование и управление. Матем. моделирование нестационарных процессов САУ/Под ред. Ю. А.Рязанова.-М., Московский ин-т приборостроения, 1988.

24. Фомичев В.А. Перспективы применения аппарата K-исчислений и K-языков к разработке лексикона программирования //Математич. и программное обеспечение вычислит., информ. и управляющих систем/ Под ред. В.Н.Афанасьева.-М., Моск. ин-т электронного машиностроения, 1990. С. 109-ПЗ.

25. Фомичев В А. K-языки и разработка новых информационных технологий // Новые информационные технологии в системотехнике / Под ред. JI.C. Болотовой.-М.: Радио и Связь,. 1990. С. 53-62.

26. Фомичёв В.А. K-языки и проектирование переносимых подсистем общения экспертных систем // Экспертные системы на персональных компьютерах: Матер. семинУ О-во "Знание" РСФСР. Моск. дом науч.-техн. проп.-М.. 1990.-С. 33-37.

27. Фомичев В .А. О математических моделях для проектирования анализаторов дискурсов // Научно-технические средства информатизации, автоматизации и интеллектуализации в народном хозяйстве. Материалы семинара. / Под ред. А.Е. Петрова. - М., Центральный Российский Дом Знаний, 1991,- С. 62-70.

28. Фомичев В.А. (2001). Теория K-исчислений как универсальная формальная метаграмматика для описания содержания посланий компьютерных интеллектуальных агентов // Материалы VII Междун. семинара "Дискретная математика и ее приложения" (29 янв. — 2 февр. 2001 г.), Часть П.- Москва, МГУ им. М.В. Ломоносова, Механико-математический факультет, 2001. - С. 203 - 206.

29. Фомичев В.А.. Алгоритм преобразования матричного семантико-синтаксического представления текста в K-формулу // Проблемы теоретической кибернетики. Тезисы докладов ХШ Международной конференции (Казань, 27-31 мая 2002 г.). Часть II. - Москва, МГУ им. М.В. Ломоносова, РАН, ИПМ им. М.В. Келдыша, МО и ПО РФ, Казанский государственный университет, 2002. - С. 181.

30. Люстиг И.В., Фомичев В.А. Принципы формального отображения семантики лексических единиц, предложений и дискурсов в интеллектуальной поисковой системе Medsearch // Компьютерная лингвистика и интеллектуальные технологии. Труды Междунар. конф. Диалог'2004 (Верхневолжский, 2-7 июня 2004 г.) . С. 431-435.

31. Fomitchov V. Formal systems for natural language man-machine interaction modelling // Artificial Intelligence. Proc. of the IF AC Symposium, Leningrad, USSR, 4-6 October 1983 / Edited by V.M. Ponomaryov (IFAC Proc. Series, 1984, No. 9). Oxford, UK; New York, etc.: Pergamon Press. -1984. - P.203-209.

32. Fomichov V. Mathematical models of natural-language-processing systems as cybernetic models of a new kind. Cybernetica (Belgium). 1992. V. XXXV. N. 1. P. 63-91.

33. Fomichov, V.A. Towards a mathematical theory of natural-language communication // Informática. An Int.. J. of Computing and Informatics (Slovenia). 1993.17(1). P. 21-34.

34. Fomichov V.A. K-calculuses and K-languages as powerful formal means to design intelligent systems processing medical texts // Cybernetica (Belgium). 1993. V. XXXVI. N.2.. P. 161-182.

35. Fomichov V.A. Integral Formal Semantics and the design of legal full-text databases И Cybernetica (Belgium). 1994. V. XXXVII. N. 2. P. 145-177.

36. Fomichov V.A. A variant of a Universal Metagrammar of Conceptual Structures. Algebraic systems of conceptual syntax // In A. Nijholt, G. Scollo, R. Steetskamp (eds.), Algebraic Methods in Language Processing. Proc. of the Tenth Twente Workshop on Language Technology joint with First AMAST Workshop on Language Processing, Univ. of Twente, Enschede, The Netherlands, Dec. 1995. P. 195 - 210.

37. Fomichov V.A. A mathematical model for describing structured items of conceptual level // Informática (Slovenia). 1996. V. 20. N. 1. P. 5-32.

38. Fomichov V.A. An outline of a formal metagrammar for describing structured meanings of complicated discourses. II Intern. Conf. on Mathematical Linguistics (ICML'96), Abstracts, Tarragona, 2 - 4 de maig de 1996. Grup de Recerca en Lingüistica Matematica i Enginyeria del Llenguatge (GRLMC), Report 7/96, Universität Rovira i Virgili, 1996, 31-32.

39. Fomichov V.A. K-calculuses and the problem of conceptual information retrieval in textual data bases. Knowledge Transfer (Vol. II). Ed. A.Bchrooz (Proc. of the Intern. Conf. "Knowledge Transfer - 1997 (KT97)", Symposium "Information Technology", Univ. of London, 14-16 July 1997), London, University of London, 1997. P. 52-58.

40. Fomichov V.A. A comprehensive mathematical framework for designing agent communication languages. Proceedings of the Intern. Conf. "Information Society (IS'98)", Ljubljana, Slovenia, 6 - 7 Oct. 1998. P. 81-84.

41. Fomichov V.A. Theory of Restricted K-calculuses as a Comprehensive Framework for Constructing Agent Communication Languages; Special Issue on NLP and Multi-Agent Systems, ed. by V.A.Fomichov and A.P.Zcleznikar, Informática. An Intern. Journal of Computing and Informatics (Slovenia). 1998. V. 22. N. 4,- P. 451-463.

42. Fomichov V.A. Theory of Restricted K-calculuses as a Universal Informational Framework for Electronic Commerce // Database, Web and Cooperative Systems. Vol. 1. Proc. of 1999 Intern. Symp. on Database, Web and Cooperative Systems, Aug. 3-4, 1999, Germany - DWACOS'99 / Ed. G.E. Lasker, Univ. of Windsor and Y. Zhang, Univ. of Southern Queensland. The Intern. Inst, for Advanced Studies in Systems Research and Cybernetics, Univ. of Windsor, Windsor, Ontario, Canada, 1999. - P. 41-46.

43. Fomichov V.A. A Universal Resources and Agents Framework for Electronic Commerce and Other Applications of Multi-Agent Systems; 7th International Workshop on Computer Aided Systems Theory and Technology 1999 - EUROCAST'99. September 29th - October 2nd, 1999, Vienna, Austria, Vienna Univ. of Technology. Preprints (ed. P. Kopacek).-P. 99-102.

44. Fomichov V.A. An ontological mathematical framework for electronic commerce and semantically-structured Web // Y.Zhang, V.A.Fomichov, and A.P.ZeIeznikar (Eds.),

33

Special Issue on Database, Web, and Cooperative Systems. Informatica. An Intern. J. of Computing and Informatics (Slovenia, Europe). 2000. Vol. 24. No. 1. - P. 39-49.

45. Fomichov V.A. New content languages for electronic commerce and digital libraries // Z. Binder (Ed.), Management and Control of Production and Logistics 2000 (MCPL 2000). A Proceedings volume from the 2nd IFAC/IFIP/IEEE Conference, Grenoble, France, 5 -8 July 2000. Vol. 2, Pergamon, An Imprint of Elsevier Science, Oxford, UK., New York, Tokyo., 2001. P.503-508.

46. Fomichov V.A. The Method of Constructing the Linguistic Processor of the Animation System AVLAROBOT II Preconference Proceedings "Collaborative Decision-Support Systems" (Focus Symposium in conjunction with the 14th Intern. Conf. on Systems Research, Informatics and Cybernetics - InterSymp-2002, July 29 - Aug. 3, 2002, Germany). Focus Symposia Chair: Jens Pohl - CAD Research Center, Cal Poly, San Luis Obispo, CA, USA, 2002. P. 91 -102.

47. Fomichov V.A. Theory of K-calculuses as a Powerful and Flexible Mathematical Framework for Building Ontologies and Designing Natural Language Processing Systems // Troeis Andreasen, Amihai Motro, Henning Christiansen, Henrik Legind Larscn (Eds.), Flexible Query Answering Systems. 5th Intern. Conference, FQAS 2002, Copenhagen, Denmark, Oct 27 - 29, 2002. Proceedings; LNAI 2522 (Lecture Notes in Artificial Intelligence, Vol. 2522), Springer: Berlin, Heidelberg, New York, Barcelona, Hong Kong, London, Milan, Paris, Tokyo, 2002. P. 183-196.

48. Fomichov, V.A. Theory of Standard K-languages as a Model of a Universal Semantic Networking Language It Preconference Proceedings "Intelligent Software Systems for the New Infostructure" (Focus Symposium in conjunction with the 16th Intern. Conf. on Systems Research, Informatics and Cybernetics - InterSymp-2004, July 29 - Aug. 5, 2004, Germany). Focus Symposia Chair: Jens Pohl - CAD Research Center, Cal Poly, San Luis Obispo, CA, USA, 2004. P. 51-61.

49. Fomichov V.A. Standard K-Languages as a Powerful and Flexible Tool for Building Contracts and Representing Contents of Arbitrary E-Negotiations //K. Bauknecht, B. Proell, H. Werthner (Eds.), The 6th Intern. Conf. on Electronic Commerce and Web Technologies "EC-Web 2005", Copenhagen, Denmark, Aug. 23 - 26,2005, Proceedings. Lecture Notes in Computer Science. Vol. 3590. Springer Verlag. 2005. P. 138-147.

50. Fomichov V.A., Akhromov Ya.V. Standard K-languages as a Powerful and Flexible Tool for Constructing Ontological Intelligent Agents // Preconference Proceedings "Collaborative Decision-Support Systems" (Focus Symposium in conjunction with the 15th Intern. Conf. on Systems Research, Informatics and Cybernetics - InterSymp-2003, July 28 - Aug. 01, 2003, Germany). Focus Symposia Chair: Jens Pohl - CAD Research Center, Cal Poly, San Luis Obispo, CA, USA, 2003. P. 167 -176.

51. Fomichov V.A., Kochanov A.A. Principles of Semantic Search for Information on the Web by the Intelligent Agent LingSearch-1 // Preconference Proceedings "Advances in Computer-Based and Web-Based Collaborative Systems" (Focus Symposia in conjunction with the 13th Intern. Conf. cm Systems Research, Informatics and Cybernetics - InterSymp-2001, July 31 - Aug. 1, 2001, Germany). Focus Symposia Chairs: Jens Pohl and Thomas Fowler, IV. - Collaborative Agent Design (CAD) Research Center, Cal Poly, San Luis Obispo, CA, USA, 2001. P. 121 -131.

52. Fomichova O.S., Fomichov V.A. A New Approach to Designing Children-Oriented Web-sites of Art Museums // In Cybernetics and Systems 2004, Volume II. Proceedings of the Seventeenth European Meeting on Cybernetics and Systems Research (University of Vienna, Austria, 13 - 16 April 2004) / Edited by Robert Trappl.- University of Vienna and Austrian Society for Cybernetic Studies, 2004. P. 757-762.

Напечатано с готового оригинал-макета

Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от 01.12.99 г. Подписано к печати 23.03.2006 г. Формат 60x90 1/16. Усл.печ.л. 5,0. Тираж 100 экз. Заказ 196. Тел. 939-3890. Тел./факс 939-3891. 105066, г.Москва, Елоховский пр., д.З, стр.2.

Оглавление автор диссертации — доктора технических наук Фомичев, Владимир Александрович

Введение

Глава 1. Разработка и исследование математической модели для описания системы первичных единиц концептуального уровня, используемых лингвистическим процессором

1.1. Формализация семантики естественного языка и потребности проектирования лингвистических процессоров

1.2. Постановка задачи 41 1.3 .Базовые обозначения и вспомогательные определения

1.4. Краткая характеристика предлагаемой математической модели для описания системы первичных единиц концептуального уровня, используемых лингвистическим процессором

1.5.Сортовые системы

1.5.1. Основные идеи определения класса сортовых систем

1.5.2. Формальное определение сортовой системы

1.6. Типы, порождаемые сортовыми системами, и конкретизации типов

1.6.1. Определение множества типов

1.6.2. Интерпретация определения множества типов

1.6.3. Отношение конкретизации на множестве типов

1.7. Концептуально-объектные системы

1.8. Системы кванторов и логических связок. Концептуальные базисы

1.9. Обсуждение разработанной математической модели для описания системы первичных единиц концептуального уровня, используемых лингвистическим процессором

1.9.1 .Особенности модели с математической точки зрения 67 1.9.2. Сравнение модели с другими подходами к описанию первичных единиц концептуального уровня

1.10. Выводы по материалам главы

Глава 2. Разработка и исследование математической модели для описания структурированных значений предложений и связных текстов на естественном языке

2.1. Постановка задачи

2.2. Краткая характеристика предлагаемого решения поставленной задачи

2.2.1. Краткая характеристика новых правил построения формул

2.2.2. Схема определения трех классов формул, порождаемых концептуальными базисами

2.3. Использование интенсиональных кванторов в формулах

2.4. Использование реляционных символов и разметка формул

2.4.1. Правила для применения реляционных символов

2.4.2. Правило, позволяющее помечать формулы

2.5. Использование логических связок "не", "и", "или"

2.6. Построение составных обозначений понятий и объектов

2.6.1. Правило для построения составных обозначений понятий

2.6.2. Построение составных обозначений объектов

2.7. Использование в формулах кванторов существования и всеобщности.

Построение обозначений упорядоченных наборов

2.7.1. Применение кванторов существования и всеобщности

2.7.2. Построение обозначений упорядоченных наборов 97 2.7.3 .Сводная таблица правил Р[0]-Р[ 10]

2.8. Стандартные К-языки. Математическое исследование их свойств

2.9. Исследование выразительных возможностей стандартных К-языков

2.9.1. Удобный способ описания событий

2.9.2. Формализация предположений о структуре семантических представлений множеств

2.9.3. Построение семантических представлений вопросов с ролевыми вопросительными словами

2.9.4. Семантические представления вопросов о количестве предметов

2.9.5. Семантические представления вопросов о количестве событий

2.9.6. Семантические представления вопросов с формами вопросительно-относительного местоимения "какой"

2.9.7. Построение семантических представлений вопросов общеудостоверительного актуально-синтаксического типа

2.9.8. Отображение смысловой структуры команд

2.9.9. Представление теоретико-множественных отношений и операций на множествах

2.9. 10. Представление смысла фраз с придаточными предложениями цели и с косвенной речью

2.9.11. Явное представление причинно-следственных отношений, передаваемых дискурсами

2.9.12. Построение семантических представлений дискурсов со ссылками на смысл фраз и более крупных частей текста

2.9.13. Представление фрагментов знаний о мире

2.9.14. Объектно-ориентированные представления фрагментов знаний

2.10. Сравнение выразительных возможностей СК-языков с возможностями основных известных подходов к формальному представлению содержания ЕЯ-текстов

2.11. Обсуждение построенной математической модели

2.12. Выводы по материалам главы

Глава 3. Анализ возможностей применения аппарата СК-языков к решению ряда актуальных проблем информатики

3.1. Аппарат СК-языков как инструмент проектирования лингвистических процессоров систем автоматизированного контроля смысловой полноты и целостности документации сложных технических систем

3.2. Разработка семантического сетевого языка нового поколения

3.3. Новые возможности для разработки языков представления знаний и построения онтологий предметных областей

3.3 Л. Онтологии и их значение для глобальных информационных сетей

3.3.2. Анализ возможностей представления знаний о предметных областях средствами СК-языков

3.3.3. Разработка новых языков представления знаний для решения информационно-сложных задач

3.4. Возможности использования СК-языков в проектировании интеллектуальных информационно-поисковых и вопросо-ответных Интернет-систем нового поколения

3.4.1. Актуальность разработки вопросо-ответных Интернет-систем

3.4.2. Электронные библиотеки и проблема обеспечения доступа общественности к государственным информационным ресурсам

3.5. Определение класса стандартных К-языков как формальная метаграмматика для описания содержания посланий компьютерных интеллектуальных агентов

3.6. Анализ возможностей использования СК-языков для формирования контрактов и протоколов переговоров в области электронной коммерции

3.7. Выводы по материалам главы

Глава 4. Разработка математической модели лингвистической базы данных и нового метода преобразования "ЕЯ-текст ^ Семантическое представление"

4.1. Постановка задачи

4.2. Формализация дополнительных требований к языку построения семантических представлений текстов

4.3. Текстообразующие системы

4.3.1. Морфологические базисы

4.3.2. Морфологические базисы Р-типа (русскоязычного типа)

4.3.3. Понятие текстообразующей системы

4.4. Понятие лексико-семантического словаря

4.5. Словари глагольно-предложных семантико-синтаксических фреймов

4.6. Формализация необходимых условий реализации данного смыслового отношения в сочетаниях вида "Глагольная форма + Зависимая группа слов"

4.7. Словари предложных семантико-синтаксических фреймов

4.8. Лингвистические базисы

4.9. Структуры данных, ассоциированные с текстом в рамках заданного лингвистического базиса

4.9.1. Компонентно-морфологическое представление текста

4.9.2. Проекции компонентов лингвистического базиса на входной текст

4.10. Матричное семантико-синтаксическое представление ЕЯ - текста

4.11. Новый метод преобразования ЕЯ-текстов в их семантические представления

4.11.1. Принципы установления соответствия между матричным семантико-синтаксическим представлением текста и его К-представлением

4.11.2. Формулировка метода

4.11.3. Принципы выбора формы семантического представления для текстов различных видов

4.11.4. Обсуждение разработанного метода преобразования ЕЯ-текстов в семантические представления

4.12. Выводы по материалам главы

Глава 5. Разработка алгоритма семантико-синтаксического анализа текстов из подъязыков естественного языка

5.1. Постановка задачи разработки алгоритма семантико-синтаксического анализа текстов

5.2. Формализация исходных предположений о рассматриваемых подъязыках естественного (русского) языка

5.3. Начальные этапы разработки алгоритма построения матричного семантико-синтаксического представления входного текста лингвистического процессора

5.4. Описание алгоритма выявления вида входного текста

5.5. Принципы обработки ролевых вопросительных словосочетаний

5.6. Принципы и методы обработки причастных оборотов и придаточных определительных предложений

5.7. Разработка алгоритма поиска возможных смысловых связей между значением глагольной формы и значением зависящей от нее группы слов

5.8. Обработка прилагательных, предлогов, количественных числительных и существительных

5.9. Завершение разработки алгоритма построения матричного семантико-синтаксического представления входного текста

5.10. Начальный шаг построения семантических представлений входных текстов

5.11. Построение семантических представлений коротких фрагментов входного текста с помощью алгоритма

Начало-постр-СемП"

5.12. Заключительные этапы разработки алгоритма сборки семантического представления входного текста по его матричному семантико-синтаксическому представлению

5.13. Алгоритм семантико-синтаксического анализа текстов на естественном (русском) языке

5.13.1. Описание алгоритма 8еш8уп ("Семантико-синтаксич-анализ-текста")

5.13.2. Обсуждение разработанного алгоритма семантико-синтаксического анализа текстов

5.14. Применение разработанного алгоритма к проектированию русскоязычных интерфейсов прикладных компьютерных систем

5.14.1. Применения в научно-технических исследованиях.

5.14.2. Компьютерные программы, разработанные в рамках учебного процесса

5.15. Выводы по материалам главы 5 322 Заключение по диссертации 328 Литература 336 Приложение 1: Доказательства Леммы 1, Леммы 2 и Утверждения 2. из Главы

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Фомичев, Владимир Александрович

Актуальность темы исследования. За последние два десятилетия научно-техническое направление "искусственный интеллект" получило значительное развитие и нашло целый ряд успешных применений. Основная часть информации хранится и передается людьми с помощью естественного языка (ЕЯ), т.е. совокупности русского, английского, японского и других языков. Один из главных классов компьютерных интеллектуальных систем (ИС) составляют программы, понимающие ЕЯ или синтезирующие выражения ЕЯ по некоторым внутренним представлениям. Такие программы называются системами обработки естественного языка, или лингвистическими процессорами (ЛП).

Несколько неформальных понятий, являющихся базовыми для теории смысловой обработки компьютером ЕЯ, многократно используются в диссертации: семантика ЕЯ, связный текст (дискурс), структурированное значение выражения на ЕЯ, семантическое представление ЕЯ-выражения и алгоритм семантико-синтаксического анализа.

Под семантикой ЕЯ будем понимать совокупность закономерностей передачи информации средствами ЕЯ. Связным текстом (или дискурсом) называется последовательность взаимосвязанных по смыслу выражений на ЕЯ. Если Т -некоторое выражение на ЕЯ (словосочетание, предложение, дискурс), то структурированным значением выражения Т является информационная структура, строящаяся мозгом человека, владеющего данным подъязыком ЕЯ (русским, английским или другим), независимо от контекста, в котором услышано или прочитано выражение Т, т.е. строящаяся на основе только знаний о значениях элементарных лексических единиц и правил их комбинирования в данном языке.

Под семантическим представлением (СП) ЕЯ-выражения Т понимается формальная структура, являющаяся либо образом структурированного значения этого выражения, либо отражением смысла (или содержания) данного выражения в определенном контексте - в ситуации диалога, в контексте знаний о мире или в контексте предшествующей части дискурса.

Таким образом, СП ЕЯ-выражения Т является формальной структурой, первичными элементами которой являются, в частности, обозначения понятий, конкретных объектов, множеств объектов, событий, имена функций и отношений, логические связки, обозначения чисел и цветов, а также обозначения смысловых отношений между значениями фрагментов текста или между объектами рассматриваемой предметной области. СП текстов могут являться, например, строками и размеченными ориентированными графами (семантическими сетями).

Алгоритм семантико-синтаксического анализа строит по тексту на ЕЯ его СП, используя для этого знания о морфологии и синтаксисе подъязыка ЕЯ (русского, английского и др.), информацию о взаимосвязях лексических единиц с единицами семантического уровня и знания о мире. Семантико-синтаксическими анализаторами (ССА) называются прикладные компьютерные системы, реализующие алгоритмы семантико-синтаксического анализа ЕЯ-текстов (письменных или устных).

В настоящее время известно много областей применения ССА как преобразователей ЕЯ-текстов в их СП. В частности, СП ЕЯ-тексга, являющееся выходом такого преобразователя, может поступить на вход подсистем ИС, формирующих по этому СП (в зависимости от назначения ИС): запрос на выполнение медицинской или технической диагностики, текст на языке перевода, схему электронного блока, запрос к интеллектуальной базе данных (БД) Интернет-магазина, управляющее воздействие на автономный интеллектуальный робот (например, транспортно-погрузочный робот), концептуальную схему реляционной базы данных, выражение языка представления знаний для пополнения или модификации базы знаний (БЗ), семантическую аннотацию электронного документа.

Основное содержание данной диссертации посвящено развитию теории ССА в связи с существованием целого ряда недостаточно исследованных вопросов, касающихся формализации структуры выходного языка ССА, формализации структуры данных, используемых для преобразования ЕЯ-текстов в их СП и разработки системы формальных понятий, позволяющих описывать алгоритмы, реализуемые ССА. Новые области применения ССА усилили актуальность исследования этих вопросов.

Государственными и коммерческими организациями накоплены большие запасы информационных ресурсов, содержащих знания о предметных областях. Для повышения эффективности работы сотрудников с накопленными знаниями крупные компании в мире разрабатывают или уже разработали и используют системы управления знаниями. По имеющимся в литературе оценкам, более 70% ресурсов, накопленных в различных организациях, носит неструктурированный характер и образуется электронными текстовыми документами. Поэтому, по мнению ряда авторов, повышению эффективности работы сотрудников различных организаций с накопленными информационными ресурсами будет способствовать разработка интеллектуальных поисковых систем с ЕЯ-интерфейсами, способных осуществлять смысловой анализ естественно-языковых полей используемых электронных документов и, как следствие, давать ссылки на документы, интересующие пользователя, или формулировать ответы на поставленные вопросы (Попов 2001,2002; Королев 2003; Pohl 2003).

Другой острой проблемой теории ИС является автоматизация формирования баз знаний ИС. Основная часть знаний, накопленных человечеством, хранится в виде естественно-языковых текстов (ЕЯ-текстов). Поэтому в последние годы реализован ряд проектов, направленных на автоматическое извлечение знаний из ЕЯ-текстов. Значительное внимание в Германии, США, Японии и некоторых других странах уделяется проблеме автоматизации извлечения знаний из биологических и медицинских документов (отчетов об исследованиях, статей в научных журналах и т.д.). Однако построенные системы извлечения знаний из ЕЯ-текстов обладают весьма узкими способностями понимания ЕЯ-текстов, особенно дискурсов. Это выражается в использовании разнообразных узкоспециализированных шаблонов для извлечения знаний. Центральной причиной этого положения является недостаточная проработанность вопросов формализации семантики ЕЯ.

Благодаря бурному прогрессу компьютерной сети Всемирная Паутина (the World Wide Web, WWW, W3) пользователи сети во всем мире получили быстрый доступ к огромному количеству ЕЯ-текстов, относящихся к различным областям деятельности. С середины 1990-х годов специалисты в самых разных областях работают не только с публикациями и БД своих организаций, но и стремятся использовать информационные ресурсы Паутины. Поэтому чрезвычайно актуальна задача организации взаимодействия на ограниченном ЕЯ из различных предметных областей с огромным объемом накопленных информационных ресурсов Всемирной Паутины. ЕЯ-интерфейсы для

10 взаимодействия с информационными ресурсами Паутины необходимы не только специалистам для решения профессиональных задач, но и конечным пользователям, перед которыми стоят задачи получения медицинской или юридической информации, расширения культурного кругозора и т.д.

В феврале 2001 г. консорциум сети Всемирная Паутина, обозначаемый в большинстве документов сокращением W3C (the World Wide Web Consortium), официально объявил о широком развертывании исследований по преобразованию существующей сети в Семантическую Всемирную Паутину (Semantic Web). Один из наиболее важных аспектов реализации этого крупномасштабного проекта заключается в том, что компьютерные интеллектуальные агенты (КИА) смогут анализировать информацию, представленную на Веб-сайтах, взаимодействуя между собой. Часть КИА сможет выполнять смысловой анализ ЕЯ-компонентов электронных документов, представленных в Веб-сайтах. Это даст возможность конечным пользователям осуществлять поиск информации в Паутине не по ключевым словам, а по смыслу, с помощью КИА. Важные дополнительные возможности предоставят речевые браузеры.: они позволят использовать телефоны (в том числе мобильные) для взаимодействия с Семантической Паутиной на ЕЯ.

Развитие гражданского общества в нашей стране существенно зависит от степени доступности государственных информационных ресурсов. Обеспечение такой доступности является одной из центральных задач федеральной целевой программы "Электронная Россия (2002 - 2010 годы)". Огромную роль в обеспечении доступа общественности к государственным информационным ресурсам должны сыграть электронные библиотеки (ЭлБ). Для обеспечения подлинной широты доступа пользователей ЭлБ к информационным ресурсам необходимы интеллектуальные поисковые системы с ЕЯ-интерфейсами, способные отыскивать информационные источники или находить ответы на вопросы конечных пользователей на основе осуществления смыслового анализа (а) запроса пользователя, (б) естественно-языковых полей разнообразных хранящихся электронных документов и сравнения содержания запроса пользователя с содержанием анализируемых текстовых полей электронных документов. Поэтому одной из центральных научных задач, связанных с созданием ЭлБ, является автоматизация семантического анализа ЕЯ-текстов с целью смыслового поиска информационных источников.

Накопленный опыт исследований по созданию ЛП показал, что большое влияние на проектирование анализаторов ЕЯ-текстов оказывают используемые методы формального отображения содержания (или смысла) текстов, а также методы формального представления промежуточных результатов смыслового анализа текстов. Особую актуальность приобрела проблема формального представления содержания дискурсов.

Во-первых, основной объем информации в текстовых БД и сети Интернет представлен дискурсами. Во-вторых, сформулированная Э.В. Поповым современная концепция разработки систем общения с БД на ограниченном естественном языке (ОЕЯ) предполагает, что на вход системы поступают не только предложения, но и дискурсы. В-третьих, можно согласиться с высказанной Э.В. Поповым гипотезой о том, что повышению эффективности общения на ОЕЯ с большими БД будет способствовать реализация таких систем общения, когда активную роль в диалоге будет играть не только конечный пользователь, но и компьютер, располагающий моделью базы знаний, причем инициатива будет на протяжении диалога неоднократно переходить от одного участника общения к другому. Последовательность выражений на ОЕЯ (с указанием авторов выражений), сформированных участниками общения, образует дискурс.

Можно выделить несколько наиболее важных аспектов проблемы, формального представления содержания (или смысла) ЕЯ-текстов в компьютерных системах.

Идея использования в системах машинного перевода искусственного языка-посредника для представления смысла ЕЯ-текстов была высказана еше в 1960-м году А.К. Жолковским, H.H. Леонтьевой и Ю.С. Мартемьяновым. В 1960-е - 1970-е годы эта идея получила значительное развитие в работах А.К. Жолковского и И.А. Мельчука по лингвистической модели "Смысл - Текст". В 1970-е годы усилению внимания к идее семантического языка-посредника способствовала теория смысловой зависимости в ЕЯ Р. Шенка, нашедшая применение в нескольких экспериментальных ЛП.

Использование языка-посредника для представления содержания (смысла) ЕЯ-текстов позволяет перейти от неформализованного объекта, каким является ЕЯ-текст, к формальной структуре, что открывает возможности обработки этой структуры различными процедурами - "семантическими экспертами" в рамках базы знаний, представленных записями на формальном языке (языке представления знаний).

На протяжении 1980-х - 2000-х годов в проектировании ЛП наиболее часто использовались языки-посредники, предоставляемые теорией семантических сетей и фреймов, теорией концептуальных графов и эпизодической логикой. В нешей стране использовались также расширенные семантические сети, неоднородные семантические сети, семантический язык, разработанный в рамках направления "компьютерная семантика русского языка", стандартные K-языки, предложенные автором данной работы, и некоторые другие подходы.

В середине 1990-х годов возникла новая проблема, усилившая внимание исследователей к проблеме разработки языка-посредника для отображения содержания ЕЯ-текстов. С целью устранения языкового барьера между пользователями сети Интернет из разных стран мира в монографии (Uchida H., Zhu M., Delia Senta T. The UNL, A Gift for a Millennium. The United Nations University /Institute of Advanced Studies) был предложен новый язык-посредник, использующий слова английского языка для обозначения информационных единиц и несколько специальных символов. Этот язык, названный универсальным сетевым языком (UNL, the Universal Networking Language), базируется на идее отображения содержания фраз с помощью бинарных отношений. С конца 1990-х годов ООН финансировался комплексный проект, направленный на разработку системы ЛП, преобразующих фразы на различных естественных языках в выражения языка UNL, а также преобразующих выражения языка UNL в предложения на различных естественных языках; координатор проекта - Институт передовых исследований ООН Токийского университета. В проекте разрабатывались ЛП для шести официальных языков ООН и многих других языков. В течение нескольких последних лет исследования в этом направлении координируются Фондом универсального сетевого цифрового языка (the Universal Networking Digital Language Foundation).

Проблема создания широко применимых методов формального описания содержания (смысла) предложений и дискурсов (другими словами, описания структурированных значений ЕЯ-текстов) тесно соприкасается с потребностями развития таких бурно развивающихся направлений информатики, как многоагентные системы (MAC) и электронная коммерция. Взаимодействие компьютерных интеллектуальных агентов (КИА) осуществляется через обмен посланиями, которые могут выражать сообщения, вопросы и команды. Для формирования таких посланий разрабатываются специальные языки общения интеллектуальных агентов (Agent Communication Languages, или ACL). Для координации деятельности исследовательских центров разных стран по разработке стандартных инструментальных средств в области МАО в 1996 г. образован международный Фонд интеллектуальных физических агентов (The Foundation for Intelligent Physical Agents, или FIPA), штаб-квартира которого находится в Женеве. В 1997 - 2000 годах в рамках этого фонда был разработан стандарт языка общения КИА, который в дальнейшем будет называться FIPA ACL. Часть этого языка, предназначенная для представления содержания посланий (в отличие от внешней информации - об отправителе, получателе и т.д.), названа семантическим языком (FIPA Semantic Language, или FIPA SL). Фондом поставлена задача разработки библиотеки языков представления содержания посланий КИА (Content Languages), совместимых с этим языком и охватывающих весь спектр применений МАС.

Многоагентные системы рассматриваются как ключевая технология для реализации электронной коммерции. Следовательно, выразительные возможности языка общения КИА должны быть достаточными для того, чтобы представлять содержание произвольных коммерческих переговоров и контрактов, заключенных в результате этих переговоров. Поэтому формальные языки для представления содержания коммерческих переговоров и контрактов являются предметами исследования в новых научных направлениях в области МАС, называемых электронными переговорами (e-negotiations) и электронным заключением контрактов (electronic contracting).

Между тем, выразительные возможности семантического языка FIPA SL довольно далеки от того, чтобы быть удобными для решения этой задачи. Поэтому аюуальна задача создания методов разработки более совершенных формальных языков - таких, которые были бы удобны для представления содержания любых посланий КИА, в том числе и для представления содержания произвольных коммерческих переговоров и контрактов.

Проблема разработки формальных языков-посредников для отображения содержания (или смысла) ЕЯ-текстов (другими словами, языков семантических представлений, или семантических языков) исследуется специалистами разных стран в течение более трех десятилетий. В нашей стране ряд аспектов этой проблемы в различные периоды изучались Ю.Д. Апресяном, И.М. Богуславским, В.М. Брябриным, В.Н. Вагиным, Б.Ю. Городецким, А.К. Жолковским, И.М. Зацманом, А.П. Ершовым, Ю.И. Клыковым, О.С. Кулагиной, Е.С. Кузиным, Л.Т. Кузиным, И.П. Кузнецовым, Д.Г. Лахути, H.H. Леонтьевой, Л.И. Литвинцевой, ЮЛ. Любарским, М.Г. Мальковским, А.Г. Мацкевичем, И.А. Мельчуком, Л.И. Микуличем, A.C. Нариньяни, Г.С. Осиповым, Г.С. Плесневичем, Э.В. Поповым, Д.А. Поспеловым, В.Ш. Рубашкиным, З.М. Шаляпиной, Г.С. Цейтиным, Л.Л. Цинманом и другими учеными. В последнее десятилетие особенно большой объем глубоких результатов по формализации семантики русского языка был представлен в монографии В.А. Тузова "Компьютерная семантика русского языка", 2004 г.

За рубежом наибольший вклад в разработку методов математического описания содержания (смысла) ЕЯ-текстов внесли Р. Монтегю (грамматики Монтегю), Дж. Барвайз и Р. Купер (теория обобщенных кванторов, ситуационная теория), М. Кресвелл (теория структурированных значений предложений), Й. Гронендейк и М. Стокхоф (динамические грамматики Монтегю, динамическая предикатная логика), Дж. Сова (теория концептуальных графов), Л. К. Шуберт и Ч.Х. Хуан (эпизодическая логика), Г. Камп и У. Рейль (теория представления дискурсов). Несмотря на усилия, предпринимавшиеся в течение многих лет учеными разных стран, до последнего времени многие существенные аспекты проблемы формального описания содержания ЕЯ-текстов оставались мало изученными. Одна из основных причин этой ситуации заключается в том, что внимание уделялось, главным образом, формализации смысловой структуры отдельных фраз, а не дискурсов. Кроме того, недостаточно изученной является проблема формального описания смысловой структуры фраз, обозначающих высказывания и включающих описания множеств и/или придаточные цели и/или слова "понятие", "термин", а также структуры фраз, выражающих команды и вопросы.

Наконец, сегодня ясно, что понимание ЕЯ-текста осуществляется в контексте системы знаний о мире и о целях интеллектуальных систем. Однако выразительные возможности большинства известных подходов к математическому описанию смысловой струюуры ЕЯ-текстов (а именно, грамматик Монтегю, теории обобщенных кванторов, ситуационной теории, теории структурированных значений предложений, динамических грамматик Монтегю, динамической предикатной логики) недостаточны для построения теорий компьютерного понимания ЕЯ в контексте системы знаний о мире и о целях интеллектуальных систем. Например, исследования по дескриптивным логикам, выросшие из работ по терминологическим языкам представления знаний (ЯПЗ), показали полезность включения в состав ЯПЗ составных обозначений понятий. Однако перечисленные непосредственно выше подходы не предоставляют такой возможности.

Проблема автоматизации формирования баз знаний ИС посредством извлечения информации из ЕЯ-текстов с помощью ЛП, проблема разработки семантического языка-посредника для устранения языкового барьера между пользователями сети Интернет и ряд других актульных научно-технических проблем требуют создания эффективных средств формального представления содержания произвольных ЕЯ-текстов, относящихся к деловой прозе (термин А.П. Ершова, ставший широко популярным в компьютерной лингвистике), т.е. ЕЯ-текстов, относящихся к технике, бизнесу, медицине и т.д.

Однако перечисленные наиболее популярные подходы к формальному представлению содержания ЕЯ-текстов имеют ограниченную сферу применения. В частности, не предоставляют адекватных формальных средств для представления содержания произвольных предложений с описаниями множеств или составными обозначениями понятий, дискурсов со ссылками на смысл фраз и более крупных частей текстов, с обозначениями сложных целей, с косвенной речью.

Наибольшие трудности при разработке ЛП связаны с выполнением преобразования "ЕЯ-текст Семантическое представление (СП) текста". Однако анализ как отечественных, так и зарубежных публикаций показывает, что при разработке преобразователей ЕЯ-текстов в СП текстов крайне недостаточно используются формальные средства. Это выражается в неформальном и фрагментарном описании структуры лингвистической базы данных (ЛБД), т.е. БД с морфологической и семантико-синтаксической информацией о лексических единицах, а также методов обработки информации основными подсистемами преобразователя "ЕЯ-текст СП текста".

Основная часть исследований по разработке ЕЯ-интерфейсов и ЛП других видов была реализована для английского языка, синтаксис которого существенно отличается от синтаксиса русского языка (РЯ). Чрезвычайно существенно то, что полные описания информационного и программного обеспечения таких ЛП, как правило, недоступны специалистам в нашей стране. Кроме того, одним из следствий экономической ситуации, сложившейся в 1990-е годы в нашей стране, является отсутствие даже в центральных библиотеках большого количества публикаций в области разработки ЛП, опубликованных за рубежом в 1990-е и 2000-е годы на английском и некоторых других языках. Все это серьезно затрудняет подготовку специалистов в нашей стране в области проектирования ЛП и сужает возможности принятия оптимальных проектных решений, приводит к дополнительным трудозатратам на разработку ЛП.

Учитывая сказанное, актуальной является проблематика разработки методов формального описания структуры ЛБД, а также таких методов семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков русского языка, которые более широко используют формальные средства описания входных, промежуточных и выходных данных по сравнению с известными методами.

Разработка ЛП многих видов, например, ЕЯ-интерфейсов больших БД, отличается высокой трудоемкостью. В связи с этим в данной диссертационной работе выдвигается гипотеза о том, что в долговременной перспективе сокращению затрат и времени на разработку семейства ЛП в рамках одной организации или нескольких взаимодействующих организаций будет способствовать реализация в проектировании информационного и алгоритмического обеспечения ЛП следующих двух принципов:

1) принципа стабильности используемого языка семантических представлений (ЯСП) по отношению к многообразию решаемых задач, многообразию предметных областей и многообразию программных сред (стабильность понимается как использование единой системы правил для построения конструкций ЯСП и варьируемого набора первичных информационных единиц, определяемого предметной областью и решаемой задачей);

2) принципа преемственности алгоритмического обеспечения ЛП на основе использования одной или нескольких совместимых формальных моделей лингвистической БД и единых формальных средств представления промежуточных и окончательных результатов семантико-синтаксического анализа ЕЯ-текстов по отношению к многообразию решаемых задач, предметных областей и программных сред (преемственность понимается как максимальное использование алгоритмов, реализуемых подсистемами ЛП).

В данной работе предпринята попытка создания значительной части предпосылок для реализации этих двух принципов при проектировании лингвистических процессоров. Целями работы являются:

1. Создание широко применимого метода формального описания содержания (смысла) предложений и связных текстов на естественном языке (в частности, на русском и английском языках), т.е. метода формального описания структурированных значений (СЗ) ЕЯ-текстов, базирующегося на принципиально новом подходе (по сравнению с подходами других исследователей) к описанию смысловой структуры ЕЯ-текстов.

2. Применение нового метода формального описания СЗ ЕЯ-текстов к расширению формального аппарата и языковых средств теории многоагентных систем.

3. Разработка метода проектирования семантико-синтаксических анализаторов (ССА) - компонентов естественно-языковых диалоговых систем с более широким использованием формальных средств представления входных, промежуточных и выходных данных по сравнению с известными методами.

4. Применение нового метода формального описания СЗ ЕЯ-текстов и нового метода проектирования ССА к разработке алгоритмического и программного обеспечения русскоязычных интерфейсов прикладных компьютерных систем.

Методы исследования. В работе использованы известные из математической логики, теории формальных языков и грамматик, теории систем искусственного интеллекта и разработанные автором методы определения формальных языков, а также разработанные автором метод формального описания структуры лингвистической БД естественно-языковой диалоговой системы и метод формального описания структуры входных данных ЛП и структуры промежуточных данных при выполнении преобразования "ЕЯ-текст 4 Семантическое представление текста".

Научная новизна диссертационной работы определяется:

1. Разработкой нового метода классификации сущностей из произвольных предметных областей с помощью формальных выражений, называемых типами; метод позволяет формально различать типы объектов и типы множеств объектов, типы понятий и типы объектов, характеризуемых этими понятиями, множества и упорядоченные наборы объектов, а также позволяет связать с объектом из предметной области несколько базовых понятий (сортов), характеризующих этот объект с нескольких возможных точек зрения.

2. Созданием нового метода формального описания содержания, т.е. структурированных значений, предложений и связных естественноязыковых текстов (дискурсов) из широкого многообразия текстов деловой прозы: предоставляются существенно более широкие выразительные возможности по сравнению с другими известными подходами к этой проблеме. Этот предложенный метод формального описания содержания ЕЯ-текстов назван методом К-представлений. Метод базируется на разработанном диссертантом определении нового класса формальных языков - класса стандартных концептуальных языков (СК-языков).

3. Разработкой новых (по отношению к современному состоянию теории представления знаний) способов построения составных обозначений понятий, пояснения смысла понятия с помощью других понятий, построения составных обозначений объектов, множеств объектов и сложных целей, представления фрагментов знаний, передаваемых фразами со словом "понятие", представления содержания дискурсов со ссылками на смысл фраз и более крупных фрагментов текста, построения модулей знаний, включающих метаданные о фрагментах знания.

4. Расширением возможностей проектирования языков представления содержания посланий компьютерных интеллектуальных агентов (КИА) в многоагентных системах, рассматриваемых в мире как ключевая технология, в частности, для реализации электронной коммерции; в том числе, возможностями использования аппарата СК-языков для построения протоколов коммерческих переговоров, осуществляемых КИА, и для формирования контрактов, заключаемых КИА в ходе таких переговоров.

5. Разработкой новой теории проектирования семантико-синтаксических анализаторов естественно-языковых текстов с использованием формальных средств представления входных, промежуточных и выходных данных, которая включает: (а) метод К-представлений; (б) формальную модель лингвистической базы данных, содержащей такую информацию о лексических единицах и их взаимосвязях с информационными единицами, которая достаточна для семантико-синтаксического анализа интересных для приложений подъязыков русского языка; (в) новый метод преобразования ЕЯ-текстов в их семантические представления; (г) структурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков естественного (русского) языка. Все результаты диссертации являются новыми и получены полностью автором. На защиту выносятся следующие основные научные результаты и положения:

1. Разработана математическая модель, перечисляющая первичные единицы концептуального уровня, используемые лингвистическим процессором, а также описывающая информацию, связанную с такими единицами и необходимую для соединения этих единиц в составные единицы, отображающие структурированные значения сколь угодно сложных (по гипотезе автора) ЕЯ-текстов. Модель включает определение нового класса формальных объектов, названных концептуальными базисами (к.б.), и исследование некоторых свойств к.б. К важным преимуществам этой модели относятся возможности формального различения обозначений понятий и объектов, характеризуемых этими понятиями, сущностей и множеств сущностей, множеств и упорядоченных наборов, а также учет существования функций, аргументами и/или значениями которых могут быть множества, в том числе множества СП текстов и множества понятий.

2. В развитие предыдущего результата построена математическая модель для описания содержания, т.е. структурированных значений (СЗ), предложений и сложных связных текстов (дискурсов) на ЕЯ (в частности, на русском и английском языках). Модель включает определение нового класса формальных языков, названных стандартными концептуальными языками (стандартными К-языками, СК-языками), и может рассматриваться как формальная грамматика нового вида. Сущность модели в том, что она задает

10 частичных операций на концептуальных структурах, с помощью которых за конечное число шагов можно построить семантическое представление (т. е. формальное представление СЗ) предложения или дискурса из чрезвычайно широкого подъязыка деловой прозы. Проведено математическое исследование формальных объектов, задаваемых этой моделью - выражений (или цепочек) СК-языков. В частности, доказана однозначность структурного анализа таких выражений. Исследованы выразительные возможности класса СК-языков.

3. Главное отличие комплекса идей, лежащих в основе построенной модели, от центральных идей наиболее популярных зарубежных подходов к формальному описанию содержания ЕЯ-текстов (теории представления дискурсов, теории концептуальных графов, эпизодической логики) заключается в том, что модель построена не добавлением нескольких новых выразительных механизмов к языку логики предикатов первого порядка, а как математическая модель нового вида, предназначенная для отображения способов построения СЗ произвольно сложных текстов деловой прозы. Следствием этого главного отличия являются, в частности, такие преимущества предложенной модели, как возможность построения формальных аналогов (на семантическом уровне) структурированных значений составных обозначений целей интеллектуальных систем (и, как следствие, советов, пожеланий, команд), сложных составных обозначений понятий и множеств объектов, СЗ ЕЯ-текстов со ссылками на смысл фраз и более крупных фрагментов текстов, СЗ предложений со словом "понятие", а также расширение числа способов использования логических связок "и", "или", "не". Указанные выразительные возможности можно интерпретировать и как основные преимущества построенной модели по сравнению с теорией расширенных семантических сетей, теорией неоднородных семантических сетей и компьютерной семантикой русского языка.

4. Совокупность научных результатов, полученных в главе 1 и главе 2, образует новый метод формального описания содержания (т.е. структурированных значений) предложений и связных естественноязыковых текстов (дискурсов) из широкого многообразия текстов деловой прозы, предоставляя новые возможности по сравнению с другими известными подходами к этой проблеме. Этот предложенный метод формального описания содержания ЕЯ-текстов назван методом К-представлений.

5. Аппарат СК-языков целесообразно использовать в качестве базового теоретического инструмента (а) автоматизированной разработки документации сложных технических систем (в частности, летательных, надводных и подводных аппаратов) и анализа такой документации на смысловую полноту и непротиворечивость, (б) разработки Интернет-систем нового поколения, сочетающих в себе черты информационно-поисковых (тематический поиск) и вопросо-ответных систем для представления результатов семантико-синтаксического анализа словосочетаний, предложений и дискурсов. Основные преимущества применения аппарата СК-языков по сравнению с известными подходами заключаются в расширении возможностей построения СП составных описаний объектов и множеств объектов, СП дискурсов со ссылками на смысл фраз и более крупных частей текста, обозначений составных целей и действий, построения СП выражений с однородными существительными.

6. Обоснована перспективность использования аппарата СК-языков для разработки семантического сетевого языка нового поколения с выразительными возможностями, превышающими возможности языка который используется в ряде проектов, направленных на создание универсального языка-посредника с целью устранения языкового барьера между пользователями сети Интернет из разных стран. К потенциальным преимуществам такой новой версии относятся: (1) наличие теоретического подхода к построению семантических представлений сложных дискурсов, относящихся к произвольным предметным областям; (2) реализация способа построения обозначений составных концептов в виде выражений СК-языков, более адекватно отвечающего задаче компьютерной смысловой обработки ЕЯ-текстов по сравнению с комплексами языка 1ЖЬ; (3) предоставление более широких выразительных средств формального отображения связей между определяемым понятием и понятиями, входящими в толкование его смысла; (4) разделение описания формы выражений семантического сетевого языка и введения конкретных информационных единиц; (5) создание предпосылок построения формальных моделей таких подсистем семантико-синтаксических анализаторов, которые обрабатывают промежуточные СП текстов для построения фрагментов целевого СП входного текста; (6) отсутствие привязки первичных информационных единиц к английскому языку.

7. По сравнению с известными подходами к разработке языков представления знаний о мире в прикладных интеллектуальных системах (в частности, терминологических языков представления знаний) предложенный в диссертации аппарат СК-языков вносит в теорию представления знаний новые способы построения составных обозначений понятий, пояснения смысла понятия с помощью других понятий, построения составных обозначений объектов, множеств объектов и сложных целей, представления фрагментов знаний, передаваемых фразами со словом понятие, представления содержания дискурсов со ссылками на смысл фраз и более крупных фрагментов текста, построения модулей знаний, включающих метаданные о фрагментах знания. Эти новые способы формирования конструкций из семантических единиц представляются перспективными для разработки онтологий предметных областей с выразительными возможностями, превышающими возможности существующих онтологий.

8. Показано, что аппарат СК-языков расширяет возможности проектирования языков представления содержания посланий компьютерных интеллектуальных агентов (КИА) в многоагентных системах, рассматриваемых в мире как ключевая технология, в частности, для реализации электронной коммерции. Обоснована возможность использования аппарата СК-языков для построения протоколов коммерческих переговоров, осуществляемых КИА, и для формирования контрактов, заключаемых КИА в ходе таких переговоров. К основным преимуществам СК-языков в этом отношении относятся возможность строить формальные аналоги (на семантическом уровне) (а) инфинитивных конструкций, выражающих цели, предложения (в том числе о выпуске продукции и поставке товаров), обязательства и (б) дискурсов со ссылками на смысл фраз и более крупных фрагментов текста, а также возможность построения СП текстов, отражающих метаданные текста как информационного объекта.

9. Предложен метод формализации дополнительных предположений о первичных информационных единицах, используемых лингвистическими процессорами, с помощью понятия размеченного концептуального базиса. Суть этого понятия заключается во введении ряда обозначений для первичных единиц концептуального уровня и формальном описании свойств таких единиц с целью их единообразного использования при построении СП ЕЯ-текстов в разных предметных областях, в том числе при построении СП вопросов, команд, составных описаний множеств.

10. Предложено формальное понятие морфологического базиса. Это понятие дает оригинальную математическую интерпретацию морфологических систем многих естественных языков, включая русский, английский и немецкий языки. Преимуществом этой интерпретации является ее высокий уровень общности, позволяющий рассматривать морфологический анализ слов языка в качестве составной части семантико-синтаксического анализа текстов без углубления в детали морфологического анализа. Предложено формальное понятие морфологического базиса Р-типа (русскоязычного типа), отражающее особенности морфологии русского языка.

11. Разработана формальная модель лингвистической базы данных (ЛБД), содержащей такие сведения о лексических единицах и их взаимосвязях с информационными единицами, которые достаточны для семантико-синтаксического анализа интересных для приложений подъязыков русского языка. С этой целью определено формальное понятие лингвистического базиса. Главное отличие построенной модели от большинства известных подходов к описанию логической структуры ЛБД заключается в том, что ЛБД описывается не с помощью таблиц (или рисунков) и неформальных описаний характера данных в таких таблицах, а как представитель строго математически определенного класса объектов, называемых лингвистическими базисами.

12. Разработан новый метод преобразования ЕЯ-текстов в их семантические представления (СП). Метод предусматривает использование предложенного автором матричного семантико-синтаксического представления (МССП) входного текста как промежуточного представления при переходе от ЕЯ-текста к СП текста, являющемуся выражением некоторого СК-языка (т.е. К-представлением текста). При этом не используется традиционное синтаксическое представление текста. Важное преимущество метода заключается в том. что он позволяет уменьшить сложность изложения логики функционирования семантико-синтаксических анализаторов ЕЯ-текстов. Являясь формальной структурой, МССП текста оказывается значительно более удобной отправной точкой описания процесса построения СП ЕЯ-текста по сравнению с самим текстом.

13. Предложен новый метод формального описания предположений о струюуре входных текстов ЛП на основе комбинированного использования аппарата бесконтекстных (или контекстно-свободных) грамматик и введенного в диссертации понятия лингвистического базиса. Преимуществами этого метода являются возможности использования в продукциях бесконтекстных грамматик (а) только базовой формы слова (лексемы) вместо совокупности слов с данной лексемой, (б) только обозначения части речи вместо множества всех словоформ, относящихся к данной части речи, (в) только обозначения подкласса части речи вместо множества всех словоформ, относящихся к данному подклассу части речи, (г) только сорта числового значения параметра вместо подмножества продукций, порождающих все цепочки, представляющие все числовые значения данного параметра.

14. Разработан сложный структурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков естественного (русского) языка. Этот алгоритм является композицией двух построенных автором алгоритмов: (а) структурированного алгоритма преобразования текстов из представляющих практический интерес подъязыков естественного (русского) языка в их матричные семантико-синтаксические представления; тексты могут выражать высказывания, вопросы и команды, включающие, в частности, составные обозначения множеств, причастные обороты и придаточные определительные предложения; б) структурированного алгоритма преобразования МССП входного текста в его К-представление семантическое представление, являющееся выражением некоторого СК-языка.

Главное отличие и преимущество разработанного алгоритма по сравнению с другими существующими алгоритмами семантико-синтаксического анализа текстов заключается в том, что он описывается не средствами какокй-либо системы программирования, а полностью с помощью предложенной системы формальных понятий, что делает этот алгоритм независимым от прграммной реализации и предметной области.

Работоспособность предложенного структурированного алгоритма семантико-синтаксического анализа текстов из подъязыков естественного (русского) языка доказана успешным созданием на его основе семейства экспериментальных русскоязычных интерфейсов прикладных компьютерных систем, реализованных в программных средах Turbo Pascal 7.0, Delphi 4.0, Borland С++ 3.1, Visual С++, PHP.

15. Совокупность научных результатов, полученных в главах 1, 2, 4, 5, и часть научных результатов главы 3 образуют новую теорию проектирования семантико-синтаксических анализаторов естественно-языковых текстов с использованием формальных средств представления входных, промежуточных и выходных данных.

Совокупность теоретических положений, разработанных в диссертации на основании выполненных автором исследований, может быть квалифицирована как новое крупное научное достижение в области разработки математического и программного обеспечения вычислительных машин, комплексов и компьютерных сетей.

Достоверность результатов, полученных в диссертационной работе, обусловлена корректностью математических определений и доказательств; согласованностью результатов с известными подходами, представленными в отечественной и зарубежной литературе; работоспособностью разработанных компьютерных программ, реализующих предложенные алгоритмы и использующих предложенную в диссертации логическую структуру лингвистической базы данных (ЛБД); успешным использованием в учебном процессе определения класса СК-языков, формальной модели ЛБД и алгоритма семантико-синтаксического анализа ЕЯ-текстов, а также объективным анализом полученных результатов.

Практическая ценность и предложения по использованию результатов.

Диссертация носит теоретический характер. Ее практическая ценность заключается в

- разработке определения нового класса формальных языков (класса СК-языков) и базирующегося на этом определении нового метода формального отображения содержания (смысла) ЕЯ-текстов (метода К-представлений), который впервые предоставляет проектировщикам ЛП формальные средства отображения содержания сложных связных ЕЯ-текстов, а также содержания фраз некоторых видов (в частности, фраз со словом "понятие", часто встречающихся в учебниках и энциклопедических изданиях);

- анализе перспектив, открываемых определением класса СК-языков для разработки семантического сетевого языка нового поколения с выразительными возможностями, превышающими возможности языка-посредника ЦЫЬ;

- выявлении широкого спектра новых возможностей, которые определение класса СК-языков и метод К-представлений предоставляют разработчикам языков представления знаний о мире и разработчикам информационного обеспечения многоагентных систем, в том числе разработчикам языков отображения содержания посланий компьютерных интеллектуальных агентов (КИА) и разработчикам языков представления содержания коммерческих переговоров, осуществляемых КИА в области электронной коммерции, а также языков формирования контрактов, заключаемых КИА в ходе переговоров;

- построении формальной модели лингвистической базы данных (ЛБД), которая в компактной форме, не зависящей от предметной области и среды программирования, задает логическую структуру широко применимых ЛБД ЕЯ-интерфейсов прикладных компьютерных систем;

- разработке новой формы представления промежуточных результатов семантико-синтаксического анализа ЕЯ-текстов - матричного семантико-синтаксического представления текста;

- разработке широко применимого структурированного алгоритма семантико-синтаксического анализа предложений (высказываний, вопросов, команд) из представляющих практический интерес подъязыков русского языка.

Результаты диссертации могут быть использованы в работе организаций, занимающихся проектированием лингвистических процессоров, языков представления знаний в онтологиях (в частности, в онтологиях, предназначенных для реализации информационных образовательных технологий), электронных библиотек, семантических сетевых языков, а также созданием информационного обеспечения многоагентных систем, в том числе в области электронной коммерции.

Реализация результатов. Полученные в диссертации результаты нашли применение в проектировании информационного и программного обеспечения прикладных компьютерных систем, а также в учебном процессе.

Аппарат СК-языков был применен при разработке информационного обеспечения Машинного фонда русского языка в Институте русского языка РАН для создания широко применимого языка построения семантических представлений фраз и дискурсов.

Аппарат СК-языков, формальная модель ЛБД, новый метод преобразования "ЕЯ-тексг ^ Семантическое представление текста" и ряд базовых процедур, входящих в состав структурированного алгоритма семантико-синтаксического анализа ЕЯ-тексгов, были использованы для разработки информационного обеспечения (языки для построения семантических представлений текстов, ЛБД) и программного обеспечения ЛП следующих прикладных компьютерных систем:

- экспертной системы технической диагностики и интеллектуальной базы данных автоматизированного склада в исследованиях по созданию гибких производственных систем механообработки, выполнявшихся в МИЭМ в соответствии с Комплексно-целевой программой "ЛОТОС";

- интеллектуальной базы данных, предназначенной для подбора вин и составления ресторанной винной карты в ходе взаимодействия конечного пользователя с \¥еЬ-сайтом Российской ассоциации сомелье (РАС) и \№еЬ-сайтом Интернет-магазина, разработанного при поддержке РАС;

- интеллектуальной консультационной системы, предназначенной для освоения прикладных компьютерных программ (ООО "ПРО-ИНВЕСТ-ИТ", Москва).

Указанные применения подтверждены актами внедрения, приведенными в Приложении 2 к данной диссертационной работе.

На основе научных результатов, полученных в диссертационной работе, были разработаны и успешно апробированы в течение ряда лет семестровые курсы лекций по новым дисциплинам: "Лингвистические информационные технологии", "Глобальные информационные сети и дистанционное обучение" на факультете прикладной математики в МИЭМ, "Теоретические основы лингвистических информационных технологий", "Математическая лингвистика" и "Проектирование лингвистических процессоров" в "МАТИ" - Российском государственном технологическом университете им. К.Э.Циолковского; с 1994 г. по 2003 г. проводились занятия сначала спецсеминара "Математическая лингвокибер-нетика", а затем спецсеминара "Теория текстовых баз знаний" для студентов и аспирантов механико-математического факультета МГУ им. М.В. Ломоносова; проводятся лабораторные работы в МАТИ, посвященные проектированию ЕЯ-интерфейсов; защищено на "отлично" более 25 дипломных работ в МИЭМ, МАТИ и на мехмате МГУ им. М.В. Ломоносова, руководителем и консультантом которых был автор данной диссертационной работы; в МИЭМ осуществляется подготовка аспирантов в области теории и конструирования лингвистических информационных технологий.

Апробация работы и публикации. Результаты диссертации в 1983-2005 годах многократно докладывались на всесоюзных и московских научных семинарах, всесоюзных, всероссийских и международных конференциях, симпозиумах и конгрессах, в том числе на семинаре по искусственному интеллекту в Институте проблем управления (рук. акад. Г.С.Поспелов), на семинаре отдела когнитивных и компьютерных технологий Института системного анализа РАН (рук. чл.-корр. РАН В.Л. Арлазаров), на семинаре МИЭМ "Устойчивость и управление" (рук. акад. АН Высшей Школы В.Н.Афанасьев, проф. В.Б.Колмановский, проф. В.М.Носов), на Всероссийских семинарах общества "Знание" в Московском доме научной и технической пропаганды, на семинаре кафедры дискретной математики МГУ (рук. акад. РАН О.Б.Лупанов), на семинаре по искусственному интеллекту кафедры математической теории интеллектуальных систем МГУ (рук. акад. Академии технологических наук В.Б.Кудрявцев), на Всесоюзной конференции по информатике (Ереван, 1987), на Всесоюзной конференции по Машинному фонду русского языка (Москва, МГУ, 1987), на Международных семинарах по дискретной математике и ее применениям (Москва, механико-математический факультет МГУ, 1998, 2001), на XII и XIII Международных конференциях по теоретическим проблемам кибернетики (Нижний Новгород, 1999; Казань, 2002), на

1 Междун. симпозиуме ИФАК по искусственному интеллекту (Ленинград, 1983), на Междун. конференции "Алгебраические методы в обработке естественного языка" (Энсхеде, Нидерланды, 1995), на 1 Междун. симпозиуме по базам данных, Веб-системам и кооперативным системам (Германия, 1999), на Междун. конференции по компьютерно-ориентированной теории систем (Технический университет Вены, Австрия, 1999), на Междун. симпозиуме по интеллеюуальным программным системам для новой инфоструктуры (Германия, 2004), на 5-й Междун. конференции по гибким вопросо-ответным системам (Копенгаген, Дания, 2002), на Междун. конференции Диалог'2004 по компьютерной лингвистике и интеллеюуальным технологиям (Россия), на 6-й Междун. конференции по электронной коммерции и Веб-технологиям (Копенгаген, Дания, 2005).

Все основные результаты диссертации опубликованы. По теме диссертации автором опубликовано 69 печатных работ (включая 27 работ на английском языке), в том числе одна монография Список основных публикаций приведен в конце автореферата. В каждой из работ, выполненных в соавторстве (таких работ 9), не менее половины результатов получено автором данной диссертации. Опубликованные материалы отражают основное содержание диссертации. Структура работы. Диссертация состоит из введения, пяти глав, списка литературы и двух приложений. Приложение 1 содержит доказательства двух лемм и базирующегося на них доказательства одного из утверждений из Главы 2. Приложение 2 включает копии 7 актов об использовании результатов диссертационной работы в научно-технических исследованиях и учебном процессе. Глава 1 разбита на 10 параграфов, глава 2 - на 12 параграфов, глава 3 - на 7 параграфов, глава 4 - на 12 параграфов, глава 5 - на 15 параграфов. Список литературы содержит 301 наименование. Общий объем работы составляет 392 страницы текста (включая 29 страниц приложений). Работа содержит 22 рисунка и

Заключение диссертация на тему "Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров"

5.15. Выводы по материалам главы 5

1. Предложен новый метод формального описания предположений о структуре входных текстов лингвистического процессора на основе комбинированного использования аппарата бесконтекстных (или контекстно-свободных) грамматик и введенного в диссертации понятия лингвистического базиса. Преимуществами этого метода являются возможности использования в продукциях бесконтекстных грамматик (а) только базовой формы слова (лексемы) вместо совокупности слов с данной лексемой, (б) только обозначения части речи вместо множества всех словоформ, относящихся к данной части речи, (в) только обозначения подкласса части речи вместо множества всех словоформ, относящихся к данному подклассу части речи, (г) только сорта числового значения параметра вместо подмножества продукций, порождающих все цепочки, представляющие все числовые значения данного параметра.

2. Разработан сложный структурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков естественного (русского) языка. Этот алгоритм является композицией двух построенных автором алгоритмов: а) структурированного алгоритма преобразования текстов из представляющих практический интерес подъязыков естественного (русского) языка в их матричные семантико-синтаксические представления; тексты могут выражать высказывания, вопросы и команды, включающие, в частности, составные обозначения множеств, причастные обороты и придаточные определительные предложения; (б) структурированного алгоритма преобразования МССП входного текста в его К-представление - семантическое представление, являющееся выражением некоторого СК-языка.

Главное отличие и преимущество разработанного алгоритма по сравнению с другими существующими алгоритмами семантико-синтаксического анализа

327 текстов заключается в том, что он описывается не средствами какой-либо системы программирования, а полностью с помощью предложенной системы формальных понятий, что делает этот алгоритм независимым от программной реализации и предметной области. Работоспособность предложенного алгоритма семантико-синтаксического анализа текстов из подъязыков естественного (русского) языка доказана успешным созданием на его основе семейства экспериментальных русскоязычных интерфейсов прикладных компьютерных систем, реализованных в программных средах Turbo-Pascal 7.0, Delphi 4.0, Borland С++ 3.1, Visual С++, PHP.

3. Совокупность научных результатов, полученных в главах 1, 2, 4, 5, и часть научных результатов главы 3 образуют новую теорию проектирования семантико-синтаксических анализаторов естественно-языковых текстов с использованием формальных средств представления входных, промежуточных и выходных данных. Эта теория включает: (а) метод IC-представлений; (б) формальную модель лингвистической базы данных, содержащей такую информацию о лексических единицах и их взаимосвязях с информационными единицами, которая достаточна для семантико-синтаксического анализа интересных для приложений подъязыков русского языка; (в) новый метод преобразования ЕЯ-текстов в их семантические представления; (г) струюурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков естественного (русского) языка.

ЗАКЛЮЧЕНИЕ ПО ДИССЕРТАЦИИ

Результаты данной диссертации дают не только продвижение вперед, но и качественный скачок в области разработки формальных средств и методов проектирования алгоритмов семантико-синтаксического анализа ЕЯ-текстов. Этот качественный скачок обусловлен следующими основными факторами:

1. Разработчики лингвистических процессоров (ЛП) получили систему правил (причем компактную, состоящую всего из 10 основных правил), позволяющих, по гипотезе автора, строить семантические представления (СП) произвольных текстов деловой прозы, т.е. текстов по экономике, технике, медицине, юриспруденции и т.д. Это означает, что созданы

228 предпосылки разработки эффективных процедур построения СП ЕЯ-текстов и процедур обработки СП ЕЯ-текстов (в контексте содержания предшествующей части текста или диалога, в рамках знаний о предметной области и т.д.), которые можно будет использовать в разных областях и развивать возможности этих процедур при возникновении новых задач.

2. Впервые построена широко применимая формальная модель лингвистической базы данных.

3. Разработан практически полезный сложный структурированный алгоритм семантико-синтаксического анализа, который описывается не средствами какой-либо системы программирования, а полностью с помощью предложенной системы формальных понятий, что делает этот алгоритм независимым от программной реализации и предметной области.

Часть полученных результатов будет полезна и при проектировании компьютерных программ, синтезирующих ЕЯ-тексты по их семантическим представлениям, а также для создания языков представления содержания посланий компьютерных интеллектуальных агентов в многоагентных системах и для разработки логико-информационных основ электронной коммерции.

Все научные результаты диссертационной работы являются новыми и получены полностью автором. На защиту выносятся следующие основные научные результаты и положения:

1. Разработана математическая модель, перечисляющая первичные единицы концептуального уровня, используемые ЛП, а также описывающая информацию, связанную с такими единицами и необходимую для соединения этих единиц в составные единицы, отображающие структурированные значения сколь угодно сложных (по гипотезе автора) ЕЯ-текстов. Модель включает определение нового класса формальных объектов, названных концептуальными базисами (к.б.), и исследование некоторых свойств к.б. К важным преимуществам этой модели относятся возможности формального различения обозначений понятий и объектов, характеризуемых этими понятиями, сущностей и множеств сущностей, множеств и упорядоченных наборов, а также учет существования функций, аргументами и/или значениями которых могут быть множества, в том числе множества СП текстов и множества понятий.

2. В развитие предыдущего результата построена математическая модель для описания содержания, т.е. структурированных значений (СЗ), предложений и сложных связных текстов (дискурсов) на ЕЯ (в частности, на русском и английском языках). Модель включает определение нового класса формальных языков, названных стандартными концептуальными языками (стандартными К-языками, СК-языками), и может рассматриваться как формальная грамматика нового вида. Сущность модели в том, что она задает 10 частичных операций на концептуальных структурах, с помощью которых за конечное число шагов можно построить семантическое представление (т. е. формальное представление СЗ) предложения или дискурса из чрезвычайно широкого подъязыка деловой прозы. Проведено математическое исследование формальных объектов, задаваемых этой моделью - выражений СК-языков. В частности, доказана однозначность структурного анализа таких выражений. Исследованы выразительные возможности класса СК-языков.

3. Главное отличие комплекса идей, лежащих в основе построенной модели, от центральных идей наиболее популярных зарубежных подходов к формальному описанию содержания ЕЯ-текстов (теории представления дискурсов, теории концептуальных графов, эпизодической логики) заключается в том, что модель построена не добавлением нескольких новых выразительных механизмов к языку логики предикатов первого порядка, а как математическая модель нового вида, предназначенная для отображения способов построения СЗ произвольно сложных текстов деловой прозы. Следствием этого главного отличия являются, в частности, такие преимущества предложенной модели, как возможность построения формальных аналогов (на семантическом уровне) структурированных значений составных обозначений целей интеллектуальных систем (и, как следствие, советов, пожеланий, команд), сложных составных обозначений понятий и множеств объектов, СЗ ЕЯ-текстов со ссылками на смысл фраз и более крупных фрагментов текстов, СЗ предложений со словом "понятие", а также расширение числа способов использования логических связок "и", "или", "не". Указанные выразительные возможности можно интерпретировать и как основные преимущества построенной модели по сравнению с теорией

330 расширенных семантических сетей, теорией неоднородных семантических сетей и компьютерной семантикой русского языка.

4. Совокупность научных результатов, полученных в главе 1 и главе 2, образует новый метод формального описания содержания (т.е. структурированных значений) предложений и связных естественноязыковых текстов (дискурсов) из широкого многообразия текстов деловой прозы, предоставляя новые возможности по сравнению с другими известными подходами к этой проблеме. Этот предложенный метод формального описания содержания ЕЯ-текстов назван методом К-представлений.

5. Аппарат СК-языков целесообразно использовать в качестве базового теоретического инструмента (а) автоматизированной разработки документации сложных технических систем (в частности, летательных, надводных и подводных аппаратов) и анализа такой документации на смысловую полноту и непротиворечивость, (б) разработки Интернет-систем нового поколения, сочетающих в себе черты информационно-поисковых (тематический поиск) и вопросо-ответных систем для представления результатов семанти-ко-синтаксического анализа словосочетаний, предложений и дискурсов. Основные преимущества применения аппарата СК-языков по сравнению с известными подходами заключаются в расширении возможностей построения СП составных описаний объектов и множеств объектов, СП дискурсов со ссылками на смысл фраз и более крупных частей текста, обозначений составных целей и действий, построения СП выражений с однородными существительными.

6. Обоснована перспективность использования аппарата СК-языков для разработки семантического сетевого языка нового поколения с выразительными возможностями, превышающими возможности языка ЦЖ, который используется в ряде проектов, направленных на создание универсального языка-посредника с целью устранения языкового барьера между пользователями сегги Интернет из разных стран. К потенциальным преимуществам такой новой версии относятся: (1) наличие теоретического подхода к построению семантических представлений сложных дискурсов, относящихся к произвольным предметным областям; (2) реализация способа

331 построения обозначений составных концептов в виде выражений СК-языков, более адекватно отвечающего задаче компьютерной смысловой обработки ЕЯ-текстов по сравнению с комплексами языка ЦЫЬ; (3) предоставление более широких выразительных средств формального отображения связей между определяемым понятием и понятиями, входящими в толкование его смысла; (4) разделение описания формы выражений семантического сетевого языка и введения конкретных информационных единиц; (5) создание предпосылок построения формальных моделей таких подсистем семантико-синтаксических анализаторов, которые обрабатывают промежуточные СП текстов для построения фрагментов целевого СП входного текста; (6) отсутствие привязки первичных информационных единиц к английскому языку.

7. По сравнению с известными подходами к разработке языков представления знаний о мире в прикладных интеллектуальных системах (в частности, терминологических языков представления знаний) предложенный в диссертации аппарат СК-языков вносит в теорию представления знаний новые способы построения составных обозначений понятий, пояснения смысла понятия с помощью других понятий, построения составных обозначений объектов, множеств объектов и сложных целей, представления фрагментов знаний, передаваемых фразами со словом понятие, представления содержания дискурсов со ссылками на смысл фраз и более крупных фрагментов текста, построения модулей знаний, включающих метаданные о фрагментах знания. Эти новые способы формирования конструкций из семантических единиц представляются перспективными для разработки онтологий предметных областей с выразительными возможностями, превышающими возможности существующих онтологий.

8. Показано, что аппарат СК-языков расширяет возможности проектирования языков представления содержания посланий компьютерных интеллектуальных агентов (КИА) в многоагентных системах, рассматриваемых в мире как ключевая технология, в частности, для реализации электронной коммерции. Обоснована возможность использования аппарата СК-языков для построения протоколов коммерческих переговоров, осуществляемых КИА, и для формирования контрактов, заключаемых КИА в ходе таких

332 переговоров. К основным преимуществам СК-языков в этом отношении относятся возможность строить формальные аналоги (на семантическом уровне) (а) инфинитивных конструкций, выражающих цели, предложения (в том числе о выпуске продукции и поставке товаров), обязательства и (б) дискурсов со ссылками на смысл фраз и более крупных фрагментов текста, а также возможность построения СП текстов, отражающих метаданные текста как информационного объекта.

9. Предложен метод формализации дополнительных предположений о первичных информационных единицах, используемых лингвистическими процессорами, с помощью понятия размеченного концептуального базиса. Суть этого понятия заключается во введении ряда обозначений для первичных единиц концептуального уровня и формальном описании свойств таких единиц с целью их единообразного использования при построении СП ЕЯ-текстов в разных предметных областях, в том числе при построении СП вопросов, команд, составных описаний множеств.

10. Предложено формальное понятие морфологического базиса. Это понятие дает оригинальную математическую интерпретацию морфологических систем многих естественных языков, включая русский, английский и немецкий языки. Преимуществом этой интерпретации является ее высокий уровень общности, позволяющий рассматривать морфологический анализ слов языка в качестве составной части семантико-синтаксического анализа текстов без углубления в детали морфологического анализа. Предложено формальное понятие морфологического базиса Р-типа (русскоязычного типа), отражающее особенности морфологии русского языка.

11. Разработана формальная модель лингвистической базы данных (ЛБД), содержащей такие сведения о лексических единицах и их взаимосвязях с информационными единицами, которые достаточны для семантико-синтаксического анализа интересных для приложений подъязыков русского языка. С этой целью определено формальное понятие лингвистического базиса. Главное отличие построенной модели от большинства известных подходов к описанию логической структуры ЛБД заключается в том, что ЛБД описывается не с помощью таблиц (или рисунков) и неформальных описаний характера данных в таких таблицах, а как представитель строго математически определенного класса объектов.

12. Разработан новый метод преобразования ЕЯ-текстов в их семантические представления (СП). Метод предусматривает использование предложенного автором матричного семантико-синтаксического представления (МССП) входного текста как промежуточного представления при переходе от ЕЯ-текста к СП текста, являющемуся выражением некоторого СК-языка (т.е. К-представлением текста). При этом не используется традиционное синтаксическое представление текста. Важное преимущество метода заключается в том, что он позволяет уменьшить сложность изложения логики функционирования семантико-синтаксических анализаторов ЕЯ-текстов. Являясь формальной структурой, МССП текста оказывается значительно более удобной отправной точкой описания процесса построения СП ЕЯ-текста по сравнению с самим текстом.

13. Предложен новый метод формального описания предположений о структуре входных текстов ЛП на основе комбинированного использования аппарата бесконтекстных (или контекстно-свободных) грамматик и введенного в диссертации понятия лингвистического базиса. Преимуществами этого метода являются возможности использования в продукциях бесконтекстных грамматик (а) только базовой формы слова (лексемы) вместо совокупности слов с данной лексемой, (б) только обозначения части речи вместо множества всех словоформ, относящихся к данной части речи, (в) только обозначения подкласса части речи вместо множества всех словоформ, относящихся к данному подклассу части речи, (г) только сорта числового значения параметра вместо подмножества продукций, порождающих все цепочки, представляющие все числовые значения данного параметра.

14. Разработан сложный структурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков естественного (русского) языка. Этот алгоритм является композицией двух построенных автором алгоритмов: (а) структурированного алгоритма преобразования текстов из представляющих практический интерес подъязыков естественного (русского) языка в их матричные семантико-синтак

334 сические представления; тексты могут выражать высказывания, вопросы и команды, включающие, в частности, составные обозначения множеств, причастные обороты и придаточные определительные предложения; б) структурированного алгоритма преобразования МССП входного текста в его К-представление - СП, являющееся выражением некоторого СК-языка.

Главное отличие и преимущество разработанного алгоритма по сравнению с другими существующими алгоритмами семантико-синтаксического анализа текстов заключается в том, что он описывается не средствами какокй-либо системы программирования, а полностью с помощью предложенной системы формальных понятий, что делает этот алгоритм независимым от прграммной реализации и предметной области.

Работоспособность предложенного структурированного алгоритма семантико-синтаксического анализа текстов из подъязыков естественного (русского) языка доказана успешным созданием на его основе семейства экспериментальных русскоязычных интерфейсов прикладных компьютерных систем, реализованных в программных средах Turbo-Pascal 7.0, Delphi 4.0, Borland С++, Visual С++, PHP. 15. Совокупность научных результатов, полученных в главах 1, 2, 4, 5, и часть научных результатов главы 3 образует новую теорию проектирования семантико-синтаксических анализаторов естественно-языковых текстов с использованием формальных средств представления входных, промежуточных и выходных данных. Эта теория включает: (а) метод K-представлений; (б) формальную модель лингвистической базы данных, содержащей такую информацию о лексических единицах и их взаимосвязях с информационными единицами, которая достаточна для семантико-синтаксического анализа интересных для приложений подъязыков русского языка; (в) новый метод преобразования ЕЯ-текстов в их семантические представления; (г) структурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков естественного (русского) языка.

Совокупность теоретических положений, разработанных в диссертации на основании выполненных автором исследований, может быть квалифицирована как новое крупное научное достижение в области разработки математического и программного обеспечения вычислительных машин, комплексов и компьютерных сетей.

Библиография Фомичев, Владимир Александрович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1.1 Агранат Т Б, Кулагина ОС О приименных придаточных при автоматическом анализе текстов Диалог 2000 Теоретические проблемы Труды международного семинара Диалог 2000 по компьютерной лингвистике и ее приложениям Т 1 Протвино 2000-С 11-15

2. Апресян Ю Д, Богуславский И M, Иомдин Л Л и др Лингвистическое обеспечение в системе автоматического перевода ЭТАП-1 // Разработка формальной модели естественного языка Новосибирск ВЦ СО АН СССР -1981

3. Апресян Ю Д, Богуславский И M, Иомдин Л Л и др Лингвистическое обеспечение системы ЭТАП-2 M Наука, 1989

4. Апресян ЮД, Цинман Л Л Об идеологии системы ЭТАП-2 // Формальное представление лингвистической информации Новосибирск ВЦ СО АН СССР -1982

5. Арлазаров В Л, Журавлев Ю M, Ларичев О И, Лохин В M, Макаров И M, Рахманкулов В 3, Финн В К Теория и методы создания интеллектуальных компьютерных систем// Информационные технологии и вычислительные системы 1998, № 1, С 3-13

6. Вагин В H Дедукция и обобщение в системах принятия решений // M Наука, Главная редакция физ-матем литературы, 1988 -383 с

7. Валгина H С, Розенталь Д Э, Фомина M И Современный русский язык Под редакцией H С Вапгиной Издание шестое, переработанное и дополненное M. Лотос, 2003 -528 с

8. Ю.Воробьева ГФ, Панюшева МС, Толстой ИВ Современный русский язык Синтаксис M • Русский язык, 1975 192 с

9. Гаврилова Т А, Хорошевский В Ф Базы знаний интеллектуальных систем Санкт-Петербург, ПИТЕР, 2000 382 С.

10. Гаврилова Т А Использование онтологии в системах управления знаниями // Труды Международного конгресса «Искусственный интеллект в XXI веке» Россия, Дивноморское, 2001 С 21-32

11. Гладкий AB Синтаксические структуры естественного языка в автоматизированных системах общения M Наука 1985

12. Городецкий В И Многоагентные системы основные свойства и модели координации поведения// Информационные технологии и вычислительные системы 1998, №1, с 22-34

13. Добров Б В , Лукашевич H В, Невзорова О А, Федунов Б Е Методы и сресдства автоматизированного проектирования прикладной онтологии // Известия АН Теория и системы управления 2004 № 2 58-68

14. Дракин В И, Попов Э В, Преображенский А Б Общение конечных пользователей с системами обработки данных M Радио и связь, 1988 -288с

15. Емельянов С В О проблемах интеграции России в международную информационную сеть Интернет // Информационные технологии и вычислит системы 1996, № 3, с 3-7

16. Ермаков А Е Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии Труды Междун семинара Диалог'2002 В двух томах Т 2 Прикладные проблемы M, Наука, 2002 -С. 180-185

17. Ермаков А Е, Киселев С Л Лингвистическая модель для компьютерного анализа тональности публикаций СМИ // Компьютерная лингвистика и интеллектуальные технологии Труды Междунар конф Диалог'2005 (Звенигород, 1 7 июня 2005 г ) С 136-140

18. Ершов АП Машинный фонд русского языка внешняя постановка // Машинный фонд русского языка идеи и суждения / Под ред Ю H Караулова, M Наука, 1986, С 7-12

19. Ершов Ю Л, Палютин Е А Математическая логика M • Наука, 1979 320 с

20. Калиниченко Л A, Скворцов H A, Брюхов Д О, Кравченко Д В, Чабан И А Проектирование персонализированных электронных библиотек над web-сайтами со слабоструктурированными данными //Программирование, 2000, № 3 С 9-22

21. Киселев С Л, Ермаков А Е, Плешко В В Поиск фактов в тексте естественного языка на основе сетевых описаний // Компьютерная лингвистика и интеллектуальные технологии Труды Междунар конф Диалог'2004 (Верхневолжский, 2 7 июня 2004 г ) С 282-285

22. Клыков Ю И, Горьков Л H Банки данных для принятия решений // M Советское радио, 1980,-208 с

23. Клышинский Э С. Одна модель построения агента// ИУ' 99 1999 - С 126

24. Когаловский M Р Систематика коллекций информационных ресурсов в электронных библиотеках // Программирование 2000 № 3 С 31 -52.

25. Когаловский M Р, Новиков Б А Электронные библиотеки новый класс информационных систем (от составителей выпуска) // Программирование 2000 № 3 С 38

26. Королев АН Интеллектуальная поисковая система лингвистический аспект // Новости искусственного интеллекта 2003. № 2 С 34-36

27. Кузин Е С Информационные технологии и проектирование прикладных программных систем // Информационные технологии и вычислительные системы РАН, 1996 №3

28. Кузин Е С Функционально-ориентированное проектирование прикладных программных систем информационная технология для среднего класса пользователей//Проблемы информатизации 1999 №4

29. Кузин Е С Концепции информационной технологии функционально-ориентированного проектирования прикладных информационных систем // Информационные технологии 2000 № 1

30. Кузин Е С Информационно-сложные задачи и технология их решения // Новости искусственого интеллекта 2003 № 1 С 24-29

31. Кузин ЕС Представление знаний и решение информационно-сложных задач в компьютерных системах // Приложение к журналу "Информационные технологии" 2004 №4 С 1-32

32. Кузнецов Б А, Солнцева Е К, Деревянкин М В , Закамская Д В Обработка запросов на естественном языке новое качество поиска в БД ВИНИТИ // НТИ Серия 2 Информационные процессы и системы 2001 №11 -С 31-37

33. Кузнецов И П Кибернетические диалоговые системы // М- Наука, 1976, 299с

34. Кузнецов И П Механизмы обработки семантической информации // М Наука, 1978

35. Кузнецов И П Семантические представления//М Наука, 1986 290 с

36. Кузнецов ИП, Мацкевич А Г. Особенности организации базы предметных и лингвистических знаний в системе АНАЛИТИК // Компьютерная лингвистика и интеллектуальные технологии Труды Междун конференции Диалог'2003 (Протвино, 11-16 июня 2003 г.) С 373 378

37. Кузнецов И П, Шарнин М М Интеллектуальный редактор знаний на основе расширенных семантических сетей // В сб И А Мизин (отв ред), Системы и средства информатики Вып 5 М Наука, 1993 С 14-21

38. Кулагина О С О проблемах автоматической обработки текстов на естественных языках Интеллектуальные системы Т 1, вып 1-4 -М, 1996 -С 109-116

39. Кулагина О С О параметрическом представлении смысла слов Математические вопросы кибернетики вып 7, -М Наука, 1998-С 325-332

40. Кулагина ОС Об одном подходе к установлению отношений между простыми предложениями в составе сложного при автоматическом анализе текстов Математические вопросы кибернетики вып 10, -М . Физматгиз, 2001 -С 15-34

41. Курбатов С С Автоматизированное построение естественно-языкового интерфейса для реляционных баз данных // Новости искусственного интеллекта 2002 №2 С 17-21

42. Курбатов С С, Попов Э В Автоиатическое формирование SQL-программы по структурированному описанию запроса к базе данных на естественном языке // Междун конгресс "Искусственный интеллект в XXI веке ICAT200I, 3-8 сентября М Физматлит 2001-С 133-142

43. Лахути Д Г, Рубашкин В Ш Средства и процедура концептуальной интерпретации входных сообщений на естественном языке // Изв АН СССР Техн кибернетика 1987. №2 С 49-59

44. Лахути ДГ, Рубашкин ВША Linguistic Processor with Advanced Semantic Component//Новости искусственного интеллекта 1993 Спец выпуск С 99-103

45. Лахути ДГ, Рубашкин В Ш Семантический (концептуальный) словарь для информационных технологий Часть 1. Общий подход к построению. // Научно-техн информация Сер 2 Информ процессы и системы 1998 №1 С 19-24

46. Лахути ДГ, Рубашкин В Ш Семантический (концептуальный) словарь для информационных технологий Часть 2 Логическая интерпретация понятий и и их описание в концептуальном словаре // Научно-техн информация Сер 2 Информ процессы и системы 1999 №5 С 1-12

47. Лахути ДГ, Рубашкин В Ш Семантический (концептуальный) словарь для информационных технологий Часть 3 Методы формирования и ведения словаря // Научно-техн информация Сер 2 Информ процессы и системы 2000 № 7 С 1-9

48. Лезин Г В, Мамедниязова НС О представлении семантики концептуальных моделей в базах знаний // Труды Междунар семинара Диалог'2000 по компьютерной лингвистике и ее приложениям Том 2 Протвино, 2000 С 235-242

49. Леонтьева H H Семантика связного текста и единицы информационного анализа // НТИСер 2 1981, № 1, С 21-29

50. Леонтьева H H Об информационной системе словарей Машинного фонда русского языка // Машинный фонд русского языка идеи и суждения / Под ред ЮН Караулова, M Наука, 1986, С 109-125

51. Леонтьева H H Динамика единиц в семантических структурах // Труды Междунар Семинара Диалог'2002 по компьютерной лингвистике и ее приложениям Том 1 Теоретические проблемы, URL http //www dialog-21 ru/archive asp^y=2002 & vol=6077 & parentmenuid=711

52. Леонтьева HH, Семенова СЮ Инструменты построения фрейма ПЕРСОНА //Научно-техническаяинформация Сер2 -2001.-N8 С 9-20

53. Леонтьева H H, Семенова СЮ Об отражении полисемии в прикладном семантическом словаре //Компьютерная лингвистика и интеллектуальные технологии Труды международного семинара Диалог 2002 Протвино, 6-11 июня 2002 года M, Наука, 2002 - Т 2 - С 489-496

54. Леонтьева H H, Семенова С Ю Семантический словарь РУСЛАН как инструмент компьютерного понимания // Понимание в коммуникации Материалы научно-практической конференции 5-6 марта 2003 г — M, Ml 1 ИИ, 2003 С 41-46

55. Лукашевич HB АвиаОнтология анализ современного состояния ресурса // Компью-терная лингвистика и интеллектуальные технологии Труды междунар конференции Диалог'2004 (Верхневолжский, 2-7 июня 2004 г) С 424-430

56. Любарский Ю Я Интеллектуальные информационные системы //М Наука, Главная редакция физ-матем литературы, 1990 -232 с

57. Люгер ДжФ Искусственный интеллект Стратегии и методы решения сложных проблем 4-е издание Пер с англ М Издательский дом "Вильяме", 2003 864 с

58. Мальковский М Г Диалог с системой искусственного интеллекта //М • изд-во МГУ, 1985 214 с

59. Мальковский М Г, Жалыбин П П Инструментальная среда экспертной обработки японских текстов // Компьютерная лингвистика и интеллектуальные технологии. Труды Междунар конф Диало^ООб (Звенигород, 1 -7 июня 2005 г.) С. 373-376

60. Мальковский М Г, Соловьев С Ю Универсальное терминологическое пространство // Труды Междунар Семинара Диалог'2002 по компьютерной лингвистике и ее приложениям Том 1. Теоретические проблемы С. 266-277

61. Мальковский М Г, Соловьев С Ю Методы формирования глоссариев в универсальном терминологическом пространстве // Компьютерная лингвистика и интеллектуальные технологии Труды Междун конференции Диалог'2003 (Протвино, 11-16 июня2003 г) С 577-578

62. Мальковский МГ, Соловьев СЮ // Компьютерная лингвистика и интеллектуальные технологии Труды Междун конф Диалог'2004 (Верхневолжский, 2-7 июня 2004 г). С 577-578

63. Мальковский М Г, Шикин И Ю Нечеткий лингвистический интерфейс //Программирование, 1998 №4 С 50-61

64. Мальцев А И Алгебраические системы М. Наука 1970 - С 392

65. Марчук А Г, Осипов А Е К вопросу об идентификации электронных документов и коллекций //Программирование, 2000, № 3 -С 53 62

66. Мельчук И А Опыт теории лингвистических моделей "Смысл Текст" M ■ Наука -1974-314 С

67. Нариньяни АС Кентавр по имени ТЕОН Тезаурус + Онтология // Труды Междунар Семинара Диалог'гОО! по компьютерной лингвистике и ее приложениям Том 1 Теоретические проблемы, URL http //www dialog-21 ru/archive asp9y=2001 & vol=6077 & parentmenuid=711

68. Нариньяни A С TEOH-2 От тезауруса к онтологии и обратно// Труды Междунар Семинара Диалог'2002 по компьютерной лингвистике и ее приложениям Том 1 Теоретические проблемы, URL http //www dialog-21 ru/archive asp?y=2002 & vol=6077 & parentmenuid=711

69. Невзорова О A, Федунов Б E Система анализа технических текстов "ЛоТА". основные концепции и проектные решения // Изв АН. Теория и системы управления 2001 №3

70. Осипов ГС Построение модели предметных областей Неоднородные семантические сети//Изв АН СССР. Техн Кибернетика 1990 №5 С 32-45

71. Осипов ГС Приобретение знаний интеллектуальными системами // M Наука, Физматлит, 1997

72. Пацкин А Г Опыт построения полной морфемно-ориентированной сети для русского языка // Компьютерная лингвистика и интеллектуальные технологии Труды Междунар конф Диалог'2004 (Верхневолжский, 2-7 июня 2004 г ) С 493498

73. Плесневич Г С Логика моделей "классы бинарные отношения" I // Изв РАН Теория и системы управления 1997 №5 С 17-26

74. Плесневич Г С Логика моделей "классы бинарные отношения" II // Изв РАН Теория и системы управления 1998 №5. С 69-80

75. Плесневич Г С Понятийно-ориентированные языки в инженерии знаний // Новости искусственного интеллекта 2003 № 6 С 3-9

76. Попов Э В, Общение с ЭВМ на естественном языке M Наука, Главная редакция физико-математической литературы, 1982 -360 с

77. Попов Э В Корпоративные системы управления знаниями будущее // Новости искусственного интеллекта 2001 № 1. С 14-25

78. Попов Э В Общение с базами данных на ограниченном естественном языке прошлое, настоящее, будущее//Новости искусств интеллекта 2002 №1 С 21-26

79. Попов ЭВ, Преображенский АБ, Особенности реализации ЕЯ систем // Искусственный интеллект Кн 1 Системы общения и экспертные системы Справочник / Под ред Э В Попова,- M . Радио и связь, 1990 -С. 9-32

80. Поспелов ДА Большие системы Ситуационное управление // М. Знание, 1975,-62 с

81. Поспелов ДА Логико-лингвистические модели в системах управления // M Энергоиздат, 1981 -231 с

82. Поспелов ДА Ситуационное управление теория и практика M Наука, 1986,-288 с

83. Поспелов ДА Многоагентные системы настоящие и будущее// Информационные технологии и вычислительные системы 1998, № 1, с 14- 21

84. Рубашкин В Ш. Представление и анализ смысла в интеллектуальных информационных системах M Наука,1989

85. Смирнов AB, Пашкин МП, Шилов H Г, Леватова ТВ Онтологии в системах искусственного интеллекта способы построения и организации (часть 1) // Новости искусственного интеллекта 2002 №1 (49) С 3-13

86. Смирнов AB, Пашкин МП, Шилов НГ, Леватова ТВ Онтологии в системах искусственного интеллекта способы построения и организации (часть 2) // Новости искусственного интеллекта 2002 №2 (50) С 3-9

87. ПО Смирнов Ю М, Андреев А М,БерезкинД В, Брик А В Об одном способе построения синтаксического анализатора текстов на естественном языке // Известия ВУЗов "Приборостроение" -1997.Т 40 №5 С 34-42

88. Соколова Е Г, Болдасов M В. Автоматическая генерация текстов на ЕЯ (портрет направления) // Компьютерная лингвистика и интеллектуальные технологии Труды Междунар конф Диалог'2004 (Верхневолжский, 2-7 июня 2004 г) С 565-572

89. Соловьева H С, Сомин H В О семантическом представлении связных текстов // В с б И А Мизин (отв ред ), Системы и средства информатики Вып 5 M : Наука, 1993 С 22-29

90. Тарасов В Б, Агенты, многоагентные системы, виртуальные сообщества стратегическое направление в информатике и искусственном интеллекте // Новости искусственного интеллекта 1998 №2 С 5-64

91. Тузов В А Математическая модель языка Л : изд-во ЛГУ, 1984 176 С

92. Тузов В А (2004a) Компьютерная грамматика русского языка // Вестник СпбГУ, Серия "Прикладная математика, информатика, процессы управления". Вып 1-2 2004

93. Тузов В А (20046) Компьютерная семантика русского языка СПб, изд-во С -Петербург гос ун-та, 2004 400 с

94. Фомичев В.А (1978а).Алгебраическое описание структуры языков представления знаний в памяти интегрального робота// Автоматич. регулирование и управление (выпуск одиннадцатый) / Ред. Ю.А. Рязанов.- М.: Всесоюз. заочн. машиностр.ин-т, 1978. -С. 84-88.

95. Фомичев В.А. (19786).Элементы модели смысловой интерпретации управляющих воздействий в системах с текстовым управлением // Приборы и установки для научных исследований. -М.: Всесоюз. заочн. машиностр. ин-т, 1978. С. 48-51.

96. Fomichov V.A. (2005). Standard K-Languages as a Powerful and Flexible Tool for Building Contracts and Representing Contents of Arbitrary E-Negotiations //K. Bauknecht, В. Proeil, H. Werthner (Eds.), The 6th Intern. Conf. on Electronic Commerce and Web

97. Technologies "ЕС-Web 2005", Copenhagen, Denmark, Aug. 23 26, 2005, Proceedings. Lecture Notes in Computer Science. Vol. 3590. Springer Verlag. 2005. P. 138-147.

98. Фомичев В.А. (19866). О синтезе формальных спецификаций задач в диалоговой системе ТЕМП-1, //Матем. обеспечение и программирование для вычислит, и управляющих систем /Под ред. В.Н.Маркова. -М., МИЭМ, 1986. С. 10-13.

99. Фомичев В А. (1988а) Представление информации средствами К-исчислений Учебное пособие // М , Московский институт электронного машиностроения (МИЭМ), 1988

100. Фомичев В А (19886). О средствах построения математической теории естественно-языкового общения // Матем обеспечение вычислительных, информационных и управляющих систем /Под ред В Н Маркова М , МИЭМ, 1988 - С 21-25

101. Фомичев В.А. (198 8 в) К-исчисления, К-языки и проблематика создания фонда естественно-языковых процессоров //Вторая Всесоюз конф по созданию Машинного Фонда русского языка (Материалы конф ) М , Институт русского языка АН СССР, 1988 - С 99-106

102. Фомичев В.А. (1988 г) Перспективы проектирования экспертных систем на основе аппарата К-исчислений и К-языков //Вопросы применения экспертных систем / Под ред. В В.Соломатина и Е.В.Марковой Минск, НПО "Центрсистем", 1988 - С 65-72

103. Фомичев В А. (1988ж) Принципы построения модели "Текст Знания — Смысл" для реализации новой информационной технологии в нескольких предметных областях,-М, 1988 -II с -Деп в ВИНИТИ АН СССР 28 12 88, № 9103-В88

104. Фомичев В А (1990а) О возможностях структурного документирования алгоритмов средствами стандартных К-языков-М, 1990 -24 с-Деп в ВИНИТИ АН СССР 19 0190, № 4I6-B90

105. Фомичев В А (1990в) K-языки и разработка новых информационных технологий // Новые информационные технологии в системотехнике / Под ред Л С Болотовой-М Радио и Связь, 1990 С 53-62

106. Фомичев В А (1990г) K-языки и проектирование переносимых подсистем общения экспертных систем // Экспертные системы на персональных компьютерах Матер, семин / О-во "Знание" РСФСР. Моек дом науч -техн проп -М 1990 -С 3337

107. Фомичев В А (1990е) Эффективный метод текстового управления мобильным интеллектуальным роботом // 5-е Всесоюзное совещание по робототехническим системам Тезисы докладов (Геленджик, октябрь 1990 г.) Ч 1 -М. 1990-С 168

108. Фомичев В А (20026) Математические основы представления смысла текстов для разработки лингвистических информационных технологий Часть I Модель системы первичных единиц концептуального уровня // Информационные технологии 2002 № 10 (октябрь) С 16-25

109. Фомичев В А (2005а) Семантико-синтаксические анализаторы вопросо-ответных Интернет-систем нового поколения как инструмент повышения качества высшего образования // Качество Инновации Образование 2005 № 1 С 67-72

110. Фомичев В А (20056) Стандартные К-языки как универсальный и гибкий инструмент формирования контрактов и протоколов переговоров в области электронной коммерции // Информационные технологии 2005 № 3 С 26-29

111. Фомичев В А (2005в) Понятие текстообразующей системы как компонент нового формального аппарата для проектирования лингвистических процессоров // Информационные технологии -№8 2005 С 22-27

112. Фомичев В А (2005г) Класс формальных языков и алгоритм для построения семантических аннотаций Веб-документов // Вестник МГТУ имени H Э Баумана Сер «Приборостроение» 2005 № 3 (60) С 73-86

113. Фомичев В А (2005д) Новый метод преобразования естественно-языковых текстов в семантические представления // Информационные технологии 2005 № 10 С 25-35

114. Фомичев В А (2005е) Новый класс языков для представления содержания посланий компьютерных интеллектуальных агентов // Качество и ИЛИ (CALS)-технологии № 1 2005 С 34-39

115. Фомичев В А (2005ж) Формализация структуры основных словарей лингвистической базы данных // Качество и ИЛИ (САЬЗ)-технологии № 3. 2005 С 30-38.

116. Фомичев В А (2005з) Формализация проектирования лингвистических процессоров M : МАКС Пресс, 2005 368 с

117. Харин НП Некоторые особенности семантического поиска текстовой информации // Новости искусственного интеллекта 2002 №2 С. 22-25

118. Хорошевский В Ф. Обработка естественно-языковых текстов от моделей понимания языка к технологиям извлечения знаний // Новости искусственного интеллекта 2002 №6 С 19-26

119. Цинман JIJI Язык для записи лингвистической информации в системе автоматического перевода ЭТАП (опыт "практической логики") // Семиотика и информатика 1986 - № 27 - С 82-120

120. Чуйков А В , Фомичев В А (2001) Реализация ускоренного лингвистического анализа текстов при поиске производителей продукции через Интернет // Новые информационные технологии Материалы Четвертого научно-практического семинара M, МИЭМ, 2001 - С 185-186

121. Aczel, Р, Israel, D, Katagiri, Y, & Peters, S Situation Theory and Its Applications//CSLI Lecture Notes Stanford CSLI Publications 1993 - Vol 3,No 37.

122. Ahrenberg, L On the integration and scope of segment-based models of discourse //In papers from the Third Nordic Conf on Text Comprehension in Man and Machine, Linkoeping Univ 1992 -P 1-16

123. Alshawi, H & van Eijck, J Logical Forms in the Core Language Engine // In Proc 27th Ann Meeting of the ACL, Vancouver, Canada 1989 - P 25-32

124. Alshawi, H Resolving quasi logical forms//Computational Linguistics 1990. -V 16,No3 -P. 133-144

125. Alshawi, H The Core Language Engine // MIT Press, Cambridge, MA 1992

126. Barwise J, Cooper, R Generalized Quantifiers and Natural Language // Linguistics & Philosophy -1981.-Vol 4, No 2 -P 159-219.

127. Barwise, J & Cooper, R Extended Kamp notation a graphical notation for Situation Theory // In Aczel, Israel, Katagiri, fc Peters (1993) 1993 - P 29-53

128. Barwise J & Perry J Situations and Attitudes//Cambridge MA The MIT Press -1983

129. Brachman, RJ & Schmolze, JG An overview of the KL-ONE knowledge representation system // Cognitive Science 1985 - Vol 9, No 2, - P 171-216

130. Carpenter, B The Logic of Typed Feature Structures // Cambridge Tracts in Theoretical Computer Science, Cambridge University Press 1992 V 32

131. Carpenter B, Penn G Attribute Logic Engine (ALE), Version 3 2 URL http //www cs toronto edu/~gpenn/ale html

132. Cresswell, MJ Structured Meanings the Semantics of Prepositional Attitudes Cambridge MA MIT Press 1985

133. Chierchia, G Structured Meanings, Thematic Roles and Control // In G Chierchia B H Partee & R Turner (Eds) Properties, types and meaning, 2 Semantic issues Dordrecht etc Kluwer 1989 -P.131-166

134. Clifford, J QE-III : a Formal Approach to Natural Language Querying In Proceedings of the National Conference on Artificial Intelligence (AAAI-83) Los Altos, California AAAI, William Kaufman, Inc 1983. - P 79-83

135. Clifford, J Natural Language Querying of Historical Data Bases // Computational Linguistics 1988 -V 14, No4 -P 10-34

136. Cooper, R Three Lectures on Situation Theoretic Grammar // In M Filgueiras et al (Eds), Natural Language Processing Berlin etc Springer-Verlag -1991 -P 102-140182 (CYC 2001) The Upper Cyc Ontology, 2001, URL http//www eye com/cyc-2-1/toc html

137. DAML Ontology Library. The DARPA's Technology Integration Center (TIC), Arlington, VA, 2001 (URL http //wwwdaml org/ontologies)

138. DAML plus OIL 2001 Reference description of the DAML + OIL (March 2001) ontology markup language (URL http //www daml org/2001/03/daml+oil)

139. Eijck, DJN van and H Kamp Representing Discourse in Context Amsterdam, The University of Amsterdam, 1996

140. English Query, URL http //www/microsoft com/sql/evaluation/features/english asp, posted in October 2000

141. Fensel D et al OIL in a Nutshell // Knowledge Acquisition, Modeling, and Management, Proceedings of the European Knowledge Acquisition Conference (EKAW-2000) / Eds R.Dieng et al. Lecture Notes in Artificial Intelligence (LNAI), SpringerVerlag, 2000

142. Fenstad, JE, Halvorsen, P. K, Langholm, T ,Van Benthem, J Situations, Language and Logic//Dordrecht D Reidel 1987.

143. Finin, T, Labrou, Y, & Mayfield, J (1997) KQML as an agent communication language In J Bradshow (Ed ), Software Agents, MIT Press, Cambridge, 1997

144. FIPA (1998a) FIPA'98 Specification Part 2 Agent Communication Language Geneva, The Foundation for Intelligent Physical Agents 1998, URL http //www fipa org/spec/FIPA98 html

145. FIPA (1998b) FIPA'98 Specification Part 12 Ontology Service Geneva, The Foundation for Intelligent Physical Agents 1998, URL httpV/www fipa org/spec/FlPA98 html

146. Fomichov, V (1992) Mathematical models of natural-language-processing systems as cybernetic models of a new kind Cybernetica (Belgium), XXXV (1), 63-91

147. Fomichov, VA (1993a) Towards a mathematical theory of natural-language communication // Informática An Intern J. of Computing and Informatics (Slovenia), 17(1), 21-34

148. Fomichov, V A (1993b) K-calculuses and K-Ianguages as powerful formal means to design intelligent systems processing medical texts // Cybernetica (Belgium), XXXVI (2), 161-182

149. Fomichov, V A (1994). Integral Formal Semantics and the design of legal full-text databases//Cybernetica (Belgium), XXXVII (2), 145-177

150. Fomichov, V A (1996a). A mathematical model for describing structured items of conceptual level // Informática (Slovenia), Vol 20, No 1, 5-32

151. Fomichov, VA (1997a) K-calculuses and the problem of conceptual information retrieval in textual data bases Knowledge Transfer (Volume II) Edited by A Behrooz

152. Proc of the International Conference "Knowledge Transfer 1997 (KT97)", Symposium "Information Technology", University of London, 14-16 July 1997), London, University of London, 52-58

153. Fomichov, V A (1998b) A comprehensive mathematical framework for designing agent communication languages Proceedings of the International Conference "Information Society (IS'98)", Ljubljana, Slovenia, 6-7 October 1998, 81-84.

154. Gaerdenfors, P (Ed) Generalised Quantifiers // Linguistic and Logical Approaches Dordrecht D Reidel 1987

155. Gazdar, G, Klein, E, Pullum, G, Sag, I Generalized Phrase Structure Grammar // Oxford Blackwell 1985

156. Gazdar, G, Mellish.C S Natural Language Processing in PROLOG, an Introduction to Computational Linguistics Addison-Wesley -1989

157. Genesereth, MR, Fikes, RE, et al (1992) Knowledge Interchange Format Version 3 Reference Manual Technical Report Logic-92-1, Computer Science Department, Stanford University

158. Genesereth, M R (1999) Knowledge Interchange Format Geneva, FIPA, 1999, on-line at http //www fipa org

159. Grishman, R Computational Linguistics an Introduction // Cambridge Cambridge University Press 1986

160. Groenendijuk J, Stokhof, M Two Theories of Dynamic Semantics // In J van Eijck (Ed), Logics in Artificial Intelligence Berlin etc Springer-Verlag 1991 - P 5564

161. Groenendijuk, J & Stokhof, M Dynamic Montague Grammar In L Kalman and L Polos (Eds), Papers from the Second Symposim on Logic and Language Budapest Akademiai Kiado 1990 -P 3-48

162. Groenendijuk, J & Stokhof, M Dynamic Predicate Logic // Linguistics and Philosophy 1991 - Vol 14, No 1 -P 39-101

163. Gruber TR A translation approach to portable ontology specifications // Knowledge Acquisition Journal 1993 V 5. P. 199-220

164. Guarino N Formal ontology and information systems // Proceedings of FOIS'98 Trento, Italy. Amsterdam IOS Press, 1998 P 3-15

165. Guilfoyle, C, Jeffcoate, J , & Stark, H (1997) Agents on the Web Catalyst for ECommerce London Ovum Ltd, April 1997

166. Heim, I E-Type Pronouns and Donkey Anaphora Linguistics & Philosophy. -1990 Vol 13, No 2 -P 137-177

167. Herzog, O. & Rollinger, C-R (Eds >(1991) Text Understanding in LILOG Integrating Computational Linguistics and Artificial Intelligence Final Report on the IBM Germany LILOG-Project Berlin etc Springer-Verlag

168. Hirst, G Semantic Interpretation and Ambiguity // Artificial Intelligence 1988 -Vol 34 -P.131-177

169. Horrocks I A denotational semantics for Standart OIL and Instance OIL Department of Computer Science, University of Manchester, UK, 2000, http //www ontoknowledge org/oil/downl/semantics pdf

170. Horrocks I, van Harmelen F, Patel-Schneider P DAML + OIL Release (March 2001), URL http //www.daml org/2001/03/daml+oil+index

171. Hwang, СНА Logical Approach to Narrative Understanding Ph D Dissertation, U of Alberta, Edmonton, Canada -1992

172. Johnson, M Attribute-Value Logic and the Theory of Grammar Stanford, CSLI, 1988

173. Johnsonbaugh R Discrete Mathematics Fifth edition Upper Saddle River, New Jersey. Prentic Hall, 2001 621 p

174. Jowsey, E Montague Grammar and First Order Logic // Edinburgh Working Papers in Cognitive Science 1987 - Vol l,Univ of Edinburgh

175. Kamp, H A theory of truth and semantic representation // In Groenen-dijk J, Janssen T & Stokhof M (Eds), Formal Methods in the Study of Natural Language Part 1 Amsterdam Mathematical Centre 1981. - P 227-322

176. Kamp H & Reyle, U (1993) Introduction to Modeltheoretic Semantics of Natural Language, Formal Logic and Discourse Representation Theory Dordrecht' Kluwer Academic Publishers

177. Kamp, H and Reyle, U (1996) A Calculus for First Order Discourse Representation Structures // Journal for Logic, Language and Information (JOLLI), 1996

178. Labrou, Y. (1996) Semantics for an Agent Communication Language PhD thesis, University of Maryland, Baltimore County, August 1996

179. Labrou, Y., & Finin, T. (1997). Semantics and conversation for an agent comunication language. Proc. of the 15th International Joint Conference on Artificial Intelligence (IJCAI-97), Nagoya, Japan, August 1997.

180. Labrou, Y., & Finin, T. (1998). Semantics for an Agent Communication Language. In Agent Theories, Architectures, and Languages. Ed. by M.P.Singh, A.S.Rao, and MJ.Wooldridge. Lect. Notes in AI, Vol. 1365, Springer-Verlag, 209-214.

181. Lenat D.B. CYC: A large-scale investment in knowledge infrastructure // Communications of the ACM. 1995. Vol. 38. No. 11 (http://www.cyc.com).254. (Loom 2001) Loom Project Home Page, 2001. http://www.isi.edu/isd/LOOM/LOOM-HOME.html.

182. Meyer, R. Probleme von Zwei-Ebenen-Semantiken // Kognitionswissenschaft, -1994.-Vol.4, No.l.-P. 32-46.

183. Montague, R. Universal Grammar. Theoria. -1970. Vol.36. - P. 373-398.

184. Montague, R. English as a Formal Language. In : R.H. Thomason (Ed.), Formal Philosophy. Selected papers of Richard Montague. New Haven and London : Yale University Press. -1974. P. 188-221.

185. Montague, R. The Proper Treatment of Quantification in Ordinary English. Ibid. -P. 247-270.

186. Narin'yani, A.S. Towards an Integral Model of Language Competence // In : Computational Models of Natural Language Processing. Amsterdam : North-Holland. -1984.-P.275-295.

187. Partee B. H., ter Meulen, A., & Wall, R. Mathematical Methods in Linguistics // Dordrecht etc.: Kluwer. 1990.

188. Partee, B.H. (Ed.) Montague Grammar. New York etc.: Academia Press. 1976.

189. Peregrin, J. On a Logical Formalization of Natural Language // Kybemetika. -1990. Vol.26, No. 4. - P. 327-341.

190. Peres, J Basic Aspects of the Theory of Generalized Quantifiers // In M Filgueiras et al (Eds ), Natural Language Processing Berlin etc Springer-Verlag 1991 -P 141-157

191. Pietät, U & Von Luck, К Knowledge representation in L1LOG // In К H Blasius, U Hedtstuck & С -R Rollinger (Eds ), Sorts and Types in Artificial Intelligence Berlin etc Springer-Verlag 1990 -P 140-164

192. Pietät, U The knowledge representation language Lulog- In Herzog and Rollinger (1991) -P 357-379

193. Sadek, MD (1991) Attitudes mentales et interaction rationelle vers une theorie formelle de la communication These de Doctorat Informatique, Université de Rennes 1, France

194. Schank, R С Conceptual Dependency, a theory of natural language understanding //CognitivePsychology. 1972 V 3 N 4 P. 552-631.

195. Schank, RC, Goldman, NM, Rieger, С J, &• Riesbeck, CK Conceptual Information Processing // Amsterdam, Oxford North-Holland Publ Company, New York American Elsevier Publ Comp, Inc 1975 Книга переведена на русский язык

196. Шенк Р, Голдман Н М, Ригер Ч Дж, Ризбек К К Обработка концептуальной информации Пер с англ Подред ВМ Брябрина М Энергия, 1980-361 С

197. Shapiro S С Formalizing English // International Journal of Expert Systems 1996 V 9 N 1 P 151-171

198. Schubert, L К & Hwang, С H An episodic knowledge representation for narrative texts // Proceedings of the First Int Conf on Principles of Knowledge Representation and Reasoning (KR'89), Toronto, Canada 1989 -P 444-458

199. Schubert LK Dynamic Skolemization, in H Bunt and R Muskens (eds), Computing Meaning, vol 1, Studies in Linguistics & Philosophy Series, Kluwer Academic Press, Dortrecht (also Boston, London), 1999,219-253

200. Schubert L К The situations we talk about In J Minker (ed), Logic-Based Artificial Intelligence, Kluwer, Dortrecht, 2000,407-439

201. Semantic Web (2001) Semantic Web Activity Statement W3C, URL http //www w3 org/2001/sw/activity

202. Sembock, TMT, Van Rijsbergen, С J SILOL A Simple Logical-linguistic Document Retrieval System // Information Processing & Management 1990 - Vol 26, No l.-P 111-134

203. Simmons RF Semantic networks thir computation and use for understanding English sentences // Computer Models of Thought and Language, R Schank and К Colby (eds) San Francisco Freeman, 1973 P. 63-113

204. Snyder, W. (2001) English Query Relationships // SQL Server Magazine, March 2001, URL http //www winnetmag com/SQL Server/Article/ArticlelD/16508/16508 html

205. Sowa, J F Conceptual Structures Information Processing in Mind and Machine // Addison-Wesley Publ Comp Reading, MA -1984

206. Sowa, J F Toward the expressive power of natural language // In Sowa, J F (Ed), Principles of Semantic Networks Explorations in the Representation of Knowledge Morgan Kaufman Publ, Inc 1991 P 157-189

207. Sowa, J F Conceptual graphs draft proposed American National Standard // W. Tepfenhart & W Cyre, eds, Conceptual Structures Standards and Practices, Lecture Notes in AI #1640, Springer-Verlag, Berlin 1999 P 1-65

208. Thomason, R.H. A Model Theory for Prepositional Attitudes. Linguistics & Philosophy. 1980. - Vol. 4, No.l. - P. 47-70.

209. Thome, R., & Schinzer, H. (1998). Market survey of electronic commerce. Informática (Slovenia), Vol. 22, No. 1. P.l 1-19.

210. Uchida H., Zhu M., Delia Senta T. The UNL, A Gift for a Millennium. A book published by The United Nations University /Institute of Advanced studies (UNU/IAS), 1999.

211. Voice (2001). "Voice Browser" Activity Voice enabling the Web! W3C paper, 2001, URL http://www.w3.org/Voice/.

212. Wilks, Y. An artificial intelligence approach to machine translation // In Computer Models of Thought and Language, R. Schank and K. Colby (Eds.), San Francisco:Freeman. 1973. - P. 114-151.

213. Winograd, T. Understanding Natural Language // New York: Academic Press;Edinburgh: Edinburgh Univ. Press. 1973.

214. Woods, W. & Kaplan, R. The lunar sciences natural language information system // BBN Report, No. 2265, Bolt, Beranek and Newman, Cambridge, Mass. 1971.

215. Wooldridge, M. (1998). Verifiable semantics for agent communication languages. Proc. of the International Conference on Multi-Agent Systems (ICMAS-98), Paris, France, July 2-7,1998, IEEE Press.

216. Xu L., Jeusfeld M.A. A concept for monitoring of electronic contracts. Tilburg University, The Netherlands, 2003 (URL http://infolab.uvt.nl/pub/itrs010.pdf). 19 p.

217. Zhu M., Uchida H. Universal Word and UNL Knowledge Base//Proceedings of the International Conference on Universal Knowledge Language (ICUKL-2002), 25-29 Novenmber 2002, Goa of India;http://www.unl.ias.edu/publications/UW%20and%20UNLKB.htm.